例示的な実施形態についての詳細な説明が、様々な図を参照して、今から説明される。この説明は、可能な実施についての詳細な例を提供するが、細部は、例示的なものであることが意図されており、決して本出願の範囲を限定するものではないことに留意されたい。
ビデオ配信システムは、ビデオは理想的な再生環境(例えば、減光された部屋、ハイコントラストディスプレイ、広い視野角など)で観視されるという仮定の下で符号化されたビデオを送信することがある。これは、画面上に表示され得る視覚的情報(例えば、ビデオ、ゲームなど)を符号化し、搬送するために、大量の帯域幅を必要とし得る。本明細書で説明される実施は、再生環境が理想的な再生環境から逸脱することがある状況で(例えば、モバイル状況で)利用され得る。例えば、本明細書で説明される実施は、例えば、観視者が視覚的コンテンツを見るときに存在する観視条件を考慮することによって、あまり理想的ではない再生環境でコンテンツを配信し、表示する際により効率的になり得る、適応システムを提供することができる。
人間の視覚のいくつかの現象/特性が、本明細書で説明される実施によって利用され得る。視力は、視覚処理系の空間分解能の尺度とすることができる。それは、図1A〜図1Cに示される、スネレン、ランドルトC、および/または「非識字者用E」表などの、しかし、それらに限定されない、検眼表を使用することによって測定され得る。例えば、「20/20視力」という用語は、成人の通常の視力を表すために使用され得る。それは、20フィート(約6メートル)離れて見た場合に、最小の空間的細部(例えば、一画、間隙)が1分の弧(例えば、1/60度の視角)を構成するようにデザインされた文字を含む行を読む能力を意味することができる。そのような一例が、図1Bに示されている。「20/20視力」は、1分の弧(例えば、1/60度の視角)に相当する小ささの細部を解像する能力を意味することができる。
空間周波数限界が利用され得る。視力と人間の視覚系の空間周波数限界との間には関係があり得る。これは、例えば、図1Cに例示されるような、スネレンのEの格子への変換を示すことによって説明され得る。20/20(6/6)行の文字Eの場合、1サイクル内に2分の弧が存在し得ることが観測され得る。1度は60分とすることができるので、1度は30サイクルを含むことができる。20/20(6/6)文字では、1度あたり30サイクル(cpd:cycles per degree)が存在し得る。例えば、「20/20視力」という用語は、30サイクル/度に相当する高さの空間周波数を解像する能力に対応し得る。
コントラスト感度関数(CSF)が利用され得る。視力は、ハイコントラスト文字(例えば、白い背景上の黒いシンボル)を使用して測定され得る。「コントラスト感度関数」(CSF)は、異なるコントラストの像を考察することによって獲得される、HVS限界のより完全な特徴付けとなり得る。CSFは、例えば、図2に示される、キャンベル−ロブソンチャートと重ね合わされたときに、最も良く理解され得る。図2を参照すると、ピクセルの輝度は、水平次元に沿って正弦的に変調され得る。変調の周波数(例えば、空間周波数)は、(例えば、周波数の左から右への実質的に指数的な増加とともに)対数的に増加し得る。コントラストは、100%から約0.5%まで(例えば、下部から上部に)対数的に変化し得る。
図2に示されるように、CSFは、コントラスト/空間周波数空間における可視領域の境界を例示することができる。CSFの最も左の点は、視力限界(例えば、ハイコントラストにおけるカットオフ周波数)と一致し得る。CSFは、高い周波数では、視力限界に達するまで単調に減少し得る。CSFは、低い周波数では、減少し得る。これは、異なる神経生物学的現象によって引き起こされ得る。CSFのピークは、6サイクル/度付近とすることができる。網膜照度のレベルに基づいて、CSFの形状が変化し得ることに留意することができる。低光量条件の下では、感度は、大幅に減少され得る。
色覚の制限が利用され得る。人間の網膜は、広いスペクトルに応答する要素(例えば、桿体細胞)とは対照的に、はるかに少数の色感知要素(例えば、錐体細胞)を含み得る。これは、色覚のはるかに低い空間分解能として現れ得る。図3は、グレースケール、赤−緑、および青−黄チャネルに対して生成されたCSF曲線を比較した一例を示している。図3に例示されるように、青−黄および赤−緑チャネルは、より早い減少を有し、約10〜15サイクル/度においてカットオフに達し得る。これは、輝度に関する視力限界よりも低いものであり得る。色関連のCSFは、全体的な網膜照度によって、輝度に関するCSFよりも大きな影響を受け得る。低光量条件の下では、我々は色が見えないことがある。この現象は、暗所視と呼ばれることがある。
色覚の角度限界が利用され得る。人間は、視野内の狭い角度内で色を見ることができる。これは、人間の網膜上での桿体細胞と錐体細胞の非対称分布に関連し得る。
中心視覚と周辺視覚の比較、および相対視力が利用され得る。中心窩では錐体細胞および神経節細胞の集中度が高いので、この領域では、視力能力がより高くなり得る。標準的な視力検査は、中心窩領域に関する視力を評価することができる。中心窩の外側では、視力は急激に低下し得る。中心窩からの角度の関数としての相対視力の例示的なプロットが、図4に示されている。
図5は、固視点からの角度につれての視力の変化を示す例示的な検査を示している。この検査は、中央に焦点を合わせた場合、すべての文字が等しく鮮明に見えることを示し得る。この検査は、最小の文字と最大の文字との間の空間角が約2度になり得る、快適な観視距離で行われ得る。最小の文字と最大の文字との間の線形サイズ差は、約1:8であり得る。
この現象が暗示することは、ピクチャの小さな部分がいつも常にフル解像度で観察され得ることであり得る。この現象を使用する潜在的な節約の限界を推定するために、水平および垂直ピクセル密度が同じであり、したがって、節約は面積によって近似され得ると仮定することができる。画面の対角線サイズをD、アスペクト比をrとすると、画面サイズは、
とすることができる。
「高解像度」領域は、角度β(例えば、約2°)によって定義される外側正方形を含むことができ、観視距離dに依存し得、
A’=4d2(tanβ)2
によって与えることができる。
低解像度(例えば、焦点領域の外)は、焦点領域よりも低い解像度を用いて、例えば、係数Rによって、符号化され得ると仮定することができる。(例えば、この技法を用いるものから、用いないものまで)ピクセルカウント比は、
とすることができる。
D=9.7インチ、r=9/16、R=8、d=25、およびβ=2°とすると、比は、約15%になり得、これは、85%の節約になり得る。(例えば、空間および/または時間における)タイル間の変化を滑らかにすると、より僅かな節約にしかなり得ないが、より良いユーザエクスペリエンスをもたらすことができる。
動的適応HTTPストリーミング(DASH:Dynamic Adaptive HTTP Streaming)が、本明細書で説明され、利用され得る。DASHは、HTTPストリーミングのためのいくつかの手法を統合することができる。例えば、MPEG DASHは、3GPPリリース10で説明される「3GP−DASH」の拡張とすることができる。DASHは、無線ネットワークおよび有線ネットワークにおいて可変帯域幅に対処するために使用され得る。DASHは、コンテンツプロバイダおよびデバイスによってサポートされ得る。DASHは、任意のアクセスネットワーク上での任意のデバイスに対するマルチメディアストリーミングサービスを可能にすることができる。
DASHは、適切なフォーマットで準備され得るライブおよび/またはオンデマンドコンテンツを配信し得る、1組のHTTPサーバとして配備され得る。クライアントは、HTTPサーバから直接的に、および/または例えば、図6に示されるような、コンテンツ配信ネットワーク(CDN)から、コンテンツを入手することができる。図6は、例示的なDASHの高水準システムアーキテクチャの図を示している。CDNは、コンテンツをキャッシュし得、クライアントに近く、ネットワークの縁に配置され得るので、多数のクライアントが予想される配備のために使用され得る。
DASHでは、ストリーミングセッションは、HTTPを使用してセグメントを要求し、コンテンツプロバイダおよび/またはCDNから受信されたときに、それらを一緒に接合することによって、クライアントによって制御され得る。インテリジェンスをネットワークからクライアントに効果的に移転することで、クライアントは、メディアレートをモニタし(例えば、継続的にモニタし)、ネットワーク状態(例えば、パケット誤り率、遅延ジッタ)、ならびに自らの状態(例えば、バッファ満杯、ユーザ挙動およびプリファレンス)に基づいて、メディアレートを調整することができる。
DASH規格の設計は、例えば、図7に示されるような、参考的なクライアントモデルに基づくことができる。図7は、例示的なDASHクライアントモデルの図を示している。図7は、概念的なDASHクライアントモデルの論理構成要素の一例を示している。DASHアクセスエンジンは、メディアプレゼンテーション記述ファイル(MPD)を受け取り、要求を構成し、発行すること、および/またはセグメントもしくはセグメントの部分を受け取ることができる。DASHアクセスエンジンの出力は、MPEGコンテナフォーマット(例えば、MP4ファイルフォーマットまたはMPEG−2トランスポートストリーム)のメディアと、メディアの内部タイミングを提示のタイムラインにマッピングするタイミング情報とから成ることができる。メディアの符号化されたチャンクとタイミング情報との組み合わせは、コンテンツの正しい表示のために十分であり得る。
DASHが符号化されたメディアセグメントに課すほとんどの制約は、復号、後処理、および/または再生が、それらのセグメントが何であるか、および/またはそれらがどのように配信されたかについて何も知らないメディアエンジンによって行われ得るという前提に基づき得る。メディアエンジンは、DASHアクセスエンジンによってチャンクとして供給された、連続的なメディアファイルを復号し、再生し得るにすぎない。例えば、アクセスエンジンは、javaスクリプトとすることができ、一方、メディアエンジンは、ブラウザ、ブラウザプラグイン(例えば、Flash(登録商標)もしくはSilverlight(登録商標))、および/またはオペレーティングシステムによって提供される何かとすることができる。
図8は、例示的なDASHメディア提示の高水準データモデルの図を示している。DASHでは、マルチメディア提示の組織化は、階層データモデルに基づくことができる。メディアプレゼンテーション記述(MPD)は、DASHメディア提示(例えば、マルチメディアコンテンツ)を構成する期間(period)のシーケンスを記述し得る。期間は、メディアコンテンツの一貫性のある1組の符号化バージョンが利用可能であり得る、メディアコンテンツ期間を表し得る。期間中、利用可能なビットレート、言語、および/またはキャプションの組は、変化することができる。
適応セット(adaptation set)は、1または複数のメディアコンテンツ構成要素の1組の交換可能な符号化バージョンを表現し得る。例えば、ビデオのための適応セット、1次オーディオのための適応セット、2次オーディオのための適応セット、および/またはキャプションのための適応セットが存在し得る。適応セットは、多重化することもでき、その場合、多重化の交換可能なバージョンが、単一の適応セットとして記述され得る。例えば、適応セットは、期間のためのビデオおよびメインオーディオを含むことができる。
表現(representation)は、1または複数のメディアコンテンツ構成要素の配信可能な符号化バージョンを記述し得る。表現は、1または複数のメディアストリーム(例えば、多重化内の各メディアコンテンツ構成要素のためのもの)を含み得る。適応セット内のいずれか1つの表現だけで、含まれるメディアコンテンツ構成要素を表示するのに十分であり得る。例えば、クライアントは、例えば、ネットワーク状態および/または他の要因に適応するために、適応セット内で表現から表現に切り換えることができる。クライアントは、それがサポートしないコーデック/プロファイル/パラメータを使用する表現を無視することができる。
セグメントは、時間的に固定長または可変長のセグメントに分割され得る表現内のコンテンツとすることができる。URLが、各セグメントに提供され得る。セグメントは、単一のHTTP要求を用いて取り出され得るデータの最大単位とすることができる。メディアプレゼンテーション記述(MPD)は、DASHクライアントがHTTP−URLを構成して、セグメントにアクセスし、ストリーミングサービスをユーザに提供するためのメタデータを含む、XML文書とすることができる。
MPD内のベースURLは、メディア提示内のセグメントおよび他のリソースを求めるHTTP GET要求を生成するために、クライアントによって使用され得る。HTTP部分GET要求は、バイト範囲を使用することによって(例えば、「Range」HTTPヘッダを介して)、セグメントの限られた部分にアクセスするために使用され得る。ベースURLは、ロケーションが利用可能でない場合に、提示へのアクセスを可能にするために指定され、マルチメディアストリームの配信に冗長性を提供し、ならびに/またはクライアントサイドのロードバランシングおよび並列ダウンロードを可能にする。
MPDは、「静的」または「動的」とすることができる。静的MPDタイプは、メディア提示中、変化し得ず、オンデマンド提示のために使用され得る。動的MPDタイプは、メディア提示中、更新され得、ライブ提示のために使用され得る。MPDは、各表現のためのセグメントのリストを拡張するため、新しい期間を導入するため、および/またはメディア提示を終了するために更新され得る。
DASHでは、異なるメディアコンテンツ構成要素(例えば、ビデオ、オーディオなど)の符号化バージョンが、共通のタイムラインを共有し得る。メディアコンテンツ内のアクセスユニットの提示時間は、メディア提示タイムラインと呼ばれることがある、大域的な共通の提示タイムラインにマッピングされ得る。これは、異なるメディア構成要素の同期を可能にすることができ、および/または同じメディア構成要素の異なる符号化バージョン(例えば、表現)のシームレスな切り換えを可能にすることができる。
セグメントは、実際の区分けされたメディアストリームを含むことができる。それらは、切り換え、および/または他の表現との同期提示のために、メディアストリームをメディア提示タイムラインにどのようにマッピングするかについての追加の情報を含むことができる。
セグメント利用可能性タイムラインは、指定されたHTTP URLにおけるセグメントの利用可能性時間(availability time)をクライアントに伝えるために使用され得る。例えば、これらの時間は、実時間(wall-clock time)で提供され得る。指定されたHTTP URLにおけるセグメントにアクセスする前に、クライアントは、実時間をセグメント利用可能性時間と比較することができる。
オンデマンドコンテンツの場合、いくつかまたはすべてのセグメントの利用可能性時間は、同一とすることができる。いずれかのセグメントがひとたび利用可能になると、メディア提示のいくつかまたはすべてのセグメントがサーバ上で利用可能になり得る。MPDは、静的な文書とすることができる。
ライブコンテンツの場合、セグメントの利用可能性時間は、メディア提示タイムライン内におけるセグメントの位置に依存し得る。セグメントは、時間とともにコンテンツが生成されるにつれて、利用可能になり得る。MPDは、提示内における時間につれての変化を反映するために、定期的に更新され得る。例えば、新しいセグメントのためのセグメントURLが、MPDに追加され得、もはや利用可能ではない旧いセグメントが、MPDから削除され得る。例えば、セグメントURLがテンプレートを使用して記述される場合、MPDの更新は、必要ではないことがある。
セグメントの持続時間は、通常のスピードで提示されるときにセグメント内に含まれるメディアの持続時間に相当し得る。表現内のいくつかまたはすべてのセグメントは、同じまたはほぼ同様の持続時間を有することができる。セグメント持続時間は、表現ごとに異なり得る。DASH提示は、相対的に短いセグメント(例えば、数秒)、または表現全体のための単一のセグメントを含む、より長いセグメントを用いて構成され得る。
短いセグメントは、(例えば、エンドツーエンド待ち時間を短くすることによって)ライブコンテンツに適することができ、セグメントレベルにおける高い切り換え粒度を可能にすることができる。短いセグメントは、提示内のファイルの数を増加させ得る。長いセグメントは、提示内のファイルの数を減少させることによって、キャッシュ性能を高めることができる。それらは、クライアントが、(例えば、バイト範囲要求を使用することによって)要求サイズを柔軟にすることを可能にすることができる。長いセグメントは、セグメントインデックスの使用を必要とし得、ライブイベントには適し得ない。セグメントは、時間につれて拡張されることがあり、または拡張されることがない。セグメントは、全体として利用可能にされ得る、完全な個別のユニットとすることができる。
セグメントは、サブセグメントにさらに細分化され得る。サブセグメントは、数々の完全なアクセスユニットを含むことができる。「アクセスユニット」は、メディア提示時間が割り当てられた、メディアストリームのユニットとすることができる。セグメントがサブセグメントに分割される場合、サブセグメントは、セグメントインデックスによって記述され得る。セグメントインデックスは、提示内における提示時間範囲、および各サブセグメントによって占められるセグメント内の対応するバイト範囲を提供することができる。クライアントは、このインデックスを事前にダウンロードし、その後、HTTP部分GET要求を使用して、個々のサブセグメントを求める要求を発行することができる。セグメントインデックスは、メディアセグメント内に、例えば、ファイルの先頭に含まれ得る。セグメントインデックス情報は、別個のインデックスセグメントでも提供され得る。
DASHは、初期化セグメント、メディアセグメント、インデックスセグメント、およびビットストリーム切り換えセグメントを定義することができる。初期化セグメントは、表現にアクセスするための初期化情報を含むことができる。初期化セグメントは、提示時間が割り当てられたメディアデータを含むことができ、または含むことができない。初期化セグメントは、メディアエンジンを初期化して、含まれる表現のメディアセグメントの再生(play-out)を可能にするために、クライアントによって処理され得る。
メディアセグメントは、メディアセグメント内で記述される、および/もしくは表現の初期化セグメントによって記述されるメディアストリームを含むこと、ならびに/またはカプセル化することができる。メディアセグメントは、数々の完全なアクセスユニットを含むことができる。メディアセグメントは、含まれる各メディアストリームに対して、少なくとも1つのストリームアクセスポイント(SAP)を含むことができる。
インデックスセグメントは、メディアセグメントに関連し得る情報を含むことができる。インデックスセグメントは、メディアセグメントのためのインデックス情報を含むことができる。インデックスセグメントは、1または複数のメディアセグメントについての情報を提供することができる。インデックスセグメントは、メディアフォーマット固有とすることができる。インデックスセグメントをサポートする各メディアフォーマットについて、詳細が定義され得る。
ビットストリーム切り換えセグメントは、それが割り当てられ得る表現に切り換えるために利用され得るデータを含むことができる。それは、メディアフォーマット固有とすることができ、ビットストリーム切り換えセグメントを許可する各メディアフォーマットについて、詳細が定義され得る。各表現に対して、1つのビットストリーム切り換えセグメントが定義され得る。
クライアントは、メディア内の任意のポイントで、適応セット内において表現から表現に切り換えることができる。任意の位置における切り換えは、例えば、表現内の符号化依存性、および他の要因のために、複雑になり得る。「オーバラップする」データ(例えば、複数の表現から同じ期間のメディア)をダウンロードすることは、回避され得る。切り換えは、新しいストリーム内のランダムアクセスポイントにおいて最も簡単になり得る。
DASHは、ストリームアクセスポイント(SAP)のコーデック独立の概念を定義し、SAPの様々なタイプを識別することができる。ストリームアクセスポイントタイプは、適応セットのプロパティの1つとして伝達され得る(例えば、適応セット内のいくつかまたはすべてのセグメントが同じSAPタイプを有することが仮定され得る)。
SAPは、メディアストリーム(複数可)のファイルコンテナへのランダムアクセスを可能にし得る。SAPは、コンテナ内の位置とすることができ、コンテナ内に含まれるその位置以降の情報、ならびに/またはコンテナの他の部分(複数可)からの、および/もしくは外部的に入手可能な可能な初期化データを使用して、識別されたメディアストリームの再生が開始されることを可能にする、
ファイルコンテナプロパティは、TSAPを含むことができる。TSAPは、メディアストリームのアクセスユニットの最も早い提示時間とすることができ、例えば、TSAPより大きいまたは等しい提示時間を有するメディアストリームのいくつかまたはすべてのアクセスユニットは、ISAPで開始するビットストリーム内のデータを使用して正しく復号され得、ISAPの前にはデータがない可能性がある。ISAPは、ビットストリーム内の最も大きい位置とすることができ、TSAPより大きいまたは等しい提示時間を有するメディアストリームのいくつかまたはすべてのアクセスユニットは、ISAPで開始するビットストリームデータを使用して正しく復号され得、ISAPの前にはデータがない可能性がある。ISAUは、メディアストリーム内の復号順で最も遅いアクセスユニットのビットストリーム内における開始位置とすることができ、TSAPより大きいまたは等しい提示時間を有するメディアストリームのいくつかまたはすべてのアクセスユニットは、この最も遅いアクセスユニットおよび復号順で後続するアクセスユニットを使用して正しく復号され得、復号順でより早いアクセスユニットはない可能性がある。TDECは、ISAUで開始するビットストリーム内のデータを使用して正しく復号され得る、メディアストリームの任意のアクセスユニットの最も早い提示時間とすることができ、ISAUの前にはデータがない可能性がある。TEPTは、ビットストリームにおいてISAUで開始するメディアストリームの任意のアクセスユニットの最も早い提示時間とすることができる。TPTFは、ビットストリームにおいてISAUで開始するメディアストリームの復号順で最初のアクセスユニットの提示時間とすることができる。
これらのパラメータを有するストリームアクセスポイントの一例が、図9に示されている。この例では、3つの異なるタイプのフレーム、すなわち、I、P、およびBを有する符号化ビデオストリームの例が示されている。Pフレームは、復号されるのに、先行するIまたはPフレームを利用することができ、一方、Bフレームは、先行および後続するIおよび/またはPフレームの両方を利用することができる。送信順、復号順、および/または提示順に相違が存在し得る。
図9は、ストリームアクセスポイントのパラメータの図を示している。6つのSAPタイプが提供され得る。異なるSAPタイプの使用は、プロファイルに限定され得る(例えば、いくつかのプロファイルについては、SAPタイプのサブセットのみが利用され得る)。
DASH SAPタイプは、どのアクセスユニットが正しく復号可能であるか、および/または提示順でのそれらの配置に依存し得る。例えば、タイプ1の場合、TEPT=TDEC=TSAP=TPFTである。このSAPタイプは、「クローズドGoPランダムアクセスポイント」と呼ばれることがあるものに対応し得る。ISAPから開始する(例えば、復号順での)アクセスユニットは、正しく復号され得る。結果は、ギャップのない、正しく復号されたアクセスユニットの連続的な時間シーケンスになり得る。復号順で最初のアクセスユニットが、提示順で最初のアクセスユニットになり得る。
例えば、タイプ2の場合、TEPT=TDEC=TSAP<TPFTである。このSAPタイプは、「クローズドGoPランダムアクセスポイント」と呼ばれることがあるものに対応し得、ISAUから開始するメディアストリーム内の復号順で最初のアクセスユニットが、提示順で最初のアクセスユニットにならないことがある。最初の2つのフレームは、(例えば、H.264および他のいくつかのコーデックでは前方限定の(forward-only)Bフレームとして構文的に符号化され得る)後方予測される(backward predicted)Pフレームとすることができ、それらは、第3のフレームが最初に復号されることを必要とし得る。
例えば、タイプ3の場合、TEPT<TDEC=TSAP≦TPFTである。このSAPタイプは、「オープンGoPランダムアクセスポイント」と呼ばれることがあるものに対応し得、正しく復号されないことがあり、TSAPよりも小さい提示時間を有し得る、復号順でISAUに後続するいくつかのアクセスユニットが存在し得る。
例えば、タイプ4の場合、TEPT≦TPFT<TDEC=TSAPである。このSAPタイプは、「グラデュアル復号リフレッシュ(GDR:Gradual Decoding Refresh)ランダムアクセスポイント」(例えば、または「ダーティ(dirty)」ランダムアクセス)と呼ばれることがあるものに対応し得、正しく復号されないことがあり、TSAPよりも小さい提示時間を有し得る、復号順でISAUから開始し、それに後続するいくつかのアクセスユニットが存在し得る。
イントラリフレッシュ(intra refreshing)プロセスが、GDRの一例であり得る。イントラリフレッシュプロセスは、N個のフレームにわたって拡張され得、フレームの一部は、イントラMBを用いて符号化され得る。オーバラップしない部分は、N個のフレームにわたってイントラ符号化され得る。このプロセスは、フレーム全体がリフレッシュされるまで繰り返され得る。
例えば、タイプ5の場合、TEPT=TDEC<TSAPである。このSAPタイプは、正しく復号されないことがあり、TDECよりも大きい提示時間を有し得る、復号順でISAPから開始する少なくとも1つのアクセスユニットが存在し得る場合に対応し得、ここで、TDECは、ISAUから開始する任意のアクセスユニットの最も早い提示時間とし得る。
例えば、タイプ6の場合、TEPT<TDEC<TSAPである。このSAPタイプは、正しく復号されないことがあり、TDECよりも大きい提示時間を有し得る、復号順でISAPから開始する少なくとも1つのアクセスユニットが存在し得る場合に対応し得、ここで、TDECは、ISAUから開始する任意のアクセスユニットの最も早い提示時間とし得ない。
DASHのプロファイルは、相互運用性、および特徴(feature)の使用の伝達を可能にするために定義され得る。プロファイルは、1組の特定の制約を課すことができる。それらの制約は、メディアプレゼンテーション記述(MPD)文書およびセグメントフォーマットの特徴に課すことができる。制約は、メディアコンテンツタイプ、メディアフォーマット(複数可)、コーデック(複数可)、および/もしくは保護フォーマットなどの、しかし、それらに限定されない、セグメント内で配信されるコンテンツに、ならびに/またはビットレート、セグメント持続時間、セグメントサイズ、水平視覚提示サイズ、および/もしくは垂直視覚提示サイズなどの、しかし、それらに限定されない、定量的な尺度に課すことができる。
図10は、DASHにおける6つのプロファイルの例の図を示している。プロファイルは、セグメントのために使用されるファイルコンテナのタイプに基づいて、2つの主要なカテゴリに組織化され得る。3つのプロファイルは、ISOベースメディアファイルコンテナを使用することができ、2つのプロファイルは、MPEG−2トランスポートストリーム(TS)ベースのファイルコンテナを使用することができ、1つのプロファイルは、両方のファイルコンテナタイプをサポートすることができる。どちらのコンテナタイプも、コーデック独立とすることができる。
ISOベースメディアファイルフォーマットオンデマンドプロファイルは、オンデマンドコンテンツに対するサポートを提供することができる。このプロファイルは、各表現が単一のセグメントとして提供され得ること、サブセグメントが適応セット内の表現にわたってアラインメントされ得ること、および/またはサブセグメントがストリームアクセスポイントから開始し得ることを指定することができる。このプロファイルは、最小量のコンテンツ管理を用いて、大きなVoDライブラリをサポートするために使用され得る。それは、HTTPサーバのスケーラブルな効率の良い使用を可能にすることができ、および/またはシームレスな切り換えを単純化することができる。
ISOベースメディアファイルフォーマットライブプロファイルは、持続時間が相対的に短いISOファイルフォーマットの単一のムービーフラグメントから成るセグメントのライブ符号化および低待ち時間配信のために利用され得る。各ムービーフラグメントは、テンプレート生成のURLを使用して、利用可能なときに要求され得る。各セグメント要求の前にMPD更新を要求することは不要にすることができる。このプロファイルでは、セグメントは、セグメント境界で連結され得るように制約され得る。セグメントは、適応セット内の表現の適応切り換えにも関わらず、メディアデータ内にギャップおよび/またはオーバラップを有さずに暗号解除され得る。このプロファイルは、非ライブコンテンツを配信するために使用され得る。例えば、ライブメディア提示は終了され得たとしても、オンデマンドサービスとして利用可能に保たれ得る。
ISOベースメディアファイルフォーマットメインプロファイルは、ISOベースメディアファイルフォーマットオンデマンドおよびライブプロファイルのスーパーセットとすることができる。
MPEG−2 TSメインプロファイルは、MPEG−2トランスポートストリーム(TS)コンテンツのためのメディアセグメントフォーマットに制約を課すことができる。例えば、表現は、例えば、クライアントにおいてメディアストリーム(例えば、オーディオおよびビデオ)の結合が必要とされなくてよいように、多重化され得る。セグメントは、MPEG−2 TSパケットの整数番号を含むことができる。インデックス付けおよびセグメントアラインメントが推奨され得る。
MPEG−2 TSシンプルプロファイルは、MPEG−2 TSメインプロファイルのサブセットとすることができる。それは、例えば、シームレスな切り換えの簡単な実施を可能にするために、コンテンツ符号化および多重化に制約を課すことができる。例えば、シームレスな切り換えは、ISO/IEC 13818−1に準拠するメディアエンジン(例えば、MPEG−2システム)が、同じ適応セット内の任意の表現からの連続するセグメントを連結することによって生成された任意のビットストリームを再生し得ることを保証することによって達成され得る。
フルプロファイルは、ISOベースメディアファイルフォーマットメインプロファイルおよびMPEG−2 TSメインプロファイルのスーパーセットとすることができる。
モバイルデバイスの画面上に表示される視覚情報の目的地は、それを持っているユーザとすることができる。しかしながら、ユーザの観視セットアップは変化し得る。例えば、ユーザは、モバイルデバイスを目の近くに持つことがあり、または腕を伸ばして持つことがある。これは、視野角、および/または画面上の細部を見るユーザの能力に影響し得る。照明などの、しかし、それに限定されない、他の外的要因も変化し、ユーザの観視エクスペリエンスを変化させ得る。例えば、ユーザは、オフィス、日光が直射する屋外、日陰、または完全に暗いエリアにいることがある。ユーザは、デバイスの画面上のコンテンツに細心の注意を払っていることがあり、または何か別のことで忙しく、モバイルデバイスの画面は時々見るにすぎないことがある。デバイス(例えば、モバイルデバイス)とは、例えば、無線送受信ユニット、ストリーミングビデオプレーヤ、ビデオチャットアプリケーション、ビデオアプリケーション、またはビデオゲームアプリケーションのこととすることができる。
モバイルデバイスの観視条件の変動性の例が説明され得る。そのような条件は、ユーザが視覚情報をどの程度受け取り得るかを示すことができる。それらは、視覚情報をユーザに配信する通信システムにおける最終リンクとしての役割を果たし得る、「視覚チャネル」の容量を定義するために利用され得る。
モバイルデバイスへの視覚情報の配信は、可能な限り最良のユーザエクスペリエンスを実現し、ならびに/または無線ネットワークのリソース(例えば、帯域幅、容量など)および/もしくはモバイルデバイスのリソース(例えば、電力)を節約するように、ユーザ挙動および/または観視条件に適応することができる。モバイルビデオストリーミングおよびモバイルビデオ電話のためのアプリケーションが提供され得る。例えば、観視セットアップのパラメータ、照明のタイプ、モバイル画面の制限、人間の視覚系の制限など、視覚リンクの特性およびそれに影響する要因が利用され得る。
視覚コンテンツの観視条件適応符号化および配信によって改善され得るアプリケーションが存在し得る。例えば、これらは、限定することなく、モバイルビデオストリーミング、モバイルTV、モバイルビデオ電話、ビデオゲーム、および拡張現実を含むことができる。本明細書で説明されるそのようなアプリケーションのクラスは、限定することなく、モバイルビデオストリーミングおよびビデオ電話を含む。モバイルビデオストリーミングまたはモバイルマルチメディアストリーミングは、メディアファイル全体が配信されるのを待つことなく、リアルタイム再生およびVCRタイプのナビゲーションを可能にし得る、マルチメディアコンテンツの増加的配信のための技法とすることができる。
図11はストリーミングメディアコンテンツのモバイルデバイスへの配信に関連する構成要素および通信リンクの例を示している。ストリーミング配信のために、コンテンツが獲得され、符号化され得る。例えば、これは、Real Producer(登録商標)、Windows Media Encoder(登録商標)、およびAdobe Media Encoder(登録商標)などの、しかし、それらに限定されない、専用符号化ソフトウェアによって行われ得る。その後、コンテンツは、ストリーミング技術に応じて、専用ストリーミングサーバ、標準的なHTTPサーバなどとすることができる、サーバ上に配置され得る。コンテンツは、例えば、配信能力を拡大するために、いわゆるコンテンツ配信ネットワーク(CDN)を形成する、複数のサーバ上にも配置され得る。ストリーミングメディアコンテンツの消費者は、ユーザとすることができ、ユーザは、モバイルデバイス上でストリーミングメディアプレーヤまたはウェブブラウザなどのソフトウェアを使用していることがある。メディアプレーヤは、サーバとの接続を開始し、維持することができる。今度は、サーバが、符号化メディアのセグメントをプレーヤに送信することができ、次に、プレーヤが、それを画面上に表示することができる。
ストリーミングメディアコンテンツの配信には、いくつかの通信リンクが関連し得る。これらは、ストリーミングサーバと無線ネットワークゲートウェイ(GW)の間のインターネット接続およびルーティング経路、ユーザデバイス(例えば、UE)と基地局(例えば、eNB)の間の無線リンク、ならびにユーザの目とモバイルデバイスのディスプレイの間の「視覚リンク」を含むが(例えば、図11を参照)、それらに限定されない。
帯域幅適応が利用され得る。帯域幅適応ストリーミングでは、マルチメディアコンテンツは、いくつかの異なるビットレートで符号化され得、その一例が、図12に示されている。図13は、帯域幅適応マルチメディアストリーミングの一例を示している。レートが異なるビデオコンテンツは、空間分解能も異なるように符号化され得る。マルチメディアコンテンツは、異なるレートのストリーム間での移行が一定の時間間隔(例えば、2〜5秒)で可能なように準備され得る。異なるストリームによって異なる空間分解能が使用される場合、解像度の変化が目立ち得ないように、メディアプレーヤは、ビデオをスケーリングして、画面上の同じ領域を満たすことができる。
符号化の後、コンテンツは、ストリーミングサーバから利用可能にすることができ、要求時にはクライアントに配信され得る。初めに、サーバは、デフォルトの初期ビットレートでコンテンツをストリーミングすることができる。ビットレートは、例えば、ネットワークで利用可能な帯域幅に基づいて、ストリーミングセッション中に変化し得る。レートは、クライアントの要求に応じて直接的に変化することができ、またはサーバが、クライアントからのフィードバックに基づいて判断を下すことができる。
マルチメディアコンテンツの配信のために利用され得る配信メカニズムは、HTTPストリーミングおよびRTP/RTSPストリーミングを含むが、それらに限定されない。HTTPストリーミングでは、区分けされたコンテンツ(例えば、長さが数秒のセグメントに分割されたコンテンツ)が、HTTPを介して配信され得る。セグメントは、再送に起因する遅延が生じ得ることを代償として、確実に配信されることが保証され得る。RTP/RTSPストリーミングでは、コンテンツは、パケット化され、UDPを介して配信され得る。これは、パケットが失われ得ることを代償として、再送遅延を回避することができる。HTTPストリーミングシステムの例は、MPEG/3GPP DASH(登録商標)、およびApple(登録商標)のHLS(登録商標)である。Real Networks(登録商標)のHelix(登録商標)サーバは、様々なHTTPおよびRTP/RTSPストリーミングプロトコルをサポートすることが可能であり得る。
モバイルストリーミングのための帯域幅適応が利用され得る。ストリーミングビデオが無線上で配信される場合、(例えば、ユーザデバイスを基地局に接続する(例えば、図11を参照))無線リンクの負荷および他の特性によって引き起こされる帯域幅変動が予想され得る。帯域幅適応ロジックは、基地局(例えば、eノードB)、および/または無線リンクの近くに配置され得る別のサーバ(例えば、プロキシ)上で実施され得る。これは、より高速な応答、および達成され得る適応の粒度をもたらすことができる。そのようなサーバは、例えば、複合的な1組の符号化ストリームを受信し、スケーラブルな符号化を行うことによって、および/またはリンク上で送信される情報の動的トランスコーディングを実施することによって、適応を実施することができる。
モバイルビデオ電話は、異なる場所にいるユーザによって発信されたオーディオ−ビデオ信号を受信および配信するための技術を含むことができる。目的は、彼らの間でリアルタイム通信を可能にすることとすることができる。
本明細書で説明される実施は、例えば、消費者レベルのビデオ通信/メッセージングアプリケーション、モバイルビデオ会議アプリケーション、モバイルビデオ電話アプリケーションに適用可能とすることができる。そのようなシステムのアーキテクチャの一例が、図14に示されている。モバイルデバイスは、オーディオおよびビデオ情報をキャプチャし、それを符号化し、ならびに/またはそれを無線リンクおよび/もしくは有線リンクの組み合わせを通して他のデバイスに送信することができる。この情報が(例えば、モバイルデバイスを介して)ひとたび受信されると、それは、復号され、ユーザに提示され得る。ビデオおよびオーディオデータは、RTP/UDPパケットとして送信され得るが、その理由は、例えば、そのようなシステムのリアルタイム性にある。RTP/UDPパケットは、送信中に失われることがある。品質をコントロールするために、モバイルデバイス(例えば、ビデオフォン)は、RTCPなどの、しかし、それに限定されない、フィードバックプロトコルを利用することができる。電話は、SIPまたはITU−T H.323/H.225などの、しかし、それらに限定されない、標準的なセッション開始プロトコルを使用してかけることができる。
いくつかの通信リンクが、モバイルビデオ電話アプリケーションにおける情報の送信に関連し得る。例えば、通信リンクは、無線ネットワークゲートウェイ(GW)間のインターネット接続/ルーティング経路、ユーザデバイス(例えば、UE)と基地局(例えば、eNB)の間の無線リンク、ならびにユーザとモバイルデバイスのディスプレイおよびカメラとの間の「視覚リンク」を含み得るが(例えば、図14を参照)、それらに限定されない。
インターネットおよび無線リンクの特性、挙動、および/または制限が、理解され得、ビデオフォンシステムは、いくつかのメカニズムを利用して、それらに適応することができる。そのようなメカニズムは、例えば、帯域幅適応ビデオ符号化、フィードバックの使用、誤り耐性、および誤り隠蔽技法を含むことができる。本明細書で説明される実施は、例えば、ビデオ送信および/または通信を改善するために、変化する観視距離、照明、および画面に払うユーザの注意などの、しかし、それらに限定されない、「視覚リンク」の特性および制限要因を利用することができる。
ディスプレイとユーザによって形成されるリンクとすることができる「視覚リンク」の特性が、本明細書で説明され得る。モバイル観視セットアップのパラメータの例が、図15に示されている。例えば、水平スライスが示されており、例えば、水平約120°の視野が、両眼視によって形成され得ることが仮定され得る。視覚パラメータは、画面サイズ、画面までの距離、画面解像度、(例えば、ピクセル/インチ単位の)画面密度、または視野角を含むことができるが、それらに限定されない。いくつかの視角パラメータは、相互に関連し得る。例えば、(例えば、図15に示されるような)視野角は、
と計算され得る。
視野角は、ユーザが獲得し得る「有益な」視覚情報の量を制約し得る。映画館またはリビングルームにおいて使用されるものなどの静止観視環境では、視野角は、例えば、約30°以上など、大きくすることができる。規格(例えば、SMPTE EG−18−1994)は、映画再生のための最小許容可能視野角として30°を宣言し得る。モバイル環境では、視野角は、例えば、モバイル画面の小さいサイズのせいで、はるかに小さいことがある。より多くを見るために、観視者は、フォンを目により近づけることができる。しかしながら、人々が異なる観視距離を使用すること、および多くの場合、そのような距離がモバイル画面の小さい寸法を補償するのに十分な短さになり得ないことには、いくつかの自然な限界および理由が存在し得る。
観視距離の範囲は、個人個人、様々であり得る。異なる距離にある物体を見る能力は、人間の目の調節と呼ばれるメカニズムのおかげであり得る。それは、遠くの光源から来る光が網膜上に焦点を結ぶように、人間の目の水晶体の湾曲が変化し得るプロセスとすることができる。湾曲のそのような変化は、毛様筋によって引き起こされ得る。毛様筋が弛緩しているとき、目は、無限遠に焦点を合わせることができる。緊張を加えることによって、水晶体の湾曲が増し、より近い物体からの光が網膜上に焦点を結ぶことが可能になる。しかし、水晶体は、無限に「絞る」ことはできない。水晶体によって光が網膜上に焦点を結ぶようにし得る最短距離は、明視距離(LDDV:least distance of distinct vision)と呼ばれる。通常の視力を有する大多数の成人の場合、LDDVは、約25cm(10インチ)とすることができる。この数は、若者の場合は、より小さくなり得るが、年齢とともに(例えば、毛様筋の働きが鈍るので)増加し得る。
LDDVは、モバイルデバイスの観視距離の下限を設定し得る。他の自然の限界は、ユーザの腕の長さであり得る。この数は、ユーザの身長に関連し得る(例えば、身長が5フィート9インチの人の場合、約26インチ)。モバイルデバイスのサイズ/タイプ、環境、および/または異なる人々が異なる観視距離にそのようなデバイスを持つもしくは置く原因であり得る個人的な快適感を含むが、それらに限定されない、他の要因も存在し得る。いくつかの限界内で、ユーザは、画面をより近くまたは遠くに持つことによって、最良の知覚品質を達成しようと努めることもできる。観視距離の範囲は、約7.5インチから23.6インチとすることができる。平均観視距離は、約12.7インチとすることができ、標準偏差は、約3インチとすることができる。これは、かなり広がった分布を意味し得る。±1σの範囲は、9.7インチから15.7インチの距離の範囲に対応し得る。±2σの範囲は、6.7インチから18.7インチの距離の範囲を意味し得る。図16は、この分布の近似的な形状の一例を示している。
空間密度制限が説明され、利用され得る。視覚情報の量は、空間密度によって制限され得る。限界は、例えば、モバイルデバイス上の画面の空間密度、および/または人間の視覚の空間感度限界を含むことができる。
ディスプレイの空間密度または解像度は、ピクセル/インチ(ppi)などの、しかし、それに限定されない、絶対メトリックで報告され得る。1°の視野角に対応するピクセルの数などの、しかし、それに限定されない、角度特性が、本明細書では使用され得る。観視距離が知られている場合、1°の視野角に対応するピクセルの数は、
と計算され得る。
人間の視覚系(HVS)は、それ自体の限界を空間分解能に設け得る。視力限界は、通常の(例えば、いわゆる「20/20」)視力を有する人々が、1°の視野角の1/60に相当する小ささの空間的細部を認識し得ることを表明し得る。これは、人間の視力限界に適合する、またはそれを超えるには、画面密度および画面までの観視者の距離を、結果の角密度が1°の視野角当たり少なくとも60ピクセルであるようにすればよいことを意味し得る。この限界をかなりの程度超えたとしても、通常の視力を有するユーザはそれを認識し得ないので、それは低下したリターンをもたらし得る。
観視環境の例が、本明細書で説明され得る。表1は、いくつかの可能な観視環境のパラメータの例を提供している。表1は、ラップトップ、タブレット、およびスマートフォンなどの、しかし、それらに限定されない、現代のモバイルデバイスのいくつかのクラスと、様々な可能な観視距離とを考察し得る。下線を引いたケースは、従来の環境でTVまたは映画を見るには十分に広いと考えられ得る、視野角が30°以上であり得る場合とすることができる。二重下線を引いたケースは、再生セットアップの角密度が視力限界を超え得る場合とすることができる。
いくつかのモバイルデバイス(例えば、スマートフォン)は、例えば、5°未満(sub−5°)から20°台半ば(mid−20°)まで、非常に広い範囲で変動する視野角を有し得る。しかし、非常に短い観視距離であっても、それらは、いくつかの再生セットアップにとって望ましい30°に達し得ない。より大型のデバイス(例えば、ラップトップまたはタブレット)は、30°以上の視野角に対応し得る。モバイル画面によって達成可能な角密度は、人間の視覚の視力限界に適合すること、またはそれを超えることがある。モバイルディスプレイ技術は、観視者がもはや受け取り、認識し得ない密度で、視覚コンテンツを再生することが可能であり得る。例えば、観視距離が長くなるほど、角密度は高くなり、視覚リンクにおける送信機(例えば、ディスプレイ)と受信機(例えば、人間の目)の能力のアンバランスも大きくなる。将来のディスプレイ技術では、このアンバランスが増大し得る。そのような状況下では、画面によってサポートされる最高の空間分解能で自然な視角コンテンツを符号化し、配信することは、ますます無駄になり得る。
照明の効果が説明され、利用され得る。変化する観視距離および角度に加えて、モバイル観視エクスペリエンスは、様々な照明環境によっても影響され得る。これらの環境は、観視場所(例えば、屋内もしくは屋外)、時刻、季節、地理位置、および/または他の多くの要因によって変化し得る。
モバイル画面によって発せられる光は、様々な周辺光源から反射される光と「混合」され得る。結果として、画面に投影される画像の色は、「洗い落され」得る。これは、例えば、コントラストの低下、色域の減少、およびカラーバランスのシフトに関して定量化され得る。例えば、コントラスト比は、総表示輝度をそれぞれ白状態と黒状態に分けることによって計算され得る。周辺照明下のディスプレイからの総輝度は、
と計算され得る。Ldisplayは、ディスプレイから発せられる輝度とすることができ、LspecおよびLdiffは、直接光源および拡散光源からの照度とすることができ、RspecおよびRdiffは、モバイル画面の正反射率特性および拡散反射率特性とすることができる。コントラストは、適度の照度であっても、速やかに低下し得る。
画面のコントラストの低下がもたらす結果の1つは、人間の観察者が見ることのできる空間周波数の範囲の減少であり得る。これは、人間の視覚のいわゆるコントラスト感度関数(CSF)を考察することによって説明され得る。この関数の例示的なプロットが、図17に示されている。
コントラストが非常に高い場合、可視周波数の範囲は、例えば、図17の最右端によって示されるように、視力限界によって制限され得る。コントラスト比が小さい場合、それは、1点または2点でCSFに接触する下側境界を定め得る。右側の点は、最大可視空間周波数を定め得る。左側の点は、最小可視空間周波数を定め得る。コントラストをさらに下げることによって、可視周波数の範囲は、例えば、CSF曲線のピークに対応する範囲まで減少させられ得る。そのピークは、視角の度数当たり3〜6サイクルの間にあり得る。それは、視力限界から約5〜10倍の隔たりであり得る。
照度は、例えば、瞳孔の狭まりを通して、視覚に対する付加的な影響を有し得る。高い照度では、瞳孔が狭まり得、角膜(例えば、「水晶体」)の不完全性によって引き起こされる歪みを低下させ得る。これは、上で説明された効果を(例えば、ある程度)打消し得る。
画面の傾きが説明され、利用され得る。モバイル画面の傾きとは、面に対する法線とユーザの観視方向(例えば、視軸)との間の角度のこととし得る。例えば、図15に示されるように、傾きは、0°にすることができる。傾きは、変化し得る。傾き角度は、例えば、明るさ、コントラスト、色などに影響し得る。例えば、iPhone 4(登録商標)の30°の傾きは、明るさの57%の減少、およびコントラスト比の2倍を超える低下を引き起こし得る。
関心ポイントが説明され、利用され得る。ユーザが画面を見ているとき、その目は、画面上のある領域に焦点を合わせ得る。人間の視力は、そのような焦点において最大になり得(例えば、中心窩の投影像)、どの方向でもそれから離れるにつれて衰え得る。例えば、視覚情報の約50%は、固視点から僅か2°の範囲内で獲得され得る。
3Dコンテンツにおいて知覚される深度への影響が説明され、利用され得る。3Dビデオの再生が利用される場合、観視者の距離についての情報が利用され得る。例えば、3Dビデオ試作品の知覚される3D深度が影響され得る。例えば、知覚される深度は、
によって表現され得、ここで、Dは、知覚される深度とすることができ、fは、画面までの距離とすることができ、αは、ピクセル密度とすることができ、bは、2つの目の間の基線距離(例えば、ユーザのIPD)とすることができ、dは、画面上の対象物の(例えば、ピクセル単位での)視差とすることができる。
画面までの観視者の距離は、視差を調整するために、および/または別のビューを取り出し、示して、深度歪みを補償するために使用され得る。3D観視のための観視者距離に基づいた適応は、人間の視覚の輻輳距離と焦点距離の間の差、および関連する「快適ゾーン(zone of comfort)」の概念を考察することによって理解され得る。
図18は、様々な観視状況における輻輳距離と焦点距離の一例を示している。左側の3つの欄は、自然視(N)、光学補正(例えば、眼鏡)を施した自然視(G)、およびステレオ3D視(S)の例を示している。自然視では、輻輳刺激および焦点刺激は、同じ距離にあり得、したがって、互いに整合性があり得る。屈折異常に対する光学補正(例えば、眼鏡またはコンタクトレンズ)を施した自然視では、補正による焦点力(focal power)の一定の減少または増加のために、焦点距離は、輻輳距離と異なり得る。ステレオ視は、例えば、輻輳距離は画像内容に応じて変化し得るのに対して、焦点距離は一定であり続け得るので、輻輳距離と焦点距離の間に不一致を生み出し得る。
図18の右側は、左側に例示された6つの観視条件について、ジオプタ(diopter)単位の輻輳距離の関数として、ジオプタ単位の焦点距離の例示的なプロットを示している。緑の線は、自然視の一例を示し、青の線は、光学補正を施した自然視の一例を示し、赤の線は、ステレオ表示を見る場合の一例を示している。軸上には近距離および遠距離が示されている。
図19は、両眼単一明視域(ZCSBV:zone of clear single binocular vision)の一例を示している。焦点距離および輻輳距離が、それぞれ縦座標および横座標にジオプタ単位でプロットされ得る。破線の対角線は、自然視に関連する輻輳刺激および焦点刺激の一例を表し得る。「最小相対輻輳」と表記された線は、各焦点距離において、観視者が刺激ターゲットの単一の焦点が合った像を維持し得る、最小の輻輳距離を表し得る。「最大相対輻輳」と表記された線は、観視者が単一の焦点が合った像を維持し得る、最大の輻輳距離を表し得る。
観視条件に対する適応を提供し得る実施が説明され、利用され得る。ユーザがモバイルデバイスを持ち得る方法には変動性が存在し得、それが、ユーザが獲得し得る視覚情報の量に影響し得る。例えば、表1に例示されるように、モバイルフォン画面の異なる観視距離および向きは、例えば、約5°から25°までの、視野角の変化を引き起こし得る。これは、高密度のモバイル画面を仮定すると、視覚リンクの帯域幅の5倍の変動性を意味し得る。周囲照度は、コントラスト比が、数桁低下する原因になり得る。コントラストの低下は、(例えば、図20に示されるように)可視空間帯域幅を著しく低下させ得る。明るさおよびコントラストのさらなる2倍の低下は、フォンの画面の傾きによって引き起こされ得る。
ユーザは、画面に細心の注意を払っていることがあり、またはどこか別の所を見ていることがある。ユーザが画面に細心の注意を払っている場合、ユーザは、配信される可能な限り最良のビデオ品質から利益を得ることができる。ユーザが画面に細心の注意を払っていない場合、ユーザに少しも不便を感じさせることなく、品質を低下させ得る。ユーザは、画面の一部だけに注意を集中していることがある。(例えば、その関心領域から2〜3度よりも大きく)空間的に離れた場所に存在する細部は、観察され得ない。
本明細書で説明される実施は、1または複数の観視/視覚パラメータ(例えば、本明細書で説明されるパラメータ)を利用するシステム設計において改善を提供し得る。観視/視覚パラメータは、例えばネットワーク上の負荷、電力利用を低減するために、また最良の感知可能な品質の視覚情報をユーザに配信するために使用され得る。観視/視覚パラメータを利用する実施は、本明細書では、観視条件適応と呼ばれることがある。
本明細書で説明される実施は、ユーザへのコンテンツの配信における異なるポイントに配備され得る。利用される視覚パラメータ(複数可)の有効性は、ユーザのデバイス、視覚、および/または他の特性に依存し得る。例えば、低密度画面を使用し、および/または20/20よりも良い視力を有するユーザは、観視距離適応を利用する実施から利益を得られないことがあるが、他の技法が有益なことがある。
ビデオ処理チェーンツールが提供され得る。観視条件適応は、例えば、モバイルビデオストリーミング、ビデオ電話アプリケーションなど、視覚情報を配信し、および/またはそれをモバイル画面上に投影するシステムの一部とすることができる。そのようなシステムは、ビデオビットレートと品質をトレードオフするための手段を有することができる。そのような手段は、(例えば、ストリーミングビデオのために)複数レートのまたはスケーラブルなビデオ符号化/復号を行う機能、(例えば、ビデオ電話アプリケーションにおいて)コーデック/ビデオ符号化/復号チェーンのパラメータを動的に変更する機能などを含むことができるが、それらに限定されない。
符号化ビデオの空間分解能の変更は、異なるビットレート(例えば、空間帯域幅)を達成するための1つの方法であり得る。これは、例えば、(例えば、コーデックが解像度の動的変更をサポートする場合)コーデック内で、または前処理および/もしくは後処理ロジックを用いて達成され得る。
プリプロセッサは、ビデオの解像度を引き下げる(例えば、動的に引き下げる)ことができる。ポストプロセッサは、ビデオをアップサンプリングするように構成され得る。ローパスフィルタリングが、プリプロセッサにおいて適用され得る。処理チェーンの残りは、元のままに維持され得る。一例が、図20に示されている。そのようなフィルタは、例えば、低コントラストレジーム(regime)で動作する場合は、バンドパスとすることができる。バンドパスフィルタは、不可視の低周波数を取り除くことができる。信号の帯域幅が低いほど、コーデックは、より低く生成することができる。これは、新しい目標レートまたは量子化ステップサイズ(QP)パラメータを符号化器に渡すことによって実施され得る。
適応システムにおいてビデオのビットレートと品質をトレードするための手段は、フレームレートを低減すること、「スライドショー」モードに切り換えることなどを含むことができるが、それらに限定されない。これらの手段は、例えば、ユーザに不便さを感じさせることなく品質を低下させ得る場合に(例えば、ユーザが画面に注意を払っていない場合に)、適応ロジックによって起動され得る。
観視条件適応実施のスピードおよび粒度が提供され得る。人間の視覚の自然な限界は、適応が一定の遅延を伴って実行されることを可能にし得る。例えば、1つの特性は、調節遅延と呼ばれることがある。調節遅延は、人間の目が1つの距離から別の距離に焦点を変更するのに要する時間とすることができる。調節遅延は、成人の場合、約350msとすることができる。例えば、これは、ユーザが注意を逸らしていたが(例えば、モバイルデバイスの画面以外の対象を見ていたが)、その後、モバイルデバイスの画面に視線を戻した場合、ユーザの目がモバイルデバイスの画面に焦点を合わせ直すのに、約350msかかり得ることを意味し得る。
一方向通信遅延は、(例えば、LTE無線ネットワークでは)100〜300ms以内とすることができる。これは、例えば、モバイルビデオ電話アプリケーションのための範囲とすることができる。遅延は、本明細書で説明される実施を実行して、ユーザに気づかれ得ない方法で観視条件の変更を実行するのに十分であり得る。そのような遅延は、実施が基地局で実行される場合は、より遅くすることができる。そのようなシステムは、(例えば、スケーラブル/階層化方式で符号化された場合)任意の与えられた時間に無線でWTRUに送信されるビデオのトランスコーディングまたはレイヤの選択を実行することができる。視覚的再生の空間帯域幅が変更され得る。僅かな増加(例えば、オクターブ当たり3〜5ステップ)の変更が導入される場合、変更は、あまり気づかれ得ない。
観視条件適応を利用する実施が説明され、利用され得る。配信システムによって利用され得る適応技法が、本明細書で説明され得る。ユーザの存在の検出およびそれに対する適応、画面の傾きの検出およびそれに対する適応、画面からのユーザの距離の推定およびそれに対する適応、較正試験を用いた画面からのユーザの距離およびユーザの視覚に対する適応、照明条件の推定およびそれに対する適応、ならびにユーザの関心/注意ポイントの推定およびそれに対する適応のうちの1または複数を含むが、それらに限定されない、適応技法の組み合わせのサブセットが利用され得る。
ユーザの存在の検出およびそれに対する適応。ユーザが存在しない場合、システムは、ビデオレートを、例えば、最低の「有料」品質表現に抑制すること、それをスライドショーに切り換えること、および/またはビデオをオフにすることができる。例えば、専用の「ユーザ近接」センサを使用することによって、フォンの前向きカメラを使用することによって、赤外線撮像デバイスを使用することによって、超音波センサを使用することによって、マイクロフォンからの入力を使用することによって、動きセンサを使用することによってなど、ユーザの存在を検出するために利用され得る、いくつかのセンサおよび技法が存在する。
近接センサは、ユーザが電話で話をしているときに、画面のバックライトをオフにするために使用され得る。このセンサからの入力は、コンテンツ(例えば、ビデオ)が配信されているビットレートを停止、または調整(例えば、低減)するために使用され得る。他のセンサからの入力を使用する場合、この入力は、ユーザの存在を示すインジケータに変換され得る。このインジケータは、配信されるコンテンツ(例えば、ビデオ)のレート、品質などについての決定を行うために使用され得る。
前向きカメラからの入力を使用して使用され得る検出ロジックが、本明細書で説明され得る。システムは、前向きカメラから画像を獲得することができる。画像内における顔の位置を見出すために、顔検出アルゴリズムが使用され得る。例えば、システムは、ヴィオラ−ジョーンズ(Viola-Jones)検出器を利用して、顔を検出することができる。顔が見出された場合、ユーザが存在するという決定が下され得る。顔が見出されない場合、ユーザは前向きカメラの視野の外側、または顔認識アルゴリズムの範囲外にいるという決定が下され得る。そのような一例が、図21に示されている。広角カメラおよび狭角ディスプレイの場合、画面上に表示されたコンテンツをユーザが見ることができないことが推測され得る。ユーザが範囲外にいる場合、ユーザは、フル画面解像度を知覚し得ないことがある。
画面の傾きの検出およびそれに対する適応が、本明細書で説明され得る。モバイルデバイスは、モバイルデバイスの画面に対するユーザの位置および/または向きを推定するために使用され得るセンサを含むことができる。例えば、センサは、フォンの前向きカメラ、赤外線センサ、超音波センサ、マイクロフォンアレイなどを含むことができるが、それらに限定されない。システムは、フォンの前方の場の(例えば、可視光、IR、ソナーベースなどの)画像を獲得することができる。システムは、人間の顔の位置を検出することができる。システムは、その位置に関する角度を計算することができる。例えば、カメラがセンサとして使用される場合、カメラ(例えば、前向きカメラ)からの画像が、キャプチャされ、人間の顔を検出するために利用され得る。ヴィオラ−ジョーンズ検出器などの、しかし、それに限定されない、顔検出技法が利用され得る。顔が検出されない場合、システムは、ユーザの観視方向がカメラの画角の少なくとも半分は逸れていると推測し得る。例えば、これは、図21に例示され得る。ユーザの顔が検出された場合、傾きは、
と計算され得る。
傾きがひとたび決定されると、視野角の関数としてのコントラストおよび/または明るさなどの、しかし、それらに限定されない、モバイル画面の1または複数の観視特性が、デバイスのセットアップを用いて達成可能であり得る明るさおよび/またはコントラストの限界を獲得するために利用され得る。システムは、(例えば、おそらくは照明についての情報と組み合わされる)1または複数の特性を利用して、画面上の可視空間周波数の範囲を検出することができる。1または複数の特性は、(例えば、周波数の範囲が検出された後)コンテンツの符号化のために使用され得る、空間分解能および/またはフィルタパラメータについての決定を推進するために使用され得る。
画面からのユーザの距離の推定およびそれに対する適応が説明され得る。画面に対するユーザの距離を検出するために利用され得るセンサおよび技法が存在し得る。これは、例えば、フォンの前向きカメラ、赤外線撮像、超音波センサを使用することによって、またはこれらのセンサからの入力の任意の組み合わせによって行われ得る。
動きセンサは、観視距離の可能な変化を検出するために使用され得る。観視距離の変化は、前向きカメラからの入力を使用して決定され得る。例えば、瞳孔間距離(IPD)などの、しかし、それに限定されない、人間の顔特徴は、ユーザの観視距離を分析するために使用され得るメトリックとして利用され得る。
このロジックの一例は、図22A〜図22Bを参照して説明され得る。関与し得る2つの角度は、フォンの仕様書から知られ得るカメラの画角と、ユーザの目の間の角度(α)である。画像が顔検出器によってキャプチャおよび/または処理される場合、その画像内の(例えば、ピクセル単位で測定される)ユーザの目の間の距離が測定され得る。ユーザの目の間の角度は、
と計算され得る。
この角度は、ユーザとフォンの間の距離dに関連し得る。
したがって、この距離は、
と計算され得る。
知り得ない変数は、ユーザのIPDであり得る。ユーザのIPDは、推定され、および/または入力パラメータとして(例えば、特定のユーザのためにカスタマイズされた)アプリケーションに提供され得る。例えば、大多数の成人のIPDは、50から75mmの範囲内で様々であり得る。そのような範囲は、推定値として使用され得る。ユーザが自分の正確なIPDをパラメータとして入力した場合、システムの性能は、より正確になり得る。例えば、適応ロジックのためには、観視者距離の下限推定値が分かれば(例えば、分かりさえすれば)十分であり得る。画面を見ている観視者が複数いる場合、画面の最も近くに存在し得る観視者の距離を検出すれば十分であり得る。
ユーザのIPDに基づいてユーザの距離を検出するために利用される実施は、以下のこと、すなわち、ユーザの瞳孔間距離(IPD)を推定し、および/またはパラメータとして入力すること、解像度およびカメラの角度などの、しかし、それらに限定されない、カメラパラメータを獲得すること、前向きカメラを使用して画像をキャプチャすること、画像内における人間の顔の存在、および/または位置を検出すること、画像内でユーザの目の間の距離(例えば、ピクセルレベルの距離)を測定すること、ならびに知られた量に基づいて画面までのユーザの距離を計算すること(の、例えば、すべてまたはサブセット)を含むことができる。
画像内での顔(例えば、人間の顔)の検出は、例えば、ヴィオラ−ジョーンズ検出器を使用して達成され得る。検出器は、いくつかの標準的な画像特徴(例えば、IPD)のピクセルレベルのサイズを計算することができる。画像内で2以上の顔が検出された場合、画面から顔の1または複数までの距離は安定(stable)され得る。画面に最も近い顔が利用され得る。ユーザの距離は、画面上での可視空間周波数の範囲を検出するために、(例えば、おそらくは照明および視野角についての情報と組み合わせて)利用され得る。可視周波数の範囲は、例えば、ビデオ符号化/復号のために使用される、空間分解能および/もしくはフィルタパラメータを決定するために、ならびに/またはそのようなパラメータを使用して符号化されるストリームに切り換えるために利用され得る。
較正試験を用いた画面からのユーザの距離およびユーザの視覚に対する適応が説明され得る。異なる観視距離において視覚的細部を認識するユーザの能力を検出するための技法は、1または複数の試験を介して決定され得る。例えば、ユーザは、画面を見て、図23および図24に示される質問など、しかし、それらに限定されない、一連の質問に答えるように指示され得る。図23は、最も快適な位置でユーザが見ることができる最小の空間的細部の検出を可能にし得る例示的な質問を示している。図24の例示的な質問を使用して、ユーザは、そのような細部をまだ見ることができる最も遠い地点までカメラ/画面を動かすように命令され得る。ユーザがそのようにしたことを確認すると(例えば、OKを押すと)、ユーザの写真が撮られ、その顔が検出され、(例えば、ピクセル領域で)IPDが計算され得、それは、ユーザの観視距離に対応し得る。これは、将来、ユーザがより短いまたはより長い距離にいる状況を検出することができる。1または複数の距離/可視解像度ポイントが決定され得る。例えば、2つの可能な文字サイズを使用して、確認する(例えば、「OK」を押す)ようにユーザに求めることによって(例えば、図24の試験を参照)、2つの距離/可視解像度ポイントが獲得され得、それは、任意の距離に対する適応のために十分であり得る。
照明条件の推定およびそれに対する適応が説明され、利用され得る。照明条件は、周囲光センサ情報、前向きカメラ、後向きカメラなどの、しかし、それらに限定されない、1または複数のセンサを使用して評価され得る。そのような情報は(例えば、画面の明るさ設定に関連する情報と一緒になって)、画面の達成可能なコントラストおよび総照明の量を推定するために利用され得る。
推定は、画面の傾きについての情報を使用して精緻化され得る。推定された総照明は、適切なコントラスト感度曲線を選択するために使用され得る。画面のコントラストは、適切なコントラスト感度曲線上の動作範囲を検出するために使用され得る。これは、画面上での可視空間周波数の範囲をもたらし得る。
前面照明および背面照明は、異なる方法でユーザの知覚に影響し得る。例えば、前面照明は、画面から反射され得る。背面照明は、瞳孔の拡張を変化させ得る。ひとたび周波数の範囲が検出され、および/または画面までのユーザの距離が分かると、コンテンツを符号化するために使用される空間分解能および/もしくはフィルタパラメータを決定するために、ならびに/またはそのようなパラメータを使用して符号化されるストリームに切り換えるために、前面照明および/または背面照明が利用され得る。
観視者の注視点の推定およびそれに対する適応が説明され、利用され得る。ユーザは、本明細書で「注視点(point of attention)」(POA)と呼ばれることがある、画面の小さな部分において、ピクチャ細部を知覚することができる。ユーザのPOAの外側の画面領域における解像度は、ユーザに影響を気づかれることなく、低減させ得る。(例えば、より広い視野角において)ユーザが画面から非常に近い距離にいる場合、ユーザのPOAの推定は、有益であり得る。例えば、ユーザのPOAは、コンテンツ導出の顕著点を用いる顕著性ベースの符号化において使用され得る。ユーザのPOAが推定され、ユーザのエクスペリエンスを改善するために使用され得る。ユーザのPOAは、この情報を用いて符号化され得なかった旧式の素材のストリーミングにおいて使用され得る。
ユーザのPOAは、例えば、瞳孔と角膜レンズからの反射との間の角度を測定することによって、前向きカメラを使用して推定され得る。ユーザは、この測定のために近くにいなければならないことがあるが、これは、測定に関連する時間とすることができる。
以下のうちの1または複数が、ユーザのPOAを利用して実施され得、すなわち、各セクション/タイルが数々の解像度またはレイヤで符号化され得る、セクションまたはタイルへのピクチャの分割をサポートする符号化器、前面カメラおよびユーザの観視点を推定するための手順を有するモバイルデバイス、各タイルに最適な解像度を計算するために使用される実施、セクション/タイルに対してどの解像度が使用され得るかをネットワークに知らせるために利用されるシグナリング実施、ならびに適応ネットワークエンティティが、実施され得る。エンティティが符号化器/復号器でない場合、いくつかのレイヤ/レートが、符号化器/復号器および/またはサーバから送信され得、適応エンティティが、それらから選択を行う。適応は、例えば、適応時間を短縮するために、ネットワークノード(例えば、ノードB)において実行され得る。表示アルゴリズムが、セクション/タイルを一緒にステッチングすることができる。
コンピュータビジョンおよび/またはコンピュータグラフィックスが利用され得る。例えば、ヴィオラ−ジョーンズ顔検出器およびアイトラッカ(eye tracker)が、固視点を識別するために使用され得る。タイルステッチングは、例えば、スケール不変特徴変換(SIFT:Scale−Invariant Feature Transform)特徴などの、しかし、それに限定されない、局所的特徴を使用することによって行われ得る。
図25は、観視条件適応システムの一例を示している。モバイルストリーミングビデオシステムは、観視条件に対する適応のための、本明細書で説明される実施のうちの1または複数を含むことができる。図11は、ストリーミングシステムのアーキテクチャの一例を示し得る。(例えば、WTRU内に存在する)ストリーミングクライアントによって使用される構成要素およびロジックの例は、図25に示され得る。このクライアントは、異なるレートおよび/または空間分解能で符号化された複数のビデオストリームを記憶し得る、ストリーミングまたはHTTPサーバと通信することができる。クライアントデバイスは、観視距離および/または照明レベルを推定するために、前面カメラを使用することができる。例えば、(例えば、利用可能な帯域幅についてのクライアントの見解に加えて)これらのパラメータは、クライアントがコンテンツ(例えば、ビデオストリーム)を要求し得る最良の解像度を決定するために使用され得る。
ストリーミングサーバは、クライアントの要求に反応することができる。例えば、ストリーミングサーバは、市販のレート適応HTTPおよび/またはRTSP/RTP準拠サーバとすることができる。システムは、本明細書で説明される実施のすべてまたは任意のサブセットを利用することができる。
無線ネットワークおよび有線ネットワークにおけるストリーミングは、例えば、ネットワークにおける輻輳および他の可能な障害を理由に、可変帯域幅に対する適応を利用することができる。いくつかの目標レートへのマルチメディアコンテンツの同時符号化が利用され得る。これは、クライアントアプリケーションにおけるシグナリングおよびレート切り換えロジックと結合され得る。図26は、そのようなシステムの例示的なアーキテクチャおよび機能の説明を示している。図26の例は、適応HTTPベースストリーミングシステムの動作を示している。
ストリーミングシステムでは、ストリーム切り換えが、約2〜10秒とし得る、一定の粒度で可能にされ得る。クライアントが符号化ストリーム間で切り換えを行い得るポイントは、切り換えポイントと呼ばれることがある。切り換えポイントの間の符号化コンテンツの部分は、セグメントと呼ばれることがある。
ストリーミングセッション中、ストリーミングクライアントは、各セグメントの配信のレートを計算することができ、それは、次のセグメントを受信するために利用可能であり得る、ネットワークの帯域幅の推定値をクライアントに与えることができる。この推定値に基づいて、クライアントは、次のセグメントのために使用する次の符号化/レートをどれにするかを決定することができる。クライアントは、そのようなモデルを利用して、変化するネットワーク状態に対して適応することができる。(例えば、おそらくは符号化ストリームのレートを含む)符号化ストリームについての情報(例えば、高水準情報)は、マニフェストファイルまたはマルチメディアプレゼンテーション記述(MPD)ファイル内に記憶され得る。ストリーム内の各符号化セグメントについてのオフセットおよびタイミング情報は、セグメントインデックスファイル内に記憶され得る。
符号化メディアセグメント、セグメントインデックス、および/またはメディアプレゼンテーション記述(MPD)ファイルのフォーマットが定義され得る。ストリーム切り換えを可能にし得る共通の属性を有する符号化の組は、適応セットと呼ばれることがある。適応セットの要素は、表現と呼ばれることがある。適応セットは、構成要素としてサブ表現を含むことができる。表現およびサブ表現は、オーディオ、ビデオ、テキストなどの、しかし、それらに限定されない、1または複数のメディアコンテンツ構成要素を含むことができる。
MPEG−DASH適応セット、表現、および/またはサブ表現は、共通の属性を共有することができる。例えば、それらがビデオである場合、それらは、@width、@height、@sar、および/または@framerate属性を有することができる。それらがオーディオである場合、それらは、@audioSamplingRate属性を含むことができる。属性は、@mimeType、および@codecs属性を含むことができる。属性は、必須であることも、または必須でないこともある。表現は、@id、@bandwidth、@qualityRankingなどの、しかし、それらに限定されない、独自の属性を有することができる。
MPEG−DASHストリーミング規格は、例えば、TVセット、コンピュータ、タブレット、およびスマートフォンを含むが、それらに限定されない、再生デバイスに情報を配信するために、汎用的に使用され得る。異なる再生デバイスを使用するときの観視セットアップの特性は、異なり得る。例えば、モバイルデバイスでビデオを見る場合、快適な距離に持たれているとき、それらの小さい画面は、5〜10°の視野角をもたらし得る。ユーザがデバイスを手に持っている場合、そのような距離は、もはや固定されていないことがあり、例えば、それは、ユーザの姿勢およびコンテンツに払う注意とともに変化し得る。図7および図8は、モバイル環境における観視セットアップのパラメータおよび観視距離の分布の例を示す、図およびチャートを示している。
本明細書で説明されるように、表1は、様々なモバイルデバイスを用いた場合の観視環境の例を示している。モバイル観視は、視野角の広い分布をもたらし得るが、フォームファクタが小さいデバイスの場合、それは小さくなり得る(5〜10°)。視覚的コンテンツの有効密度は、視力限界を超えることがある。
視覚の時間的特性が考察され得る。1つの時間的特性は、臨界フリッカー周波数(CFF:Critical Flicker Frequency)であり得る。図27は、視軸からの傾きの関数としてのCFF値のトポグラフィック図の例を示している。これらの測定は、右目について行うことができる。黒い領域は、盲点に対応し得る。図27から、中央(中心窩)領域では、CFFが約55Hzであり得ることが観察され得る。周辺領域では、CFFは、約85Hzであり得る。臨界融合周波数(Critical Fusion Frequency)の偏心(例えば、内側の円は、視軸からの30°のシフトに対応し得る)が、図27に示され得る。これは、(例えば、広角再生の場合とは対照的に)狭角(例えば、5〜10°)再生を用いる場合は、ビデオコンテンツの符号化において、より低いフレームレートが利用され得ることを示唆する。
従来の(例えば、30〜40°角の)観視のために行われるビデオ符号化は、狭い(例えば、5〜10°)視野角再生を用いるモバイルユーザが見る、および/または認識し得るよりも、(例えば、空間的および時間的細部に関して)はるかに多くの情報を配信することができる。
狭い視野角再生に対して配信を最適化するために、コンテンツ発行者は、数々の技法を利用することができる。例えば、コンテンツ生成者は、任意の許容可能な組み合わせで、空間的および/または時間的にビデオをダウンサンプリングすること、空間的または時間的な事前フィルタリング技法を適用すること、(例えば、特定の再生セットアップ向けに調整され得るコスト関数と結合され得る、フレーム/スライスレベルおよびMBレベルのRD決定モードなどの、しかし、それらに限定されない)符号化器レベルの最適化を使用することなどを行うことができる。
ダウンサンプリングは、ツールを使用して実行され得、任意の追加の属性またはシグナリングを必要とすることも、または必要としないこともある。例えば、DASH MPDフォーマットは、@width、@height、および/または@framerate属性を含むことができる。例えば、モバイルデバイスがネイティブで720p解像度をサポートする場合、そのような空間分解能で符号化された、しかし、事前フィルタリングおよび符号レベルの最適化を用いて知覚冗長性が除去された、ビデオデータを送信することが望ましいことがある。
例えば、与えられた固定視野角に対してコンテンツ(例えば、ビデオ)を最適化するために、他の実施も使用され得る。自由度の1つである視野角を除外することによって、各符号化の有効性が改善され得る。
例えば、DASHにおいてそのようなカスタマイズされたストリームの使用を可能にするための、追加の属性が、本明細書で開示され得る。DASH MPDシンタックスにおける属性は、与えられた表現または適応セット内の符号化コンテンツを観視するための意図された(例えば、最適化)視野角を指定する属性とし得る、@viewingAngleを含むことができるが、それに限定されない。@minViewingAngeおよび@maxViewingAngleは、与えられた表現または適応セットによってサポートされる符号化のための観視距離/レンジの範囲を識別する属性とし得る。
DASHは、@cutOffおよび/または@frequencyResponseを含むことができ、それらは、コンテンツが、符号化される前に、与えられたカットオフ周波数パラメータを用いてローパスフィルタリングされたことを示す属性とし得る。@cutOffおよび/または@frequencyResponseパラメータは、空間的事前フィルタリングを用いるカスタマイズを実施するために十分であり得る。@viewingAngle属性は、そのような決定を符号化器/復号器に委ねることができる。@minViewingAngeおよび@maxViewingAngleの導入は、範囲を可能にし得、符号化ストリームの記述において使用され得る。
視野角は、少なくとも、画面の物理的サイズ(例えば、画面幅)および観視者と画面の間の距離の組み合わせによって伝達され得る。例えば、視野角は、
によって伝達され得る。
画面の物理的サイズおよび観視者と画面の間の距離は、観視セットアップの特性を提供し得る。例えば、2D画像/ビデオの再生の場合、視野角が利用され得る。3D画像/ビデオの再生では、少なくともさらに1以上の自由度が存在し得、したがって、画面の物理的サイズおよび観視者と画面の間の距離の伝達が利用され得る。そのような一例が、図28に示されている。
図28は、視野角(α)は同じだが、交角(βおよびβ’)が異なる、2つの環境の例についての図を示している。図28を参照すると、視野角(α)は、両方の環境で同じであり得る。交角(βおよびβ’)は、異なり得る。交角の差は、観視距離と瞳孔間距離(IPD)の間の比が増加するにつれて減少し得る。IPDは、人によって様々であり得る。例えば、成人の典型的なIPDは、約50〜75mm(1.96〜2.95インチ)の間にわたり得る。したがって、3D再生のための観視環境の伝達は、ユーザのIPDを考慮することができる。
図28を参照すると、視野角(α)および交角(β)が利用され得る。これらのパラメータは、画面の物理的サイズ、ユーザの目と画面の間の距離、およびユーザのIPDなどの、しかし、それらに限定されない、属性を含むディスクリプタから導出され得る。ディスクリプタは、サブセットが利用され得る、いくつかのパラメータの任意の組み合わせを列挙するようにも定義され得る。例えば、ディスクリプタは、画面の物理的サイズ、ユーザの目と画面の間の距離、および/または視野角などの、しかし、それらに限定されない、パラメータを用いて定義され得る。パラメータの任意の2つは、第3のものを導出するために利用され得る。
本明細書で開示される観視セットアップのパラメータの任意の組み合わせは、適応セット、表現、および/またはサブ表現の事前定義された属性として、DASH規格のMPDファイル内に含まれ得る。観視セットアップのパラメータの任意の組み合わせは、例えば、DASH MPDファイル内の汎用ディスクリプタを用いて伝達され得る。そのような伝達の一例が、以下に示され得る。
そのような伝達の別の例が、以下に示され得る。
例えば、「schemeIdUri」は、この属性を使用する仕様および/または配備システムの識別子を提供することができる。Behavior属性は、汎用クライアント(例えば、ストリーミングクライアント)がどのようにディスクリプタに反応し得るか(例えば、どれが観視パラメータに関連し得るか)を示すことができる。例えば、ディスクリプタが、必要(例えば、「required」、「essential」など)と指定される場合、このディスクリプタ(例えば、観視パラメータ)を理解し、および/または利用し得るクライアント(例えば、クライアントだけ)が、そのような表現を使用することができる。「behavior」が、任意(例えば、「optional」、「supplemental」など)と指定される場合、クライアントは、ディスクリプタ(例えば、観視パラメータ)を理解しない場合でも、表現を使用することができる。「value」は、このディスクリプタが1または複数の値を含むことを指定することができる。例えば、本明細書で提供される例では、valueは、視野角に関することができる。
例えば、「schemeIdUri」は、この属性を使用する仕様および/または配備システムの識別子を提供することができる。例えば、「behavior」が、「required」と指定される場合、このディスクリプタ(例えば、観視パラメータ)を理解し、および/または利用し得るクライアント(例えば、クライアントだけ)が、表現を使用することができる。「behavior」が、「optional」と指定される場合、クライアントは、ディスクリプタ(例えば、観視パラメータ)を理解しない場合でも、表現を使用することができ、または使用できない。「value」は、このディスクリプタが1または複数の値を含むことを指定することができる。例えば、本明細書で提供される例では、valueは、視野角に関することができる。
ディスクリプタは、適応セットレベルで定義することができる。ディスクリプタは、表現および/またはサブ表現レベルで定義することができる。「urn:sdo:dash−extl:viewing−angle」、「urn:sdo:dash−extl:min−viewing−angle」、および「urn:sdo:dash−extl:max−viewing−angle」などの、しかし、それらに限定されない、URIは、視野角の最小値、最大値、および/または望ましい値を識別するために使用され得る。同様のURIが、例えば、ディスプレイサイズおよび観視距離パラメータの組み合わせなどの、しかし、それに限定されない、そのような情報を伝達する代替方法のために定義され得る。
例えば、DASHストリームクライアントにおいて、視覚的属性を使用するいくつかの方法が存在し得る。例えば、中央値観視距離および/または1もしくは複数の視野角パラメータが利用され得る。例えば、DASHストリーミングアプリケーションは、OS供給のAPIを使用して、それが動作しているデバイスの物理的パラメータを獲得することができる。そのようなパラメータは、(例えば、ネットワーク接続のタイプから推測され得る)デバイスのモビリティ、画面のネイティブ解像度、画面または画面対角線のピクセルの密度、表示がウィンドウ内で行われ得るかどうか(例えば、ウィンドウのサイズおよびその位置)などを含むことができるが、それらに限定されない。
デバイス上で動作するDASHクライアントは、そのサイズも推測することができる。例えば、デバイスがモバイルであり、5インチまたはより小型の画面を有する場合、DASHクライアントは、デバイスがハンドヘルドデバイスであると推測することができる。DASHクライアントは、中央値観視距離特性を選択することができる(例えば、図26を参照)。クライアントは、視野角を推定することができる。推定値を使用して、クライアントは、例えば、@viewingAngle(および/または@minViewingAnge、@maxViewingAngle、もしくは@cutOff、もしくは@frequencyResponse)値を可能な目標として利用する、適応セットおよび表現を選択することができる。
動的に推定される観視距離および/または視野角パラメータが使用され得る。コンテンツ発行者/配信者は、インテリジェントなモバイルストリーミングクライアントアプリケーションを配備することができる。アプリケーションは、センサを使用して、ユーザとデバイスとの間の距離を推定することができる。アプリケーションは、ユーザがコンテンツを見ている(例えば、ビデオを見ている)ときに存在し得る視野角を決定することができる。
図29は、ユーザの挙動および観視条件に対して適応する例示的なストリーミングシステムの図を示している。クライアントは、(例えば、本明細書で説明された視覚的特性の1または複数を含み得る)そのセットアップに対して最良の適合を達成するストリームを採用することができる。例えば、ユーザの挙動および観視条件、ならびに1または複数の事前に符号化されたストリームに基づいて、クライアントは、異なる視野角に対してコンテンツの配信を最適化することができる。
MPEG−DASH規格は、HTTPベースの適応ストリーミングシステムを設計するためのフレームワークを提供することができる。それは、コンテンツプロパティを説明するための1組の属性を提供して、ストリーミングクライアントが、表現の選択およびコンテンツの表示についての決定を知らされることを可能にすることができる。例えば、DASHにおける符号化ビデオは、@codec−使用されるコーデックタイプ、プロファイル、およびレベル、@bandwidth−セグメントを符号化するために使用される目標レート、@width、@height、@sar、@framerate−ビデオ解像度、アスペクトレート、フレームレート、ならびに@qualityRanking−適応セット内の他の符号化と比較した品質ランクのうちの1または複数によって記述され得る。
1または複数の属性を使用して、DASHクライアントは、特定のデバイスの表示能力に最も良く適合するコーデックおよびビデオ特性を有する、適応セットおよび/または表現を決定することができる。利用可能なネットワーク帯域幅への調整は、@bandwidth属性を検査すること、および/または異なるレートで符号化されたストリーム間で切り換えを行うことによって達成され得る。
観視位置は、例えば、映画館およびリビングルームなど、しかし、それらに限定されない、観視環境において、画面の広い(例えば、25〜40°)視野を達成するために選択され得る。例えば、THXは、映画再生に最適な視野角として36°を提案する。同様に、SMPTE EG−18−1994は、少なくとも30°の広さの視野角を提案する。ユーザがモバイルデバイス(例えば、スマートフォンまたはタブレット)でビデオを見ている場合、視野角は、提案されるそれらよりも小さく(例えば、5〜20°)することができる。その理由は、モバイルデバイスの制限された物理的寸法、および/またはモバイルデバイスの画面からユーザまでの距離にあり得る。
モバイル観視セットアップのパラメータの例が、図15に示されている。これらのパラメータは、例えば、以下に従って相互に関連し得る。
表1が以下に再掲されている。表1は、いくつかの可能な観視環境のパラメータの例を提供する。表1では、静止観視セットアップの特性が、モバイルデバイスの例を使用して、可能な環境において比較され得る。
両方の画面の向きに対する視野角が計算され得る。画面上の情報についての結果の空間密度が計算され得る。例えば、空間密度は、
によって表され得る。
例えば、表1に示されるように、モバイル環境における視野角は、小さくすることができる(例えば、フォームファクタが小さいデバイスの場合、5〜10°)。これは、TVを見ているユーザによって経験される視野角よりも3〜6倍小さいことがある。結果の空間密度は、視力限界と呼ばれることがある、1/60度に相当する視野角限界を超える。そのような場合の例が、表1に示され得る。場合によっては、密度は、視力限界の2倍を超え得る。
広角視野のために準備されたビデオ内の精細な空間的細部は、モバイル画面上で見えることもあり、または見えないこともある。いくつかまたはすべての空間周波数の可視性は、スケール/角度のシフトによって影響され得る。狭い視野角は、より高い時間的感度を有し得る視覚の周辺領域を排除することができ、潜在的に、広角再生のために通常利用されるよりも低いレートでビデオを表示することが可能になる。
ストリーミングは、異なるデバイスおよび/または再生環境に合せて最適化され得る。例えば、静止(例えば、広角)再生を仮定するビデオの符号化は、小型のモバイルデバイスに配信するために使用される場合、効率的でないことがある。例えば、狭い視野角セットアップを使用して再生が行われ得ることが分かっている場合、同じユーザエクスペリエンスを達成するために、はるかに僅かなビットが利用され得る。
1または複数のコーデックレベルおよび/または事前処理ツールが、狭い視野角セットアップを用いるデバイスのためのコンテンツ(例えば、ビデオ)を符号化および/または処理するために利用され得る。ツールは、符号化前の空間的および/または時間的なビデオのダウンサンプリング、空間的および/または時間的な事前フィルタリング(例えば、符号化前のローパスフィルタリング)、コーデックレベルツール(例えば、量子化、R/D決定ツールなど)の使用などを含むが、それらに限定されない。
本明細書で説明される実施は、多くのデバイスで使用され得る符号化ストリームおよび/またはMPDファイルの生成、必要とされるより僅かな符号化および/またはMPDファイル、異なる再生環境のために符号化されるストリーム(例えば、ビットレートおよび/または解像度は同じだが、アピアランス(appearance)が異なるストリーム)の一意的な識別、ならびに(例えば、クライアントが、再生環境およびデバイスに従って、適切な表現を選択することを可能にする)DASHクライアントにおける適応ロジックのうちの1または複数を可能にする属性を提供することができる。例えば、本明細書で説明される実施に従って符号化コンテンツを見るために意図された視野角を記述する1または複数の属性が追加され得る。
本明細書で説明される実施に従って、例えば、表2、表3、および表4に示されるように、以下のうちの1または複数が追加され得る。
符号化は、デバイス特性(例えば、デバイスの観視特性)に基づいて最適化され得る。例えば、適応セットおよび/または表現の存在下では、@viewingAngleパラメータのいくつかの異なる値の中で、クライアント(例えば、DASHクライアント)は、どの値を使用すべきかに関して決定を行うことができる。例えば、クライアントアプリケーションは、それが(例えば、OS供給のAPIを使用して)動作しているデバイスの特性を獲得することができる。そのような特性は、(例えば、ネットワーク接続のタイプから推測され得る)デバイスのモビリティ、表示用に使用され得る画面および/または画面の領域の解像度、画面および/または画面対角線のピクセルの密度などを含むことができるが、それらに限定されない。クライアントは、例えば、デバイスのモビリティタイプおよび画面のサイズに基づいて、デバイスを(例えば、スマートフォン、タブレット、固定デバイスとして)分類することができる。クライアントは、使用され得る観視距離および/または視野角を選択することができる。例えば、スマートフォンの場合、知られた統計に基づいた観視距離の中間値が使用され得る。同様のデータが、他のタイプのデバイスについても存在し得る。クライアントは、例えば、観視距離および/もしくは視野角の推定値を使用して、ならびに/または表現および/もしくは適応セットの@viewingAngle属性の宣言値を使用して、使用すべき適応セットおよび/または表現を選択することができる。例えば、プレーヤ(例えば、DASHプレーヤ)は、特定のデバイスにおける最良の観視のために採用されるストリームの選択を達成することができる。コンテンツおよび/またはMPDファイルのカスタム(例えば、デバイス別の)オーサリング(authoring)は、不要にすることができる。
符号化は、動的に推定される観視距離および/または視野角パラメータに基づいて最適化され得る。適応セットおよび/または表現の存在下では、@viewingAngleパラメータのいくつかの異なる値の中で、DASHクライアントは、以下のロジックを使用することによって、どの値を使用すべきかについて決定を行うことができ、すなわち、DASHクライアントアプリケーションは、デバイスセンサ(例えば、ユーザ近接センサ、IR、および/または前向きカメラ)を使用して、ユーザの存在を検出することができ、ユーザが存在する場合は、画面までのユーザの距離を検出することができ、獲得された距離および画面の特性を使用して、DASHクライアントは、視野角を計算することができ、視野角ならびに表現および/または適応セットの@viewingAngle属性の宣言値を使用して、クライアントは、その後、使用するのに最も適切な適応セットおよび/または表現を選択することができる。DASHクライアントにおけるこのロジックの例示的な図説が、図29に提供されている。図29に示されるシステムでは、ユーザが存在しない、および/または画面に注意を払っていない場合、クライアントは、インテリジェントな決定を行うこともできる。そのような決定は、ビデオ品質および/もしくはレートを引き下げること、ならびに/または再生を停止することを含むことができるが、それらに限定されない。
本明細書で説明されるように、実施は、マルチメディアコンテンツの観視条件適応に関連する方法およびシステムを提供することができる。例えば、マルチメディアコンテンツ(例えば、ビデオ)は、デバイス(例えば、モバイルデバイス、パーソナルコンピュータ、ビデオ会議デバイスなど)によって、ネットワーク(例えば、ストリーミングサーバ、HTTPサーバなどの、しかし、それらに限定されない、ネットワークノード)から受信され得る。ユーザ、デバイス、および/またはコンテンツに関連する観視パラメータ(例えば、複数の観視パラメータ)が、例えば、デバイスによって決定され得る。観視パラメータは、ユーザ観視パラメータ、デバイス観視パラメータ、またはコンテンツ観視パラメータのうちの少なくとも1つを含むことができる。観視パラメータは、複数の観視パラメータを含むことができる。
本明細書で説明されるように、ユーザ観視パラメータは、ユーザの存在、デバイスの画面に対するユーザの位置、デバイスの画面に対するユーザの向き、デバイスの画面に対するユーザの視野角、デバイスの画面からのユーザの距離、ユーザの視力、周囲の照明条件(例えば、周辺光の強度)、デバイスの画面を観視するユーザの人数、またはユーザの注視点のうちの少なくとも1つを含むことができる。
本明細書で説明されるように、デバイス観視パラメータは、デバイスのモビリティ、デバイスの画面のサイズ、デバイスの画面の解像度、デバイスの画面のピクセル密度、デバイスの画面のコントラスト、デバイスの画面の明るさ、デバイス上のマルチメディアコンテンツを表示するウィンドウのサイズ、またはデバイス上のマルチメディアコンテンツを表示するウィンドウの位置のうちの少なくとも1つを含むことができる。本明細書で説明されるように、コンテンツ観視パラメータは、マルチメディアコンテンツのコントラスト、マルチメディアコンテンツの色域、3次元のマルチメディアコンテンツの存在、またはマルチメディアコンテンツの3次元コンテンツの深度の範囲のうちの少なくとも1つを含むことができる。
観視パラメータは、デバイス(例えば、デバイスのプロセッサ、デバイス上のDASHクライアント、デバイス上に存在するソフトウェアなど)によって実行され得る。観視パラメータは、デバイスの画面のサイズ、デバイスの画面の解像度、デバイスの画面の角度、デバイスの画面のピクセル密度、デバイスの画面のコントラスト比、ユーザ近接センサ、前向きカメラ、後向きカメラ、光センサ、赤外線撮像デバイス、超音波センサ、マイクロフォン、加速度計、コンパス、またはジャイロスコープセンサのうちの少なくとも1つを使用して決定され得る。例えば、デバイスのセンサ(例えば、ユーザ近接センサ、前向きカメラ、後向きカメラ、光センサ、赤外線撮像デバイス、超音波センサ、マイクロフォン、加速度計、コンパス、またはジャイロスコープセンサ)が、観視パラメータを決定するために使用され得、または観視パラメータを決定するために利用される情報を決定するために使用され得る。
マルチメディアコンテンツを求める要求が、デバイスによってネットワークに送信され得る。要求は、観視パラメータに基づくことができる。例えば、要求は、観視パラメータに関する情報を含むことができる。要求は、ネットワークによって受信され、処理され得る。ネットワークは、(例えば、要求に基づいて)マルチメディアコンテンツのためのレートを決定することができる。例えば、ネットワークは、観視パラメータに基づいて、マルチメディアコンテンツのためのレートを決定することができる。例えば、レートは、観視パラメータに関連付けられ得る。マルチメディアコンテンツは、デバイスによってネットワークから受信され得る。ネットワークから受信されたマルチメディアコンテンツは、観視パラメータに従ったレートで処理され得る。マルチメディアコンテンツは、デバイスの画面上に表示され得る。
マルチメディアコンテンツは、複数の異なるレートで処理され得る。例えば、各レートは、マルチメディアコンテンツの符号化レート、マルチメディアコンテンツの空間分解能、マルチメディアコンテンツの時間分解能、量子化パラメータ、レート制御パラメータ、マルチメディアコンテンツの目標ビットレート、マルチメディアコンテンツの空間フィルタリング、またはマルチメディアコンテンツの時間フィルタリングのうちの少なくとも1つの関数とすることができる。各レートは、少なくとも1つの観視パラメータに関連付けられ得る。したがって、マルチメディアコンテンツは、異なるレートを介して、観視パラメータに合せてカスタマイズされ得る。例えば、マルチメディアコンテンツは、ユーザのエクスペリエンスに従ってカスタマイズされ得る。
観視パラメータは、動的に変化し得る。デバイスに提供されるマルチメディアコンテンツのレートは、例えば、動的に変化する観視パラメータに従って、動的に変更され得る。例えば、マルチメディアコンテンツのレートは、マルチメディアコンテンツの所定の量ごとに(例えば、1つのセグメントから次のセグメントまで)、所定の期間ごとなどに変化し得る。例えば、第1のレートで処理されたマルチメディアコンテンツの第1のセグメントが、ネットワークから受信され得る。第1のレートは、観視パラメータに基づいてもよく、または基づかなくてもよい。観視パラメータ(例えば、以降の観視パラメータまたは変更された観視パラメータ)が、決定され得、マルチメディアコンテンツの第2のセグメントを求める要求が、ネットワークに送信され得る。観視パラメータ(例えば、以降の観視パラメータまたは変更された観視パラメータ)に従って第2のレートで処理されたマルチメディアコンテンツの第2のセグメントが、ネットワークから受信され得る。マルチメディアコンテンツの後続のセグメントの処理レートは、変化することもあり、または例えば、マルチメディアコンテンツ全体がデバイスに配信されるまで、もしくは接続がキャンセルされるまで、変化しないこともある。
ネットワークに送信された要求は、デバイスによって受信されるマルチメディアコンテンツのレートを決定し得る。例えば、要求は、デバイスによって要求されたマルチメディアコンテンツの特定のレートを含むことができる。ネットワークは、要求に従って、デバイスによって受信されるマルチメディアコンテンツのレートを決定することができる。例えば、要求は、例えば、観視パラメータを含み得る、マニフェストファイル(例えば、マルチメディアプレゼンテーション記述(MPD)ファイル)、SEIメッセージ、または他のメッセージングとすることができる。ネットワークは、観視パラメータを利用して、マルチメディアコンテンツのレートを選択することができる。
マニフェストファイル(例えば、マルチメディアプレゼンテーション記述(MPD)ファイル)、SEIメッセージ、または他のメッセージングは、デバイスによってネットワークから受信され得る。マニフェストファイル(例えば、MPDファイル)、SEIメッセージ、または他のメッセージングは、マルチメディアコンテンツのレート(例えば、すべての利用可能なレート)に関する情報を含むことができる。レートに関する情報は、観視パラメータに関連付けられたディスクリプタを含むことができる。マニフェストファイル(例えば、MPDファイル)、SEIメッセージ、または他のメッセージングは、ディスクリプタが必須か、それとも任意かを示すことができる。必須のディスクリプタは、当該レートで処理されたマルチメディアコンテンツを受信するために、デバイスがディスクリプタの要件を満たさなければならないことを示すことができる。例えば、必須のディスクリプタが、「少なくとも36°の視野角」という観視パラメータを指定する場合、少なくとも36°の計算された視野角を有する(例えば、ディスクリプタを満たす)デバイス(例えば、デバイスのみ)が、そのレートで処理されたマルチメディアコンテンツを受信することができる。任意のディスクリプタは、当該レートで処理されたマルチメディアコンテンツを受信するために、デバイスがディスクリプタの要件を満たすことがあるが、ディスクリプタの要件を満たす必要はないことを示すことができる。
本明細書で説明される実施は、ビデオ会議のために利用され得る。例えば、第1のデバイス(例えば、第1のビデオ会議デバイス)は、例えば、本明細書で説明されるように(例えば、SEIメッセージ、要求、シグナリングを介して、いかなるシグナリングも用いずになど)第2のデバイス(例えば、第2のビデオ会議デバイス)の観視パラメータ(例えば、複数の観視パラメータ)を決定することができる。観視パラメータに適したビデオ符号化の特性が、第1のビデオ会議デバイスによって決定され得る。ビデオ符号化の特性は、例えば、本明細書で説明されるように、ビデオコンテンツが処理されるレートを含むことができる。ビデオ符号化の決定された特性に従って符号化されたビデオコンテンツは、第1のビデオ会議デバイスから第2のビデオ会議デバイスに送信され得る。ビデオ会議について本明細書で説明される実施は、任意の数の接続されたビデオ会議デバイスのために/によって利用され得る。
図30Aは、1または複数の開示される実施形態を実施できる例示的な通信システム100の図である。通信システム100は、音声、データ、ビデオ、メッセージング、放送などのコンテンツを複数の無線ユーザに提供する、多元接続システムとすることができる。通信システム100は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共用を通して、そのようなコンテンツにアクセスすることを可能にすることができる。例えば、通信システム100は、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、周波数分割多元接続(FDMA)、直交FDMA(OFDMA)、およびシングルキャリアFDMA(SC−FDMA)など、1または複数のチャネルアクセス方法を利用することができる。
図30Aに示されるように、通信システム100は、(一般にまたは一括してWTRU102と呼ばれることがある)無線送受信ユニット(WTRU)102a、102b、102c、および/または102d、無線アクセスネットワーク(RAN)103/104/105、コアネットワーク106/107/109、公衆交換電話網(PSTN)108、インターネット110、ならびに他のネットワーク112を含むことができるが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、および/またはネットワーク要素を企図していることが理解されよう。WTRU102a、102b、102c、102dの各々は、無線環境において動作および/または通信するように構成された任意のタイプのデバイスとすることができる。例を挙げると、WTRU102a、102b、102c、102dは、無線信号を送信および/または受信するように構成することができ、ユーザ機器(UE)、移動局、固定もしくは移動加入者ユニット、ページャ、セルラ電話、携帯情報端末(PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、家電製品などを含むことができる。
通信システム100は、基地局114aおよび基地局114bも含むことができる。基地局114a、114bの各々は、コアネットワーク106/107/109、インターネット110、および/またはネットワーク112などの1または複数の通信ネットワークへのアクセスを円滑化するために、WTRU102a、102b、102c、102dの少なくとも1つと無線でインターフェースを取るように構成された、任意のタイプのデバイスとすることができる。例を挙げると、基地局114a、114bは、基地トランシーバ局(BTS)、ノードB、eノードB、ホームノードB、ホームeノードB、サイトコントローラ、アクセスポイント(AP)、および無線ルータなどとすることができる。基地局114a、114bは各々、単一の要素として示されているが、基地局114a、114bは、任意の数の相互接続された基地局および/またはネットワーク要素を含むことができることが理解されよう。
基地局114aは、RAN103/104/105の部分とすることができ、RAN103/104/105は、他の基地局、および/または基地局コントローラ(BSC)、無線ネットワークコントローラ(RNC)、中継ノードなどのネットワーク要素(図示されず)も含むことができる。基地局114aおよび/または基地局114bは、セル(図示されず)と呼ばれることがある特定の地理的領域内で、無線信号を送信および/または受信するように構成することができる。セルは、さらにセルセクタに分割することができる。例えば、基地局114aに関連付けられたセルは、3つのセクタに分割することができる。したがって、一実施形態では、基地局114aは、送受信機を3つ、すなわち、セルのセクタごとに1つずつ含むことができる。別の実施形態では、基地局114aは、多入力多出力(MIMO)技術を利用することができ、したがって、セルのセクタごとに複数の送受信機を利用することができる。
基地局114a、114bは、エアインターフェース115/116/117を介して、WTRU102a、102b、102c、102dの1または複数と通信することができ、エアインターフェース115/116/117は、任意の適切な無線通信リンク(例えば、無線周波(RF)、マイクロ波、赤外線(IR)、紫外線(UV)、可視光など)とすることができる。エアインターフェース115/116/117は、任意の適切な無線アクセス技術(RAT)を使用して確立することができる。
より具体的には、上で言及したように、通信システム100は、多元接続システムとすることができ、CDMA、TDMA、FDMA、OFDMA、およびSC−FDMAなどの、1または複数のチャネルアクセス方式を利用することができる。例えば、RAN103/104/105内の基地局114a、およびWTRU102a、102b、102cは、広帯域CDMA(WCDMA)を使用してエアインターフェース115/116/117を確立できる、ユニバーサル移動体通信システム(UMTS)地上無線アクセス(UTRA)などの無線技術を実施することができる。WCDMAは、高速パケットアクセス(HSPA)および/または進化型HSPA(HSPA+)などの通信プロトコルを含むことができる。HSPAは、高速ダウンリンクパケットアクセス(HSDPA)および/または高速アップリンクパケットアクセス(HSUPA)を含むことができる。
別の実施形態では、基地局114a、およびWTRU102a、102b、102cは、ロングタームエボリューション(LTE)および/またはLTEアドバンスト(LTE−A)を使用してエアインターフェース115/116/117を確立できる、進化型UMTS地上無線アクセス(E−UTRA)などの無線技術を実施することができる。
他の実施形態では、基地局114a、およびWTRU102a、102b、102cは、IEEE802.16(すなわち、マイクロ波アクセス用の世界的相互運用性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV−DO、暫定標準2000(IS−2000)、暫定標準95(IS−95)、暫定標準856(IS−856)、移動体通信用グローバルシステム(GSM)、GSMエボリューション用の高速データレート(EDGE)、およびGSM EDGE(GERAN)などの無線技術を実施することができる。
図30Aの基地局114bは、例えば、無線ルータ、ホームノードB、ホームeノードB、またはアクセスポイントとすることができ、職場、家庭、乗物、およびキャンパスなどの局所的エリアにおける無線接続性を円滑化するために、任意の適切なRATを利用することができる。一実施形態では、基地局114b、およびWTRU102c、102dは、IEEE802.11などの無線技術を実施して、無線ローカルエリアネットワーク(WLAN)を確立することができる。別の実施形態では、基地局114b、およびWTRU102c、102dは、IEEE802.15などの無線技術を実施して、無線パーソナルエリアネットワーク(WPAN)を確立することができる。また別の実施形態では、基地局114b、およびWTRU102c、102dは、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE−Aなど)を利用して、ピコセルまたはフェムトセルを確立することができる。図30Aに示されるように、基地局114bは、インターネット110への直接的な接続を有することがある。したがって、基地局114bは、コアネットワーク106/107/109を介して、インターネット110にアクセスする必要がないことがある。
RAN103/104/105は、コアネットワーク106/107/109と通信することができ、コアネットワーク106/107/109は、音声、データ、アプリケーション、および/またはボイスオーバインターネットプロトコル(VoIP)サービスをWTRU102a、102b、102c、102dの1または複数に提供するように構成された、任意のタイプのネットワークとすることができる。例えば、コアネットワーク106/107/109は、呼制御、請求サービス、モバイルロケーションベースのサービス、プリペイド通話、インターネット接続性、ビデオ配信などを提供することができ、および/またはユーザ認証など、高レベルのセキュリティ機能を実行することができる。図30Aには示されていないが、RAN103/104/105および/またはコアネットワーク106/107/109は、RAN103/104/105と同じRATまたは異なるRATを利用する他のRANと直接的または間接的に通信できることが理解されよう。例えば、E−UTRA無線技術を利用できるRAN103/104/105に接続するのに加えて、コアネットワーク106/107/109は、GSM無線技術を利用する別のRAN(図示されず)と通信することもできる。
コアネットワーク106/107/109は、PSTN108、インターネット110、および/または他のネットワーク112にアクセスするための、WTRU102a、102b、102c、102dのためのゲートウェイとしてサービスすることもできる。PSTN108は、基本電話サービス(POTS)を提供する回線交換電話網を含むことができる。インターネット110は、TCP/IPインターネットプロトコルスイート内の伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、およびインターネットプロトコル(IP)など、共通の通信プロトコルを使用する、相互接続されたコンピュータネットワークとデバイスとからなるグローバルシステムを含むことができる。ネットワーク112は、他のサービスプロバイダによって所有および/または運営される有線または無線通信ネットワークを含むことができる。例えば、ネットワーク112は、RAN103/104/105と同じRATまたは異なるRATを利用できる1または複数のRANに接続された、別のコアネットワークを含むことができる。
通信システム100内のWTRU102a、102b、102c、102dのいくつかまたはすべては、マルチモード機能を含むことができ、すなわち、WTRU102a、102b、102c、102dは、異なる無線リンクを介して異なる無線ネットワークと通信するための複数の送受信機を含むことができる。例えば、図30Aに示されたWTRU102cは、セルラベースの無線技術を利用できる基地局114aと通信するように、またIEEE802無線技術を利用できる基地局114bと通信するように構成することができる。
図30Bは、例示的なWTRU102のシステム図である。図30Bに示されるように、WTRU102は、プロセッサ118と、送受信機120と、送信/受信要素122と、スピーカ/マイクロフォン124と、キーパッド126と、ディスプレイ/タッチパッド128と、着脱不能メモリ130と、着脱可能メモリ132と、電源134と、全地球測位システム(GPS)チップセット136と、他の周辺機器138とを含むことができる。WTRU102は、一実施形態との整合性を保ちながら、上記の要素の任意のサブコンビネーションを含むことができることが理解されよう。また、実施形態は、基地局114a、114b、ならびに/またはとりわけ、送受信機局(BTS)、ノードB、サイトコントローラ、アクセスポイント(AP)、ホームノードB、進化型ホームノードB(eNodeB)、ホーム進化型ノードB(HeNB)、ホーム進化型ノードBゲートウェイ、およびプロキシノードなどの、しかし、それらに限定されない、基地局114a、114bが表し得るノードが、図30Bに示され、本明細書で説明される要素のいくつかまたはすべてを含むことができることを企図している。
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアと連携する1または複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、他の任意のタイプの集積回路(IC)、および状態機械などとすることができる。プロセッサ118は、信号符号化、データ処理、電力制御、入出力処理、および/またはWTRU102が無線環境で動作することを可能にする他の任意の機能を実行することができる。プロセッサ118は、送受信機120に結合することができ、送受信機120は、送信/受信要素122に結合することができる。図30Bは、プロセッサ118と送受信機120を別々のコンポーネントとして示しているが、プロセッサ118と送受信機120は、電子パッケージまたはチップ内に一緒に統合できることが理解されよう。
送信/受信要素122は、エアインターフェース115/116/117を介して、基地局(例えば、基地局114a)に信号を送信し、または基地局から信号を受信するように構成することができる。例えば、一実施形態では、送信/受信要素122は、RF信号を送信および/または受信するように構成されたアンテナとすることができる。別の実施形態では、送信/受信要素122は、例えば、IR、UV、または可視光信号を送信および/または受信するように構成された放射器/検出器とすることができる。また別の実施形態では、送信/受信要素122は、RF信号と光信号の両方を送信および受信するように構成することができる。送信/受信要素122は、無線信号の任意の組み合わせを送信および/または受信するように構成できることが理解されよう。
加えて、図30Bでは、送信/受信要素122は単一の要素として示されているが、WTRU102は、任意の数の送信/受信要素122を含むことができる。より具体的には、WTRU102は、MIMO技術を利用することができる。したがって、一実施形態では、WTRU102は、エアインターフェース115/116/117を介して無線信号を送信および受信するための2つ以上の送信/受信要素122(例えば、複数のアンテナ)を含むことができる。
送受信機120は、送信/受信要素122によって送信される信号を変調し、送信/受信要素122によって受信された信号を復調するように構成することができる。上で言及したように、WTRU102は、マルチモード機能を有することができる。したがって、送受信機120は、WTRU102が、例えば、UTRAおよびIEEE802.11などの複数のRATを介して通信することを可能にするための、複数の送受信機を含むことができる。
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128(例えば、液晶表示(LCD)ディスプレイユニットもしくは有機発光ダイオード(OLED)ディスプレイユニット)に結合することができ、それらからユーザ入力データを受け取ることができる。プロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128にユーザデータを出力することもできる。加えて、プロセッサ118は、着脱不能メモリ130および/または着脱可能メモリ132など、任意のタイプの適切なメモリから情報を入手することができ、それらにデータを記憶することができる。着脱不能メモリ130は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、ハードディスク、または他の任意のタイプのメモリ記憶デバイスを含むことができる。着脱可能メモリ132は、加入者識別モジュール(SIM)カード、メモリスティック、およびセキュアデジタル(SD)メモリカードなどを含むことができる。他の実施形態では、プロセッサ118は、WTRU102上に物理的に配置されたメモリではなく、サーバまたはホームコンピュータ(図示されず)などの上に配置されたメモリから情報を入手することができ、それらにデータを記憶することができる。
プロセッサ118は、電源134から電力を受け取ることができ、WTRU102内の他のコンポーネントへの電力の分配および/または制御を行うように構成することができる。電源134は、WTRU102に給電するための任意の適切なデバイスとすることができる。例えば、電源134は、1または複数の乾電池(例えば、ニッケル−カドミウム(NiCd)、ニッケル−亜鉛(NiZn)、ニッケル水素(NiMH)、リチウムイオン(Li−ion)など)、太陽電池、および燃料電池などを含むことができる。
プロセッサ118は、GPSチップセット136に結合することもでき、GPSチップセット136は、WTRU102の現在位置に関する位置情報(例えば、経度および緯度)を提供するように構成することができる。GPSチップセット136からの情報に加えて、またはその代わりに、WTRU102は、基地局(例えば、基地局114a、114b)からエアインターフェース115/116/117を介して位置情報を受け取ることができ、および/または2つ以上の近くの基地局から受信した信号のタイミングに基づいて、自らの位置を決定することができる。WTRU102は、一実施形態との整合性を保ちながら、任意の適切な位置決定方法を用いて、位置情報を獲得できることが理解されよう。
プロセッサ118は、他の周辺機器138にさらに結合することができ、他の周辺機器138は、追加的な特徴、機能、および/または有線もしくは無線接続性を提供する、1または複数のソフトウェアモジュールおよび/またはハードウェアモジュールを含むことができる。例えば、周辺機器138は、加速度計、eコンパス、衛星送受信機、(写真またはビデオ用の)デジタルカメラ、ユニバーサルシリアルバス(USB)ポート、バイブレーションデバイス、テレビ送受信機、ハンズフリーヘッドセット、Bluetooth(登録商標)モジュール、周波数変調(FM)ラジオユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、およびインターネットブラウザなどを含むことができる。
図30Cは、一実施形態による、RAN103およびコアネットワーク106のシステム図である。上で言及したように、RAN103は、UTRA無線技術を利用して、エアインターフェース115を介してWTRU102a、102b、102cと通信することができる。RAN103は、コアネットワーク106とも通信することができる。図30Cに示されるように、RAN103は、ノードB140a、140b、140cを含むことができ、ノードB140a、140b、140cは各々、エアインターフェース115を介してWTRU102a、102b、102cと通信するための1または複数の送受信機を含むことができる。ノードB140a、140b、140cは各々、RAN103内の特定のセル(図示されず)に関連付けることができる。RAN103は、RNC142a、142bも含むことができる。RAN103は、一実施形態との整合性を保ちながら、任意の数のノードBおよびRNCを含むことができることが理解されよう。
図30Cに示されるように、ノードB140a、140bは、RNC142aと通信することができる。加えて、ノードB140cは、RNC142bと通信することができる。ノードB140a、140b、140cは、Iubインターフェースを介して、それぞれのRNC142a、142bと通信することができる。RNC142a、142bは、Iurインターフェースを介して、互いに通信することができる。RNC142a、142bの各々は、それが接続されたそれぞれのノードB140a、140b、140cを制御するように構成することができる。加えて、RNC142a、142bの各々は、アウタループ電力制御、負荷制御、アドミッションコントロール、パケットスケジューリング、ハンドオーバ制御、マクロダイバーシティ、セキュリティ機能、およびデータ暗号化など、他の機能を実施またはサポートするように構成することができる。
図30Cに示されるコアネットワーク106は、メディアゲートウェイ(MGW)144、モバイル交換センタ(MSC)146、サービングGPRSサポートノード(SGSN)148、および/またはゲートウェイGPRSサポートノード(GGSN)150を含むことができる。上記の要素の各々は、コアネットワーク106の部分として示されているが、これらの要素は、どの1つをとっても、コアネットワーク運営体とは異なる主体によって所有および/または運営できることが理解されよう。
RAN103内のRNC142aは、IuCSインターフェースを介して、コアネットワーク106内のMSC146に接続することができる。MSC146は、MGW144に接続することができる。MSC146とMGW144は、PSTN108などの回線交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cと従来の固定電話通信デバイスの間の通信を円滑化することができる。
RAN103内のRNC142aは、IuPSインターフェースを介して、コアネットワーク106内のSGSN148にも接続することができる。SGSN148は、GGSN150に接続することができる。SGSN148とGGSN150は、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cとIP対応デバイスの間の通信を円滑化することができる。
上で言及したように、コアネットワーク106は、ネットワーク112にも接続することができ、ネットワーク112は、他のサービスプロバイダによって所有および/または運営される他の有線または無線ネットワークを含むことができる。
図30Dは、一実施形態による、RAN104およびコアネットワーク107のシステム図である。上で言及したように、RAN104は、エアインターフェース116を介してWTRU102a、102b、102cと通信するために、E−UTRA無線技術を利用することができる。RAN104は、コアネットワーク107と通信することもできる。
RAN104は、eノードB160a、160b、160cを含むことができるが、RAN104は、一実施形態との整合性を保ちながら、任意の数のeノードBを含むことができることが理解されよう。eノードB160a、160b、160cは、各々が、エアインターフェース116を介してWTRU102a、102b、102cと通信するための1または複数の送受信機を含むことができる。一実施形態では、eノードB160a、160b、160cは、MIMO技術を実施することができる。したがって、eノードB160aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、WTRU102aから無線信号を受信することができる。
eノードB160a、160b、160cの各々は、特定のセル(図示されず)に関連付けることができ、無線リソース管理決定、ハンドオーバ決定、ならびにアップリンクおよび/またはダウンリンクにおけるユーザのスケジューリングなどを処理するように構成することができる。図30Dに示されるように、eノードB160a、160b、160cは、X2インターフェースを介して互いに通信することができる。
図30Dに示されるコアネットワーク107は、モビリティ管理ゲートウェイ(MME)162、サービングゲートウェイ164、およびパケットデータネットワーク(PDN)ゲートウェイ166を含むことができる。上記の要素の各々は、コアネットワーク107の部分として示されているが、これらの要素は、どの1つをとっても、コアネットワーク運営体とは異なる主体によって所有および/または運営できることが理解されよう。
MME162は、S1インターフェースを介して、RAN104内のeノードB160a、160b、160cの各々に接続することができ、制御ノードとしての役割を果たすことができる。例えば、MME162は、WTRU102a、102b、102cのユーザの認証、ベアラアクティブ化/非アクティブ化、WTRU102a、102b、102cの初期接続中における特定のサービングゲートウェイの選択などを担うことができる。MME162は、RAN104とGSMまたはWCDMAなどの他の無線技術を利用する他のRAN(図示されず)との間の交換のためのコントロールプレーン機能を提供することもできる。
サービングゲートウェイ164は、S1インターフェースを介して、RAN104内のeノードB160a、160b、160cの各々に接続することができる。サービングゲートウェイ164は、一般に、ユーザデータパケットのWTRU102a、102b、102cへの/からの経路選択および転送を行うことができる。サービングゲートウェイ164は、eノードB間ハンドオーバ中におけるユーザプレーンのアンカリング(anchoring)、ダウンリンクデータがWTRU102a、102b、102cに利用可能な場合に行う一斉呼出のトリガ、ならびにWTRU102a、102b、102cのコンテキストの管理および記憶など、他の機能を実行することもできる。
サービングゲートウェイ164は、PDNゲートウェイ166に接続することもでき、PDNゲートウェイ166は、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cとIP対応デバイスの間の通信を円滑化することができる。
コアネットワーク107は、他のネットワークとの通信を円滑化することができる。例えば、コアネットワーク107は、PSTN108などの回線交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cと従来の固定電話通信デバイスの間の通信を円滑化することができる。例えば、コアネットワーク107は、コアネットワーク107とPSTN108の間のインターフェースとしての役割を果たすIPゲートウェイ(例えば、IPマルチメディアサブシステム(IMS)サーバ)を含むことができ、またはIPゲートウェイと通信することができる。加えて、コアネットワーク107は、ネットワーク112へのアクセスをWTRU102a、102b、102cに提供することができ、ネットワーク112は、他のサービスプロバイダによって所有および/または運営される他の有線または無線ネットワークを含むことができる。
図30Eは、一実施形態による、RAN105およびコアネットワーク109のシステム図である。RAN105は、IEEE802.16無線技術を利用して、エアインターフェース117を介してWTRU102a、102b、102cと通信する、アクセスサービスネットワーク(ASN)とすることができる。以下でさらに説明するように、WTRU102a、102b、102c、RAN105、およびコアネットワーク109の異なる機能エンティティ間の通信リンクは、参照点として定義することができる。
図30Eに示されるように、RAN105は、基地局180a、180b、180cと、ASNゲートウェイ182とを含むことができるが、RAN105は、一実施形態との整合性を保ちながら、任意の数の基地局とASNゲートウェイとを含むことができることが理解されよう。基地局180a、180b、180cは、各々が、RAN105内の特定のセル(図示されず)に関連付けることができ、各々が、エアインターフェース117を介してWTRU102a、102b、102cと通信するための1または複数の送受信機を含む。一実施形態では、基地局180a、180b、180cは、MIMO技術を実施することができる。したがって、基地局180aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、WTRU102aから無線信号を受信することができる。基地局180a、180b、180cは、ハンドオフトリガリング、トンネル確立、無線リソース管理、トラフィック分類、およびサービス品質(QoS)ポリシ実施などの、モビリティ管理機能も提供することができる。ASNゲートウェイ182は、トラフィック集約ポイントとしてサービスすることができ、ページング、加入者プロファイルのキャッシング、およびコアネットワーク109へのルーティングなどを担うことができる。
WTRU102a、102b、102cとRAN105の間のエアインターフェース117は、IEEE802.16仕様を実施する、R1参照点として定義することができる。加えて、WTRU102a、102b、102cの各々は、コアネットワーク109との論理インターフェース(図示されず)を確立することができる。WTRU102a、102b、102cとコアネットワーク109の間の論理インターフェースは、R2参照点として定義することができ、R2参照点は、認証、認可、IPホスト構成管理、および/またはモビリティ管理のために使用することができる。
基地局180a、180b、180cの各々の間の通信リンクは、WTRUハンドオーバおよび基地局間でのデータの転送を円滑化するためのプロトコルを含む、R8参照点として定義することができる。基地局180a、180b、180cとASNゲートウェイ182の間の通信リンクは、R6参照点として定義することができる。R6参照点は、WTRU102a、102b、102cの各々に関連するモビリティイベントに基づいたモビリティ管理を円滑化するためのプロトコルを含むことができる。
図30Eに示されるように、RAN105は、コアネットワーク109に接続することができる。RAN105とコアネットワーク109の間の通信リンクは、例えばデータ転送およびモビリティ管理機能を円滑化するためのプロトコルを含む、R3参照点として定義することができる。コアネットワーク109は、モバイルIPホームエージェント(MIP−HA)184と、認証認可課金(AAA)サーバ186と、ゲートウェイ188とを含むことができる。上記の要素の各々は、コアネットワーク109の部分として示されているが、これらの要素は、どの1つをとっても、コアネットワーク運営体とは異なる主体によって所有および/または運営できることが理解されよう。
MIP−HAは、IPアドレス管理を担うことができ、WTRU102a、102b、102cが、異なるASNの間で、および/または異なるコアネットワークの間でローミングを行うことを可能にすることができる。MIP−HA184は、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cとIP対応デバイスの間の通信を円滑化することができる。AAAサーバ186は、ユーザ認証、およびユーザサービスのサポートを担うことができる。ゲートウェイ188は、他のネットワークとの網間接続を円滑化することができる。例えば、ゲートウェイ188は、PSTN108などの回線交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cと従来の固定電話通信デバイスの間の通信を円滑化することができる。加えて、ゲートウェイ188は、ネットワーク112へのアクセスをWTRU102a、102b、102cに提供し、ネットワーク112は、他のサービスプロバイダによって所有および/または運営される他の有線または無線ネットワークを含むことができる。
図30Eには示されていないが、RAN105は、他のASNに接続でき、コアネットワーク109は、他のコアネットワークに接続できることが理解されよう。RAN105と他のASNの間の通信リンクは、R4参照点として定義することができ、R4参照点は、RAN105と他のASNの間で、WTRU102a、102b、102cのモビリティを調整するためのプロトコルを含むことができる。コアネットワーク109と他のコアネットワークの間の通信リンクは、R5参照点として定義することができ、R5参照点は、ホームコアネットワークと在圏コアネットワークの間の網間接続を円滑化するためのプロトコルを含むことができる。
上では特徴および要素を特定の組み合わせで説明したが、各特徴または要素は、単独で使用でき、または他の特徴および要素との任意の組み合わせで使用できることを当業者は理解されよう。加えて、本明細書で説明された方法は、コンピュータまたはプロセッサによって実行される、コンピュータ可読媒体内に包含された、コンピュータプログラム、ソフトウェア、またはファームウェアで実施することができる。コンピュータ可読媒体の例は、(有線接続または無線接続を介して送信される)電子信号と、コンピュータ可読記憶媒体とを含む。コンピュータ可読記憶媒体の例は、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよび着脱可能ディスクなどの磁気媒体、光磁気媒体、ならびにCD−ROMディスクおよびデジタル多用途ディスク(DVD)などの光媒体を含むが、それらに限定されない。ソフトウェアと連携するプロセッサは、WTRU、UE、端末、基地局、RNC、または任意のホストコンピュータのための無線周波送受信機を実施するために使用することができる。