JP2019521584A - Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング - Google Patents

Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング Download PDF

Info

Publication number
JP2019521584A
JP2019521584A JP2018561472A JP2018561472A JP2019521584A JP 2019521584 A JP2019521584 A JP 2019521584A JP 2018561472 A JP2018561472 A JP 2018561472A JP 2018561472 A JP2018561472 A JP 2018561472A JP 2019521584 A JP2019521584 A JP 2019521584A
Authority
JP
Japan
Prior art keywords
media presentation
data
video
media
projection mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018561472A
Other languages
English (en)
Other versions
JP2019521584A5 (ja
Inventor
ワン、イェ−クイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2019521584A publication Critical patent/JP2019521584A/ja
Publication of JP2019521584A5 publication Critical patent/JP2019521584A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4382Demodulation or channel decoding, e.g. QPSK demodulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

メディアデータを処理するためのデバイスは、バーチャルリアリティ(VR)ビデオデータを含むメディアデータを受信することと、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を行うように構成される。メディアデータを処理するためのデバイスは、VRビデオデータを含むメディアデータを生成することと、メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含めることと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを送ることと、を行うように構成される。

Description

[0001] 本出願は、2016年5月24日に出願された米国特許仮出願第62/341,012号の利益を主張し、その内容の全体が参照によってここに組み込まれる。
[技術分野]
[0002] 本開示は、符号化されたビデオデータのストレージおよびトランスポートに関する。
[0003] デジタルビデオ性能(capabilities)は、デジタルテレビ、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末(PDA)、ラップトップまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲームコンソール、セルラまたは衛星無線電話、ビデオ電話会議デバイス等を含む、幅広いデバイスに組み込まれることができる。デジタルビデオデバイスは、デジタルビデオ情報をより効率的に送信および受信するために、MPEG−2、MPEG−4、ITU−T H.263、またはITU−T H.264/MPEG−4、Part10、アドバンストビデオコーディング(AVC)、ITU−T H.265−高効率ビデオコーディング(HEVC)によって定義される規格、およびそのような規格の拡張に記述(described)されるもののようなビデオ圧縮技法を、インプリメントする。
[0004] ビデオ圧縮技法は、ビデオシーケンスに内在する冗長性を減少させるまたは取り除くために、空間的予測および/または時間的予測を実施する。ブロックベースのビデオコーディングの場合、ビデオフレームまたはスライスは、複数のマクロブロックに区分され得る。各マクロブロックは、さらに区分されることができる。イントラコーディングされた(I)フレームまたはスライス中のマクロブロックは、隣接するマクロブロックに対する空間的予測を使用して符号化される。インターコーディングされた(PまたはB)フレームまたはスライス中のマクロブロックは、同じフレームまたはスライス中の隣接するマクロブロックに対する空間的予測、または他の参照フレームに対する時間的予測を使用し得る。
[0005] ビデオデータが符号化された後、そのビデオデータは、送信またはストレージのためにパケット化され得る。ビデオデータは、多様な規格、例えば国際標準化機構(ISO:International Organization for Standardization)ベースのメディアファイルフォーマットおよびその拡張、例えばHEVCファイルフォーマット、のうちの任意のものに準拠するビデオファイルへと、アセンブル(assembled)され得る。
[0006] 一般に、本開示は、バーチャルリアリティ(VR)に関する技法を説明する。より具体的には、本開示は、HTTPを介した動的適応型ストリーミング(DASH:dynamic adaptive streaming over HTTP)におけるVRビデオのシグナリングのための技法を説明する。
[0007] 本開示の1つの例によれば、メディアデータを処理するための方法は、メディアデータを受信することであって、ここにおいて、メディアデータは、バーチャルリアリティ(VR)ビデオデータを備える、受信することと、メディアプレゼンテーション(media presentation)のためのメディアプレゼンテーション記述(media presentation description)の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を含む。
[0008] 本開示の別の例によれば、メディアデータを処理するためのデバイスは、メディアデータを記憶するように構成されるメモリと、1つまたは複数のプロセッサとを含み、1つまたは複数のプロセッサは、メディアデータを受信することであって、ここにおいて、メディアデータは、バーチャルリアリティ(VR)ビデオデータを備える、受信することと、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を行うように構成される。
[0009] 本開示の別の例によれば、メディアデータを処理する方法は、メディアデータを生成することであって、ここにおいて、メディアデータは、バーチャルリアリティ(VR)ビデオデータを含む、生成することと、メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含めることと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理することと、を含む。
[0010] 本開示の別の例によれば、メディアデータを処理するためのデバイスは、メディアデータを記憶するように構成されるメモリと、1つまたは複数のプロセッサとを含み、1つまたは複数のプロセッサは、メディアデータを生成することであって、ここにおいて、メディアデータは、バーチャルリアリティ(VR)ビデオデータを含む、生成することと、メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含めることと、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを送ることと、を行うように構成される。
[0011] 1つまたは複数の例の詳細が、添付の図面および以下の説明に記載される。他の特徴、オブジェクト、および利点は、説明、図面から、および特許請求の範囲から、明らかになる。
[0012] 図1は、ネットワークを介してメディアデータをストリーミングするための技法をインプリメントする例示的なシステムを例示するブロック図である。 [0013] 図2は、タイルベースのバーチャルリアリティ(VR)ビデオの部分的な復号の例を例示する概念図である。 [0014] 図3は、第1のスケーラブルコーディングVRビデオの部分的な復号を例示する概念図である。 [0015] 図4は、第2のスケーラブルコーディングVRビデオの部分的な復号を例示する概念図である。 [0016] 図5は、第1のサイマルキャストコーディングベースのVRビデオの部分的な復号を例示する概念図である。 [0017] 図6は、第2のサイマルキャストコーディングベースのVRビデオの部分的な復号を例示する概念図である。 [0018] 図7は、リトリーバルユニットのコンポーネントの例示的なセットをより詳細に例示するブロック図である。 [0019] 図8は、例示的なマルチメディアコンテンツの要素を例示する概念図である。 [0020] 図9は、例示的なビデオファイルの要素を例示するブロック図である。 [0021] 図10は、本開示の技法による、メディアデータを処理するためのフローチャートである。 [0022] 図11は、本開示の技法による、メディアデータを処理するためのフローチャートである。
詳細な説明
[0023] 一般に、本開示は、バーチャルリアリティ(VR)に関する技法を説明する。より具体的には、本開示は、HTTPを介した動的適応型ストリーミング(DASH)におけるVRビデオのシグナリングのための技法を説明する。DASHの1つのバージョンは、ISO/IEC 23009−1に定められている(specified in)。本開示の技法は、ISOベースのメディアファイルフォーマット、スケーラブルビデオコーディング(SVC)ファイルフォーマット、アドバンストビデオコーディング(AVC)ファイルフォーマット、第3世代パートナーシッププロジェクト(3GPP(登録商標))ファイルフォーマット、および/またはマルチビュービデオコーディング(MVC)ファイルフォーマット、または他の同様のビデオファイルフォーマットのうちの任意のものに従ってカプセル化されたビデオデータに準拠するビデオファイルに適用され得る。
[0024] HTTPストリーミングでは、頻繁に使用される動作は、HEAD、GET、および部分的GETを含む。HEAD動作は、所与のユニフォームリソースロケータ(URL)またはユニフォームリソースネーム(URN)に関連するファイルのヘッダを、そのURLまたはURNに関連するペイロードをリトリーブすることなく、リトリーブする。GET動作は、所与のURLまたはURNに関連するファイル全体をリトリーブする。部分的GET動作は、入力パラメータとしてバイト範囲を受け取り、ファイルの、連続した数のバイトをリトリーブし、ここでそのバイトの数は、受け取られたバイト範囲に対応する。したがって、部分的GET動作は1つまたは複数の個々の動画フラグメントを得る(get)ことができるので、動画フラグメントは、HTTPストリーミングのために提供され得る。動画フラグメントには、複数の異なるトラックのいくつかのトラックフラグメントが存在することができる。HTTPストリーミングでは、メディアプレゼンテーションは、クライアントにとってアクセス可能なデータの構造化されたコレクションであり得る。ISO/IEC 23009−1は、メディアプレゼンテーションを、メディアコンテンツの制限のあるまたは制限のないプレゼンテーション(bounded or unbounded presentation)を確立する、データのコレクションと定義する。クライアントは、ストリーミングサービスをユーザに提示(present)するために、メディアデータ情報を要求およびダウンロードし得る。
[0025] HTTPストリーミングを使用した3GPPデータのストリーミングの例では、マルチメディアコンテンツのビデオおよび/またはオーディオデータについて複数の表現(representations)が存在し得る。以下に説明されるように、異なる表現は、異なるコーディング特性(例えば、ビデオコーディング規格の異なるプロファイルまたはレベル)、異なるコーディング規格またはコーディング規格の拡張(マルチビューおよび/またはスケーラブル拡張のような)、または異なるビットレートに対応し得る。そのような表現のマニフェストは、メディアプレゼンテーション記述(MPD:Media Presentation Description)データ構造において定義され得る。メディアプレゼンテーションは、HTTPストリーミングクライアントデバイスにとってアクセス可能なデータの構造化されたコレクションに対応し得る。HTTPストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提示するために、メディアデータ情報を要求およびダウンロードし得る。メディアプレゼンテーションは、MPDデータ構造において記述され得、それは、MPDの更新を含み得る。
[0026] メディアプレゼンテーションは、1つまたは複数の期間のシーケンス(a sequence of one or more periods)を含み得る。ISO/IEC 23009−1は、メディアプレゼンテーション(Media Presentation)のインターバルを定義し、ここですべての期間(Period)の連続的なシーケンスがメディアプレゼンテーション(Media Presentation)を構成する。各期間は、次の期間(Period)の始まりまで、または最後の期間の場合はメディアプレゼンテーションの終わりまで、広がり(extend)得る。各期間は、同じメディアコンテンツについての1つまたは複数の表現を含み得る。表現は、オーディオ、ビデオ、時限のテキスト(timed text)、または他のそのようなデータの、いくつかの代替的な符号化されたバージョンのうちの1つであり得る。表現は、符号化のタイプによって、例えば、ビデオデータについてのビットレート、解像度、および/またはコーデック、およびオーディオデータについてのビットレート、言語、および/またはコーデックによって、異なり得る。表現(representation)という用語は、マルチメディアコンテンツの特定の期間に対応し、かつ特定の方法で符号化された、符号化されたオーディオまたはビデオデータのセクションを指すために使用され得る。
[0027] 特定の期間の複数の表現は、それら表現が属する適応セット(adaptation set)を示すMPDにおける属性によって示されるグループに、割り当てられ得る。ISO/IEC 23009−1は、表現を、記述的メタデータに関連しかつ配信フォーマットにおける1つまたは複数のメディアストリームのカプセル化(encapsulation)およびコレクションと定義し、ならびに、適応セットを、1つのまたはいくつかのメディアコンテンツコンポーネントの置き換え可能な符号化されたバージョンのセットと定義する。同じ適応セット中の複数の表現は、一般に、クライアントデバイスが、例えば帯域幅適応を実施するために、これらの表現間で動的におよび途切れなく切り替えることができるという点で、互いに代替的なもの(alternatives to each other)と考えられる。例えば、特定の期間についてのビデオデータの各表現は、対応する期間についてのマルチメディアコンテンツの、ビデオデータまたはオーディオデータのようなメディアデータを提示するための復号のために、それら表現のうちのいずれでも選択され得るように、同じ適応セットに割り当てられ得る。1つの期間内のメディアコンテンツは、存在する場合、グループ0からの1つの表現か、あるいは、いくつかの例では、各非ゼログループからの多くても1つの表現の組合せか、のいずれかで表され得る。ある期間の各表現についてのタイミングデータは、その期間の開始時間(the start time)に対して表され得る。
[0028] 表現は、1つまたは複数のセグメントを含み得る。各表現は、初期化セグメントを含み得るか、または表現の各セグメントは、自己初期化するもの(self-initializing)であり得る。存在する場合、初期化セグメントは、表現にアクセスするための初期化情報を含み得る。一般に、初期化セグメントは、メディアデータを含まない。セグメントは、ユニフォームリソースロケータ(URL)、ユニフォームリソースネーム(URN)、またはユニフォームリソース識別子(URI)のような識別子によって一意に参照され得る。MPDは、各セグメントについての識別子を提供し得る。いくつかの例では、MPDはまた、範囲属性の形式でバイト範囲を提供し得、それは、URL、URN、またはURIによってアクセス可能なファイル内のセグメントについてのデータに対応し得る。ISO/IEC 23009−1は、セグメントを、MPDによって指定(specified)されるHTTP−URLおよびオプションとしてバイト範囲に関連するデータのユニットと定義し、および初期化セグメントを、メディアセグメント(Media Segments)にカプセル化されたメディアストリームを提示するために必要であるメタデータを含むセグメントと定義する。ISO/IEC 23009−1は、メディアセグメントを、初期化セグメント(initialization Segment)(存在する場合)、および、ゼロまたはより先行するセグメント(zero or more preceding segments)と組み合わせたときに再生を可能にし、かつ使用中のメディアフォーマットに準拠するセグメントと定義する。
[0029] 異なるタイプのメディアデータに関する事実上同時のリトリーブ(substantially simultaneous retrieval)のために、複数の異なる表現が選択され得る。例えば、クライアントデバイスは、セグメントをそこからリトリーブする(from which to retrieve segments)オーディオ表現、ビデオ表現、および時限のテキスト表現を選択し得る。いくつかの例では、クライアントデバイスは、帯域幅適応を実施するための特定の適応セットを選択し得る。つまり、クライアントデバイスは、ビデオ表現を含む適応セット、オーディオ表現を含む適応セット、および/または時限のテキストを含む適応セット、を選択し得る。代替的に、クライアントデバイスは、ある特定のタイプのメディア(例えば、ビデオ)についての適応セットを選択し得、および他のタイプのメディア(例えば、オーディオおよび/または時限のテキスト)についての表現を直接的に選択し得る。
[0030] 図1は、ネットワークを介してメディアデータをストリーミングするための技法をインプリメントする例示的なシステム10を例示するブロック図である。この例では、システム10は、コンテンツ準備デバイス20、サーバデバイス60、およびクライアントデバイス40を含む。クライアントデバイス40およびサーバデバイス60は、ネットワーク74によって通信的に結合され、それはインターネットを備え得る。いくつかの例では、コンテンツ準備デバイス20およびサーバデバイス60もまた、ネットワーク74または別のネットワークによって結合され得るか、または直接、通信的に結合され得る。いくつかの例では、コンテンツ準備デバイス20およびサーバデバイス60は、同じデバイスを備え得る。
[0031] コンテンツ準備デバイス20は、図1の例では、オーディオソース22およびビデオソース24を備える。オーディオソース22は、例えば、オーディオエンコーダ26によって符号化されることになるキャプチャされたオーディオデータを表す電気的な信号を生み出す(produces)マイクロフォンを備え得る。代替的に、オーディオソース22は、前に記録されたオーディオデータを記憶する記憶媒体、コンピュータ化されたシンセサイザのようなオーディオデータジェネレータ、またはオーディオデータの任意の他のソースを備え得る。ビデオソース24は、ビデオエンコーダ28によって符号化されることになるビデオデータを生み出すビデオカメラ、前に記録されたビデオデータで符号化された記憶媒体、コンピュータグラフィックスソースのようなビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備え得る。コンテンツ準備デバイス20は、必ずしもすべての例においてサーバデバイス60に通信可能に結合されるわけではなく、サーバデバイス60によって読み出される別個の媒体にマルチメディアコンテンツを記憶し得る。
[0032] 生のオーディオおよびビデオデータは、アナログまたはデジタルデータを備え得る。アナログデータは、オーディオエンコーダ26および/またはビデオエンコーダ28によって符号化される前にデジタル化され得る。オーディオソース22は、話している関係者(a speaking participant)から、その話している関係者が話している間オーディオデータを取得し得、ビデオソース24は、話している関係者のビデオデータを同時に取得し得る。他の例では、オーディオソース22は、記憶されたオーディオデータを備えるコンピュータ読み取り可能な記憶媒体を備え得、ビデオソース24は、記憶されたビデオデータを備えるコンピュータ読み取り可能な記憶媒体を備え得る。このようにして、本開示に説明される技法は、ライブの、ストリーミングの、リアルタイムのオーディオおよびビデオデータに、あるいは、アーカイブされた、事前に記録されたオーディオおよびビデオデータに、適用され得る。
[0033] ビデオフレームに対応するオーディオフレームは、一般に、ビデオフレーム内に含まれる、ビデオソース24によってキャプチャされた(または生成された)ビデオデータと同時に(contemporaneously)、オーディオソース22によってキャプチャされた(または生成された)オーディオデータを含む、オーディオフレームである。例えば、話している関係者が、一般に話すことによってオーディオデータを生み出している間、オーディオソース22はオーディオデータをキャプチャし、ビデオソース24は同時に、つまり、オーディオソース22がオーディオデータをキャプチャしている間に、話している関係者のビデオデータをキャプチャする。ゆえに、オーディオフレームは、1つまたは複数の特定のビデオフレームに時間的に対応し得る。したがって、ビデオフレームに対応するオーディオフレームは、一般に、オーディオデータおよびビデオデータが同時にキャプチャされる状況に対応し、それに関し、オーディオフレームおよびビデオフレームはそれぞれ、同時にキャプチャされたオーディオデータおよびビデオデータを備える。
[0034] いくつかの例では、オーディオエンコーダ26は、各符号化されたオーディオフレームに、その符号化されたオーディオフレームに関するオーディオデータが記録された時間を表すタイムスタンプを符号化し得、同様に、ビデオエンコーダ28は、各符号化されたビデオフレームに、符号化されたビデオフレームに関するビデオデータが記録された時間を表すタイムスタンプを符号化し得る。そのような例では、あるオーディオフレームがあるビデオフレームに対応することは、あるオーディオフレームがあるタイムスタンプを備え、あるビデオフレームが同じタイムスタンプを備えること、を備え得る。コンテンツ準備デバイス20は、オーディオエンコーダ26および/またはビデオエンコーダ28がタイムスタンプをそこから生成し得る、または、オーディオソース22およびビデオソース24がオーディオおよびビデオデータをそれぞれタイムスタンプと関連付けるために使用し得る、内部クロックを含み得る。
[0035] いくつかの例では、オーディオソース22は、オーディオデータが記録された時間に対応するデータをオーディオエンコーダ26に送り得、ビデオソース24は、ビデオデータが記録された時間に対応するデータをビデオエンコーダ28に送り得る。いくつかの例では、オーディオエンコーダ26は、必ずしもオーディオデータが記録された絶対時間を示すことなく、符号化されたオーディオデータの相対的な時間的順序を示すために、符号化されたオーディオデータにシーケンス識別子を符号化し得、同様に、ビデオエンコーダ28もまた、符号化されたビデオデータの相対的な時間的順序を示すために、シーケンス識別子を使用し得る。同様に、いくつかの例では、シーケンス識別子は、マッピングされ得るか、または別の方法でタイムスタンプと互いに関係づけられ得る。
[0036] オーディオエンコーダ26は一般に、符号化されたオーディオデータのストリームを生み出し、一方でビデオエンコーダ28は、符号化されたビデオデータのストリームを生み出す。(オーディオであれビデオであれ)データの各個々のストリームは、エレメンタリストリームと呼ばれ得る。エレメンタリストリームは、表現の、単一のデジタル的にコーディングされた(場合によっては圧縮された)コンポーネントである。例えば、表現のコーディングされたビデオまたはオーディオ部分は、エレメンタリストリームであることができる。エレメンタリストリームは、ビデオファイル内でカプセル化される前に、パケット化されたエレメンタリストリーム(PES:packetized elementary stream)に変換され得る。同じ表現内において、1つのエレメンタリストリームに属するPESパケットを、他のエレメンタリストリームに属するものと区別するために、ストリームIDが使用され得る。エレメンタリストリームのデータの基本ユニットは、パケット化されたエレメンタリストリーム(PES)パケットである。したがって、コーディングされたビデオデータは一般に、エレメンタリビデオストリームに対応する。同様に、オーディオデータは、1つまたは複数のそれぞれのエレメンタリストリームに対応する。
[0037] ITU−T H.264/AVCおよび高効率ビデオコーディング(HEVC)規格のような多くのビデオコーディング規格は、エラーのないビットストリームのための復号処理、セマンティクスおよびシンタックスを定義し、それらのいずれもが、ある特定のプロファイルまたはレベルに準拠する。ビデオコーディング規格は、典型的にはエンコーダを指定しないが、エンコーダは、生成されるビットストリームがデコーダに関する規格に準拠することを保証する役割を課せられる。ビデオコーディング規格の文脈では、「プロファイル」は、ツール、特徴、またはアルゴリズムのサブセット、およびこれらに適用される制約条件に対応する。H.264規格に定義されるように、例えば、「プロファイル」は、H.264規格によって指定される全ビットストリームシンタックスのサブセットである。「レベル」は、例えばデコーダメモリおよび計算等のデコーダリソース消費の制限に対応し、それらは、ピクチャの解像度、ビットレート、およびブロック処理レートに関係する。プロファイルは、profile_idc(プロファイルインジケータ)値を用いてシグナリングされ得、一方でレベルは、level_idc(レベルインジケータ)値を用いてシグナリングされ得る。
[0038] 例えば、所与のプロファイルのシンタックスによって課せられる範囲(the bounds)内で、復号されたピクチャの指定されたサイズ等の、ビットストリーム中のシンタックス要素がとる値に応じて、エンコーダおよびデコーダのパフォーマンスにおいて大きな変動を要求することがなおも可能であることを、H.264規格は認識する。多くのアプリケーションにおいて、特定のプロファイル内のシンタックスのすべての仮想的な使用に対処することができるデコーダをインプリメントすることは実用的でも経済的でもないことを、H.264規格はさらに認識する。したがって、H.264規格は、「レベル」を、ビットストリーム中のシンタックス要素の値に課せられた制約条件の指定されたセットと定義する。これらの制約条件は、値に対する単純な制限であり得る。代替的に、これらの制約条件は、(例えば、ピクチャ幅×ピクチャの高さ×1秒あたりに復号されるピクチャの数等の)値の算術的な組合せに対する制約条件の形をとり得る。H.264規格はさらに、個々のインプリメンテーションが、サポートされるプロファイルごとに異なるレベルをサポートし得ることを定める。
[0039] あるプロファイルに準拠するデコーダは通常、そのプロファイルに定義されるすべての特徴をサポートする。例えば、コーディングの特徴として、Bピクチャコーディングは、H.264/AVCのベースラインプロファイルにおいてはサポートされないが、H.264/AVCの他のプロファイルにおいてはサポートされる。あるレベルに準拠するデコーダは、そのレベルに定義された制限を超えるリソースを要求しない、いかなるビットストリームも、復号することができるべきである。プロファイルおよびレベルの定義は、解釈可能性(interpretability)のために役立ち得る。例えば、ビデオ送信の間に、プロファイルおよびレベルの定義のペアが、送信セッション全体について取り決められ、合意され(negotiated and agreed)得る。より具体的には、H.264/AVCにおいて、レベルは、処理される必要があるマクロブロックの数、復号されたピクチャバッファ(DPB)サイズ、コーディングされたピクチャバッファ(CPB)サイズ、垂直動きベクトル範囲、2つの連続するMBあたりの動きベクトルの最大数、およびBブロックが8x8ピクセルに満たないサブマクロブロック区分を有することができるかどうか、に対する制限を定義し得る。このように、デコーダは、そのデコーダがビットストリームを適切に復号することができるかどうかを決定し得る。
[0040] 図1の例では、コンテンツ準備デバイス20のカプセル化ユニット30は、ビデオエンコーダ28からのコーディングされたビデオデータを備えるエレメンタリストリームと、オーディオエンコーダ26からのコーディングされたオーディオデータを備えるエレメンタリストリームと、を受け取る。いくつかの例では、ビデオエンコーダ28およびオーディオエンコーダ26は各々、符号化されたデータからPESパケットを形成するためのパケタイザを含み得る。他の例では、ビデオエンコーダ28およびオーディオエンコーダ26は各々、符号化されたデータからPESパケットを形成するためのそれぞれのパケタイザとインタフェースし得る。さらに他の例では、カプセル化ユニット30は、符号化されたオーディオおよびビデオデータからPESパケットを形成するためのパケタイザを含み得る。
[0041] ビデオエンコーダ28は、ピクセル解像度、フレームレート、様々なコーディング規格への準拠、様々なコーディング規格についての様々なプロファイルおよび/またはプロファイルのレベルへの準拠、(例えば、2次元または3次元の再生のための)1つのまたは複数のビューを有する表現、または他のそのような特性等の、様々な特性を有する、および様々なビットレートにおける、マルチメディアコンテンツの異なる表現を生み出すために、マルチメディアコンテンツのビデオデータを多様な方法で符号化し得る。本開示で使用される場合、表現は、オーディオデータ、ビデオデータ、テキストデータ(例えば字幕のための)、または他のそのようなデータのうちの1つを備え得る。表現は、オーディオエレメンタリストリームまたはビデオエレメンタリストリームのようなエレメンタリストリームを含み得る。各PESパケットは、PESパケットが属するエレメンタリストリームを識別するstream_idを含み得る。カプセル化ユニット30は、エレメンタリストリームを様々な表現のビデオファイル(例えば、セグメント)にアセンブルする役割を担う。
[0042] カプセル化ユニット30は、オーディオエンコーダ26およびビデオエンコーダ28から表現のエレメンタリストリームに関するPESパケットを受け取り、それらPESパケットから、対応するネットワーク抽象化レイヤ(NAL:network abstraction layer)ユニットを形成する。H.264/AVC(Advanced Video Coding)の例では、コーディングされたビデオセグメントは、NALユニットへと編成され、それらは、ビデオ電話、ストレージ、ブロードキャスト、またはストリーミングのようなアプリケーション向けの「ネットワークフレンドリーな(network-friendly)」ビデオ表現を提供する。NALユニットは、ビデオコーディングレイヤ(VCL:Video Coding Layer)NALユニットおよび非VCL NALユニットに分類されることができる。VCLユニットは、コア圧縮エンジンを含み得、ブロック、マクロブロック、および/またはスライスレベルのデータを含み得る。他のNALユニットは、非VCL NALユニットであり得る。いくつかの例では、プライマリのコーディングされたピクチャとして通常提示される、1つのタイムインスタンスにおいてコーディングされたピクチャは、アクセスユニットに含まれ得、それは、1つまたは複数のNALユニットを含み得る。
[0043] 非VCL NALユニットは、とりわけ、パラメータセットNALユニットおよびSEI NALユニットを含み得る。パラメータセットは、(シーケンスパラメータセット(SPS)中に)シーケンスレベルヘッダ情報、および(ピクチャパラメータセット(PPS)中に)頻繁には変化しないピクチャレベルヘッダ情報を含み得る。パラメータセット(例えば、PPSおよびSPS)を用いることで、頻繁には変化しない情報は、シーケンスまたはピクチャごとに繰り返される必要がなく、よってコーディング効率が改善され得る。さらに、パラメータセットの使用は、重要なヘッダ情報の帯域外送信を可能にし得、それによりエラー耐性(error resilience)のための冗長な送信の必要が無くなる。帯域外送信の例では、パラメータセットNALユニットは、SEI NALユニットのような他のNALユニットとは異なるチャネル上で送信され得る。
[0044] 加えて、カプセル化ユニット30は、表現の特性を記述(describes)するメディアプレゼンテーション記述子(MPD:media presentation descriptor)のようなマニフェストファイルを形成し得る。カプセル化ユニット30は、XML(extensible markup language)に従って、MPDをフォーマット(format)し得る。カプセル化ユニット30は、出力インタフェース32へ、マニフェストファイル(例えば、MPD)とともにマルチメディアコンテンツの1つまたは複数の表現についてのデータを提供し得る。出力インタフェース32は、ネットワークインタフェースまたは記憶媒体に書き込みするためのインタフェースを備え得、それは例えば、ユニバーサルシリアルバス(USB)インタフェース、CDまたはDVDライタまたはバーナ、磁気またはフラッシュ記憶媒体へのインタフェース、あるいはメディアデータを記憶または送信するための他のインタフェースである。カプセル化ユニット30は、マルチメディアコンテンツの複数の表現の各々のもののデータを、出力インタフェース32に提供し得、それは、そのデータをネットワーク送信または記憶媒体を介してサーバデバイス60に送り得る。図1の例では、サーバデバイス60は、それぞれのマニフェストファイル66および1つまたは複数の表現68A〜68N(表現68)を各々が含む様々なマルチメディアコンテンツ64を記憶する、記憶媒体62を含む。いくつかの例では、出力インタフェース32はまた、データを直接的にネットワーク74に送り得る。
[0045] いくつかの例では、表現68は、複数の適応セットに分けられ得る。つまり、表現68の様々なサブセットは、特性のそれぞれの共通セット、例えば、コーデック、プロファイルおよびレベル、解像度、ビューの数、セグメントに関するファイルフォーマット、復号され、例えばスピーカによって提示されることになるオーディオデータおよび/または表現を用いて表示されることになるテキストの言語または他の特性を識別し得るテキストタイプ情報、適応セット中の表現に関するシーンの現実世界のカメラの視点(real-world camera perspective)またはカメラアングルを記述し得るカメラアングル情報、特定の視聴者に対するコンテンツの適合性を記述するレーティング情報、または同様のもの、を含み得る。
[0046] マニフェストファイル66は、適応セットについての共通特性、ならびに特定の適応セットに対応する表現68のサブセットを示すデータを含み得る。マニフェストファイル66はまた、適応セットの個々の表現についての、ビットレートのような個々の特性を表すデータを含み得る。このようにして、適応セットは、簡略化されたネットワーク帯域幅適応を提供し得る。適応セット中の表現は、マニフェストファイル66の適応セット要素の子要素を使用して示され得る。
[0047] サーバデバイス60は、要求処理ユニット70およびネットワークインタフェース72を含む。いくつかの例では、サーバデバイス60は、複数のネットワークインタフェースを含み得る。さらに、サーバデバイス60の特徴のうちの任意のものまたはすべては、ルータ、ブリッジ、プロキシデバイス、スイッチ、または他のデバイスのような、コンテンツ配信ネットワークの他のデバイスにおいてインプリメントされ得る。いくつかの例では、コンテンツ配信ネットワークの仲介デバイス(intermediate devices)は、マルチメディアコンテンツ64のデータをキャッシュし得、およびサーバデバイス60のコンポーネントに事実上一致(conform substantially to)するコンポーネントを含み得る。一般に、ネットワークインタフェース72は、ネットワーク74を介してデータを送るおよび受信するように構成される。
[0048] 要求処理ユニット70は、クライアントデバイス40のようなクライアントデバイスから、記憶媒体62のデータを求めるネットワーク要求を受信するように構成される。例えば、要求処理ユニット70は、RFC2616、R.Fieldingらによる「Hypertext Transfer Protocol−HTTP/1.1」、Network Working Group、IETF、1999年6月に説明されたようなハイパーテキスト転送プロトコル(HTTP)バージョン1.1をインプリメントし得る。つまり、要求処理ユニット70は、HTTP GETまたは部分的GET要求を受信し、それら要求に応答して、マルチメディアコンテンツ64のデータを提供するように構成され得る。それら要求は、例えばセグメントのURLを使用して、表現68のうちの1つの表現のセグメントを指定し得る。いくつかの例では、それら要求はまた、セグメントの1つまたは複数のバイト範囲を指定し得、よって部分的GET要求を備える。要求処理ユニット70はさらに、表現68のうちの1つの表現のセグメントのヘッダデータを提供するためにHTTP HEAD要求をサービスするように構成され得る。いずれの場合も、要求処理ユニット70は、要求されたデータをクライアントデバイス40等の要求しているデバイスに提供するために、それら要求を処理するように構成され得る。
[0049] 追加的に、または代替的に、要求処理ユニット70は、eMBMS等のブロードキャストまたはマルチキャストプロトコルを介して、メディアデータを配信するように構成され得る。コンテンツ準備デバイス20は、説明されたものと事実上同じ方法で、DASHセグメントおよび/またはサブセグメントを作り出し得るが、サーバデバイス60は、これらのセグメントまたはサブセグメントを、eMBMSまたは別のブロードキャストまたはマルチキャストネットワークトランスポートプロトコルを使用して配信し得る。例えば、要求処理ユニット70は、クライアントデバイス40からマルチキャストグループ参加要求(multicast group join request)を受信するように構成され得る。つまり、サーバデバイス60は、(例えば、ライブイベントのブロードキャスト等の)特定のメディアコンテンツに関連するマルチキャストグループに関連するインターネットプロトコル(IP:Internet protocol)アドレスを、クライアントデバイス40を含むクライアントデバイスに、アドバタイズ(advertise)し得る。そして今度は、クライアントデバイス40が、そのマルチキャストグループに参加するための要求をサブミット(submit)し得る。この要求は、例えばネットワーク74を構成する複数のルータ等の、ネットワーク74中に伝播され得、その結果として、それらルータは、そのマルチキャストグループに関連するIPアドレスを宛先としたトラフィックを、例えばクライアントデバイス40のような加入しているクライアントデバイスに向ける(direct)ことになる。
[0050] 図1の例に例示されるように、マルチメディアコンテンツ64は、マニフェストファイル66を含み、それは、メディアプレゼンテーション記述(MPD)に対応し得る。マニフェストファイル66は、複数の異なる代替的な表現68(例えば、複数の異なる品質のビデオサービス)の複数の記述(descriptions)を含み得、記述は、例えば、表現68のコーデック情報、プロファイル値、レベル値、ビットレート、および他の記述的特性(descriptive characteristics)を含み得る。クライアントデバイス40は、表現68のセグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのMPDをリトリーブし得る。
[0051] 特に、リトリーバルユニット52は、ビデオデコーダ48の復号性能およびビデオ出力44のレンダリング性能を決定するために、クライアントデバイス40の構成データ(示されていない)をリトリーブし得る。構成データはまた、クライアントデバイス40のユーザによって選択される言語の選好、クライアントデバイス40のユーザによって設定される奥行の選好(depth preferences)に対応する1つまたは複数のカメラの視点、および/またはクライアントデバイス40のユーザによって選択されるレーティングの選好のうちの任意のものまたはすべてを含み得る。リトリーバルユニット52は、例えば、HTTP GETおよび部分的GET要求をサブミットするように構成されるメディアクライアントまたはウェブブラウザを備え得る。リトリーバルユニット52は、クライアントデバイス40の1つまたは複数のプロセッサまたは処理ユニット(示されていない)によって実行されるソフトウェア命令に対応し得る。いくつかの例では、リトリーバルユニット52に関して説明される機能性のすべてまたは一部は、ハードウェアにおいてインプリメントされ得るか、あるいは、ハードウェア、ソフトウェア、および/またはファームウェアの組合せにおいてインプリメントされ得、ここで必須ハードウェアが、ソフトウェアまたはファームウェアのための命令を実行するために提供され得る。
[0052] リトリーバルユニット52は、クライアントデバイス40の復号およびレンダリング性能を、マニフェストファイル66の情報によって示される表現68の特性と比較し得る。リトリーバルユニット52は、表現68の特性を決定するために、最初にマニフェストファイル66の少なくとも一部をリトリーブし得る。例えば、リトリーバルユニット52は、1つまたは複数の適応セットの特性を記述するマニフェストファイル66の一部を要求し得る。リトリーバルユニット52は、クライアントデバイス40のコーディングおよびレンダリング性能によって満足(satisfied by)されることができる特性を有する(例えば適応セット等の)表現68のサブセットを選択し得る。リトリーバルユニット52は次いで、適応セット中の表現についてのビットレートを決定し、ネットワーク帯域幅の現在利用可能な量を決定し、および、ネットワーク帯域幅によって満足されることができるビットレートを有する表現のうちの1つからセグメントをリトリーブし得る。
[0053] 一般に、より高いビットレートの表現は、より高い品質のビデオ再生を生じさせ(yield)得、一方でより低いビットレートの表現は、利用可能なネットワーク帯域幅が減少するときに十分な品質のビデオ再生を提供し得る。したがって、利用可能なネットワーク帯域幅が比較的広い(high)とき、リトリーバルユニット52は、比較的高いビットレートの表現からデータをリトリーブし得、それに対して、利用可能なネットワーク帯域幅が狭い(low)とき、リトリーバルユニット52は、比較的低いビットレートの表現からデータをリトリーブし得る。このように、クライアントデバイス40は、ネットワーク74のネットワーク帯域幅の利用可能性の変化に適応もしながら、ネットワーク74を介してマルチメディアデータをストリーミングし得る。
[0054] 追加的に、または代替的に、リトリーバルユニット52は、ブロードキャストまたはマルチキャストネットワークプロトコル、例えばeMBMSまたはIPマルチキャスト、に従ってデータを受信するように構成され得る。そのような例では、リトリーバルユニット52は、特定のメディアコンテンツに関連するマルチキャストネットワークグループに参加するための要求をサブミットし得る。マルチキャストグループに参加した後、リトリーバルユニット52は、サーバデバイス60またはコンテンツ準備デバイス20に対して発行されるさらなる要求なしに、マルチキャストグループのデータを受信し得る。リトリーバルユニット52は、そのマルチキャストグループのデータがもはや必要ではないとき、例えば、再生を停止するために、または異なるマルチキャストグループにチャネルを変更するために、マルチキャストグループを去るための要求をサブミットし得る。
[0055] ネットワークインタフェース54は、選択された表現のセグメントのデータを受信し、リトリーバルユニット52に提供し得、それは今度はそれらセグメントをカプセル化解除ユニット50に提供し得る。カプセル化解除ユニット50は、ビデオファイルの要素を、構成成分であるPESストリーム(constituent PES streams)へとカプセル化解除し、それらPESストリームをデパケット化(depacketize)して符号化されたデータをリトリーブし、および、例えばストリームのPESパケットヘッダによって示される、その符号化されたデータがオーディオストリームの一部かまたはビデオストリームの一部かということに応じて、オーディオデコーダ46あるいはビデオデコーダ48のいずれかに、その符号化されたデータを送り得る。オーディオデコーダ46は、符号化されたオーディオデータを復号し、その復号されたオーディオデータをオーディオ出力42に送り、一方でビデオデコーダ48は、符号化されたビデオデータを復号し、ビデオ出力44に、ストリームの複数のビューを含み得るその復号されたビデオデータを送る。
[0056] ビデオエンコーダ28、ビデオデコーダ48、オーディオエンコーダ26、オーディオデコーダ46、カプセル化ユニット30、リトリーバルユニット52、およびカプセル化解除ユニット50は各々、適用可能な場合、1つまたは複数のマイクロプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理回路構成、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せのような多様な好適な処理回路構成のいずれとしてもインプリメントされ得る。ビデオエンコーダ28およびビデオデコーダ48の各々は、1つまたは複数のエンコーダまたはデコーダに含まれ得、それらのいずれも、組み合わせられたビデオエンコーダ/デコーダ(CODEC)の一部として、統合され得る。同様に、オーディオエンコーダ26およびオーディオデコーダ46の各々は、1つまたは複数のエンコーダまたはデコーダに含まれ得、それらのいずれも、組み合わせられたCODECの一部として、統合され得る。ビデオエンコーダ28、ビデオデコーダ48、オーディオエンコーダ26、オーディオデコーダ46、カプセル化ユニット30、リトリーバルユニット52、および/またはカプセル化解除ユニット50を含む装置は、集積回路、マイクロプロセッサ、および/またはワイヤレス通信デバイス、例えばセルラ電話、を備え得る。
[0057] クライアントデバイス40、サーバデバイス60、および/またはコンテンツ準備デバイス20は、本開示の技法に従って動作するように構成され得る。例示の目的のために、本開示は、クライアントデバイス40およびサーバデバイス60に関してこれらの技法を説明する。しかしながら、サーバデバイス60の代わりに(またはサーバデバイス60に加えて)、コンテンツ準備デバイス20が、これらの技法を実施するように構成され得ることは、理解されるべきである。
[0058] カプセル化ユニット30は、NALユニットが属するプログラムを識別するヘッダ、ならびに、ペイロード、例えばオーディオデータ、ビデオデータ、またはNALユニットが対応するトランスポートまたはプログラムストリームを記述するデータ、を備えるNALユニットを形成し得る。例えば、H.264/AVCでは、NALユニットは、1バイトのヘッダと多様なサイズのペイロードとを含む。それのペイロード中にビデオデータを含むNALユニットは、様々な粒度レベル(granularity levels)のビデオデータを備え得る。例えば、NALユニットは、ビデオデータの1つのブロック、複数のブロック、ビデオデータの1つのスライス、またはビデオデータのピクチャ全体を備え得る。カプセル化ユニット30は、ビデオエンコーダ28から、エレメンタリストリームのPESパケットの形式で、符号化されたビデオデータを受け取り得る。カプセル化ユニット30は、各エレメンタリストリームを対応するプログラムと関連付け得る。
[0059] カプセル化ユニット30はまた、複数のNALユニットからアクセスユニットをアセンブルし得る。一般に、アクセスユニットは、ビデオデータのフレーム、なおそのフレームに対応するオーディオデータが利用可能である場合にはそのようなオーディオデータも、を表すための1つまたは複数のNALユニットを備え得る。あるアクセスユニットは一般に、1つの出力のタイムインスタンスに関するすべてのNALユニット、例えば、1つのタイムインスタンスに関するすべてのオーディオおよびビデオデータ、を含む。例えば、各ビューが1秒あたり20フレームのフレームレート(fps:frames per second)を有する場合、すると各タイムインスタンスは、0.05秒の時間間隔に対応し得る。この時間間隔の間に、同じアクセスユニット(同じタイムインスタンス)のすべてのビューについての特定のフレームが、同時にレンダリングされ得る。一例では、あるアクセスユニットは、1つのタイムインスタンスにおけるあるコーディングされたピクチャを備え得、それは、プライマリのコーディングされたピクチャとして提示され得る。
[0060] したがって、アクセスユニットは、共通の時間的なインスタンスのすべてのオーディオおよびビデオフレーム、例えば時間Xに対応するすべてのビュー、を備え得る。本開示はまた、特定のビューの符号化されたピクチャを「ビューコンポーネント」と称する。つまり、ビューコンポーネントは、特定の時間における特定のビューに関する符号化されたピクチャ(またはフレーム)を備え得る。したがって、あるアクセスユニットは、共通の時間的なインスタンスのすべてのビューコンポーネントを備えるものとして定義され得る。アクセスユニットの復号順序は、出力または表示順序と必ずしも同じである必要はない。
[0061] メディアプレゼンテーションは、メディアプレゼンテーション記述(MPD)を含み得、それは、(例えば、複数の異なる品質のビデオサービス等の)複数の異なる代替的な表現の記述を含み得、その記述は、例えばコーデック情報、プロファイル値、およびレベル値を含み得る。MPDは、マニフェストファイル66のようなマニフェストファイルの1つの例である。クライアントデバイス40は、様々なプレゼンテーションの動画フラグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのMPDをリトリーブし得る。動画フラグメントは、ビデオファイルの動画フラグメントボックス(moof box)に位置(located in)し得る。
[0062] マニフェストファイル66(それは、例えばMPDを備え得る)は、表現68のセグメントの利用可能性をアドバタイズし得る。つまり、MPDは、表現68のうちの1つの表現の最初のセグメントが利用可能になる実時間(the wall-clock time)を示す情報、ならびに表現68内のセグメントの持続時間を示す情報を含み得る。このように、クライアントデバイス40のリトリーバルユニット52は、開始時間(the starting time)、ならびに特定のセグメントに先行するセグメントの持続時間、に基づいて、各セグメントがいつ利用可能であるかを決定し得る。
[0063] カプセル化ユニット30が、受け取られたデータに基づいて、NALユニットおよび/またはアクセスユニットをビデオファイルにアセンブルした後、カプセル化ユニット30は、そのビデオファイルを出力のために出力インタフェース32に渡す。いくつかの例では、カプセル化ユニット30は、ビデオファイルを直接的にクライアントデバイス40に送るのではなく、出力インタフェース32を介してビデオファイルをリモートサーバに送り得るか、または、ビデオファイルをローカルに記憶し得る。出力インタフェース32は、例えば、送信機、トランシーバ、コンピュータ読み取り可能な媒体にデータを書き込みするためのデバイス、例としては例えば、光学式ドライブ、磁気媒体ドライブ(例えば、フロッピー(登録商標)ドライブ)、ユニバーサルシリアルバス(USB)ポート、ネットワークインタフェース、または他の出力インタフェース、を備え得る。出力インタフェース32は、ビデオファイルを、例えば、送信信号、磁気媒体、光学媒体、メモリ、フラッシュドライブ、または他のコンピュータ読み取り可能な媒体のようなコンピュータ読み取り可能な媒体に出力する。
[0064] ネットワークインタフェース54は、ネットワーク74を介してNALユニットまたはアクセスユニットを受信し、そのNALユニットまたはアクセスユニットをリトリーバルユニット52を介してカプセル化解除ユニット50に提供し得る。カプセル化解除ユニット50は、ビデオファイルの要素を、構成成分であるPESストリームへとカプセル化解除し、それらPESストリームをデパケット化して符号化されたデータをリトリーブし、および、例えばストリームのPESパケットヘッダによって示される、その符号化されたデータがオーディオストリームの一部かまたはビデオストリームの一部かということに応じて、オーディオデコーダ46あるいはビデオデコーダ48のいずれかに、その符号化されたデータを送り得る。オーディオデコーダ46は、符号化されたオーディオデータを復号し、その復号されたオーディオデータをオーディオ出力42に送り、一方でビデオデコーダ48は、符号化されたビデオデータを復号し、ビデオ出力44に、ストリームの複数のビューを含み得るその復号されたビデオデータを送る。
[0065] ビデオコーディング規格は、ITU−T H.261、ISO/IEC MPEG−1 Visual、ITU−T H.262またはISO/IEC MPEG−2 Visual、ITU−T H.263、ISO/IEC MPEG−4 Visual、ITU−T H.264またはISO/IEC MPEG−4 AVCを、それのスケーラブルビデオコーディング(SVC)およびマルチビュービデオコーディング(MVC)拡張を含めて、含み、ならびに、ITU−T H.265およびISO/IEC 23008−2としても知られる高効率ビデオコーディング(HEVC)を、それのスケーラブルコーディング拡張(すなわち、スケーラブル高効率ビデオコーディング、SHVC)、マルチビュー拡張(すなわち、マルチビュー高効率ビデオコーディング、MV−HEVC)、および3D拡張(すなわち、3D高効率ビデオコーディング、3D−HEVC)を含めて、含む。
[0066] ファイルフォーマットおよびファイルフォーマット規格がこれより簡潔に説明される。ファイルフォーマット規格は、ISOベースのメディアファイルフォーマット(ISOBMFF、ISO/IEC14496−12、以下「ISO/IEC14996−12」)、ならびに、ISOBMFFから派生した他のファイルフォーマット規格を含み、それは、MPEG−4ファイルフォーマット(ISO/IEC14496−15)、3GPPファイルフォーマット(3GPP TS26.244)、および、AVCのためのファイルフォーマットを含むISO/IEC14496−15(ISO/IEC14496−15、以下「ISO/IEC14996−15」)およびそれの拡張ならびにHEVCのためのファイルフォーマットおよびそれの拡張を含む。したがって、ISO/IEC14496−12は、ISOベースのメディアファイルフォーマットを指定する。他の文書は、特定のアプリケーションのためにISOベースのメディアファイルフォーマットを拡張する。例えば、ISO/IEC14496−15は、ISOベースのメディアファイルフォーマットにおけるNALユニット構造のビデオの搬送(the carriage of NAL unit structured video)を記述する。H.264/AVCおよびHEVCならびにそれらの拡張が、NALユニット構造のビデオの例である。ISO/IEC14496−15は、H.264/AVC NALユニットの搬送を記述するセクションを含む。さらに、ISO/IEC14496−15のセクション8は、HEVC NALユニットの搬送を記述する。したがって、ISO/IEC14496−15のセクション8は、HEVCファイルフォーマットを記述するものと考えられる。114thMPEGミーティングの後、いくつかの国家的機関から受け取られたコメントに基づいて、ISO/IEC14496−15暫定仕様書の新しいバージョンに適用されることになるISO/IEC14496−15へのいくつかの変更を含む処理文書(a disposition document)が作成された。この処理文書は、「MPEG output document N15297」と呼ばれる。
[0067] ISOBMFFは、AVCファイルフォーマットのような多くのコーデックカプセル化フォーマットのための、ならびに、MPEG−4ファイルフォーマット、3GPPファイルフォーマット(3GP)、およびDVBファイルフォーマットのような多くのマルチメディアコンテナフォーマットのための、基礎として使用される。オーディオおよびビデオのような連続したメディアに加えて、イメージのような静的なメディア、ならびにメタデータが、ISOBMFFに準拠するファイルに記憶されることができる。ISOBMFFに従って構造されたファイルは、ローカルメディアファイル再生、リモートファイルの漸進的なダウンロード、HTTPを介した動的適応型ストリーミング(DASH)のためのセグメント、ストリーミングされることになるコンテンツおよびそれのパケット化命令のためのコンテナ、および受信されるリアルタイムメディアストリームの記録を含む、多くの目的のために使用され得る。したがって、元々はストレージのために設計されたにも関わらず、ISOBMFFは、例えば漸進的なダウンロードまたはDASHのためのストリーミングのために有益であることが分かった。ストリーミングの目的のために、ISOBMFFにおいて定義された動画フラグメントが使用されることができる。オーディオおよびビデオのような連続したメディアに加えて、イメージのような静的なメディア、ならびにメタデータが、ISOBMFFに準拠するファイルに記憶されることができる。
[0068] HEVCファイルフォーマットに準拠するファイルは、ボックスと呼ばれる一連のオブジェクトを備え得る。ボックスは、一意のタイプ識別子および長さによって定義されたオブジェクト指向のビルディングブロック(an object-oriented building block)であり得る。ボックスは、ISOBMFFにおけるエレメンタリシンタックス構造であり、4文字のコーディングされたボックスタイプ、ボックスのバイトカウント、およびペイロードを含む。言い換えれば、ボックスは、コーディングされたボックスタイプ、ボックスのバイトカウント、およびペイロードを備えるシンタックス構造であり得る。いくつかの事例(instances)では、HEVCファイルフォーマットに準拠するファイル中のすべてのデータは、ボックス内に含まれ得、ボックス中に無いファイル中のデータは存在しない可能性がある。したがって、ISOBMFFファイルは、ボックスのシーケンス(a sequence of boxes)から構成され、およびボックスは、他のボックスを含み得る。例えば、ボックスのペイロードは、1つまたは複数の追加的なボックスを含み得る。本開示の他の場所に詳細に説明される図9は、本開示の1つまたは複数の技法による、ファイル内の例示的なボックスを示す。
[0069] ISOBMFFに準拠するファイルは、様々なタイプのボックスを含み得る。例えば、ISOBMFFに準拠するファイルは、ファイルタイプボックス、メディアデータボックス、動画ボックス、動画フラグメントボックス等を含み得る。この例では、ファイルタイプボックスは、ファイルタイプおよび互換性情報を含む。メディアデータボックスは、サンプル(例えば、コーディングされたピクチャ)を含み得る。動画ボックス(Movie box)(「moov」)は、ファイル中に存在する連続したメディアストリームについてのメタデータを含む。連続したメディアストリームの各々は、トラックとしてファイル中に表され得る。例えば、動画ボックスは、動画に関するメタデータ(例えば、複数のサンプル間の論理およびタイミング関係、またサンプルのロケーションに対するポインタ)を含み得る。動画ボックスは、いくつかのタイプのサブボックスを含み得る。動画ボックス中のサブボックスは、1つまたは複数のトラックボックスを含み得る。トラックボックスは、動画の個々のトラックについての情報を含み得る。トラックボックスは、単一のトラックの全般的な情報(overall information)を指定するトラックヘッダボックスを含み得る。加えて、トラックボックスは、メディア情報ボックスを含むメディアボックスを含み得る。メディア情報ボックスは、トラック中のメディアサンプルにインデックス付けする(indexing)データを含むサンプルテーブルボックスを含み得る。サンプルテーブルボックス中の情報は、サンプルを、時間的に、およびトラックのサンプルの各々に関して、タイプ、サイズ、コンテナ、およびサンプルのそのコンテナへのオフセットにおいて、位置付けるために使用され得る。したがって、トラックについてのメタデータは、トラックボックス(Track box)(「trak」)中にエンクローズされ、一方でトラックのメディアコンテンツは、メディアデータボックス(Media Data box)(「mdat」)にエンクローズされるか、直接別個のファイルにエンクローズされるかのいずれかである。トラックについてのメディアコンテンツは、オーディオまたはビデオアクセスユニットのようなサンプルのシーケンスを備えるか、サンプルのシーケンスから構成される。
[0070] ISOBMFFは、次のタイプのトラックを指定する:エレメンタリメディアストリームを含むメディアトラック、メディア送信命令を含むか、受信されたパケットストリームを表すか、のいずれかであるヒントトラック、および時間同期されたメタデータ(time-synchronized metadata)を備える時限のメタデータトラック(a timed metadata track)。各トラックについてのメタデータは、サンプル記述エントリのリストを含み、それらの各々は、そのトラック中で使用されるコーディングまたはカプセル化フォーマット、およびそのフォーマットを処理するために使用される初期化データを提供する。各サンプルは、トラックのサンプル記述エントリのうちの1つに関連する。
[0071] ISOBMFFは、様々なメカニズムを用いてサンプル固有のメタデータを指定することを可能にする。サンプルテーブルボックス(the Sample Table box)(「stbl」)内の特定のボックスは、共通のニーズに答えるために標準化されている。例えば、Syncサンプルボックス(a Sync Sample box)(「stss」)は、トラックのランダムアクセスサンプルをリスト化するために使用される。サンプルグルーピングメカニズムは、ファイル中にサンプルグループ記述エントリとして指定された同じプロパティを共有するサンプルのグループへの4文字のグルーピングタイプに従ったサンプルのマッピングを可能にする。いくつかのグルーピングタイプが、ISOBMFFに定められている。サンプルテーブルボックス(The Sample Table box)は、トラック中のメディアサンプルの、すべての時間およびデータインデックス付け(indexing)を含むサンプルテーブルを含む。サンプルテーブルボックス(the Sample Table box)中のテーブルを使用して、サンプルを時間的に位置付けること、それらのタイプを決定すること(例えば、Iフレームまたはそうでない)、およびそれらのサイズ、コンテナ、およびそのコンテナへのオフセットを決定すること、が可能であり得る。
[0072] 例えば、Syncサンプルボックス(「stss」)は、サンプルテーブルボックス(a Sample Table box)内のボックスである。Syncサンプルボックスは、トラックのランダムアクセスサンプルをリスト化するために使用される。本開示は、Syncサンプルボックスによってリスト化されたサンプルを、syncサンプルと称し得る。別の例では、サンプルグルーピングメカニズムは、ファイル中にサンプルグループ記述エントリとして指定された同じプロパティを共有するサンプルのグループへの4文字のグルーピングタイプに従ったサンプルのマッピングを可能にする。いくつかのグルーピングタイプが、ISOBMFFに定められている。
[0073] ISOBMFF仕様書は、DASHとともに使用するための6つのタイプのストリームアクセスポイント(SAP)を指定する。第1の2つのSAPタイプ(タイプ1および2)は、H.264/AVCおよびHEVCにおけるIDRピクチャに対応する。第3のSAPタイプ(タイプ3)は、オープンGOPランダムアクセスポイント、よってHEVCにおけるBLAまたはCRAピクチャに対応する。第4のSAPタイプ(タイプ4)は、GDRランダムアクセスポイントに対応する。
[0074] 動画フラグメントボックスは、トップレベルのボックスである。各動画フラグメントボックスは、動画ボックス中に前に存在したであろう情報を提供する。動画フラグメントボックスは、1つまたは複数のトラックフラグメント(「traf」)ボックスを含み得る。動画フラグメント内には、トラックあたりゼロまたはそれより多くのトラックフラグメントのセットが存在する。トラックフラグメントは今度は、ゼロまたはそれより多くのトラックラン(track runs)を含み、それらの各々が、そのトラックについてのサンプルの連続的なラン(a contiguous run of samples)を記録(documents)する。例えば、各トラックランは、復号順序等のある特定の順序で連続するピクチャのサンプルを含み得る。トラックフラグメントボックスは、14996−12仕様書において定義され、1つまたは複数のトラックフラグメントについてのメタデータを備える。例えば、トラックフラグメントボックスは、デフォルトサンプルフラグ、デフォルトサンプルサイズ、デフォルトサンプル持続時間、サンプル記述インデックス、ベースデータオフセット、およびトラックIDを示すトラックフラグメントヘッダボックスを含み得る。トラックフラグメントボックスは、1つまたは複数のトラックフラグメントランボックス(track fragment run boxes)を含み得、それらの各々が、トラックについてのサンプルの連続的なセットを記録(documenting)する。例えば、トラックフラグメントボックスは、サンプルカウント、データオフセット、サンプルフラグ、サンプル持続時間、サンプルサイズ、サンプルコンポジション時間オフセット等を示すシンタックス要素を含み得る。これらの構造内では、多くのフィールドはオプションであり、およびデフォルトにされる(defaulted)ことができる。
[0075] サンプルテーブルボックスは、1つまたは複数のSampleToGroupボックスおよび1つまたは複数のサンプルグループ記述ボックス(すなわち、SampleGroupDescriptionボックス)を含み得る。SampleToGroupボックスは、サンプルが属するサンプルグループを、そのサンプルグループの関連する記述とともに、決定するために使用され得る。言い換えれば、SampleToGroupボックスは、サンプルが属するグループを示し得る。SampleToGroupボックスは、ボックスタイプ「sbgp」を有し得る。SampleToGroupボックスは、グルーピングタイプ要素(例えば、grouping_type)を含み得る。本開示においては、いくつかの事例(instances)では、ボックスの要素はまた、シンタックス要素とも呼ばれ得る。グルーピングタイプ要素は、サンプルグルーピングのタイプ(すなわち、サンプルグループを形成するために使用される基準)を識別する整数であり得る。さらに、SampleToGroupボックスは、1つまたは複数のエントリ(すなわち、サンプルグループエントリ)を含み得る。SampleToGroupボックス中の各サンプルグループエントリは、トラック中の、異なる、オーバーラップしていない一連の連続するサンプルに関連し得る。各サンプルグループエントリは、サンプルカウント要素(例えば、sample_count)およびグループ記述インデックス要素(例えば、group_description_index)を示し得る。サンプルグループエントリのサンプルカウント要素は、そのサンプルグループエントリに関連するサンプルの数(a number of samples)を示し得る。言い換えれば、サンプルグループエントリのサンプルカウント要素は、同じサンプルグループ記述子を有する連続するサンプルの数を示す(gives)整数であり得る。グループ記述インデックス要素は、SampleGroupDescriptionボックス内で、サンプルグループエントリに関連するサンプルの記述を含むグループ記述エントリを識別し得る。複数のサンプルグループエントリのグループ記述インデックス要素は、同じSampleGroupDescriptionボックスを識別し得る。
[0076] ISO/IEC 23009−1に定められたHTTPを介した動的適応型ストリーミング(DASH)は、HTTP(適応型)ストリーミングアプリケーションのための規格である。DASHは、主に、メディアセグメントフォーマット、および、マニフェストとしても知られるメディアプレゼンテーション記述(MPD)のフォーマットを指定する。MPDは、サーバ上で利用可能なメディアを記述し、DASHクライアントに、それが関心を持つメディアの時間におけるメディアのバージョン(the media version at the media time)を自発的にダウンロードすることを許す。
[0077] DASHは、階層データモデルに基づく。プレゼンテーションは、メディアプレゼンテーションを構成する時間における期間のシーケンス(the sequence of periods)を記述するMPD文書によって記述される。期間は、典型的には、メディアコンテンツの符号化されたバージョンの一貫したセットが利用可能である、例えば利用可能なビットレート、言語、キャプション、サブタイトル等のセットがある期間(a Period)の間に変化しない、メディアコンテンツ期間を表す。
[0078] ある期間内では、材料(material)は複数の適応セットに配列される。適応セットは、1つのまたはいくつかのメディアコンテンツコンポーネントの置き換え可能な符号化されたバージョンのセットを表す。例えば、主要なビデオコンポーネントについての1つの適応セットと、主要なオーディオコンポーネントについての別個の適応セットが存在し得る。キャプションまたはオーディオ記述のような他の利用可能な材料は、各々別個の適応セットを有し得る。材料はまた、多重化された形式(in multiplexed form)で提供され得、その場合にはその多重化の置き換え可能なバージョンは単一の適応セット、例えば、ある期間についての主要なオーディオと主要なビデオとの両方を含む適応セット、として記述され得る。多重化されたコンポーネントの各々は、メディアコンテンツコンポーネント記述によって個々に記述され得る。
[0079] 適応セットは、表現のセットを含む。表現は、1つのまたはいくつかのメディアコンテンツコンポーネントの配信可能な符号化されたバージョンを記述する。表現は、1つまたは複数のメディアストリーム(多重化におけるメディアコンテンツコンポーネントごとに1つ)を含む。適応セット内のいずれの単一の表現も、含まれたメディアコンテンツコンポーネントをレンダリングするために十分である。1つの適応セット中に複数の異なる表現を集めることによって、メディアプレゼンテーションの作成者は、それら表現が知覚的に同等のコンテンツを表すことを表現する。典型的には、これは、クライアントが、ネットワーク条件または他のファクタに適応するために、適応セット内のある表現から別の表現へと動的に切り替え得ることを意味する。切り替えることは、ある特定の時間tまでの復号されたデータの提示、および時間tからその先への別の表現の復号されたデータの提示を指す。複数の表現が1つの適応セット(Adaptation Set)に含まれ、およびクライアントが適切に切り替える場合、メディアプレゼンテーションは、その切替の間途切れのなく知覚されると予想される。クライアントは、彼らがサポートしないコーデックまたは他のレンダリング技術に頼る表現、または別の理由で不適当である表現を、無視し得る。ある表現内で、コンテンツは、適切なアクセス可能性および配信のために、複数のセグメントへと、時間的に分割され得る。セグメントにアクセスするために、セグメントごとにURLが提供される。その結果、セグメントは、単一のHTTP要求を用いてリトリーブされることができるデータの最も大きなユニットである。
[0080] DASHベースのHTTPストリーミングのための典型的なプロシージャは、以下のステップを含む:
1) クライアントは、ストリーミングコンテンツ、例えば動画、のMPDを取得する。MPDは、ストリーミングコンテンツの、例えば、ビットレート、ビデオ解像度、フレームレート、オーディオ言語等の複数の異なる代替的な表現についての情報、ならびにHTTPリソース(初期化セグメントおよびメディアセグメント)のURLを含む。
2) MPD中の情報およびクライアントのローカル情報、例えばネットワーク帯域幅、復号/表示性能、およびユーザの選好、に基づいて、クライアントは、所望の表現(1つまたは複数)を、一度に1セグメント(またはその一部)要求する。
3) クライアントがネットワーク帯域幅の変更を検出するとき、それは、理想的にはランダムアクセスポイントで始まるセグメントから始まる、より良くマッチするビットレート(a better-matching bitrate)を有する異なる表現のセグメントを要求する。
[0081] HTTPストリーミング「セッション」の間に、後方へと過去のポジションを求める、または前方へと将来のポジションを求めるユーザ要求に応答するために、クライアントは、所望のポジションに近くかつ理想的にはランダムアクセスポイントで始まるセグメントから始まる、過去または将来のセグメントを要求する。ユーザはまた、コンテンツを早送りすることを要求し得、それは、ビデオストリームの時間的サブセットのみを、またはイントラコーディングされたビデオピクチャのみを復号するために十分なデータを要求することによって、実現され得る。
[0082] バーチャルリアリティ(VR)は、非物理世界と相互作用することを可能にする没入したユーザ(the immersed user)のムーブメントによって相互に関連付けられた自然および/または合成のイメージおよびサウンドのレンダリングによって作り出された、非物理世界に、バーチャルに存在する能力(the ability to be virtually present in)である。ヘッドマウントディスプレイ(HMD:head mounted displays)およびVRビデオ(360度ビデオと呼ばれることも多い)生成物等の、レンダリングデバイスにおいて成された最近の進歩によって、著しく高品質なエクスペリエンス(a significant quality of experience)が提供されることができる。ゲーミング、トレーニング、教育、スポーツビデオ、オンラインショッピング、アダルトエントレインメント(adult entrainment)等を含むVRアプリケーション。
[0083] 典型的なVRシステムは、以下のコンポーネントおよびステップを含み得る:
a. カメラセット、それは典型的には、複数の異なる方向を向き、かつ理想的には、集合的にカメラセットの周りのすべてのビューポイントをカバーする複数の個々のカメラから構成される。
b. イメージスティッチング(Image stitching)、そこでは複数の個々のカメラによって撮られたビデオピクチャが時間領域において同期されかつ空間領域において繋ぎ合わせられて(stitched)球状のビデオ(a spherical video)となり、しかし(世界地図のような)エクイレクタングラー(equi-rectangular)またはキューブマップ(cube map)のような長方形フォーマットにマッピングされる。
c. マッピングされた長方形フォーマットのビデオは、ビデオコーデック、例えばH.265/HEVCまたはH.264/AVC、を使用して符号化/圧縮される。
d. 圧縮されたビデオビットストリーム(1つまたは複数)は、メディアフォーマットで記憶および/またはカプセル化され得、およびネットワークを通して受信機に送信される(場合によってはユーザによって見られているエリアのみをカバーするサブセットのみ)。
e. 受信機は、場合によってはあるフォーマットでカプセル化されたビデオビットストリーム(1つまたは複数)またはその一部を受信し、復号されたビデオ信号またはその一部を、レンダリングデバイスに送る。
f. レンダリングデバイスは、例えばHMDであることができ、それは、頭部のムーブメント、また眼球のムーブモーメント(move moment)ですら、トラックすることができ、没入できるエクスペリエンス(an immersive experience)がユーザに配信されるように、ビデオの対応する部分をレンダリングする。
[0084] 通常のビデオと比較したVRビデオの明らかな特徴は、VRでは典型的に、現在のビューのフィールド(FOV:field of view)、すなわち、ユーザによって現在見られているエリアに対応する、ビデオピクチャによって表された全ビデオ領域(region)のサブセットのみが表示され、一方、通常のビデオのアプリケーションでは典型的に、全ビデオ領域が表示される点である。FOVは、時にビューポートとも呼ばれる。この特徴は、例えば、ビューポートに依存したプロジェクションマッピングまたはビューポートに依存したビデオコーディングを使用することによって、VRビデオシステムのパフォーマンスを改善するために利用され得る。パフォーマンスの改善は、ユーザに提示されるビデオパートの、同じ解像度/品質の下での、従来のVRビデオシステムに比べてより狭い(lower)送信帯域幅およびより低い復号複雑性のうちのいずれかまたはその両方であることができる。
[0085] ビューポートに依存したプロジェクションマッピングはまた、非対称プロジェクションマッピングとも呼ばれ得る。1つの例は、サブサンプリングされたキューブマップ(sub-sampled cube-map)である。典型的なキューブマップは、6つの等しいサイズの面から構成される。サブサンプリングされたキューブマップの一例では、それら面のうちの1つは変化しないまま保たれることができ、一方反対側の面は、元の面の形状の中心エリアに位置するより小さいサイズにサブサンプリングされるか、またはダウンスケーリングされることができ、および他の面は、(依然として6つの面を保ったまま)それに応じて幾何学的にスケーリングされる。極値(The extreme)は、反対側にある面を単一の点へとダウンスケーリングするものであり、よってキューブはピラミッド型となる。サブサンプリングされたキューブマップの別の例では、いくつかの面は、比例的に、例えば2x2の比率(すなわち、面の端と並行な各方向に2:1)で、ダウンサイズされる。
[0086] そのようなダウンサイズされたスケーリングは、エクイレクタングラーのような他のプロジェクションマッピングのための異なる領域にも適用されることができる。1つの例は、上面および底面領域(the upper and bottom regions)(すなわち、極(the poles))の両方をダウンサイズすることである。
[0087] ビューポートに依存したビデオコーディングはまた、ビューポートに依存した部分的なビデオ復号とも呼ばれ得、それは、現在のFOVまたはビューポートの表示のために十分な情報を提供するために、全符号化されたビデオ領域を部分的にのみ復号することを可能にすることが鍵だからである。
[0088] 従来、VRビデオは、エクイレクタングラーまたはキューブマッププロテクションマッピング(protection mapping)で表される。ビデオピクチャは、時間的インター予測(TIP:temporal inter prediction)を使用して単一レイヤビットストリームとして符号化され、全コーディングされたビットストリームが、必要な場合サーバに記憶され、受信機側に送信され、デコーダによって完全に復号され、現在のビューポートに対応する復号されたピクチャの領域が、ユーザにレンダリングされる。
[0089] VRビデオピクチャは、ビューポートをカバーする各潜在的な領域が、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイル(motion-constrained tiles)を使用してコーディングされることができる。特定の現在のビューポートに関して、ビューポートをカバーするタイルの最小セットがクライアントに送られ、復号され、およびレンダリングされる。この方法は、STPD(Simple Tile based Partial Decoding)と呼ばれ、図2によって示される。
[0090] このアプローチの問題点は、現在送られているタイルによって(完全にまたは部分的に)カバーされていない新しいビューポートに、ユーザが彼または彼女の頭部を素早く振り向けたとき、新しいビューポートをカバーするタイルが到着する(そしてデータがバッファリングタイムラインに従って十分にバッファされる)前には、(新しいビューポートによってカバーされるが古いビューポートによってはカバーされない)新しいエリアにおける何ものも、見られることができない点である。ゆえに、この方法は、ネットワークラウンドトリップタイムが極めて短い、例えば10msの長さ(at a magnitude of 10 ms)である場合にのみ機能することができ、それは今日あるいは近い将来には実現不可能であるか、または少なくとも大きな挑戦である。
[0091] SLPD#1およびSLPD#2と呼ばれる2つのSLPD(ScaLable coding based Partial Decoding)スキームが、このセクションに提示される。図3によって示されるように、SLDP#1では、VRビデオは、複数の解像度を伴うSHVC(または別のタイプのスケーラブルビデオコーディング)空間スケーラビリティを使用してスケーラブルコーディングされる。いずれのビューポートについても、少なくとも最も低い解像度のビデオはいつでもレンダリングのために利用可能であるように、最も低い解像度のビデオのビットストリーム、すなわち、ベースレイヤ(BL)は、常に完全に送られる。最も低い解像度のビデオは、もしそれがタイルまたは動き制約タイルを使用してコーディングされた場合もまた機能するであろうが、タイルを使用してコーディングされる必要は全くない。
[0092] エンハンスメントレイヤ(EL)は、ビューポートをカバーする各潜在的な領域が、インターレイヤ予測(ILP:inter-layer prediction)が有効な状態で、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイルを使用してコーディングされる。特定の現在のビューポートに関して、ビューポートをカバーするタイルの最小セットがクライアントに送られ、復号され、およびレンダリングされる。ストレージの観点からは、すべての解像度/レイヤの完全なストリームが記憶される必要がある。
[0093] 2つより多くのレイヤがコーディングされるとき、複数の異なるビューポートをカバーする複数のタイルは、異なる解像度から選ばれることができる。現在のビューポートについては、タイルは、最も高い解像度から選ばれ、現在のビューポートに隣接するビューポートについては、タイルは、2番目に高い解像度から選ばれ、以降同様である。
[0094] 図4によって示されるように、SLDP#2では、VRビデオはまた、複数の解像度を伴うSHVC空間スケーラビリティを使用してスケーラブルコーディングされる。BLは、SLPD#1においてと同じようにコーディングされ、一方でELは、SLPD#1においてと同様に、しかし時間的インター予測(TIP:temporal inter prediction)が無効な状態で、コーディングされる。
[0095] SMPD#1およびSMPD#2と呼ばれる2つのSMPD(SiMulcast coding based Partial Decoding)スキームが、このセクションに提示される。SMPD#1は、図5によって示される。この方法は、インターレイヤ予測が使用されないことを除いて、SLPD#1と同じである。言い換えれば、最も低い解像度を除いて、他のすべての解像度が、STPDにおいてと同じ方法でコーディングされる。SMPD#2は、図6によって示される。SMPD#2とSMPD#1との間には2つの差異が存在する:
SMPD#2においては、最も低い解像度はまた他の解像度と同じように動き制約タイルを使用してコーディングされる。SMPD#2が使用されるとき、最も低い解像度はまた完全には送られず、現在のビューポートから幾何学的に最も遠いビューポートおよび他の解像度から送られたタイルによってカバーされない任意の他のビューポートをカバーするタイルのみが送られる。
[0096] 今日現在、DASHにおけるVRシグナリングをサポートする設計が不足している。例えば、DASHに基づいたVRストリーミングシステムがうまく機能するために、本開示は、すべてのビデオ表現またはいくつかのビデオ表現のいずれかが、通常のビデオ(すなわち、伝統的に、非VRビデオ)の代わりに、VRビデオを含むことを示すためのシグナリングを提案する。一例では、シグナリングメカニズムは、VRビデオのレンダリングをサポートしないレガシーDASHクライアントはVRビデオ表現を消費(consume)しようとしないという意味で、下位互換性がある。別の例として、VRビデオの基礎的な部分である、使用されるプロジェクションマッピングは、効率的にシグナリングされ得る。さらに、動き制約タイルベースのビューポートに依存したVRビデオコーディングスキームが使用されるとき、(クライアント性能およびユーザ選好に基づいて)最初に、および(変化するネットワーク条件等への)ストリーム適応のためのストリーミングセッションの間に、の両方に、DASHクライアントが特定の表現を選択することを可能にするために、DASHにおける何らかのシグナリングが使用され得る。
[0097] 本開示は、DASHにおけるVRビデオのシグナリングのためのいくつかの技法を説明する。これらの技法のうちの1つまたは複数は、他の技法から独立して、またはそれらと組み合わせて、適用され得る。これら技法は、異なるレベルにおいてシグナリングされる様々なデータに関して説明され得る。上で紹介されたように、そのようなレベルは、最も高いものから最も低いものへと順に、文書レベル、MPDレベル、期間レベル、適応セットレベル、および表現レベルを含む。各レベルは、一意のセマンティクス(例えば、要素および属性の一意の組合せ)を有するデータ構造を含む。この文脈では、属性は単一の値を指し得、一方で、要素は1つまたは複数の属性のコレクションを指す。要素はまた、追加的な要素を含み得る。
[0098] (例えば、MPDレベルの要素または属性を通した)MPDレベルでのシグナリングは、以下のもののうちの1つまたは複数を示すために提案される:
a. メディアプレゼンテーションのすべてのビデオ表現は、VRビデオを含む。この状況が下位互換性がある方法で機能するために、VRビデオだけを対象とした新しいDASHプロファイルが定義される。このプロファイルに準拠するメディアプレゼンテーションに関して、メディアプレゼンテーションのすべてのビデオ表現は、VRビデオを含むものとする。このように、レガシーDASHクライアントは、メディアプレゼンテーションに決してアクセスしようとしないように構成されることができる。
b. メディアプレゼンテーションのビデオ表現にはVRビデオを含むものが少なくとも1つはあり、メディアプレゼンテーションのビデオ表現には通常のビデオを含むものが少なくとも1つはある。このケースでは、通常のビデオ表現を可能にする既存のDASHプロファイルが使用され得る。しかしながら、すべての表現がVRビデオを含む各ビデオ適応セット、またはVRビデオを含む各表現は、すると、レガシーDASHクライアントが、VRビデオを含むいずれのビデオ表現を使用しようとすることも禁ずるために、新しいDASHプロファイルまたは何か他のインジケーションによってシグナリングされるべきである。
[0099] 例えば、コンテンツ準備デバイス20のようなデバイスは、メディアプレゼンテーションのMPDデータ構造において、メディアプレゼンテーション中の少なくとも1つのビデオ表現がVRビデオを含むことを示すデータをシグナリングし得、デバイスは、メディアプレゼンテーション中のその少なくとも1つのビデオ表現のセグメントを送り得る。クライアントデバイス40またはサーバデバイス60のようなデバイスは、メディアプレゼンテーションのMPDデータ構造においてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーション中の少なくとも1つのビデオ表現がVRビデオを含むことを決定し得、メディアプレゼンテーション中のその少なくとも1つのビデオ表現のセグメントをリトリーブし得る。セグメントをリトリーブするために、デバイスは、そのデバイスがVRビデオを復号するように構成されていることに少なくとも部分的に基づいて、メディアプレゼンテーション中の少なくとも1つのビデオ表現のセグメントをリトリーブし得る。クライアントデバイス40のようなデバイスは、メディアプレゼンテーション中の少なくとも1つのビデオ表現を復号し得る。サーバデバイス60のようなデバイスは、少なくとも1つのビデオ表現のセグメントを、クライアントデバイス40のような別のデバイスに送信し得る。いくつかの例では、メディアプレゼンテーション中の少なくとも1つのビデオ表現がVRビデオを含むと決定するために、デバイスは、MPDデータ構造においてシグナリングされるデータに基づいて、メディアプレゼンテーション中のすべてのビデオ表現がVRビデオを含むと決定し得る。
[0100] データは、例えば、MPDレベルの要素またはMPDレベルの属性であり得る。メディアプレゼンテーションは、メディアプレゼンテーションの1つまたは複数のビデオ表現を含むビデオ適応セットを含み得る。ビデオ適応セットは、VRビデオのための特定のDASHプロファイルに準拠し得、ここで、特定のDASHプロファイルに準拠するメディアプレゼンテーション中のすべてのビデオ表現は、VRビデオを含む。メディアプレゼンテーション中の少なくとも1つのビデオ表現はまた、非VRビデオを含み得る。
[0101] 使用されるプロジェクションマッピングは、期間レベル(例えば、期間レベルの要素または属性を通して)および適応セットレベル(例えば、適応セットレベルの要素または属性を通して)の両方においてシグナリングされ得るが、しかし、VRビデオ表現と非VRビデオ表現との間のストリーム適応のための表現切替を阻止(discourage)するために、表現レベルにおいてはシグナリングされない可能性がある。
a. 期間レベルのシグナリングが存在するとき、適応セットレベルにおけるシグナリングはオプションであり、およびこのケースでは、もしシグナリングが適応セットについても存在したとしても、それは期間レベルのシグナリングと矛盾(contradict with)しないものとする。
b. 期間レベルのシグナリングが存在しないときには、適応セットレベルのシグナリングは義務的である(すなわち、存在しなければならない)。
[0102] 例えば、コンテンツ準備デバイス20のようなデバイスは、メディアプレゼンテーション記述の期間レベルまたはメディアプレゼンテーション記述の適応セットレベルのうちの少なくとも1つにおいてデータを送り得、そのデータは、メディアプレゼンテーションで使用されるプロジェクションマッピングを示し得る。デバイスは、メディアプレゼンテーションのビデオ表現のセグメントを送り得る。クライアントデバイス40またはサーバデバイス60のようなデバイスは、メディアプレゼンテーション記述の期間レベルまたはメディアプレゼンテーション記述の適応セットレベルのうちの少なくとも1つにおいてシグナリングされるデータに少なくともオンパートに基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定し、その決定に基づいて、メディアプレゼンテーションのビデオ表現のセグメントをリトリーブすることによって、メディアデータをリトリーブし得る。デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをリトリーブするかどうかを決定し得る。デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをどのように復号するかを決定し得る。プロジェクションマッピングをシグナリングするデータは、メディアプレゼンテーションの表現レベルにおいてはシグナリングされない。
[0103] いくつかの例では、プロジェクションマッピングをシグナリングするデータがメディアプレゼンテーションの期間レベルに存在するとき、メディアプレゼンテーションの適応セットレベルにおけるプロジェクションマッピングのシグナリングは、オプションであり得る。いくつかの例では、プロジェクションマッピングをシグナリングするデータがメディアプレゼンテーションの適応セットレベルに存在するとき、メディアプレゼンテーションの期間レベルにおいてプロジェクションマッピングをシグナリングすることは、義務的であり得る。プロジェクションマッピングをシグナリングするデータは、メディアプレゼンテーションの表現レベルにおいてはシグナリングされない可能性がある。
[0104] (例えば、適応セットレベルの要素または属性を通した)適応セットレベルのシグナリングは、動き制約タイルベースのビューポートに依存したVRビデオコーディングスキームが使用されているかどうか、そしてもしそうであるなら、いずれが使用されているか、を示すために使用される。例えば、セクション2.5.2に記述されているような3つのアプローチ、STPD、SLPD#1、およびSMPD#2のうちの1つが使用され得ることが定められ得、およびこれらの3つのうちのいずれが使用されているかを示すために属性が使用される、例えば、値1、2または3がそれぞれ、STPDが使用されること、SLPD#1が使用されること、またはSMPD#2が使用されること、を示す。
[0105] 例えば、コンテンツ準備デバイス20のようなデバイスは、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいて、動き制約タイルベースのビューポートに依存したVRビデオコーディングスキーム(motion-constrained tiles based viewport dependent VR video coding scheme)がそのメディアプレゼンテーションにおいて使用されていることを示すデータを送り得、そのメディアプレゼンテーションのセグメントを送り得る。そのデータは第1のデータであり得、デバイスはまた、いずれの動き制約タイルベースのビューポートに依存したVRコーディングスキームがメディアプレゼンテーションにおいて使用されているかを示す、メディアプレゼンテーションの適応セットレベルにおいてシグナリングされる、第2のデータを送り得る。クライアントデバイス40またはサーバデバイス60のようなデバイスは、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされる第1のデータに基づいて、動き制約タイルベースのビューポートに依存したVRビデオコーディングスキームがそのメディアプレゼンテーションにおいて使用されているかどうかを決定し得、デバイスは、そのメディアプレゼンテーションのセグメントをリトリーブし得る。動き制約タイルベースのビューポートに依存したVRコーディングスキームがそのメディアプレゼンテーションにおいて使用されていると決定することに応答して、デバイスは、メディアプレゼンテーションの適応セットレベルにおいてシグナリングされる第2のデータに基づいて、いずれの動き制約タイルベースのビューポートに依存したVRコーディングスキームがそのメディアプレゼンテーションにおいて使用されているかを決定し得る。
[0106] 第1の動き制約タイルベースのビューポートに依存したVRコーディングスキームに従って、デバイスは、ビューポートをカバーする各潜在的な領域が、独立して、時間を越えて他の領域から復号可能であるように、動き制約タイルを使用してVRビデオピクチャを符号化または復号し得る。第2の動き制約タイルベースのビューポートに依存したVRコーディングスキームに従って、(1)VRビデオは、複数の解像度を伴うスケーラブルビデオコーディング空間スケーラビリティを使用してスケーラブルコーディングされ得、(2)ベースレイヤは、いずれのビューポートについても、少なくとも最も低い解像度のビデオはいつでもレンダリングのために利用可能であるように、完全に送られ得、(3)エンハンスメントレイヤ(EL)は、ビューポートをカバーする各潜在的な領域が、インターレイヤ予測が有効な状態で、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイルを使用してコーディングされ、および(4)時間的インター予測はベースレイヤおよびElにおいて有効にされる。第3の動き制約タイルベースのビューポートに依存したVRコーディングスキームに従って、(1)VRビデオは、複数の解像度を伴うスケーラブルビデオコーディング空間スケーラビリティを使用してスケーラブルコーディングされ得、(2)ベースレイヤは、いずれのビューポートについても、少なくとも最も低い解像度のビデオはいつでもレンダリングのために利用可能であるように、完全に送られ得、(3)ELは、ビューポートをカバーする各潜在的な領域が、インターレイヤ予測が有効な状態で、独立して、時間を越えて他の領域から復号されることができるように、動き制約タイルを使用してコーディングされ得、および(4)時間的インター予測は、ベースレイヤにおいては有効にされ得るが、ELにおいては無効にされ得る。メディアプレゼンテーションの適応セットレベルにおいてシグナリングされる第2のデータは、第1の、第2の、または第3の動き制約タイルベースのビューポートに依存したVRコーディングスキームのうちのいずれが、メディアプレゼンテーションにおいて使用されているかを示し得る。
[0107] ファイルフォーマットレベルにおけるタイルベースのビューポートに依存した部分的なVRビデオ符号化および復号スキームのシグナリングは、ISO/IEC14496−15の10節におけるレイヤードHEVC(L−HEVC)およびHEVCのタイルドストレージ(the tiled storage)を使用することができる。いくつかの例では、タイル領域サンプルグループマッピングが使用されるとき、(1つのトラックに対応する)特定のDASH表現からのあるビューポートをカバーするタイルの要求のために多くのバイト範囲を使用する必要を回避するために、各々が1つの動き制約タイルまたはタイル領域を搬送する(carrying)複数のタイルトラックが使用される。
[0108] 例えば、コンテンツ準備デバイス20のようなデバイスは、タイルベースのビューポートに依存したVRビデオ符号化および復号スキームを示す、メディアプレゼンテーションを含むファイルのファイルフォーマットレベルにおいて記憶されたデータを送り得、およびメディアプレゼンテーションのセグメントを送り得る。クライアントデバイス40またはサーバデバイス60のようなデバイスは、メディアプレゼンテーションを含むファイルのファイルフォーマットレベルにおいて記憶されたデータに基づいて、タイルベースのビューポートに依存したVRビデオ符号化および復号スキームを決定し得、およびメディアプレゼンテーションのセグメントをリトリーブし得る。ファイルは、例えば、複数のトラックを、それら複数のトラックの各それぞれのトラックが動き制約タイルまたはタイル領域を含む状態で、含み得る。
[0109] ISO/IEC 23008−2ビデオは、タイルと呼ばれる長方形領域のコーディングに関するサポートを提供する。HEVCタイルは、同じコーディングされたピクチャ内の他のHEVCタイルとはコーディング依存関係を有しないが前のコーディングされたピクチャからの他のHEVCタイルとはコーディング依存関係を有し得るか、あるいは、独立して復号され得る。ISO/IEC14496−15の10節では、長方形タイル領域は、他のHEVCタイルを含まず、復号順序で連続する必要はないが連続している可能性のある、1つまたは複数のスライス中に符号化される長方形領域を形成する任意の整数のHEVCタイル、と定義される。ISO/IEC14496−15の10節では、制約のないタイル領域(unconstrained tile region)は、1つまたは複数の完全なHEVCタイルから成り、復号順序で連続する必要はないが連続している可能性のある、任意の数の完全なスライス、と定義される。ISO/IEC14496−15の10節では、制約のないタイル領域はまた、いくつかのHEVCタイルに及ぶ関心領域(a region of interest)を表すために使用される可能性がある。
[0110] さらに、ISO/IEC14496−15の従属節10.6に記述されるように、

異なるトラックに独立して復号可能なHEVC(それぞれL−HEVC)タイルを記憶することは、ビデオコンテンツへの速い空間的および時間的アクセスのために有益であり得るケースが存在する。そのようなケースについては、トラックは、HEVCTileSampleEntry(それぞれLHEVCTileSampleEntry)サンプル記述フォーマットを使用して作り出され得る。

HEVC(それぞれL−HEHC)タイルトラックは、タイル(1つまたは複数)が属する関連するHEVCレイヤのNALUを搬送するHEVC(それぞれL−HEVC)トラックへの「tbas」参照が存在するビデオトラックである。HEVCタイルトラックのためのサンプル記述タイプは、「hvt1」であるものとする。L−HEVCタイルトラックのためのサンプル記述タイプは、「lht1」であるものとする。

タイルトラックにおけるサンプルも、サンプル記述ボックスも、VPS、SPS、またはPPS NALユニットを含まないものとし、これらのNALユニットは、「tbas」トラック参照によって識別されるような、関連するレイヤを含むトラックのサンプル記述ボックスまたはサンプルに存在するものとする。「tbas」トラック参照によって示されるような、関連するレイヤを含むトラックおよびHEVC/L−HEVCタイルトラックは両方、元のビットストリームがどのように再構成されるかを示すために、A.7に定義されるような抽出器を使用し得、これらのトラックにおける抽出器の存在は、いくつかのアプリケーション領域では制約され得る。

タイルトラックに記憶されたHEVCまたはL−HEVCサンプルは、ISO/IEC 23008−2に定義されるような、1つまたは複数のタイルに関するスライスの完全なセットである。典型的には、トラックが単一のHEVCタイルから構成される場合、このタイルをコーディングするために使用されるスライス(1つまたは複数)のみが、サンプル中に見つけられることになる。タイルトラックは、典型的には、1つのRectTileRegGroupEntry(単一のタイルトラック)、あるいは、1つのUnconstrTileRegGroupEntryおよびこの制約のないタイル領域の材料である1つまたは複数の依存したRectTileRegGroupEntry(マルチタイルトラック)を含む。

タイルトラックに記憶されたHEVCサンプルは、サンプルにおけるVCL NALユニットがIDR(Instantaneous Decoding Refresh)NALユニット、CRA(Clean Random Access)NALユニット、またはBLA(Broken Link Access)NALユニットである場合、syncサンプルと考えられる。

タイルトラックに記憶されたL−HEVCサンプルは、サンプルにおけるVCL NALユニットがIRAPNALユニットであり、および対応するアクセスユニットがRASLピクチャを有しない場合、syncサンプルと考えられる。

レギュラーHEVC(それぞれL−HEVC)サンプルについて定義されたサブサンプルおよびサンプルグルーピングは、HEVC(それぞれL−HEVC)タイルサンプルについてと同じ定義を有する。

注1:インプリメンテーションは、HEVCシーケンスの完全なタイルのサブセットのみを復号することを決め得る。このケースでは、それは、HEVCシーケンスを復号している間いくつかの抽出器を無視するまたは不必要なトラックを捨てるために、RectTileRegGroupEntryおよびUnconstrTileRegGroupEntryサンプルグループ記述におけるタイル依存関係情報(tile dependency information)を使用し得る。

注2:特定のHEVCまたはL−HEVCタイルトラックによって表されるビデオの一部のみが要求されるとき、ファイルパーサ(a file parser)は、ビデオデコーダに与えられることになる出力ビットストリームを生成するために、次の例示的な処理を使用し得る:[Ed.(YK):これはHEVCまたはL−HEVCタイルトラックの特定のセットが要求されるケースについて一般化されるべきである]。

− 第一に、サンプルエントリに含まれるSEI NALユニットおよびパラメータセットは、出力され、リストされる順序で、その後に次のものが続く:(例えば、パラメータセットNALユニット、プレフィックスSEI NALユニット等の)VCL NALユニットの前に存在しなければならない(「tbas」トラック参照によって示されるような)ベーストラックにおける第1のサンプルのfirstSampleInBaseTrackにおけるNALユニット、タイルトラックにおけるfirstSampleInBaseTrackの対応するサンプルにおけるNALユニット、(例えば、EOS NALユニット、EOB NALユニット等の)VLC NALユニットの後に存在しなければならないfirstSampleInBaseTrackにおけるNALユニット、VLC NALユニットの前に存在しなければならないベーストラックにおける第2のサンプルのsecondSampleInBaseTrackにおけるNALユニット、タイルトラックにおけるsecondSampleInBaseTrackの対応するサンプルにおけるNALユニット、VLC NALユニットの後に存在しなければならないsecondSampleInBaseTrackにおけるNALユニット等。

− ベーストラックおよびタイルトラックにおけるサンプルは、復号時間によって同期される。言い換えれば、ベーストラックにおけるサンプルおよびタイルトラックにおけるそれの対応するサンプルは、同じ復号時間を有する。
[0111] 動き制約タイルベースのビューポートに依存したVRビデオコーディングスキームが使用されており、および14496−15の10節に定められたようなタイルトラックが使用されるとき、例えば、各動き制約タイルまたはタイル領域がトラックまたはDASH表現において排他的に搬送されるとき、適応セットレベルの要素が、各動き制約タイルまたはタイル領域とそれを搬送する表現との間のマッピングをシグナリングするために使用される。要素は、エントリカウントとその後に続く{表現ID、領域ロケーション、および領域サイズ}の値のループを含み得る。同じVRビデオが(各空間解像度が複数のタイルトラックに対応することになる)複数の空間解像度で表され、すべての表現が1つの適応セットに含まれるとき、各領域ロケーションおよび領域サイズは、最も高い解像度に対して、または代替的に、特定の解像度の全ピクチャ領域に対して指定されている可能性があり、ここで特定の解像度は、その特定の解像度に関連する表現IDに等しい属性によって示される。表現IDは、その表現IDを有する表現において完全にまたは部分的に搬送されるピクチャの解像度である解像度に関連すると言われている。
[0112] 例えば、コンテンツ準備デバイス20のようなデバイスは、動き制約タイル(motion constrained tile)またはタイル領域とその動き制約タイルまたはタイル領域を搬送する表現との間のマッピングを含むメディアプレゼンテーションの適応セットレベルの要素を送り得、デバイスは、そのメディアプレゼンテーションのセグメントを送り得る。クライアントデバイス40またはサーバデバイス60のようなデバイスは、メディアプレゼンテーションの適応セットレベルの要素に基づいて、動き制約タイルまたはタイル領域とその動き制約タイルまたはタイル領域を搬送する表現との間のマッピングを決定し得、デバイスは、そのメディアプレゼンテーションのセグメントをリトリーブし得る。適応セットレベルの要素は、エントリカウントおよびエントリのセットを、エントリのセットにおける各エントリが表現識別子値、領域ロケーション値、および領域サイズ値を含む状態で、含み得る。エントリカウントは、エントリのセットにおけるエントリ数を示し得る。
[0113] 動き制約タイルベースのビューポートに依存したVRビデオコーディングスキームが使用されており、および14496−15の10節に定められたようなタイルトラックが使用されない、すなわち、各トラックまたはDASH表現が全コーディングされたピクチャを搬送するときには、DASHクライアントが特定の動き制約タイルまたはタイル領域を要求するためにアクセスユニットレベルまたはサンプルレベルのバイト範囲が必要であり、バイト範囲によって参照されるデータは、排他的に特定の動き制約タイルまたはタイル領域のためのものであり得るか、またはすべての動き制約タイルまたはタイル領域のためのものであり得る。MPDがそのようなバイト範囲を含むことは、負荷が大きすぎる(too heavy)であろう。1つの実行可能であるかもしれない方法は、場合によっては相対的な方法で、そのようなバイト範囲を含むための新しいボックスを定義することであり、例えば、0番目のバイトはその新しいボックスの直後に続くバイトを意味し、そのような新しいボックスのインスタンスは、セグメントインデックスボックスに含まれることができ、そのセグメントにおけるすべてのサンプルまたはアクセスユニットのバイト範囲はその新しいボックスに記録(documented)される。
[0114] 例えば、コンテンツ準備デバイス20のようなデバイスは、動き補償されたタイルベースのビューポートに依存したVRビデオコーディングスキームを使用するメディアプレゼンテーションを記憶するファイル内のボックスにおいて、特定の動き制約タイルまたはタイル領域のバイト範囲を送り得、およびデバイスは、特定の動き制約タイルまたはタイル領域のバイト範囲に基づいて、特定の動き制約タイルまたはタイル領域のデータを送り得る。クライアントデバイス40またはサーバデバイス60のようなデバイスは、動き補償されたタイルベースのビューポートに依存したVRビデオコーディングスキームを使用するメディアプレゼンテーションを記憶するファイル内のボックスに基づいて、特定の動き制約タイルまたはタイル領域のバイト範囲を決定し得、およびデバイスは、特定の動き制約タイルまたはタイル領域のバイト範囲に基づいて、特定の動き制約タイルまたはタイル領域のデータを取得し得る。ボックスは、例えば、セグメントインデックスボックスであり得る。ボックスは、メディアプレゼンテーションのセグメントにおけるすべてのサンプルまたはアクセスユニットのバイト範囲を記録(documenting)するデータを含み得る。
[0115] 図7は、図1のリトリーバルユニット52のコンポーネントの例示的なセットをより詳細に例示するブロック図である。この例では、リトリーバルユニット52は、eMBMSミドルウェアユニット100、DASHクライアント110、およびメディアアプリケーション112を含む。
[0116] この例では、eMBMSミドルウェアユニット100はさらに、eMBMS受信ユニット106、キャッシュ104、およびサーバユニット102を含む。この例では、eMBMS受信ユニット106は、例えば、http://tools.ietf.org/html/rfc6726で利用可能な、T.Pailaらによる「FLUTE−File Delivery over Unidirectional Transport」、Network Working Group、RFC 6726、2012年11月に記述された、FLUTE(File Delivery over Unidirectional Transport)に従って、eMBMSを介してデータを受信するように構成される。つまり、eMBMS受信ユニット106は、BM−SCとして機能し得るサーバデバイス60等から、ブロードキャストを介してファイルを受信し得る。
[0117] eMBMSミドルウェアユニット100がファイルに関するデータを受け取るとき、eMBMSミドルウェアユニットは、受け取られたデータをキャッシュ104に記憶し得る。キャッシュ104は、フラッシュメモリ、ハードディスク、RAM、または任意の他の好適な記憶媒体のようなコンピュータ読み取り可能な記憶媒体を備え得る。
[0118] ローカルサーバユニット102は、DASHクライアント110のためのサーバとして機能し得る。例えば、ローカルサーバユニット102は、DASHクライアント110に、MPDファイルまたは他のマニフェストファイルを提供し得る。ローカルサーバユニット102は、MPDファイルにおいて、セグメントについての利用可能性時間(availability times)、ならびにセグメントがそこからリトリーブされることができるハイパーリンクを、アドバタイズし得る。これらのハイパーリンクは、(例えば、IPv4に関する127.0.0.1等の)クライアントデバイス40に対応するローカルホストアドレスプレフィックスを含み得る。このように、DASHクライアント110は、HTTP GETまたは部分的GET要求を使用して、ローカルサーバユニット102に対してセグメントを要求し得る。例えば、リンクhttp://127.0.0.1/rep1/seg3から利用可能なセグメントについて、DASHクライアント110は、http://127.0.0.1/rep1/seg3を求める要求を含むHTTP GET要求を構築し得、その要求をローカルサーバユニット102にサブミットし得る。ローカルサーバユニット102は、そのような要求に応答して、要求されたデータをキャッシュ104からリトリーブし得、そのデータをDASHクライアント110に提供し得る。
[0119] 図8は、例示的なマルチメディアコンテンツ120の要素を例示する概念図である。マルチメディアコンテンツ120は、マルチメディアコンテンツ64(図1)または記憶媒体62に記憶された別のマルチメディアコンテンツに対応し得る。図8の例では、マルチメディアコンテンツ120は、メディアプレゼンテーション記述(MPD)122および複数の表現124A〜124N(表現124)を含む。表現124Aは、オプションのヘッダデータ126およびセグメント128A〜128N(セグメント128)を含み、一方で表現124Nは、オプションのヘッダデータ130およびセグメント132A〜132N(セグメント132)を含む。文字Nが、便宜上、表現124の各々における最後の動画フラグメントを指定するために使用される。いくつかの例では、表現124間で異なる数の動画フラグメントが存在し得る。
[0120] MPD122は、表現124とは別個のデータ構造を備え得る。MPD122は、図1のマニフェストファイル66に対応し得る。同様に、表現124は、図1の表現68に対応し得る。一般に、MPD122は、例えば、コーディングおよびレンダリング特性、適応セット、MPD122が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報(例えば、時間的サブシーケンス(temporal sub-sequences)を含む表現を示す情報)および/または(例えば、再生中のメディアコンテンツへの、的を絞ったアドバタイズメントの挿入のための)遠隔の期間(remote periods)をリトリーブするための情報等の、表現124の特性を一般に記述するデータを含み得る。
[0121] ヘッダデータ126は、存在するとき、セグメント128の特性、例えば、ランダムアクセスポイント(RAP、ストリームアクセスポイント(SAP)とも呼ばれる)の時間的ロケーションを記述し得、セグメント128のそれは、ランダムアクセスポイント、セグメント128内のランダムアクセスポイントへのバイトオフセット、セグメント128のユニフォームリソースロケータ(URL)、またはセグメント128の他の態様を含む。ヘッダデータ130は、存在するとき、セグメント132についての同様の特性を記述し得る。追加的に、または代替的に、そのような特性は、MPD122内に完全に含まれ得る。
[0122] セグメント128、132は、1つまたは複数のコーディングされたビデオサンプルを含み、それらの各々は、ビデオデータのスライスまたはフレームを含み得る。セグメント128のコーディングされたビデオサンプルの各々は、同様の特性、例えば、高さ、幅、および帯域幅要件を有し得る。そのような特性は、MPD122のデータによって記述され得るが、しかしながらそのようなデータは図8の例には例示されていない。MPD122は、本開示に説明される、シグナリングされる情報のうちの任意のものまたはすべてを追加して、3GPP仕様書によって記述されたような特性を含み得る。
[0123] セグメント128、132の各々は、一意のユニフォームリソースロケータ(URL)に関連し得る。したがって、セグメント128、132の各々は、DASHのようなストリーミングネットワークプロトコルを使用して、独立してリトリーブ可能であり得る。このように、クライアントデバイス40のような宛先デバイスは、セグメント128または132をリトリーブするために、HTTP GET要求を使用し得る。いくつかの例では、クライアントデバイス40は、セグメント128または132の特定のバイト範囲をリトリーブするために、HTTP部分的GET要求を使用し得る。
[0124] 図9は、例示的なビデオファイル150の要素を例示するブロック図であり、それは、図8のセグメント128、132のうちの1つのような、表現のセグメントに対応し得る。セグメント128、132の各々は、図9の例に例示されるデータの配列に事実上一致(conforms)するデータを含み得る。ビデオファイル150は、セグメントをカプセル化すると言われ得る。上述したように、ISOベースのメディアファイルフォーマットおよびその拡張に従ったビデオファイルは、「ボックス」と呼ばれる一連のオブジェクトにデータを記憶する。図9の例では、ビデオファイル150は、ファイルタイプ(FTYP)ボックス152、動画(MOOV)ボックス154、セグメントインデックス(sidx)ボックス162、動画フラグメント(MOOF)ボックス164、および動画フラグメントランダムアクセス(MFRA)ボックス166を含む。図9は、ビデオファイルの例を表すが、他のメディアファイルは、ISOベースのメディアファイルフォーマットおよびそれの拡張に従った、ビデオファイル150のデータと同様に構造化(structured)された他のタイプのメディアデータ(例えば、オーディオデータ、時限のテキストデータ、または同様のもの)を含み得ることは、理解されるべきである。
[0125] ファイルタイプ(FTYP)ボックス152は、一般に、ビデオファイル150についてのファイルタイプを記述する。ファイルタイプボックス152は、ビデオファイル150のための最善の使用を記述する仕様書を識別するデータを含み得る。ファイルタイプボックス152は、代替的に、MOOVボックス154、動画フラグメントボックス164、および/またはMFRAボックス166の前に配置され得る。
[0126] いくつかの例では、ビデオファイル150のようなセグメント(Segment)は、FTYPボックス152の前にMPD更新ボックス(示されていない)を含み得る。MPD更新ボックスは、ビデオファイル150を含む表現に対応するMPDが更新されるべきであることを示す情報を、MPDを更新するための情報とともに、含み得る。例えば、MPD更新ボックスは、MPDを更新するために使用されることになるリソースについてのURIまたはURLを提供し得る。別の例として、MPD更新ボックスは、MPDを更新するためのデータを含み得る。いくつかの例では、MPD更新ボックスは、ビデオファイル150のセグメントタイプ(STYP)ボックス(示されていない)の直後に続き得、ここでSTYPボックスは、ビデオファイル150についてのセグメントタイプを定義し得る。
[0127] 図9の例では、MOOVボックス154は、動画ヘッダ(MVHD)ボックス156、トラック(TRAK)ボックス158、および1つまたは複数の動画拡張(MVEX)ボックス160を含む。一般に、MVHDボックス156は、ビデオファイル150の一般的な特性を記述し得る。例えば、MVHDボックス156は、ビデオファイル150が元々作り出されたのはいつか、ビデオファイル150が最後に修正されたのはいつか、ビデオファイル150についての時間スケール、ビデオファイル150についての再生の持続時間、またはビデオファイル150を一般的に記述する他のデータ、を記述するデータを含み得る。
[0128] TRAKボックス158は、ビデオファイル150のトラックについてのデータを含み得る。TRAKボックス158は、TRAKボックス158に対応するトラックの特性を記述するトラックヘッダ(TKHD)ボックスを含み得る。いくつかの例では、TRAKボックス158は、コーディングされたビデオピクチャを含み得、一方で他の例では、トラックのコーディングされたビデオピクチャは、動画フラグメント164に含まれ得、それは、TRAKボックス158および/またはsidxボックス162のデータによって参照され得る。
[0129] いくつかの例では、ビデオファイル150は、1つより多くのトラックを含み得る。したがって、MOOVボックス154は、ビデオファイル150中のトラックの数に等しいいくつかのTRAKボックスを含み得る。TRAKボックス158は、ビデオファイル150の対応するトラックの特性を記述し得る。例えば、TRAKボックス158は、対応するトラックについての時間および/または空間情報(temporal and/or spatial information)を記述し得る。MOOVボックス154のTRAKボックス158と同様なTRAKボックスは、カプセル化ユニット30(図1)がビデオファイル150のようなビデオファイル中にパラメータセットトラックを含めるとき、パラメータセットトラックの特性を記述し得る。カプセル化ユニット30は、パラメータセットトラックを記述するTRAKボックス内で、パラメータセットトラック中のシーケンスレベルSEIメッセージの存在をシグナリングし得る。
[0130] MVEXボックス160は、例えば、もしあれば、MOOVボックス154内に含まれるビデオデータに加えて、ビデオファイル150が動画フラグメント164を含むことをシグナリングするために、対応する動画フラグメント164の特性を記述し得る。ビデオデータのストリーミングの文脈では、コーディングされたビデオピクチャは、MOOVボックス154ではなく動画フラグメント164に含まれ得る。したがって、すべてのコーディングされたビデオサンプルは、MOOVボックス154ではなく、動画フラグメント164に含まれ得る。
[0131] MOOVボックス154は、ビデオファイル150中の動画フラグメント164の数に等しいいくつかのMVEXボックス160を含み得る。MVEXボックス160の各々は、動画フラグメント164のうちの対応するものの特性を記述し得る。例えば、各MVEXボックスは、動画フラグメント164のうちの対応するものについての時間的な持続時間(a temporal duration)を記述する動画拡張ヘッダボックス(MEHD)ボックスを含み得る。
[0132] 上述したように、カプセル化ユニット30は、実際のコーディングされたビデオデータを含まないビデオサンプル中にシーケンスデータセットを記憶し得る。ビデオサンプルは一般に、アクセスユニットに対応し得、それは、特定のタイムインスタンスにおけるコーディングされたピクチャの表現である。AVCおよびHEVCの文脈では、コーディングされたピクチャは、アクセスユニットの全ピクセルを構築するための情報を含む1つまたは複数のVCL NALユニットおよびSEIメッセージのような他の関連した非VCL NALユニットを含む。したがって、カプセル化ユニット30は、動画フラグメント164のうちの1つに、シーケンスデータセット、なおそれはシーケンスレベルSEIメッセージを含み得る、を含め得る。カプセル化ユニット30はさらに、動画フラグメント164のうちの1つに対応するMVEXボックス160のうちの1つ内で、動画フラグメント164のうちの1つに存在するものとして、シーケンスレベルSEIメッセージおよび/またはシーケンスデータセットの存在、をシグナリングし得る。
[0133] SIDXボックス162は、ビデオファイル150のオプションの要素である。つまり、3GPPファイルフォーマットまたは他のそのようなファイルフォーマットに準拠するビデオファイルは、必ずしもSIDXボックス162を含まない。3GPPファイルフォーマットの例によると、SIDXボックスは、(例えば、ビデオファイル150内に含まれるセグメント等の)セグメントのサブセグメントを識別するために使用され得る。3GPPファイルフォーマットは、サブセグメントを「対応するメディアデータボックス(1つまたは複数)を有する1つまたは複数の連続する動画フラグメントボックスの自己充足型セット(a self-contained set)であり、ある動画フラグメントボックスによって参照されるデータを含むあるメディアデータボックスは、その動画フラグメントボックスの後に続き、かつ同じトラックについての情報を含む次の動画フラグメントボックスに前に来なければならない」と定義する。3GPPファイルフォーマットはまた、SIDXボックスが、「ボックスによって記録(documented)される(サブ)セグメントのサブセグメントへの参照のシーケンスを含む。参照されるサブセグメントは、提示される時間において連続的である。同様に、セグメントインデックスボックス(Segment Index box)によって参照されるバイトは、常にセグメント内で連続的である。参照されるサイズは、参照される材料におけるバイトの数のカウントを与える」ことを示す。
[0134] SIDXボックス162は一般に、ビデオファイル150に含まれるセグメントの1つまたは複数のサブセグメントを表す情報を提供する。例えば、そのような情報は、サブセグメントが始まるおよび/または終わる再生時間、サブセグメントについてのバイトオフセット、サブセグメントがストリームアクセスポイント(SAP)を含む(例えば、それで開始する)かどうか、SAPについてのタイプ(例えば、SAPがIDR(instantaneous decoder refresh)ピクチャか、CRA(clean random access)ピクチャか、BLA(broken link access)ピクチャか、または同様のものか)、サブセグメントにおけるSAPのポジション(再生時間および/またはバイトオフセットの観点から)等、を含み得る。
[0135] 動画フラグメント164は、1つまたは複数のコーディングされたビデオピクチャを含み得る。いくつかの例では、動画フラグメント164は、1つまたは複数のピクチャのグループ(GOP:group of pictures)を含み得、それらの各々は、いくつかのコーディングされたビデオピクチャ、例えばフレームまたはピクチャを含み得る。加えて、上述したように、動画フラグメント164は、いくつかの例では、シーケンスデータセットを含み得る。動画フラグメント164の各々は、動画フラグメントヘッダボックス(MFHD、図9には示されていない)を含み得る。MFHDボックスは、動画フラグメントについてのシーケンスナンバのような対応する動画フラグメントの特性を記述し得る。動画フラグメント164は、ビデオファイル150にシーケンスナンバの順番で含まれ得る。
[0136] MFRAボックス166は、ビデオファイル150の動画フラグメント164内のランダムアクセスポイントを記述し得る。これは、例えば、ビデオファイル150によってカプセル化されたセグメント内の特定の時間的ロケーション(すなわち、再生時間)へのシーク(seeks)を実施すること等の、トリックモードを実施することを支援し得る。MFRAボックス166は一般に、オプションであり、いくつかの例では、ビデオファイルに含まれる必要はない。同様に、クライアントデバイス40のようなクライアントデバイスは、必ずしも、ビデオファイル150のビデオデータを正確に復号および表示するためにMFRAボックス166を参照する必要はない。MFRAボックス166は、ビデオファイル150のトラックの数と等しい、またはいくつかの例では、ビデオファイル150の(例えば、非ヒントトラック等の)メディアトラックの数と等しい、いくつかのトラックフラグメントランダムアクセス(TFRA)ボックス(示されていない)を含み得る。
[0137] いくつかの例では、動画フラグメント164は、IDRピクチャのような1つまたは複数のストリームアクセスポイント(SAP)を含み得る。同様に、MFRAボックス166は、SAPのビデオファイル150内のロケーションのインジケーションを提供し得る。したがって、ビデオファイル150の時間的サブシーケンスは、ビデオファイル150のSAPから形成され得る。時間的サブシーケンスはまた、SAPに従属する(depend from)Bフレームおよび/またはPフレームのような他のピクチャを含み得る。時間的サブシーケンスのフレームおよび/またはスライスは、サブシーケンスの他のフレーム/スライスに依存する時間的サブシーケンスのフレーム/スライスが適切に復号されることができるように、セグメント内に配列され得る。例えば、データの階層的配列において、他のデータに関する予測のために使用されるデータもまた、時間的サブシーケンスに含まれ得る。
[0138] 図10は、本開示の技法によるメディアデータを処理するためのフローチャートである。図10の技法は、一般的なデバイスに関して説明されることになる。デバイスは、例えば、サーバデバイス60のようなサーバデバイス、クライアントデバイス40のようなクライアントデバイス、またはメディアデータを処理するように構成される何らかの他のタイプのデバイスに対応し得る。デバイスは、メディアデータを受信する(200)。メディアデータは、VRビデオデータと非VRビデオデータとの両方を含み得る。デバイスは、メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定する(202)。適応セットレベルにおいてシグナリングされるデータは、例えば、適応(adaption)セット中の要素であり得、ビデオ表現は、その適応セットに属し得る。
[0139] デバイスは、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを処理する(204)。サーバデバイスは、例えば、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをリトリーブするかどうかを決定することによって、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいてメディアプレゼンテーションのビデオ表現のセグメントを処理し得る。サーバデバイスは、メディアプレゼンテーションのビデオ表現のセグメントをクライアントデバイスに送り得る。クライアントデバイスは、例えば、メディアプレゼンテーションで使用されるプロジェクションマッピングに少なくとも部分的に基づいて、ビデオ表現のセグメントをどのように復号するかを決定することb、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいてメディアプレゼンテーションのビデオ表現のセグメントを処理し得る。クライアントデバイスは、例えば、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいてメディアプレゼンテーションのビデオ表現のセグメントを復号し、メディアプレゼンテーションのビデオ表現のその復号されたセグメントを出力し得る。
[0140] いくつかのインプリメンテーションでは、適応レベルのシグナリングはオプションであり得、期間レベルのシグナリングの存在次第である。いくつかの例では、デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在するかどうかを決定し、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在しないと決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定し得る。他の例では、デバイスはまた、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在するかどうかを決定し、メディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションが、メディアプレゼンテーションの期間レベルに存在しないと決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを決定し得る。
[0141] デバイスはまた、第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ第2のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定し、第2のメディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、第2のメディアプレゼンテーションのビデオ表現のセグメントを処理し得る。
[0142] 図11は、本開示の技法による、メディアデータを処理するためのフローチャートである。図11の技法は、一般的なデバイスに関して説明されることになる。デバイスは、例えば、コンテンツ準備デバイス20のようなコンテンツ準備デバイス、またはメディアデータを送るように構成される何らかの他のタイプのデバイスに対応し得る。デバイスは、メディアデータを生成する(210)。メディアデータは、例えば、VRビデオデータと非VRビデオデータとの両方を含み得る。デバイスは、メディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、メディアデータに含める(212)。適応セットレベルにおいてシグナリングされるデータは、例えば、適応(adaption)セット中の要素であり得、ビデオ表現は、その適応セットに属し得る。デバイスは、メディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、メディアプレゼンテーションのビデオ表現のセグメントを送る(214)。
[0143] いくつかのインプリメンテーションでは、適応レベルのシグナリングはオプションであり得、期間レベルのシグナリングの存在次第である。いくつかの例では、デバイスはまた、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めるかどうかを決定し、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めないと決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを含め得る。他の例では、デバイスはまた、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めるかどうかを決定し、メディアプレゼンテーションの期間レベルにおいてメディアプレゼンテーションで使用されるプロジェクションマッピングのインジケーションを含めると決定することに応答して、メディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを含め得る。
[0144] デバイスはまた、第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータを、メディアデータに含め、第2のメディアプレゼンテーションで使用されるプロジェクションマッピングに基づいて、第2のメディアプレゼンテーションのビデオ表現のセグメントを送り得る。
[0145] 1つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せにおいてインプリメントされ得る。ソフトウェアにおいてインプリメントされる場合、これら機能は、コンピュータ読み取り可能な媒体上の1つまたは複数の命令またはコードとして記憶または送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な記憶媒体を含み得、それは、データ記憶媒体のような有形の媒体、または、例えば通信プロトコルに従って1つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体に対応する。このように、コンピュータ読み取り可能な媒体は一般に、(1)非一時的である有形のコンピュータ読み取り可能な記憶媒体、または(2)信号または搬送波のような通信媒体に対応し得る。データ記憶媒体は、本開示に説明された技法のインプリメンテーションのための命令、コードおよび/またはデータ構造をリトリーブするために1つまたは複数のコンピュータまたは1つまたは複数のプロセッサによってアクセスされることができる、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ読み取り可能な媒体を含み得る。
[0146] 限定ではなく例として、そのようなコンピュータ読み取り可能な記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、フラッシュメモリ、あるいは、命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用されることができ、かつコンピュータによってアクセスされることができる任意の他の媒体を備えることができる。また、いかなる接続も、コンピュータ読み取り可能な媒体と適切に称される。例えば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ読み取り可能な記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに、非一時的な、有形の記憶媒体を対象とすることは、理解されるべきである。本明細書で使用される場合、ディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多目的ディスク(disc)(DVD)、フロッピーディスク(disk)およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disks)は、通常磁気的にデータを再生し、一方ディスク(discs)は、レーザーを用いて光学的にデータを再生する。上記の組合せもまた、コンピュータ読み取り可能な媒体の範囲内に含まれるべきである。
[0147] 命令は、1つまたは複数のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の同等の集積またはディスクリート論理回路構成のような1つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、ここで使用される場合、前述の構造のうちの任意のもの、またはここに説明された技法のインプリメンテーションのために適した任意の他の構造を指し得る。加えて、いくつかの態様では、ここに説明された機能性は、組み合わせられたコーデック内に組み込まれるか、または符号化および復号のために構成された専用のハードウェアおよび/またはソフトウェアモジュール内に提供され得る。また、これら技法は、1つまたは複数の回路または論理素子において完全にインプリメントされる可能性がある。
[0148] 本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(例えば、チップセット)を含む、多種多様なデバイスまたは装置においてインプリメントされ得る。開示された技法を実施するように構成されるデバイスの機能的態様を強調するために、様々なコンポーネント、モジュール、またはユニットが、本開示において説明されているが、必ずしも、複数の異なるハードウェアユニットによる実現を必要とするわけではない。むしろ、上述したように、様々なユニットは、好適なソフトウェアおよび/またはファームウェアと併せて、上述したような1つまたは複数のプロセッサを含む相互動作可能な複数のハードウェアユニットのコレクションによって提供され得るか、コーデックハードウェアユニットにおいて組み合わせられ得る。
[0149] 様々な例が説明された。これらのおよび他の例は、以下の特許請求の範囲の適用範囲内にある。
[0149] 様々な例が説明された。これらのおよび他の例は、以下の特許請求の範囲の適用範囲内にある。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] メディアデータを処理する方法であって、
前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを備える、
メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、 を備える、方法。
[C2] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、
前記ビデオ表現の前記セグメントをリトリーブすることと、
を備える、C1に記載の方法。
[C3] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定すること、
を備える、C1に記載の方法。
[C4] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して実施される、
をさらに備える、C1に記載の方法。
[C5] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して実施される、
をさらに備える、C1に記載の方法。
[C6] 第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第2のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記第2のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第2のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
をさらに備える、C1に記載の方法。
[C7] 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、C1に記載の方法。
[C8] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
をさらに備える、C1に記載の方法。
[C9] 前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送ること、
をさらに備える、C1に記載の方法。
[C10] メディアデータを処理するためのデバイスであって、
前記メディアデータを記憶するように構成されるメモリと、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサは、
前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを備える、
メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、 を行うように構成される、
を備える、デバイス。
[C11] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、前記ビデオ表現の前記セグメントをリトリーブすることと、を行うように構成される、C10に記載のデバイス。
[C12] 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定するように構成される、C10に記載のデバイス。
[C13] 前記1つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
C10に記載のデバイス。
[C14] 前記1つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
C10に記載のデバイス。
[C15] 前記1つまたは複数のプロセッサは、
第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第2のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
前記第2のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第2のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
を行うようにさらに構成される、C10に記載のデバイス。
[C16] 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、C10に記載のデバイス。
[C17] 前記1つまたは複数のプロセッサは、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
を行うようにさらに構成される、C10に記載のデバイス。
[C18] 前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送るようにさらに構成される、C10に記載のデバイス。
[C19] 前記メディアデータを受信するように構成される受信機をさらに備える、C10に記載のデバイス。
[C20] 前記デバイスがワイヤレス通信デバイスを備え、前記受信機が、ワイヤレス通信規格に従って、前記メディアデータを備える信号を復調するように構成される、C19に記載のデバイス。
[C21] メディアデータを処理する方法であって、
メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを含む、
前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
を備える、方法。
[C22] 前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して実施される、
をさらに備える、C21に記載の方法。
[C23] 前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して実施される、
をさらに備える、C21に記載の方法。
[C24] 第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する前記第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記第2のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第2のメディアプレゼンテーションのビデオ表現のセグメントを送ることと、
をさらに備える、C21に記載の方法。
[C25] 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、C21に記載の方法。
[C26] メディアデータを処理するためのデバイスであって、
前記メディアデータを記憶するように構成されるメモリと、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサは、
メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを含む、
前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
を行うように構成される、
を備える、デバイス。
[C27] 前記1つまたは複数のプロセッサは、
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、
C26に記載のデバイス。
[C28] 前記1つまたは複数のプロセッサは、
前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、 C26に記載のデバイス。
[C29] 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、C26に記載のデバイス。
[C30] 前記デバイスは、送信機を備えるワイヤレス通信デバイスを備え、ここにおいて、前記送信機は、ワイヤレス通信規格に従って、前記メディアデータを備える信号を変調するように構成される、C26に記載のデバイス。

Claims (30)

  1. メディアデータを処理する方法であって、
    前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを備える、
    メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、
    を備える、方法。
  2. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、
    前記ビデオ表現の前記セグメントをリトリーブすることと、
    を備える、請求項1に記載の方法。
  3. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理することは、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定すること、
    を備える、請求項1に記載の方法。
  4. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して実施される、
    をさらに備える、請求項1に記載の方法。
  5. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定すること、ここにおいて、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定することは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して実施される、
    をさらに備える、請求項1に記載の方法。
  6. 第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第2のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
    前記第2のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第2のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
    をさらに備える、請求項1に記載の方法。
  7. 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項1に記載の方法。
  8. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
    前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
    をさらに備える、請求項1に記載の方法。
  9. 前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送ること、
    をさらに備える、請求項1に記載の方法。
  10. メディアデータを処理するためのデバイスであって、
    前記メディアデータを記憶するように構成されるメモリと、
    1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサは、
    前記メディアデータを受信することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを備える、
    メディアプレゼンテーションのためのメディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを処理することと、
    を行うように構成される、
    を備える、デバイス。
  11. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをリトリーブするかどうかを決定することと、前記ビデオ表現の前記セグメントをリトリーブすることと、を行うように構成される、請求項10に記載のデバイス。
  12. 前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを処理するために、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに少なくとも部分的に基づいて、前記ビデオ表現の前記セグメントをどのように復号するかを決定するように構成される、請求項10に記載のデバイス。
  13. 前記1つまたは複数のプロセッサは、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在しないと決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
    請求項10に記載のデバイス。
  14. 前記1つまたは複数のプロセッサは、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションが、前記メディアプレゼンテーションの期間レベルに存在するかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションが、前記メディアプレゼンテーションの前記期間レベルに存在すると決定することに応答して、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データに少なくとも部分的に基づいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを決定するように構成される、
    請求項10に記載のデバイス。
  15. 前記1つまたは複数のプロセッサは、
    第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータに少なくとも部分的に基づいて、かつ前記第2のメディアプレゼンテーションの表現レベルにおける追加的なシグナリングなしに、前記第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを決定することと、
    前記第2のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第2のメディアプレゼンテーションのビデオ表現のセグメントを処理することと、
    を行うようにさらに構成される、請求項10に記載のデバイス。
  16. 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項10に記載のデバイス。
  17. 前記1つまたは複数のプロセッサは、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントを復号することと、
    前記メディアプレゼンテーションの前記ビデオ表現の前記復号されたセグメントを出力することと、
    を行うようにさらに構成される、請求項10に記載のデバイス。
  18. 前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記ビデオ表現の前記セグメントをクライアントデバイスに送るようにさらに構成される、請求項10に記載のデバイス。
  19. 前記メディアデータを受信するように構成される受信機をさらに備える、請求項10に記載のデバイス。
  20. 前記デバイスがワイヤレス通信デバイスを備え、前記受信機が、ワイヤレス通信規格に従って、前記メディアデータを備える信号を復調するように構成される、請求項19に記載のデバイス。
  21. メディアデータを処理する方法であって、
    メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを含む、
    前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
    を備える、方法。
  22. 前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して実施される、
    をさらに備える、請求項21に記載の方法。
  23. 前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定すること、ここにおいて、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを前記メディアデータに含めることは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して実施される、
    をさらに備える、請求項21に記載の方法。
  24. 第2のメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する前記第2のメディアプレゼンテーションの期間レベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
    前記第2のメディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記第2のメディアプレゼンテーションのビデオ表現のセグメントを送ることと、
    をさらに備える、請求項21に記載の方法。
  25. 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項21に記載の方法。
  26. メディアデータを処理するためのデバイスであって、
    前記メディアデータを記憶するように構成されるメモリと、
    1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサは、
    メディアデータを生成することと、ここにおいて、前記メディアデータは、バーチャルリアリティ(VR)ビデオデータを含む、
    前記メディアデータに含まれるメディアプレゼンテーションで使用されるプロジェクションマッピングを識別する、メディアプレゼンテーション記述の適応セットレベルにおいてシグナリングされるデータを、前記メディアデータに含めることと、
    前記メディアプレゼンテーションで使用される前記プロジェクションマッピングに基づいて、前記メディアプレゼンテーションのビデオ表現のセグメントを送ることと、
    を行うように構成される、
    を備える、デバイス。
  27. 前記1つまたは複数のプロセッサは、
    前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めないと決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、
    請求項26に記載のデバイス。
  28. 前記1つまたは複数のプロセッサは、
    前記メディアプレゼンテーションの期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングのインジケーションを含めるかどうかを決定するようにさらに構成され、ここにおいて、前記1つまたは複数のプロセッサは、前記メディアプレゼンテーションの前記期間レベルにおいて前記メディアプレゼンテーションで使用される前記プロジェクションマッピングの前記インジケーションを含めると決定することに応答して、前記メディアプレゼンテーションで使用される前記プロジェクションマッピングを識別する、メディアプレゼンテーション記述の前記適応セットレベルにおいてシグナリングされる前記データを、前記メディアデータに含めるように構成される、
    請求項26に記載のデバイス。
  29. 前記適応セットレベルにおいてシグナリングされる前記データは、適応(adaption)セット中の要素を備え、ここにおいて、前記ビデオ表現は前記適応セットに属する、請求項26に記載のデバイス。
  30. 前記デバイスは、送信機を備えるワイヤレス通信デバイスを備え、ここにおいて、前記送信機は、ワイヤレス通信規格に従って、前記メディアデータを備える信号を変調するように構成される、請求項26に記載のデバイス。
JP2018561472A 2016-05-24 2017-05-24 Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング Pending JP2019521584A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662341012P 2016-05-24 2016-05-24
US62/341,012 2016-05-24
US15/602,887 US10587934B2 (en) 2016-05-24 2017-05-23 Virtual reality video signaling in dynamic adaptive streaming over HTTP
US15/602,887 2017-05-23
PCT/US2017/034261 WO2017205504A1 (en) 2016-05-24 2017-05-24 Virtual reality video signaling in dynamic adaptive streaming over http

Publications (2)

Publication Number Publication Date
JP2019521584A true JP2019521584A (ja) 2019-07-25
JP2019521584A5 JP2019521584A5 (ja) 2020-06-18

Family

ID=59014789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018561472A Pending JP2019521584A (ja) 2016-05-24 2017-05-24 Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング

Country Status (8)

Country Link
US (2) US10587934B2 (ja)
EP (1) EP3466074A1 (ja)
JP (1) JP2019521584A (ja)
KR (1) KR102534899B1 (ja)
CN (1) CN109076238B (ja)
BR (1) BR112018073902A2 (ja)
CA (1) CA3021215A1 (ja)
WO (1) WO2017205504A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3713234A1 (en) * 2014-01-07 2020-09-23 Canon Kabushiki Kaisha Method, device, and computer program for encoding inter-layer dependencies in encapsulating multi-layer partitioned timed media data
US10412461B2 (en) * 2015-06-12 2019-09-10 Cable Television Laboratories, Inc. Media streaming with latency minimization
US10587934B2 (en) 2016-05-24 2020-03-10 Qualcomm Incorporated Virtual reality video signaling in dynamic adaptive streaming over HTTP
EP3249929A1 (en) * 2016-05-25 2017-11-29 Thomson Licensing Method and network equipment for establishing a manifest
EP3485646B1 (en) 2016-07-15 2022-09-07 Koninklijke KPN N.V. Streaming virtual reality video
TWI599218B (zh) * 2016-07-29 2017-09-11 元智大學 即時影音傳輸系統
EP4084480A1 (en) * 2016-09-09 2022-11-02 Vid Scale, Inc. Methods and apparatus to reduce latency for 360-degree viewport adaptive streaming
EP3513562A1 (en) * 2016-09-14 2019-07-24 Koninklijke KPN N.V. Streaming virtual reality video
EP3535644B1 (en) * 2016-11-04 2023-02-22 Koninklijke KPN N.V. Streaming virtual reality video
US11172208B2 (en) * 2017-02-28 2021-11-09 Nokia Technologies Oy Method and apparatus for improving the visual quality of viewport-based omnidirectional video streaming
US10375375B2 (en) * 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same
US10818087B2 (en) 2017-10-02 2020-10-27 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
US11622153B2 (en) * 2017-10-04 2023-04-04 Interdigital Madison Patent Holdings, Sas Customized 360-degree media viewing
US10659815B2 (en) 2018-03-08 2020-05-19 At&T Intellectual Property I, L.P. Method of dynamic adaptive streaming for 360-degree videos
CN110351492B (zh) * 2018-04-06 2021-11-19 中兴通讯股份有限公司 一种视频数据处理方法、装置及介质
WO2019200227A1 (en) * 2018-04-13 2019-10-17 Futurewei Technologies, Inc. Signaling spatial region correspondence between virtual reality viewpoints
CN110519652B (zh) 2018-05-22 2021-05-18 华为软件技术有限公司 Vr视频播放方法、终端及服务器
KR102073230B1 (ko) * 2018-06-28 2020-02-04 주식회사 알파서클 특정 영역의 화질을 개선하기 위해 복수의 가상현실영상을 재생하는 가상현실영상재생장치 및 가상현실영상생성방법
CN112673638B (zh) * 2018-07-06 2024-04-19 诺基亚技术有限公司 处理媒体数据的方法和装置
US11716505B2 (en) * 2018-08-29 2023-08-01 Zhejiang University Methods and apparatus for media data processing and transmitting and reference picture specifying
US10779014B2 (en) 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
CN111263191B (zh) * 2018-11-30 2023-06-27 中兴通讯股份有限公司 视频数据的处理方法、装置、相关设备及存储介质
US11546402B2 (en) * 2019-01-04 2023-01-03 Tencent America LLC Flexible interoperability and capability signaling using initialization hierarchy
US11523185B2 (en) 2019-06-19 2022-12-06 Koninklijke Kpn N.V. Rendering video stream in sub-area of visible display area
WO2021087843A1 (en) * 2019-11-07 2021-05-14 Intel Corporation Heterogeneous real-time streaming and decoding of ultra-high resolution video content
CN111586414B (zh) * 2020-04-07 2022-04-15 南京师范大学 一种基于svc和dash的360°视频流调度方法
WO2021205061A1 (en) 2020-04-07 2021-10-14 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
EP4097987A4 (en) * 2020-06-24 2023-03-08 ZTE Corporation METHODS AND APPARATUS FOR PROCESSING VOLUMETRIC MULTIMEDIA CONTENT
US11412283B1 (en) 2021-04-27 2022-08-09 City University Of Hong Kong System and method for adaptively streaming video
KR102577685B1 (ko) * 2021-10-27 2023-09-15 한국전자기술연구원 사용자의 관심영역 추정이 가능한 저지연 360 vr 스트리밍 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015197818A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Hevc-tiled video streaming
WO2016199608A1 (ja) * 2015-06-12 2016-12-15 ソニー株式会社 情報処理装置および情報処理方法
JP2017527230A (ja) * 2014-05-29 2017-09-14 ネクストブイアール・インコーポレイテッド コンテンツを配信および/または再生するための方法及び装置
WO2017195881A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法
JP2019519149A (ja) * 2016-05-23 2019-07-04 キヤノン株式会社 仮想現実メディアコンテンツを適応ストリーミングする方法、デバイス及びコンピュータプログラム

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110297A1 (en) * 2001-12-12 2003-06-12 Tabatabai Ali J. Transforming multimedia data for delivery to multiple heterogeneous devices
US9621610B2 (en) * 2010-01-18 2017-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for HTTP media stream distribution
US9467493B2 (en) * 2010-09-06 2016-10-11 Electronics And Telecommunication Research Institute Apparatus and method for providing streaming content
EP2614653A4 (en) * 2010-09-10 2015-04-15 Nokia Corp METHOD AND APPARATUS FOR ADAPTIVE CONTINUOUS DIFFUSION
US20130042100A1 (en) * 2011-08-09 2013-02-14 Nokia Corporation Method and apparatus for forced playback in http streaming
US20130278633A1 (en) * 2012-04-20 2013-10-24 Samsung Electronics Co., Ltd. Method and system for generating augmented reality scene
US9438818B2 (en) * 2012-06-20 2016-09-06 Qualcomm Incorporated Device and method for multimedia communications with picture orientation information
US9125073B2 (en) * 2012-08-03 2015-09-01 Intel Corporation Quality-aware adaptive streaming over hypertext transfer protocol using quality attributes in manifest file
EP2946539B1 (en) * 2013-01-17 2020-09-02 Intel IP Corporation Dash-aware network application function (d-naf)
US20140282113A1 (en) * 2013-03-15 2014-09-18 John Cronin Personal digital assistance and virtual reality
US9854017B2 (en) 2013-03-15 2017-12-26 Qualcomm Incorporated Resilience in the presence of missing media segments in dynamic adaptive streaming over HTTP
US9705955B2 (en) * 2013-04-18 2017-07-11 Futurewei Technologies, Inc. Period labeling in dynamic adaptive streaming over hypertext transfer protocol
EP2993886A4 (en) * 2013-04-30 2016-11-23 Sony Corp SENDING DEVICE, TRANSMISSION PROCEDURE, RECEPTION DEVICE AND RECEPTION PROCEDURE
KR20150012206A (ko) * 2013-07-24 2015-02-03 한국전자통신연구원 3차원 콘텐츠의 부호화 방법 및 장치
EP3092806A4 (en) * 2014-01-07 2017-08-23 Nokia Technologies Oy Method and apparatus for video coding and decoding
US20150199498A1 (en) * 2014-01-10 2015-07-16 Furturewei Technologies, Inc. Flexible and efficient signaling and carriage of authorization acquisition information for dynamic adaptive streaming
CN106456988B (zh) * 2014-04-02 2019-04-16 皇家飞利浦有限公司 身体光照设备
CN106489270B (zh) * 2014-07-01 2020-03-03 索尼公司 信息处理装置和方法
US10812546B2 (en) * 2014-12-24 2020-10-20 Intel IP Corporation Link-aware streaming adaptation
US9780893B2 (en) * 2015-07-08 2017-10-03 Litepoint Corporation Method for testing a radio frequency (RF) data packet signal transceiver packet error rate
US10065329B2 (en) * 2015-07-31 2018-09-04 The Boeing Company Systems and methods for zip-tie cutting
US10491711B2 (en) * 2015-09-10 2019-11-26 EEVO, Inc. Adaptive streaming of virtual reality data
CN108476324B (zh) * 2015-10-08 2021-10-29 皇家Kpn公司 增强视频流的视频帧中的感兴趣区域的方法、计算机和介质
US10389999B2 (en) * 2016-02-17 2019-08-20 Qualcomm Incorporated Storage of virtual reality video in media files
US9924238B2 (en) * 2016-03-21 2018-03-20 Screenovate Technologies Ltd. Method and a system for using a computerized source device within the virtual environment of a head mounted device
US20170286993A1 (en) * 2016-03-31 2017-10-05 Verizon Patent And Licensing Inc. Methods and Systems for Inserting Promotional Content into an Immersive Virtual Reality World
US10088898B2 (en) * 2016-03-31 2018-10-02 Verizon Patent And Licensing Inc. Methods and systems for determining an effectiveness of content in an immersive virtual reality world
GB2550589B (en) * 2016-05-23 2019-12-04 Canon Kk Method, device, and computer program for improving streaming of virtual reality media content
US10587934B2 (en) * 2016-05-24 2020-03-10 Qualcomm Incorporated Virtual reality video signaling in dynamic adaptive streaming over HTTP
CN109155861B (zh) * 2016-05-24 2021-05-25 诺基亚技术有限公司 用于编码媒体内容的方法和装置以及计算机可读存储介质
EP3249929A1 (en) * 2016-05-25 2017-11-29 Thomson Licensing Method and network equipment for establishing a manifest
US10313763B2 (en) * 2016-07-29 2019-06-04 Mediatek, Inc. Method and apparatus for requesting and receiving selected segment streams based on projection information
CN109362242B (zh) * 2016-10-10 2021-05-14 华为技术有限公司 一种视频数据的处理方法及装置
US10951950B2 (en) * 2017-07-31 2021-03-16 Nokia Technologies Oy Method and apparatus for presenting a video loop during a storyline

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527230A (ja) * 2014-05-29 2017-09-14 ネクストブイアール・インコーポレイテッド コンテンツを配信および/または再生するための方法及び装置
WO2015197818A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Hevc-tiled video streaming
WO2016199608A1 (ja) * 2015-06-12 2016-12-15 ソニー株式会社 情報処理装置および情報処理方法
WO2017195881A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 ファイル生成装置およびファイル生成方法、並びに、再生装置および再生方法
JP2019519149A (ja) * 2016-05-23 2019-07-04 キヤノン株式会社 仮想現実メディアコンテンツを適応ストリーミングする方法、デバイス及びコンピュータプログラム

Also Published As

Publication number Publication date
BR112018073902A2 (pt) 2019-02-26
KR20190014500A (ko) 2019-02-12
WO2017205504A1 (en) 2017-11-30
EP3466074A1 (en) 2019-04-10
CN109076238A (zh) 2018-12-21
CA3021215A1 (en) 2017-11-30
US10587934B2 (en) 2020-03-10
US20170347163A1 (en) 2017-11-30
US20200351572A1 (en) 2020-11-05
US11375291B2 (en) 2022-06-28
CN109076238B (zh) 2022-08-05
KR102534899B1 (ko) 2023-05-22

Similar Documents

Publication Publication Date Title
US11375291B2 (en) Virtual reality video signaling in dynamic adaptive streaming over HTTP
CN110431850B (zh) 在使用mime类型参数的网络视频流式传输中发信重要视频信息
US10582201B2 (en) Most-interested region in an image
US10565463B2 (en) Advanced signaling of a most-interested region in an image
US11290755B2 (en) Signaling data for prefetching support for streaming media data
US11665219B2 (en) Processing media data using a generic descriptor for file format boxes
US10587904B2 (en) Processing media data using an omnidirectional media format

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211207