JP2019521583A - イメージ中の最も関心のある領域の高度なシグナリング - Google Patents

イメージ中の最も関心のある領域の高度なシグナリング Download PDF

Info

Publication number
JP2019521583A
JP2019521583A JP2018561468A JP2018561468A JP2019521583A JP 2019521583 A JP2019521583 A JP 2019521583A JP 2018561468 A JP2018561468 A JP 2018561468A JP 2018561468 A JP2018561468 A JP 2018561468A JP 2019521583 A JP2019521583 A JP 2019521583A
Authority
JP
Japan
Prior art keywords
regions
interest
data
representing
interesting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018561468A
Other languages
English (en)
Other versions
JP2019521583A5 (ja
Inventor
ワン、イェ−クイ
ヘンドリー、フヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2019521583A publication Critical patent/JP2019521583A/ja
Publication of JP2019521583A5 publication Critical patent/JP2019521583A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4343Extraction or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

ビデオデータについての情報を決定するためのデバイスは、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサは、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行うようにさらに構成される。【選択図】図5

Description

[0001]本願は、2016年5月24日に出願された米国仮特許出願第62/341,017号の利益を主張し、それは、その全体が参照によってここに組み込まれる。
[0002]この開示は、符号化されたビデオデータの記憶およびトランスポートに関する。
[0003]デジタルビデオ能力は、デジタルテレビ、デジタルディレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末(PDA)、ラップトップまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲームコンソール、セルラまたは衛星無線電話、ビデオテレビ会議デバイス、および同様のものを含む、幅広い範囲のデバイスに組み込まれることができる。デジタルビデオデバイスは、デジタルビデオ情報をより効率的に送信および受信するための、MPEG−2、MPEG−4、ITU−T H.263またはITU−T H.264/MPEG−4、Part 10、アドバンスドビデオコーディング(AVC)、(高効率ビデオコーディング(HEVC)とも呼ばれる)ITU−T H.265、およびそのような規格の拡張によって定義される規格において記述されているもののような、ビデオ圧縮技法をインプリメントする。
[0004]ビデオ圧縮技法は、ビデオシーケンスに内在する冗長性を低減または取り除くために、空間的予測および/または時間的予測を遂行する。ブロックベースのビデオコーディングでは、ビデオフレームまたはスライスがマクロブロックまたはコーディングツリー単位(CTU:coding tree unit)に区分されうる。この文章の残りの部分では、マクロブロックおよびCTUの2つの用語は、交換可能に使用される。各マクロブロックはさらに区分されることができる。イントラコーディングされた(I)フレームまたはスライス中のマクロブロックは、近隣のマクロブロックに対して空間的予測を使用して符号化される。インターコーディングされた(PまたはB)フレームまたはスライス中のマクロブロックは、同じフレームまたはスライス中の近隣のマクロブロックに対して空間的予測を、あるいは他の基準フレームに対して時間的予測を使用しうる。
[0005]ビデオデータが符号化された後に、ビデオデータは、送信または記憶のためにパケット化されうる。ビデオデータは、国際標準化機構(ISO)ベースメディアファイルフォーマット、およびAVCファイルフォーマットのようなその拡張のような、多様な規格のうちの任意のものに準ずるビデオファイルへとアセンブルされうる。
[0006]ビデオデータが送信または記憶のためにパケット化された後に、クライアントデバイスは、適した品質のパケット化されたビデオデータを要求しうる。例えば、クライアントデバイスは、クライアントデバイスとパケット化されたビデオを送信するデジタルビデオデバイスとの間の帯域幅が高いときに、比較的高品質のパケット化されたビデオデータを要求し、クライアントデバイスとパケット化されたビデオを送信するデジタルビデオデバイスとの間の帯域幅が低いときに、比較的低品質のパケット化されたビデオデータを要求しうる。
[0007]一般には、この開示は、ビデオデータのイメージの1つまたは複数の最も関心のある領域を表すデータを含むビットストリームを生成および消費するための技法を説明する。これらの技法は、ユーザの視野(FOV)がイメージ全体より小さいためにイメージの一部しかユーザに提示されていない状況に特に適用可能でありうる。例えば、これらの技法は、仮想現実(VR)のシナリオに適用可能でありうる。このことから、イメージの一部しか、例えば、VRヘッドセットを通してユーザに提示されないことがありうる。ユーザのFOVは、イメージの最も関心のある領域のうちの1つまたは複数に部分的にまたは完全に重なり合いうる。このことから、「イメージの最も関心のある領域」というフレーズは概して、イメージの他の領域と比較して、イメージの提示時間においてユーザに提示される可能性がより高いイメージの領域を指す。デバイスは、例えば、イメージの他の領域についてのビデオデータを要求する前にデバイスが1つまたは複数の最も関心のある領域についてのビデオデータを要求するように、1つまたは複数の最も関心のある領域についてのビデオデータをプリフェッチするために、1つまたは複数の最も関心のある領域を使用しえ、ここで、デバイスは、ビデオ復号器を包含するエンティティか、またはコンテンツ配信ネットワーク(CDN)ノードのようなネットワーク要素のいずれかでありうる。
[0008]一例では、ビデオデータについての情報を決定する方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む。
[0009]別の例では、ビデオデータについての情報を決定するためのデバイスは、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行うように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを含む。
[0010]別の例では、ビデオデータについての情報を決定するためのデバイスは、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するための手段のための手段と、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成する手段と、サーバデバイスに要求を出力するための手段とを含む。
[0011]別の例では、コンピュータプログラム製品は、実行されると、プロセッサに、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行わせる命令を備えるコンピュータ可読記憶媒体を含む。
[0012]別の例では、ビデオデータについての情報をシグナリングする方法は、ソースデバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することを含む。1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される(retrieved)可能性が最も高い1つまたは複数の領域を備える。方法はさらに、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを出力することを含む。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。方法はさらに、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力することを含む。
[0013]別の例では、ビデオデータについての情報をシグナリングするためのデバイスは、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを含む。1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える。1つまたは複数のプロセッサはさらに、1つまたは複数の最も関心のある領域を表すデータを出力するように構成される。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。1つまたは複数のプロセッサはさらに、1つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力するように構成される。
[0014]別の例では、ビデオデータについての情報をシグナリングするためのデバイスは、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するための手段を含む。1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える。デバイスはさらに、1つまたは複数の最も関心のある領域を表すデータを出力するための手段を含む。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。デバイスはさらに、1つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力するための手段を含む。
[0015]別の例では、コンピュータプログラム製品は、プロセッサに、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することを行わせる命令を備えるコンピュータ可読記憶媒体を含む。1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える。命令はさらに、プロセッサに、1つまたは複数の最も関心のある領域を表すデータを出力することを行わせる。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。命令はさらに、プロセッサに、1つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力することを行わせる。
[0016]1つまたは複数の例の詳細は、添付の図面および以下の説明中に記載されている。他の特徴、目的、および利点は、説明および図面から、そして特許請求の範囲から明らかになるであろう。
ネットワークを通してメディアデータをストリーミングするための技法をインプリメントする実例的なシステムを例示するブロック図である。 実例的なマルチメディアコンテンツの要素を例示する概念図である。 実例的なビデオファイルの要素を例示するブロック図であり、それは、図2のリプレゼンテーション(a representation)に対応しうる。 立方体投影(a cuboidal projection)における実例的なタイルコーディングを例示する概念図である。 この開示中に説明される1つまたは複数の技法にしたがってビデオデータについての情報を決定するための実例的なアプローチを例示するフローチャートである。 この開示中に説明される1つまたは複数の技法にしたがってビデオデータについての情報をシグナリングするための実例的なアプローチを例示するフローチャートである。 この開示中に説明される1つまたは複数の技法にしたがってビデオデータをプリフェッチするための実例的なアプローチを例示するフローチャートである。
詳細な説明
[0024]この発明は、仮想現実(VR)に関する。より具体的には、この発明は、VRビデオ中の1つまたは複数の最も関心のある領域のセットの作成と、最も関心のある領域の情報のシグナリングと、VRビデオコンテンツの符号化、ストリーミング、再生、および管理における情報の使用とのためのいくつかの方法を開示する。
[0025]一般には、この開示は、ビデオデータのイメージの1つまたは複数の最も関心のある領域を表すデータを含むビデオコンテンツを生成するための技法を説明する。ディレクターまたはプロデューサーは、1つまたは複数の最も関心のある領域を選択しうる、あるいは、コンピューティングデバイスは、サービスまたはコンテンツプロバイダによるユーザ統計から、例えば、全方位ビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された/見られたかの統計を通じて、1つまたは複数の最も関心のある領域を導出しうる。いずれのケースでも、クライアントデバイスは、仮想現実ビデオのようなビデオの再生を改善すべく、1つまたは複数の最も関心のある領域についてのビデオデータをプリフェッチするために、1つまたは複数の最も関心のある領域を使用しえ、それはまた、360ビデオと呼ばれる。
[0026]具体的には、クライアントデバイスは、例えば、ビットストリームのビデオコーディングレイヤデータを送信するためのヘッダまたはメッセージ中で受信される情報を使用して、1つまたは複数の最も関心のある領域を表すデータを決定しうる。1つまたは複数の最も関心のある領域を表すデータから1つまたは複数の最も関心のある領域を決定すると、クライアントデバイスは、1つまたは複数の最も関心のある領域を指定する要求を生成しうる。1つまたは複数の最も関心のある領域を要求した後に、クライアントデバイスは、ユーザの視野(FOV)を使用してイメージの1つまたは複数の他の領域を要求しうる。このように、1つまたは複数の最も関心のある領域についてのビデオデータは、プリフェッチされえ(例えば、ユーザのFOVを受信するより前に要求されえ)、それにより、仮想現実ビデオのようなビデオの再生を改善する。
[0027]この開示の技法は、ISOベースメディアファイルフォーマット、スケーラブルビデオコーディング(SVC)ファイルフォーマット、アドバンスドビデオコーディング(AVC)ファイルフォーマット、第3世代パートナーシッププロジェクト(3GPP(登録商標))ファイルフォーマット、および/またはマルチビュービデオコーディング(MVC)ファイルフォーマット、または他の同様のビデオファイルフォーマットのうちの任意のものにしたがってカプセル化されたビデオデータに準ずるビデオファイルに適用されうる。
[0028]この開示の技法は、HTTPを通した動的適応型ストリーミング(DASH:dynamic adaptive streaming over HTTP)環境のような、メディアデータをストリーミングするための環境に適用されうる。これらの技法は、HTTPライブストリーミング(HLS)または他のライブストリーミングサービスをサポートするために使用されうる。概してDASHおよびHLSに関して論述されるが、この開示の技法は、他のネットワークストリーミングプロトコルに適用可能でありうる。DASHは、http://standards.iso.org/ittf/PubliclyAvailableStandards/c057623_ISO_IEC_23009-1_2012.zipにおいて利用可能である、2012年4月1日付けのISO/IEC 23009-1:2012、「Information technology - Dynamic adaptive streaming over HTTP (DASH) - Part 1: Media presentation description and segment formats」中に規定されている。
[0029]HTTPストリーミングでは、頻繁に使用される動作は、HEAD、GET、および部分的GETを含む。HEAD動作は、所与のユニフォームリソースロケータ(URL)またはユニフォームリソース名(URN)に関連付けられたファイルのヘッダを、そのURLまたはURNに関連付けられたペイロードを検索することなしに、検索する。GET動作は、所与のURLまたはURNに関連付けられたファイル全体を検索する。部分的GET動作は、入力パラメータとしてバイト範囲を受信し、連続数のバイトのファイルを検索し、ここで、バイトの数は、受信されるバイト範囲に対応する。このことから、ムービーフラグメントは、部分的GET動作が1つまたは複数の1つまたは複数の個々のムービーフラグメントを得ることができることから、HTTPストリーミングに提供されうる。ムービーフラグメントでは、異なるトラックのいくつかのトラックフラグメントが存在することができる。HTTPストリーミングでは、メディアプレゼンテーション(a media presentation)は、クライアントにとってアクセス可能であるデータの構造化された集合でありうる。クライアントは、ユーザにストリーミングサービスを提示するために、メディアデータ情報を要求およびダウンロードしうる。
[0030]HTTPストリーミングを使用して3GPPデータをストリーミングする例では、マルチメディアコンテンツのビデオおよび/またはオーディオデータについての複数のリプレゼンテーションが存在しうる。以下に説明されるように、異なるリプレゼンテーションは、異なるコーディング特性(例えば、ビデオコーディング規格の異なるプロファイルまたはレベル)、異なるコーディング規格または(マルチビューおよび/またはスケーラブル拡張のような)コーディング規格の拡張、あるいは異なるビットレートに対応しうる。そのようなリプレゼンテーションのマニフェストは、メディアプレゼンテーション記述(MPD:Media Presentation Description)データ構造で定義されうる。メディアプレゼンテーションは、HTTPストリーミングクライアントデバイスにとってアクセス可能であるデータの構造化された集合に対応しうる。HTTPストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提示するために、メディアデータ情報を要求およびダウンロードしうる。メディアプレゼンテーションは、MPDデータ構造で記述されえ、それは、MPDの更新を含みうる。
[0031]メディアプレゼンテーションは、1つまたは複数の期間のシーケンスを包含しうる。各期間は、最後の期間のケースでは、メディアプレゼンテーションの終了まで、または次の期間の開始まで延長しうる。各期間は、同じメディアコンテンツについての1つまたは複数のリプレゼンテーションを包含しうる。リプレゼンテーションは、オーディオ、ビデオ、時間指定された(timed)テキスト、または他のそのようなデータのいくつかの代替の符号化されたバージョンのうちの1つでありうる。リプレゼンテーションは、符号化タイプによって、例えば、ビデオデータについてのビットレート、解像度、および/またはコーデックと、オーディオデータについてのビットレート、言語、および/またはコーデックとによって異なりうる。リプレゼンテーションという用語は、マルチメディアコンテンツの特定の期間に対応し、且つ特定の方法で符号化された、符号化されたオーディオまたはビデオデータのセクションを指すために使用されうる。
[0032]特定の期間のリプレゼンテーションは、リプレゼンテーションが属する適合セット(an adaptation set)を示すMPD中の属性によって示されるグループに割り当てられうる。同じ適合セット中のリプレゼンテーションは概して、クライアントデバイスが、例えば、帯域幅適合を遂行するためにこれらのリプレゼンテーション間を動的およびシームレスに切り替えることができるという点において、互いに対して代替であると考えられる。例えば、特定の期間の間のビデオデータの各リプレゼンテーションは、同じ適合セットに割り当てられえ、それにより、リプレゼンテーションのうちの任意のものが、対応する期間の間のマルチメディアコンテンツの、ビデオデータまたはオーディオデータのようなメディアデータを提示するための復号のために選択されうる。1つの期間内のメディアコンテンツは、いくつかの例では、存在する場合には、グループ0からの1つのリプレゼンテーション、または各非ゼログループからの多くとも1つのリプレゼンテーションの組み合わせのいずれかによって表されうる。1つの期間の各リプレゼンテーションについてのタイミングデータは、その期間の開始時間に対して相対的に表されうる。
[0033]リプレゼンテーションは、1つまたは複数のセグメントを含みうる。各リプレゼンテーションは、初期化セグメントを含みうる、またはリプレゼンテーションの各セグメントは、自己初期化しうる。存在するとき、初期化セグメントは、リプレゼンテーションにアクセスするための初期化情報を包含しうる。一般に、初期化セグメントは、メディアデータを包含しない。セグメントは、ユニフォームリソースロケータ(URL)、ユニフォームリソース名(URN)、またはユニフォームリソース識別子(URI)のような識別子によって一意に参照されうる。MPDは、各セグメントに識別子を提供しうる。いくつかの例では、MPDはまた、範囲属性の形態でバイト範囲を提供しえ、それは、URL、URN、またはURIによってアクセス可能であるファイル内のセグメントについてのデータに対応しうる。
[0034]異なるリプレゼンテーションは、異なるタイプのメディアデータについての実質的に同時の検索のために選択されうる。例えば、クライアントデバイスは、それらからセグメントを検索するためのオーディオリプレゼンテーション、ビデオリプレゼンテーション、および時間指定されたテキストリプレゼンテーションを選択しうる。いくつかの例では、クライアントデバイスは、帯域幅適合を遂行するための特定の適合セットを選択しうる。すなわち、クライアントデバイスは、ビデオリプレゼンテーションを含む適合セット、オーディオリプレゼンテーションを含む適合セット、および/または時間指定されたテキストを含む適合セットを選択しうる。代替として、クライアントデバイスは、ある特定のタイプのメディア(例えば、ビデオ)についての適合セットを選択し、および他のタイプのメディア(例えば、オーディオおよび/または時間指定されたテキスト)についてのリプレゼンテーションを直接選択しうる。
[0035]図1は、ネットワークを通してメディアデータをストリーミングするための技法をインプリメントする実例的なシステム10を例示するブロック図である。この例では、システム10は、コンテンツ準備デバイス20、サーバデバイス60、およびクライアントデバイス40を含む。クライアントデバイス40およびサーバデバイス60は、ネットワーク74によって通信可能に結合され、それは、インターネットを備えうる。いくつかの例では、コンテンツ準備デバイス20およびサーバデバイス60もまた、ネットワーク74または別のネットワークによって結合されうるか、あるいは直接通信可能に結合されうる。いくつかの例では、コンテンツ準備デバイス20およびサーバデバイス60は、同じデバイスを備えうる。
[0036]図1の例におけるコンテンツ準備デバイス20は、オーディオソース22およびビデオソース24を備える。オーディオソース22は、例えば、オーディオ符号化器26によって符号化されることになるキャプチャされたオーディオデータを表す電気信号を生じさせるマイクロフォンを備えうる。代替として、オーディオソース22は、以前に記録されたオーディオデータを記憶する記憶媒体、コンピュータ化されたシンセサイザのようなオーディオデータ生成器、またはオーディオデータの任意の他のソースを備えうる。ビデオソース24は、ビデオ符号化器28によって符号化されることになるビデオデータを生じさせるビデオカメラ、以前に記録されたビデオデータで符号化された記憶媒体、コンピュータグラフィックスソースのようなビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備えうる。コンテンツ準備デバイス20は、必ずしも全ての例においてサーバデバイス60に通信可能に結合されてはいないが、サーバデバイス60によって読み取られる別個の媒体にマルチメディアコンテンツを記憶しうる。
[0037]生オーディオおよびビデオデータは、アナログまたはデジタルデータを備えうる。アナログデータは、オーディオ符号化器26および/またはビデオ符号化器28によって符号化される前にデジタル化されうる。オーディオソース22は、話す参加者が話している間にその話す参加者からオーディオデータを取得し、ビデオソース24は、その話す参加者のビデオデータを同時に取得しうる。他の例では、オーディオソース22は、記憶されたオーディオデータを備えるコンピュータ可読記憶媒体を備え、ビデオソース24は、記憶されたビデオデータを備えるコンピュータ可読記憶媒体を備えうる。このように、この開示中で説明される技法は、ライブ、ストリーミング、リアルタイムオーディオおよびビデオデータに、またはアーカイブされ、事前に記録されたオーディオおよびビデオデータに適用されうる。
[0038]ビデオフレームに対応するオーディオフレームは概して、ビデオフレーム内に包含された、ビデオソース24によってキャプチャされた(または生成された)ビデオデータと同時にオーディオソース22によってキャプチャされた(または生成された)オーディオデータを包含するオーディオフレームである。例えば、話す参加者が概して話すことによってオーディオデータを生じさせる間、オーディオソース22は、オーディオデータをキャプチャし、ビデオソース24は、同時に、すなわち、オーディオソース22がオーディオデータをキャプチャしている間に、話す参加者のビデオデータをキャプチャする。故に、オーディオフレームは、1つまたは複数の特定のビデオフレームに時間的に対応しうる。それ故に、ビデオフレームに対応するオーディオフレームは概して、オーディオデータとビデオデータとが同時にキャプチャされた、且つオーディオフレームとビデオフレームとが、それぞれ、同時にキャプチャされたオーディオデータとビデオデータとを備える、状況に対応する。
[0039]いくつかの例では、オーディオ符号化器26は、符号化されたオーディオフレームについてのオーディオデータが記録された時間を表す各符号化されたオーディオフレーム中のタイムスタンプを符号化し、同様に、ビデオ符号化器28は、符号化されたビデオフレームについてのビデオデータが記録された時間を表す各符号化されたビデオフレーム中のタイムスタンプを符号化しうる。そのような例では、ビデオフレームに対応するオーディオフレームは、タイムスタンプを備えるオーディオフレームと、同じタイムスタンプを備えるビデオフレームとを備えうる。コンテンツ準備デバイス20は、オーディオ符号化器26および/またはビデオ符号化器28がタイムスタンプを生成しうる、あるいは、オーディオソース22とビデオソース24とが、それぞれ、オーディオデータとビデオデータとをタイムスタンプに関連付けるために使用しうる、内部クロックを含みうる。
[0040]いくつかの例では、オーディオソース22は、オーディオデータが記録された時間に対応するデータをオーディオ符号化器26に送り、ビデオソース24は、ビデオデータが記録された時間に対応するデータをビデオ符号化器28に送りうる。いくつかの例では、オーディオ符号化器26は、符号化されたオーディオデータの相対時間的順序(a relative temporal ordering)を示すために、しかしオーディオデータが記録された絶対時間を必ずしも示すことなしに、符号化されたオーディオデータ中のシーケンス識別子を符号化し、同様に、ビデオ符号化器28もまた、符号化されたビデオデータの相対時間的順序を示すために、シーケンス識別子を使用しうる。同様に、いくつかの例では、シーケンス識別子は、マッピングされうるか、またはそうでない場合は、タイムスタンプと相関されうる。
[0041]オーディオ符号化器26は概して、符号化されたオーディオデータのストリームを生じさせ、その一方でビデオ符号化器28は、符号化されたビデオデータのストリームを生じさせる。(オーディオであれビデオであれ)データの各個々のストリームは、エレメンタリーストリームと呼ばれうる。エレメンタリーストリームは、リプレゼンテーションの単一のデジタルにコーディングされた(ことによると圧縮された)コンポーネントである。例えば、リプレゼンテーションのコーディングされたビデオまたはオーディオ部分は、エレメンタリーストリームであることができる。エレメンタリーストリームは、ビデオファイル内にカプセル化される前に、パケット化されたエレメンタリーストリーム(PES)へと変換されうる。同じリプレゼンテーション内で、ストリームIDは、ある1つのエレメンタリーストリームに属するPESパケットを他のものと区別するために使用されうる。エレメンタリーストリームのデータの基本単位は、パケット化されたエレメンタリーストリーム(PES)パケットである。このことから、コーディングされたビデオデータは概して、エレメンタリービデオストリームに対応する。同様に、オーディオデータは、1つまたは複数のそれぞれのエレメンタリーストリームに対応する。
[0042]ITU H.264/AVCおよび今後の高効率ビデオコーディング(HEVC)規格のような多くのビデオコーディング規格は、誤りのないビットストリームのためのシンタックス(syntax)、セマンティクス(semantics)、および復号処理を定義し、それらのうちのいずれも、ある特定のプロファイルまたはレベルに準ずる。ビデオコーディング規格は典型的に、符号化器を規定しないが、符号化器は、生成されるビットストリームが復号器に対して規格準拠(standard-compliant)であることを保証することを課される。ビデオコーディング規格のコンテキストでは、「プロファイル」は、アルゴリズム、機能(features)、またはツールおよびそれらに適用される制約のサブセットに対応する。H.264規格によって定義されているように、例えば、「プロファイル」は、H.264規格によって規定されているビットストリームシンタックス全体のサブセットである。「レベル」は、例えば、復号器メモリおよび消費のような復号器リソース消費の制限に対応し、それらは、ピクチャの解像度、ビットレート、およびブロック処理レートに関連する。プロファイルは、profile_idc(プロファイルインジケータ)値でシグナリングされえ、その一方でレベルは、level_idc(レベルインジケータ)値でシグナリングされうる。
[0043]H.264規格は、例えば、所与のプロファイルのシンタックスによって課せられる限度(the bounds)内で、復号されたピクチャの規定されたサイズのような、ビットストリーム中のシンタックス要素によって取られる値に依存して、符号化器と復号器との性能において大きなバリエーションを必要とすることは依然として可能であることを認識している。H.264規格はさらに、多くのアプリケーションで、特定のプロファル内のシンタックスの全ての仮定的な使用に対処することが可能である復号器をインプリメントすることは実用的でも経済的でもないことを認識している。それ故に、H.264規格は、ビットストリーム中のシンタックス要素の値に対して課せられる制約の規定されたセットとして「レベル」を定義する。これらの制約は、値に対する単純な限定でありうる。代替として、これらの制約は、値の算術的組み合わせ(例えば、ピクチャ幅にピクチャの高さを乗算したものに、毎秒復号されるピクチャの数を乗算したもの)に対する制約の形態を取りうる。H.264規格はさらに、個々のインプリメンテーションが各サポートされるプロファイルについて異なるレベルをサポートしうることを提供する。
[0044]プロファイルに準ずる復号器は通常、プロファイル中に定義された全ての機能をサポートする。例えば、コーディング機能として、Bピクチャコーディングは、H.264/AVCのベースラインプロファイル中でサポートされていないが、H.264/AVCの他のプロファイル中でサポートされている。レベルに準ずる復号器は、レベル中で定義された制限を超えてリソースを必要としないあらゆるビットストリームを復号することが可能であるべきである。プロファイルおよびレベルの定義は、解釈可能性(interpretability)に役に立ちうる。例えば、ビデオ送信中に、一対のプロファイルおよびレベル定義がネゴシエートされ、送信セッション全体について同意されうる。より具体的には、H.264/AVCでは、レベルは、処理される必要があるマクロブロックの数、復号されたピクチャバッファ(DPB)サイズ、コーディングされたピクチャバッファ(CPB)サイズ、垂直動きベクトル範囲、2つの連続するMBあたりの動きベクトルの最大数、およびBブロックが8x8ピクセル未満のサブマクロブロック区分を有することができるかどうか、に対する制限を定義しうる。このように、復号器は、復号器がビットストリームを適正に復号することが可能であるかどうかを決定しうる。
[0045]図1の例では、コンテンツ準備デバイス20のカプセル化ユニット30は、ビデオ符号化器28からコーディングされたビデオデータを備えるエレメンタリーストリームを、およびオーディオ符号化器26からコーディングされたオーディオデータを備えるエレメンタリーストリームを受信する。いくつかの例では、ビデオ符号化器28およびオーディオ符号化器26は各々、符号化されたデータからPESパケットを形成するためのパケタイザを含みうる。他の例では、ビデオ符号化器28およびオーディオ符号化器26は各々、符号化されたデータからPESパケットを形成するためのそれぞれのパケタイザとインターフェースしうる。さらに他の例では、カプセル化ユニット30は、符号化されたオーディオおよびビデオデータからPESパケットを形成するためのパケタイザを含みうる。
[0046]ビデオ符号化器28は、様々なビットレートで、および、ピクセル解像度、フレームレート、様々なコーディング規格への準拠、様々なコーディング規格についての様々なプロファイルおよび/またはプロファイルのレベルへの準拠、(例えば、2次元または3次元再生のための)1つまたは複数のビューを有するリプレゼンテーション、あるいは他のそのような特性のような様々な特性で、マルチメディアコンテンツの異なるリプレゼンテーションを生じさせるために、多様な方法でマルチメディアコンテンツのビデオデータを符号化しうる。この開示中で使用されているようなリプレゼンテーションは、オーディオデータ、ビデオデータ、(例えば、クローズドキャプションのための)テキストデータ、または他のそのようなデータのうちの1つを備えうる。リプレゼンテーションは、オーディオエレメンタリーストリームまたはビデオエレメンタリーストリームのようなエレメンタリーストリームを含みうる。各PESパケットは、PESパケットが属するエレメンタリーストリームを識別するstream_idを含みうる。カプセル化ユニット30は、エレメンタリーストリームを様々なリプレゼンテーションのビデオファイル(例えば、セグメント)へとアセンブルすることを担う。
[0047]カプセル化ユニット30は、オーディオ符号化器26およびビデオ符号化器28からリプレゼンテーションのエレメンタリーストリームのためのPESパケットを受信し、PESパケットから対応するネットワーク抽象化レイヤ(NAL)ユニットを形成する。コーディングされたビデオセグメントは、NALユニットへと編成されえ、それは、ビデオ電話通信、記憶、ブロードキャスト、またはストリーミングのようなアプリケーションを扱う「ネットワークフレンドリーな」ビデオリプレゼンテーションを提供する。NALユニットは、ビデオコーディングレイヤ(VCL)NALユニット(例えば、VCLデータ)と非VCL NALユニットとにカテゴリ化されることができる。(VCLデータとも呼ばれる)VCLユニットは、コア圧縮エンジンを包含し、ブロック、マクロブロック、および/またはスライスレベルデータを含みうる。他のNALユニットは、非VCL NALユニットでありうる。いくつかの例では、プライマリのコーディングされたピクチャ(a primary coded picture)として通常提示される1つの時間インスタンス中のコーディングされたピクチャは、アクセスユニット中に包含されえ、それは、1つまたは複数のNALユニットを含みうる。
[0048]非VCL NALユニットは、中でもとりわけ、パラメータセットNALユニットと補足エンハンスメント情報(SEI:Supplemental Enhancement Information)NALユニットとを含みうる。パラメータセットは、(シーケンスパラメータセット(SPS)中に)シーケンスレベルヘッダ情報と、(ピクチャパラメータセット(PPS)中に)まれに変化するピクチャレベルヘッダ情報とを包含しうる。パラメータセット(例えば、PPSおよびSPS)では、まれに変化する情報は、シーケンスまたはピクチャごとに繰り返される必要がなく、故に、コーディング効率は改善されうる。さらに、パラメータセットの使用は、重要なヘッダ情報の帯域外送信を可能にしえ、誤り耐性のための冗長送信の必要性を避ける。帯域外送信の例では、パラメータセットNALユニットは、SEI NALユニットのような他のNALユニットとは異なるチャネル上で送信されうる。
[0049]SEIメッセージは、VCL NALユニットからのコーディングされたピクチャサンプルを復号するために必要ではない情報を包含しうるが、復号、表示、誤り耐性、および他の目的に関連したプロセスを支援しうる。SEIメッセージは、非VCL NALユニット中に包含されうる。SEIメッセージは、いくつかの規格仕様書(standard specifications)の規範的部分であり、このことから、規格準拠の復号器インプリメンテーションのために常に必須な訳ではない。SEIメッセージは、シーケンスレベルSEIメッセージまたはピクチャレベルSEIメッセージでありうる。何らかのシーケンスレベル情報が、SVCの例におけるスケーラビリティ情報SEIメッセージ、およびMVC中でのビュースケーラビリティ情報SEIメッセージのようなSEIメッセージ中に包含されうる。これらの実例的なSEIメッセージは、例えば、動作点の抽出および動作点の特性に関する情報を伝達しうる。加えて、カプセル化ユニット30は、リプレゼンテーションの特性を記述するメディアプレゼンテーション記述子(MPD:a media presentation descriptor)のようなマニフェストファイルを形成しうる。カプセル化ユニット30は、拡張可能マークアップ言語(XML)にしたがってMPDをフォーマットしうる。
[0050]カプセル化ユニット30は、出力インターフェース32に、マニフェストファイル(例えば、MPD)とともに、マルチメディアコンテンツの1つまたは複数のリプレゼンテーションについてのデータを提供しうる。出力インターフェース32は、ネットワークインターフェース、あるいは、ユニバーサルシリアルバス(USB)インターフェース、CDまたはDVDライタまたはバーナ(burner)、磁気またはフラッシュ記憶媒体に対するインターフェース、もしくは媒体データを記憶または送信するための他のインターフェースのような、記憶媒体に書き込むためのインターフェースを備えうる。カプセル化ユニット30は、出力インターフェース32にマルチメディアコンテンツのリプレゼンテーションの各々のデータを提供しえ、それは、ネットワーク送信または記憶媒体を介してサーバデバイス60にデータを送りうる。図1の例では、サーバデバイス60は、様々なマルチメディアコンテンツ64を記憶する記憶媒体62を含み、各々は、それぞれのマニフェストファイル66と1つまたは複数のリプレゼンテーション68A〜68N(リプレゼンテーション68)とを含む。いくつかの例では、出力インターフェース32はまた、ネットワーク74に直接データを送りうる。
[0051]いくつかの例では、リプレゼンテーション68は、適合セットに分けられうる。すなわち、リプレゼンテーション68の様々なサブセットは、コーデック、プロファイルおよびレベル、解像度、ビューの数、セグメントのためのファイルフォーマット、言語またはリプレゼンテーションとともに表示されるべきテキストおよび/または、例えば、スピーカによって復号および提示されるべきオーディオデータの他の特性を識別しうるテキストタイプ情報、適合セット中のリプレゼンテーションについてのシーンのカメラアングルまたは実世界カメラパースペクティブ(real-world camera perspective)を記述しうるカメラアングル情報、特定のオーディエンスに対するコンテンツ適性を記述するレーティング情報、または同様のもののような、特性のそれぞれの共通セットを含みうる。
[0052]マニフェストファイル66は、特定の適合セットに対応するリプレゼンテーション68のサブセットを示すデータ、ならびに適合セットについての共通特性を含みうる。マニフェストファイル66はまた、適合セットの個々のリプレゼンテーションについての、ビットレートのような個々の特性を表すデータを含みうる。このように、適合セットは、簡略化されたネットワーク帯域幅適合を提供しうる。適合セット中のリプレゼンテーションは、マニフェストファイル66の適合セット要素の子要素を使用して示されうる。
[0053]サーバデバイス60は、要求処理ユニット70とネットワークインターフェース72とを含む。いくつかの例では、サーバデバイス60は、複数のネットワークインターフェースを含みうる。さらに、サーバデバイス60の機能のうちの任意のものまたは全ては、ルータ、ブリッジ、プロキシデバイス、スイッチ、または他のデバイスのような、コンテンツ配信ネットワークの他のデバイス上でインプリメントされうる。いくつかの例では、コンテンツ配信ネットワークの中間デバイスは、マルチメディアコンテンツ64のデータをキャッシュしえ、およびサーバデバイス60のものと実質的に一致するコンポーネントを含みうる。一般に、ネットワークインターフェース72は、ネットワーク74を介してデータを送受信するように構成されうる。
[0054]要求処理ユニット70は、記憶媒体62のデータを求めるネットワーク要求をクライアントデバイス40のようなクライアントデバイスから受信するように構成される。例えば、要求処理ユニット70は、1999年6月のR. Fielding et al、Network Working Group、IETFによるRFC 2616、「Hypertext Transfer Protocol - HTTP/1.1」中に説明されているようなハイパーテキスト転送プロトコル(HTTP)バージョン1.1をインプリメントしうる。すなわち、要求処理ユニット70は、HTTP GETまたは部分的GET要求を受信し、それら要求に応答してマルチメディアコンテンツ64のデータを提供するように構成されうる。それら要求は、例えば、セグメントのURLを使用して、リプレゼンテーション68のうちの1つのセグメントを指定しうる。いくつかの例では、それら要求はまた、セグメントの1つまたは複数のバイト範囲を指定しえ、このことから、部分的GET要求を備える。要求処理ユニット70はさらに、HTTP HEAD要求をサービスし、リプレゼンテーション68のうちの1つのセグメントのヘッダデータを提供するように構成されうる。いずれのケースでも、要求処理ユニット70は、それら要求を処理し、クライアントデバイス40のような要求しているデバイスに要求されたデータを提供するように構成されうる。
[0055]加えてまたは代替として、要求処理ユニット70は、eMBMSのようなブロードキャストまたはマルチキャストプロトコルを介してメディアデータを配信するように構成されうる。コンテンツ準備デバイス20は、説明されたのと実質的に同じ方法でDASHセグメントおよび/またはサブセグメントを作成しうるが、サーバデバイス60は、eMBMSあるいは別のブロードキャストまたはマルチキャストネットワークトランスポートプロトコルを使用してこれらのセグメントまたはサブセグメントを配信しうる。例えば、要求処理ユニット70は、クライアントデバイス40からマルチキャストグループ参加要求(a multicast group join request)を受信するように構成されうる。すなわち、サーバデバイス60は、特定のメディアコンテンツ(例えば、ライブイベントのブロードキャスト)に関連付けられた、クライアントデバイス40を含むクライアントデバイスに、マルチキャストグループに関連付けられたインターネットプロトコル(IP)アドレスをアドバタイズしうる。クライアントデバイス40は次に、マルチキャストグループに加わるための要求をサブミットしうる。この要求は、ネットワーク74、例えば、ネットワーク74を構成するルータを通じて伝搬されえ、それは、それらルータが、クライアントデバイス40のような加入しているクライアントデバイスに、マルチキャストグループに関連付けられたIPアドレスに宛てられたトラフィックを向かわせることを行わされる(caused to direct)からである。
[0056]図1の例において例示されているように、マルチメディアコンテンツ64は、マニフェストファイル66を含み、それは、メディアプレゼンテーション記述(MPD)に対応しうる。マニフェストファイル66は、異なる代替のリプレゼンテーション68の記述を包含し(例えば、異なる品質を有するビデオサービス)、記述は、例えば、コーデック情報、プロファイル値、レベル値、ビットレート、およびリプレゼンテーション68の他の記述的特性を含みうる。クライアントデバイス40は、リプレゼンテーション68のセグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのMPDを検索しうる。
[0057]特に、検索ユニット52は、ビデオ復号器48の復号能力とビデオ出力44のレンダリング能力とを決定するために、クライアントデバイス40の構成データ(図示せず)を検索しうる。構成データはまた、クライアントデバイス40のユーザによって選択された言語選好、クライアントデバイス40のユーザによって設定された深度選好に対応する1つまたは複数のカメラパースペクティブ、および/またはクライアントデバイス40のユーザによって選択されたレーティング選好のうちの任意のものまたは全てを含みうる。検索ユニット52は、例えば、HTTP GETおよび部分的GET要求をサブミットするように構成されたメディアクライアントまたはウェブブラウザを備えうる。検索ユニット52は、クライアントデバイス40の1つまたは複数のプロセッサあるいは処理ユニット(図示せず)によって実行されるソフトウェア命令に対応しうる。いくつかの例では、検索ユニット52に関して説明された機能のうちの全てまたは一部分は、ハードウェア、あるいはハードウェア、ソフトウェア、および/またはファームウェアの組み合わせにおいてインプリメントされえ、ここで、必須のハードウェアは、ソフトウェアまたはファームウェアのための命令を実行するために提供されうる。
[0058]検索ユニット52は、クライアントデバイス40の復号およびレンダリング能力を、マニフェストファイル66の情報によって示されるリプレゼンテーション68の特性と比較しうる。検索ユニット52は初めに、リプレゼンテーション68の特性を決定するためにマニフェストファイル66の少なくとも一部分を検索しうる。例えば、検索ユニット52は、1つまたは複数の適合セットの特性を記述するマニフェストファイル66の一部分を要求しうる。検索ユニット52は、クライアントデバイス40のコーディングおよびレンダリング能力によって満たされることができる特性を有するリプレゼンテーション68(例えば、適合セット)のサブセットを選択しうる。検索ユニット52はその後、適合セット中のリプレゼンテーションについてのビットレートを決定し、ネットワーク帯域幅の現在利用可能な量を決定し、ネットワーク帯域幅によって満たされることができるビットレートを有するリプレゼンテーションのうちの1つからセグメントを検索しうる。
[0059]一般に、より高いビットレートリプレゼンテーションは、より高品質のビデオ再生をもたらしえ、その一方でより低いビットレートリプレゼンテーションは、利用可能なネットワーク帯域幅が減少したときに十分な品質のビデオ再生を提供しうる。それ故に、利用可能なネットワーク帯域幅が比較的高いとき、検索ユニット52は、比較的高いビットレートリプレゼンテーションからデータを検索しうるのに対して、利用可能なネットワーク帯域幅が低いとき、検索ユニット52は、比較的低いビットレートリプレゼンテーションからデータを検索しうる。このように、クライアントデバイス40は、ネットワーク74の変化するネットワーク帯域幅の可用性に適合もしながら、ネットワーク74を通してマルチメディアデータをストリーミングしうる。
[0060]加えてまたは代替として、検索ユニット52は、eMBMSまたはIPマルチキャストのようなブロードキャストまたはマルチキャストネットワークプロトコルにしたがってデータを受信するように構成されうる。そのような例では、検索ユニット52は、特定のメディアコンテンツに関連付けられたマルチキャストネットワークグループに加わるための要求をサブミットしうる。マルチキャストグループに加わった後に、検索ユニット52は、さらなる要求がサーバデバイス60またはコンテンツ準備デバイス20に発行されることなしに、マルチキャストグループのデータを受信しうる。検索ユニット52は、例えば、再生を停止するために、または異なるマルチキャストグループにチャネルを変更するために、マルチキャストグループのデータがもはや必要とされないときにマルチキャストグループを去るための要求をサブミットしうる。
[0061]ネットワークインターフェース54は、選択されたリプレゼンテーションのセグメントのデータを受信し、それを検索ユニット52に提供しえ、それは次に、非カプセル化(decapsulation)ユニット50にセグメントを提供しうる。非カプセル化ユニット50は、構成要素(constituent)PESストリームへとビデオファイルの要素を非カプセル化し、符号化されたデータを検索するためのPESストリームを非パケット化(depacketize)し、例えば、ストリームのPESパケットヘッダによって示されているように、符号化されたデータがオーディオストリームの一部であるか、またはビデオストリームの一部であるかに依存して、オーディオ復号器46またはビデオ復号器48のいずれかに符号化されたデータを送りうる。オーディオ復号器46は、符号化されたオーディオデータを復号し、オーディオ出力42に復号されたオーディオデータを送り、その一方でビデオ復号器48は、符号化されたビデオデータを復号し、ビデオ出力44に復号されたビデオデータを送り、それは、ストリームの複数のビューを含みうる。
[0062]ビデオ符号化器28、ビデオ復号器48、オーディオ符号化器26、オーディオ復号器46、カプセル化ユニット30、検索ユニット52、および非カプセル化ユニット50は各々、適宜、1つまたは複数のマイクロプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリートロジック回路、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせのような、多様な適した処理回路の任意のものとしてインプリメントされうる。ビデオ符号化器28およびビデオ復号器48の各々は、1つまたは複数の符号化器または復号器中に含まれえ、それらのうちのいずれも、組み合わされたビデオ符号化器/復号器(CODEC)の一部として一体化されうる。同様に、オーディオ符号化器26およびオーディオ復号器46の各々は、1つまたは複数の符号化器または復号器中に含まれえ、それらのうちのいずれも、組み合わされたCODECの一部として一体化されうる。ビデオ符号化器28、ビデオ復号器48、オーディオ符号化器26、オーディオ復号器46、カプセル化ユニット30、検索ユニット52、および/または非カプセル化ユニット50を含む装置は、集積回路、マイクロプロセッサ、および/またはセルラ電話のようなワイヤレス通信デバイスを備えうる。
[0063]ビデオコーディング規格は、ITU−T H.261と、ISO/IEC MPEG−1 Visualと、ITU−T H.262またはISO/IEC MPEG−2 Visualと、ITU−T H.263と、ISO/IEC MPEG−4 Visualと、そのスケーラブルビデオコーディング(SVC)およびマルチビュービデオコーディング(MVC)拡張を含むITU−T H.264またはISO/IEC MPEG−4 AVCと、そのスケーラブルコーディング拡張(すなわち、スケーラブル高効率ビデオコーディング、SHVC)、マルチビュー拡張(すなわち、マルチビュー高効率ビデオコーディング、MV−HEVC)、および3D拡張(すなわち、3D高効率ビデオコーディング、3D−HEVC)を含む、ITU−T H.265およびISO/IEC 23008−2としても知られる高効率ビデオコーディング(HEVC)とを含む。
[0064]カプセル化ユニット30は、イメージの1つまたは複数の最も関心のある領域を決定しうる。ここに使用される場合、最も関心のある領域は、ユーザによって見られる高い可能性を有するイメージの領域を指しうる。例えば、最も関心のある領域は、ディレクターまたはプロデューサーによって選択されるイメージの領域を指しうる。いくつかの例では、最も関心のある領域は、サービスまたはコンテンツプロバイダによるユーザ統計から、例えば、全方位ビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された/見られたかの統計を通じて、コンピューティングデバイスによって導出されるイメージの領域を指しうる。
[0065]カプセル化ユニット30は、1つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。いくつかの例では、カプセル化ユニット30は、1つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。例えば、カプセル化ユニット30は、1つまたは複数の最も関心のある領域を表すデータを含むSEIメッセージをカプセル化しうる。いくつかの例では、カプセル化ユニット30は、1つまたは複数の最も関心のある領域を表すデータを含むファイルフォーマットデータをカプセル化しうる。例えば、カプセル化ユニット30は、1つまたは複数の最も関心のある領域を表すデータを含むボックス(例えば、サンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、セグメントインデックスボックス(a sample group box, a sample table box, a track fragment, a segment index box)、等)をカプセル化しうる。
[0066]カプセル化ユニット30は、1つまたは複数の最も関心のある領域を表すデータが1つまたは複数の最も関心のある領域についてのビデオデータを含むビットストリーム中に含まれるように、1つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。例えば、カプセル化ユニット30は、特定のイメージについてのビデオデータを出力するより前に、ファイルフォーマットデータ中に特定のイメージについての1つまたは複数の最も関心のある領域を表すデータをカプセル化しうる。この例では、ファイルフォーマットデータ中に特定のイメージについての1つまたは複数の最も関心のある領域を表すデータをカプセル化した後に、カプセル化ユニット30は、特定のイメージについてのビデオデータをカプセル化しうる。
[0067]最も関心のある領域に関する情報の生成および使用がここで論述されることになる。2016年5月19日に出願され、その全体が参照によってここに組み込まれる米国仮特許出願第62/339,009号は、サービスまたはコンテンツプロバイダによるユーザ統計による、例えば、VRビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された/見られたかの統計を通じた、最も関心のある領域に関する情報の生成を開示しており、ここにおいて、VRビデオピクチャ中の最も関心のある領域は、統計的にピクチャの提示時間においてユーザにレンダリングされる可能性が最も高い領域のうちの1つである。米国仮特許出願第62/339,009号中にまた開示されているのは、エッジサーバまたはクライアントによるVR適応型ストリーミング中でのデータプリフェッチング、VRビデオが、例えば、異なるコーデックまたはプロジェクションマッピングにトランスコーディングされたときのトランスコーディング最適化、エッジサーバまたはキャッシュによるキャッシュ管理、およびVRビデオストリーミングサーバによるコンテンツ管理のような、様々なVR性能を改善することを目的とした、最も関心のある領域に関する情報の使用である。例えば、ビデオビットストリーム中のSEIメッセージ、メディアファイル中のファイルフォーマットサンプルグループ、またはサンプルグループを使用するHTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)要素または属性を使用することによる、最も関心のある領域のシグナリングもまた開示されている。
[0068]VRビデオアプリケーションに関して、最も関心のある領域に関する情報を利用する方法を考えたとき、我々は、以下の問題のうちの少なくともいくつかを特定する。一例として、VRビデオの最も関心のある領域に関する情報が、その情報が関連する(the information is about)ビデオピクチャの前に適応型ストリーミングクライアントまたはエッジサーバによって受信されることができることを確実にするいかなるメカニズムも利用可能ではなかった。米国仮特許出願第62/339,009号中に説明されているように、SEIメッセージ中に含まれるとき、情報は、その情報が関連するコーディングされたピクチャと一体になる(come together)であろう。トラックフラグメント中に含まれるとき、ファイルフォーマットサンプルグループは、そのトラックフラグメント中のビデオサンプルについての情報を記述する。別の例として、いくつかのケースでは、例えば、タイルトラックが動き抑制された(motion-constrained)タイルまたはタイル領域を搬送するために使用されるとき、領域の位置およびサイズを通じて最も関心のある領域に関する情報をシグナリングする必要はないが、むしろより単純でより効率的なシグナリングが使用されることができる。
[0069]この開示は、VRビデオ中の1つまたは複数の最も関心のある領域の高度なシグナリングのためのいくつかの技法を説明しており、それにより、VRビデオの最も関心のある領域に関する情報は、その情報が関連するビデオピクチャの前に適応型ストリーミングクライアントまたはエッジサーバによって受信されることができる。言い換えると、VRビデオ中の1つまたは複数の最も関心のある領域の高度なシグナリングは、VRビデオの最も関心のある領域に関する情報が、1つまたは複数の最も関心のある領域についてのビデオデータを含むデータセットとは異なるデータセット中で受信されることを許可しうる。これらの技法のうちの1つまたは複数は、独立して、または他のものと組み合わせて適用されうる。
[0070]一例では、トラックフラグメントボックス中に含まれるとき、サンプルグループが、トラック中にサンプルグループ(グルーピングタイプのSampleToGroupBoxおよび対応するサンプルグループ記述ボックス)を包含するものに続く後続のトラックフラグメント中にあるサンプルの情報をドキュメントすることができることが提案される。例えば、SampleToGroupBoxの新しいバージョンが定義され、および特定のグルーピングタイプのSampleToGroupBoxがトラックフラグメント中に含まれるとき、SampleToGroupBoxの新しいバージョンが使用されることが必要とされ、同じグルーピングタイプの対応するサンプルグループエントリ中に含まれる情報は、トラック中にサンプルグループを包含する後続のトラックフラグメント中のサンプルの情報をドキュメントすることができる。
[0071]別の例では、最も関心のある領域を記述するためのサンプルグループは少なくとも、以下のシンタックス要素のうちの1つまたは複数を包含しうる。
[0072]サンプルグループは、最も関心のある領域の数を示すシンタックス要素を包含しうる。
[0073]サンプルグループは、シンタックス要素のセットのループを包含しえ、各セットは、最も関心のある領域の位置およびサイズを記述する。例えば、各セットは、最も関心のある領域である長方形の四隅の上側、下側、左側および右側オフセットを、ピクチャ全体に対する輝度サンプルの数で示す4つのシンタックス要素を含みうる。最も関心のある領域の各々について、優先度は、シンタックス要素によって示されえ、高い優先度は、領域のより高い関心を示す。
[0074]一例では、各セットは、最も関心のある領域である長方形の左上角の座標を、ピクチャ全体に対する輝度サンプルの数で示す2つのシンタックス要素を含みえ、2つのシンタックス要素は、長方形の幅および高さを示す。
[0075]第2の例では、各セットは、最も関心のある領域の左上角の座標を、ピクチャ全体に対する輝度サンプルの数で示す2つのシンタックス要素を含みうる。そのような座標によって示される最も関心のある領域が、長方形の形状ではないことがありうることに留意されたい。ファイルパーサ(parsers)は、座標をビューポート中の領域と関連付け、およびそのような領域が最も高い解像度/品質でコーディングされるトラック/DASHリプレゼンテーションを見出すことが可能であるべきである。
[0076]第3の例では、最も関心のある領域が幅および高さによって記述される長方形の形状であるかどうかを示すためにフラグが導入される第1および第2の代替は、マージされることができる。
[0077]第4の例では、各セットは、最も関心のある領域である長方形の左上角の座標を、球体に対する輝度サンプルの数で示す3つのシンタックス要素(例えば、ヨー度、ピッチ度および半径長(the yaw degree, pitch degree and radius length))を含みえ、2つのシンタックス要素は、長方形のピッチの幅および高さヨーを示す。ファイルパーサは、球体中の記述された領域をピクチャ全体に対する領域と関連付け、およびそのような領域が最も高い解像度/品質でコーディングされるトラック/DASHリプレゼンテーションを見出すことが可能であるべきである。
[0078]別の例では、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、最も関心のある領域をカバーするタイルの、HEVC仕様書中に規定されているようなタイルIDがシグナリングされうる。
[0079]別の例では、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、最も関心のある領域をカバーするタイル領域の、ISO/IEC 14496−15の第10項中に定義されているようなタイル領域IDまたはグループIDがシグナリングされうる。
[0080]別の例では、ISO/IEC 14496−15の第10項中に定義されているようなタイルトラックが使用されるとき、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、最も関心のある領域をカバーする動き抑制されたタイルまたはタイル領域を搬送するトラックのトラックIDがシグナリングされうる。
[0081]別の例では、DASHがVRビデオをストリーミングするために使用され、ISO/IEC 14496−15の第10項中に定義されているようなタイルトラックが使用され、各タイルトラックが1つのDASHリプレゼンテーション中にカプセル化されるとき、最も関心のある領域の位置およびサイズを直接シグナリングする代わりに、MPDまたはMPDの更新中で、最も関心のある領域をカバーする動き抑制されたタイルまたはタイル領域を搬送するトラックに対応するリプレゼンテーションのリプレゼンテーションIDがシグナリングされうる。
[0082]別の例では、ISO/IEC 14496−15の第10項中に定義され、定義されているようなタイルトラックが使用されるとき、1つまたは複数の最も関心のある領域の情報が、ベースタイルトラックまたは非タイルトラック(すなわち、「TBAS」トラックリファレンス(track reference)を通じて他のトラックによって参照されるトラック)中にシグナリングされうるか、またはベースタイルトラック中にのみシグナリングされうる。このケースでは、サンプルグループがシグナリングのために使用されるとき、サンプル番号は、現在のトラックに関連付けられたタイルトラックのものである。およびこのケースでは、タイルトラックのサンプルの数が同じであり、そしてタイルトラックのサンプル番号が揃えられることが必要とされうる。
[0083]別の例では、サンプルグループを使用する代わりに、最も関心のある領域の情報はまた、サンプルテーブルボックス、トラックフラグメントボックス、および/またはセグメントインデックスボックス中に直接的にまたは間接的に含まれる新しいボックス中にシグナリングされえ、新しいボックスが、トラック中に新しいボックスを包含するものに続く後続のセグメントまたは後続のトラックセグメントのサンプルについての情報をドキュメントすることが可能にされる。
[0084]別の例では、VRビデオビットストリームのピクチャの特定のセットについての最も関心のある領域に関する情報は、SEIメッセージを使用してシグナリングされうる。このSEIメッセージのインスタンスは、シンタックス、セマンティクスまたは両方によって(1つまたは複数の)ピクチャのセットに適用可能であるように指定される。SEIメッセージは、以下のシンタックス要素のうちの1つまたは複数を包含しうる。
[0085]SEIメッセージは、最も関心のある領域の数を示すシンタックス要素を包含しうる。
[0086]SEIメッセージは、シンタックス要素のセットのループを包含しえ、各セットは、最も関心のある領域の位置およびサイズを記述する。例えば、各セットは、最も関心のある領域である長方形の四隅の上側、下側、左側および右側オフセットを、ピクチャ全体に対する輝度サンプルの数で示す4つのシンタックス要素を含みうる。代替として、各セットは、最も関心のある領域である長方形の左上角の座標を、ピクチャ全体に対する輝度サンプルの数で示す2つのシンタックス要素を含みえ、2つのシンタックス要素は、長方形の幅および高さを示す。
[0087]SEIメッセージは包含しえ、最も関心のある領域の各々について、優先度は、シンタックス要素によって示されえ、高い優先度は、領域のより高い関心を示す。
[0088]SEIメッセージは、復号順序でこのSEIメッセージの全てのより前のインスタンスの効果を除去するかどうかを示すシンタックス要素を包含しうる。
[0089]SEIメッセージは、出力順序で将来のピクチャまたはアクセスユニットを示すシンタックス要素を包含しえ、それから、このSEIメッセージによって記述される最も関心のある領域に関する情報が適用され始める。このインジケーションは、出力時間のデルタ、あるいはSEIメッセージに関連付けられたピクチャまたはアクセスユニットのPOC(ピクチャ順序カウント)に関連するデルタPOCとしてインプリメントされることができる。
[0090]SEIメッセージは、このSEIメッセージの現在のインスタンス中の情報が、出力順序における次のピクチャ、または新しいコーディングされたビデオシーケンスの開始、あるいはビットストリームの終了まで、残存するかどうかを示すシンタックス要素を包含しうる。
[0091]クライアントデバイス40、サーバデバイス60、および/またはコンテンツ準備デバイス20は、この開示の技法にしたがって動作するように構成されうる。例を目的として、この開示は、クライアントデバイス40およびサーバデバイス60に関するこれらの技法を説明している。しかしながら、コンテンツ準備デバイス20が、サーバデバイス60の代わりに(またはそれに加えて)、これらの技法を遂行するように構成されうることが理解されるべきである。
[0092]カプセル化ユニット30は、NALユニットが属するプログラムを識別するヘッダ、ならびにペイロード、例えば、オーディオデータ、ビデオデータ、あるいはNALユニットが対応するトランスポートまたはプログラムストリームを記述するデータ、を備えるNALユニットを形成しうる。例えば、H.264/AVCでは、NALユニットは、1バイトのヘッダと変動するサイズのペイロードとを含む。そのペイロード中にビデオデータを含むNALユニットは、様々な粒状性(granularity)レベルのビデオデータを備えうる。例えば、NALユニットは、ビデオデータのブロック、複数のブロック、ビデオデータのスライス、またはビデオデータのピクチャ全体を備えうる。カプセル化ユニット30は、エレメンタリーストリームのPESパケットの形状で、ビデオ符号化器28から符号化されたビデオデータを受信しうる。カプセル化ユニット30は、各エレメンタリーストリームを対応するプログラムと関連付けうる。
[0093]カプセル化ユニット30はまた、複数のNALユニットからアクセスユニットをアセンブルしうる。一般に、アクセスユニットは、ビデオデータのフレーム、ならびにそのようなオーディオデータが利用可能であるときにはそのフレームに対応するオーディオデータ、を表すための1つまたは複数のNALユニットを備えうる。アクセスユニットは概して、1つの出力時間インスタンスに対して全てのNALユニットを、例えば、1つの時間インスタンスに対して全てのオーディオおよびビデオデータを、含む。例えば、各ビューが20フレーム/秒(fps)のフレームレートを有する場合、各時間インスタンスは、0.05秒の時間間隔に対応しうる。この時間間隔中に、同じアクセスユニット(同じ時間インスタンス)の全てのビューについての特定のフレームは、同時にレンダリングされうる。一例では、アクセスユニットは、1つの時間インスタンス中にコーディングされたピクチャを備えうるものであり、それは、プライマリのコーディングされたピクチャとして提示されうる。
[0094]それ故に、アクセスユニットは、共通の時間的インスタンスの全てのオーディオおよびビデオフレーム、例えば、時間Xに対応する全てのビュー、を備えうる。この開示はまた、特定のビューの符号化されたピクチャを「ビューコンポーネント」と呼ぶ。すなわち、ビューコンポーネントは、特定の時間における特定のビューについての符号化されたピクチャ(またはフレーム)を備えうる。それ故に、アクセスユニットは、共通の時間的インスタンスの全てのビューコンポーネントを備えるとして定義されうる。アクセスユニットの復号順序は、出力または表示順序とは必ずしも同じである必要はない。
[0095]メディアプレゼンテーションは、メディアプレゼンテーション記述(MPD)を含みえ、それは、異なる代替のリプレゼンテーション(例えば、異なる品質を有するビデオサービス)の記述を包含し、記述は、例えば、コーデック情報、プロファイル値、およびレベル値を含みうる。MPDは、マニフェストファイル66のようなマニフェストファイルの一例である。クライアントデバイス40は、様々なプレゼンテーションのムービーフラグメントにどのようにアクセスするかを決定するために、メディアプレゼンテーションのMPDを検索しうる。ムービーフラグメントは、ビデオファイルのムービーフラグメントボックス(moofボックス)中にロケートされうる。
[0096](例えば、MPDを備えうる)マニフェストファイル66は、リプレゼンテーション68のセグメントの可用性をアドバタイズしうる。すなわち、MPDは、リプレゼンテーション68のうちの1つの第1のセグメントが利用可能になるウォールクロック時間(the wall-clock time)を示す情報、ならびにリプレゼンテーション68内のセグメントの持続時間を示す情報を含みうる。このように、クライアントデバイス40の検索ユニット52は、特定のセグメントに先行するセグメントの開始時間ならびに持続時間に基づいて、各セグメントがいつ利用可能になるかを決定しうる。いくつかの例では、マニフェストファイル66は、この開示の技法によると、特定のイメージ中の1つまたは複数の最も関心のある領域を表すデータを含みうる。
[0097]カプセル化ユニット30が受信されたデータに基づいてNALユニットおよび/またはアクセスユニットをビデオファイルへとアセンブルした後に、カプセル化ユニット30は、出力のために出力インターフェース32にビデオファイルを渡す。いくつかの例では、カプセル化ユニット30は、直接クライアントデバイス40にビデオファイルを送るというよりはむしろ、ビデオファイルをローカルに記憶しうるか、または出力インターフェース32を介してリモートサーバにビデオファイルを送りうる。出力インターフェース32は、例えば、送信機、トランシーバ、例えば、光学ドライブ、磁気媒体ドライブ(例えば、フロッピー(登録商標)ドライブ)、ユニバーサルシリアルバス(USB)ポート、ネットワークインターフェース、または他の出力インターフェースのような、コンピュータ可読媒体にデータを書き込むためのデバイスを備えうる。出力インターフェース32は、例えば、送信信号、磁気媒体、光学媒体、メモリ、フラッシュドライブ、または他のコンピュータ可読媒体のようなコンピュータ可読媒体にビデオファイルを出力する。
[0098]ネットワークインターフェース54は、ネットワーク74を介してNALユニットまたはアクセスユニットを受信し、検索ユニット52を介して非カプセル化ユニット50にNALユニットまたはアクセスユニットを提供しうる。非カプセル化ユニット50は、構成要素PESストリームへとビデオファイルの要素を非カプセル化し、符号化されたデータを検索するためのPESストリームを非パケット化し、例えば、ストリームのPESパケットヘッダによって示されているように、符号化されたデータがオーディオストリームの一部であるか、またはビデオストリームの一部であるかに依存して、オーディオ復号器46またはビデオ復号器48のいずれかに符号化されたデータを送りうる。オーディオ復号器46は、符号化されたオーディオデータを復号し、オーディオ出力42に復号されたオーディオデータを送り、その一方でビデオ復号器48は、符号化されたビデオデータを復号し、ビデオ出力44に復号されたビデオデータを送り、それは、ストリームの複数のビューを含みうる。
[0099]このように、コンテンツ準備デバイス20は、ビデオデータについての情報をシグナリングするためのデバイスの例を表し、デバイスは、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するように構成されたプロセッサを含む。1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える。プロセッサはさらに、1つまたは複数の最も関心のある領域を表すデータを出力するように構成される。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれる。プロセッサはさらに、1つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力するように構成される。
[0100]加えて、クライアントデバイス40は、ビデオデータについての情報を決定するためのデバイスの例を表し、デバイスは、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するように構成されたプロセッサを含む。プロセッサは、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、サーバデバイスに要求を出力することとを行うようにさらに構成される。
[0101]図2は、実例的なマルチメディアコンテンツ120の要素を例示する概念図である。マルチメディアコンテンツ120は、マルチメディアコンテンツ64(図1)、または記憶媒体62中に記憶された別のマルチメディアコンテンツに対応しうる。図2の例では、マルチメディアコンテンツ120は、メディアプレゼンテーション記述(MPD)122と複数のリプレゼンテーション124A〜124N(リプレゼンテーション124)とを含む。リプレゼンテーション124Aは、オプションのヘッダデータ126とセグメント128A〜128N(セグメント128)を含み、その一方でリプレゼンテーション124Nは、オプションのヘッダデータ130とセグメント132A〜N(セグメント132)とを含む。Nの文字は、便宜上、リプレゼンテーション124の各々中の最後のムービーフラグメントを指定するために使用されている。いくつかの例では、リプレゼンテーション124間に異なる数のムービーフラグメントが存在しうる。
[0102]図2は、システム10(図1)がDASHのために構成された例を説明しているが、いくつかの例では、システム10は、他のメディア再生制御プロトコル、例えば、それらに限定されないが、リアルタイムストリーミングプロトコル(RTSP)、リアルタイムトランスポートプロトコル(RTP)、RTP制御プロトコル(RTCP)、セッション記述プロトコル(SDP)、別のメディア再生制御プロトコル、またはそれらの組み合わせのために構成されうる。
[0103]MPD122は、リプレゼンテーション124とは別個のデータ構造を備えうる。MPD122は、図1のマニフェストファイル66に対応しうる。同様に、リプレゼンテーション124は、図2のリプレゼンテーション68に対応しうる。一般に、MPD122は、コーディングおよびレンダリング特性、適合セット、MPD122が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報(例えば、時間的サブシーケンスを含むリプレゼンテーションを示す情報)、および/または(例えば、再生中におけるメディアコンテンツへのターゲット広告の挿入のための)リモート期間を検索するための情報のような、リプレゼンテーション124の特性を概して説明するデータを含みうる。
[0104]存在するとき、ヘッダデータ126は、セグメント128の特性、例えば、ランダムアクセスポイント(RAP、ストリームアクセスポイント(SAP)とも呼ばれる)の時間的ロケーション、セグメント128のうちのどれがランダムアクセスポイントを含むか、セグメント128内のランダムアクセスポイントに対するバイトオフセット、セグメント128のユニフォームリソースロケータ(URL)、またはセグメント128の他の態様を記述しうる。存在するとき、ヘッダデータ130は、セグメント132についての同様の特性を記述しうる。加えて、または代替として、そのような特性は、MPD122内に完全に含まれうる。
[0105]示されているように、ヘッダデータ126は、リプレゼンテーション124Aを識別するために使用されうるリプレゼンテーション識別子(「ID」)127を含みうる。例えば、コンテンツ準備デバイス20は、リプレゼンテーション124Aにリプレゼンテーション識別子127を割り当てうる。この例では、コンテンツ準備デバイス20は、リプレゼンテーション124Nにリプレゼンテーション識別子127とは異なるリプレゼンテーション識別子131を割り当てうる。いくつかの例では、ID127、131は、ユニフォームリソースロケータ(URL)プレフィックスに対応しうる。例えば、リプレゼンテーション124Aは、「1」の識別子値を有し、「www.example.com」から利用可能でありえ、それにより、ID127は「www.example.com/1」の値を有しうる。さらに、セグメント128、132の各々は、URLを完成させるための、列挙された識別子のような識別子を含みうる。例えば、「example.com」におけるリプレゼンテーション「1」から利用可能である第1のMP4セグメントは、「example.com/1/1.mp4」のURLを有しうる。コンテンツ準備デバイス20は、一意のリプレゼンテーション識別子をリプレゼンテーション124のうちの各1つに割り当てうる。
[0106]セグメント128、132は、1つまたは複数のコーディングされたビデオサンプルを含み、それらの各々は、ビデオデータのフレームまたはスライスを含みうる。セグメント128のコーディングされたビデオサンプルの各々は、同様の特性、例えば、高さ、幅、および帯域幅要件を有しうる。そのような特定は、MPD122のデータによって記述されうるが、そのようなデータは、図2の例には例示されていない。MPD122は、この開示中に説明されるシグナリングされる情報のうちの任意のものまたは全ての追加とともに、3GPP仕様書によって説明されるような特性を含みうる。
[0107]上述されたように、セグメント128、132の各々は、一意のユニフォームリソースロケータ(URL)に関連付けられうる。このことから、セグメント128、132の各々は、DASHのようなストリーミングネットワークプロトコルを使用して独立して検索可能でありうるが、他のストリーミングネットワークプロトコルが使用されうる。このように、クライアントデバイス40のような宛先デバイスは、セグメント128または132を検索するために、HTTP GET要求を使用しうる。いくつかの例では、クライアントデバイス40は、セグメント128または132の特定のバイト範囲を検索するために、HTTP部分的GET要求を使用しうる。例えば、クライアントデバイス40は、セグメント128、132のうちの1つから最も関心のある領域を表すデータを初めに検索するために、第1のHTTP部分的GET要求を使用し、1つまたは複数の最も関心のある領域を決定し、その後、セグメント128、132のうちの1つから1つまた複数の最も関心のある領域についてのビデオデータをプリフェッチするために、第2のHTTP部分的GET要求を使用しえ、最も関心のある領域データが、例えば、ファイルフォーマット情報中のセグメント128、132内に含まれると想定する。
[0108]この開示の技法にしたがって、MPD122は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。例えば、MPD122は、セグメント128、132の各々について、ベース領域に対する最も関心のある領域のそれぞれの位置と、ベース領域に対する最も関心のある領域のそれぞれのサイズとを表す要素または属性を含みうる。
[0109]より具体的には、例えば、MPD122は、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第4のシンタックス要素とを、1つまたは複数の最も関心のある領域の各々について、含む要素または属性を、セグメント128、132(あるいはセグメント128、132内の1つまたは複数のピクチャ)の各々について、含みうる。
[0110]加えて、または代替として、1つまたは複数の最も関心のある領域の位置およびサイズを直接シグナリングするというよりはむしろ、MPD122は、1つまたは複数の最も関心のある領域の位置およびサイズを示す識別子を含みうる。例えば、MPD122は、イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を含みえ、1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、1つまたは複数の最も関心のある領域についてのVCLデータを含む。
[0111]図3は、実例的なビデオファイル150の要素を例示するブロック図であり、それは、図2のセグメント128、132のうちの1つのような、リプレゼンテーションのセグメントに対応しうる。セグメント128、132の各々は、図3の例において例示されているデータの配列に実質的に一致するデータを含みうる。ビデオファイル150は、セグメントをカプセル化すると言われうる。上述されたように、ISOベースメディアファイルフォーマットおよびその拡張にしたがったビデオファイルは、「ボックス」と呼ばれる一連のオブジェクト中にデータを記憶する。図3の例では、ビデオファイル150は、ファイルタイプ(FTYP)ボックス152、ムービー(MOOV)ボックス154、セグメントインデックス(SIDX)ボックス162、ムービーフラグメント(MOOF)ボックス164、メディアデータ(MDAT)ボックス163、およびムービーフラグメントランダムアクセス(MFRA)ボックス166を含む。図3は、ビデオファイルの例を表しているが、他のメディアファイルが、ISOベースメディアファイルフォーマットおよびその拡張にしたがって、ビデオファイル150のデータと同様に構造化された他のタイプのメディアデータ(例えば、オーディオデータ、時間指定されたテキストデータ、または同様のもの)を含みうることが理解されるべきである。
[0112]FTYPボックス152は概して、ビデオファイル150についてのファイルタイプを記述する。ファイルタイプボックス152は、ビデオファイル150についての最良の使用を記述する仕様を識別するデータを含みうる。ファイルタイプボックス152は代替として、MOOVボックス154、MOOFボックス164、および/またはMFRAボックス166の前に配置されうる。
[0113]いくつかの例では、ビデオファイル150のようなセグメントは、FTYPボックス152の前にMPD更新ボックス(図示せず)を含みうる。MPD更新ボックスは、MPDを更新するための情報とともに、ビデオファイル150を含むリプレゼンテーションに対応するMPDが更新されるべきであることを示す情報を含みうる。例えば、MPD更新ボックスは、MPDを更新するために使用されるべきリソースにURIまたはURLを提供しうる。別の例として、MPD更新ボックスは、MPDを更新するためのデータを含みうる。いくつかの例では、MPD更新ボックスは、ビデオファイル150のセグメントタイプ(STYP)ボックス(図示せず)の直後に後続しえ、ここで、STYPボックスは、ビデオファイル150についてのセグメントタイプを定義しうる。
[0114]図3の例におけるMOOVボックス154は、ムービーヘッダ(MVHD)ボックス156とトラック(TRAK)ボックス158とを含む。一般に、MVHDボックス156は、ビデオファイル150の一般の特性を記述しうる。例えば、MVHDボックス156は、いつビデオファイル150が当初に作成されたか、いつビデオファイル150が最後に修正されたか、ビデオファイル150についての時間スケール、ビデオファイル150についての再生の持続時間、を記述するデータ、またはビデオファイル150を概して記述する他のデータを含みうる。
[0115]TRAKボックス158は、ビデオファイル150のトラックについてのデータを含みうる。TRAKボックス158は、TRAKボックス158に対応するトラックの特性を記述するトラックヘッダ(TKHD)ボックスを含みうる。示されているように、TRAKボックス158は、トラック識別子(ID)160を含みうる。いくつかの例では、TRAKボックス158は、コーディングされたビデオピクチャを含みえ、その一方で他の例では、トラックのコーディングされたビデオピクチャは、MDATボックス163中に含まれえ、それは、TRAKボックス158および/またはSIDXボックス162のデータによって参照されうる。
[0116]いくつかの例では、TRAKボックス158は、トラックベース「TBAS」リファレンス(または単に、ベースリファレンス(base reference))161を含みうる。ベースリファレンス161は、VCL NALユニットを含まないHEVCまたはL−HEVCタイルベーストラックを指す。ベースリファレンス161がTRAKボックス158のボックス内に含まれうることが理解されるべきである。例えば、ベースリファレンス161は、トラック参照ボックス(「TREF」)中に含まれえ、それは、TRAKボックス158中に直接含まれる。
[0117]ビデオファイル150は、ビデオファイル150中に含まれる各それぞれのトラックについて、それぞれの一対のMOOFボックス164とMDATボックス163とを含みうる。示されているように、図3の例における各MOOFボックス164は、ビデオファイル150中に含まれる各それぞれのトラックについて、トラックフラグメント(TRAF)ボックス165を含む。一般に、TRAFボックス165は、それぞれのトラックについての非VCLデータとVCLデータとを含みうる。さらに、MOOVボックス154は、ビデオファイル150中のトラックの数に等しい数のTRAKボックスを含みうる。TRAKボックス158は、ビデオファイル150の対応するトラックの特性を記述しうる。例えば、TRAKボックス158は、TRAFボックス165の対応するトラックについての時間的および/または空間的情報を記述しうる。TRAFボックス165は、カプセル化ユニット30(図1)がビデオファイル150のようなビデオファイル中のパラメータセットトラックを含むときに、パラメータセットトラックの特性を記述しうる。カプセル化ユニット30は、パラメータセットトラックを記述するTRAKボックス158内のパラメータセットトラック中にシーケンスレベルSEIメッセージの存在をシグナリングしうる。
[0118]図3の例におけるTRAFボックス165は、サンプルテーブルボックス(STBL)176を含む。STBL176は、サンプルグループの特性を指定する情報を含みうる。例えば、示されているように、STBL176は、タイル領域グループエントリ(TRIF)177を含みえ、それは、グループ識別子174に関連付けられたタイル領域を指定しうる。
[0119]図3の例におけるMDATボックス163は、SEIメッセージ178とVCL NALユニット170とを含む。NALユニット170は、1つまたは複数のコーディングされたビデオピクチャを含みうる。VCL NALユニット170は、1つまたは複数のタイルを含みうる。図3の例では、VCL NALユニット170は、VCL NALユニット170中に含まれるタイルを表すタイル識別子172を含む。
[0120]いくつかの例では、VCL NALユニット170は、1つまたは複数のピクチャのグループ(GOP)を含みえ、それらの各々は、いくつかのコーディングされたビデオピクチャ、例えば、フレームまたはピクチャ、を含みうる。加えて、上述されたように、MDATボックス163は、いくつかの例ではシーケンスデータセットを含みうる。TRAFボックス165は、ムービーフラグメントヘッダボックス(MFHD、図3中に図示せず)を含みうる。MFHDボックスは、対応するムービーフラグメントについてのシーケンス番号のような、MDATボックス163の対応するムービーフラグメントの特性を記述しうる。MDATボックス163は、ビデオファイル150中のシーケンス番号の順序で含まれうる。
[0121]SIDXボックス162は、ビデオファイル150のオプションの要素である。すなわち、3GPPファイルフォーマット、または他のそのようなファイルフォーマットに準ずるビデオファイルは、必ずしもSIDXボックス162を含まない。3GPPファイルフォーマットの例にしたがって、SIDXボックスは、セグメント(例えば、ビデオファイル150内に包含されるセグメント)のサブセグメントを識別するために使用されうる。3GPPファイルフォーマットは、サブセグメントを、「対応するメディアデータボックス(1つ以上)と、ムービーフラグメントボックスによって参照されるデータを包含するメディアデータボックスとを有する1つまたは複数の連続するムービーフラグメントボックスの内蔵された(self-contained)セットは、そのムービーフラグメントボックスに後続し、および同じトラックについての情報を包含する次のムービーフラグメントボックスに先行しなければならない」として定義している。3GPPファイルフォーマットはまた、SIDXボックスが、「そのボックスによってドキュメントされる(サブ)セグメントのサブセグメントへの参照のシーケンスを包含する。参照されるサブセグメントは、提示時間において連続している。同様に、セグメントインデックスボックスによって参照されるバイトは常に、セグメント内において連続している。参照されるサイズは、参照されるマテリアル中のバイトの数のカウントを示す(gives)」ことを示す。
[0122]SIDXボックス162は概して、ビデオファイル150中に含まれるセグメントの1つまたは複数のサブセグメントを表す情報を提供する。例えば、そのような情報は、サブセグメントが始まるおよび/または終了する再生時間、サブセグメントについてのバイトオフセット、サブセグメントがストリームアクセスポイント(SAP)を含む(例えば、それから始まる)かどうか、SAPについてのタイプ(例えば、SAPが瞬時復号器リフレッシュ(IDR:instantaneous decoder refresh)ピクチャ、クリーンランダムアクセス(CRA)ピクチャ、ブロークンリンクアクセス(BLA)ピクチャ、または同様のものであるか)、サブセグメント中の(再生時間および/またはバイトオフセットの観点からの)SAPの位置、および同様のもの、を含みうる。
[0123]上述されたように、カプセル化ユニット30は、実際のコーディングされたビデオデータを含まないビデオサンプル中にシーケンスデータセットを記憶しうる。ビデオサンプルは概して、アクセスニットに対応しえ、それは、特定の時間インスタンスにおけるコーディングされたピクチャのリプレゼンテーションである。AVCのコンテキストでは、コーディングされたピクチャは、アクセスニットの全てのピクセルを構築するための情報を包含する少なくとも1つのVCL NALユニット170と、SEIメッセージ178のような他の関連する非VCL NALユニットとを含む。それ故に、カプセル化ユニット30は、MDATボックス163中にシーケンスデータセットを含みえ、それは、SEIメッセージ178を含みうる。カプセル化ユニット30はさらに、MDATボックス163中に存在するとして、シーケンスデータセットおよび/またはSEIメッセージ178の存在をシグナリングしうる。
[0124]ビデオファイル150は、この開示の技法にしたがって、1つまたは複数の最も関心のある領域を表すデータを含みうる。より具体的には、ビデオファイル150は、ビデオファイル150のファイルフォーマットヘッダ情報中に1つまたは複数の最も関心のある領域を表すデータを含みうる。例えば、ビデオファイル150は、1つまたは複数の最も関心のある領域情報をシグナリングするファイルフォーマット情報を含みうる。いくつかの例では、SEIメッセージ178および/または図2のMPD122は、1つまたは複数の最も関心のある領域を表すデータを含みうる。
[0125]SEIメッセージ178は、H.264/AVC、H.265/HEVC、または他のビデオコーデック仕様書の一部として含まれることができる。図3の例では、SEIメッセージ178は、例えば、VCL NALユニット170の対応するピクチャについての最も関心のある領域を表すデータを含みうる。他の例では、そのような最も関心のある領域データは、1)ファイルフォーマットでの情報のシグナリングのためのファイルフォーマットボックスまたは構造、DASH MPD(例えば、図2のMPD122、中の情報のシグナリングのためのDASH MPD属性または要素中、別のボックスまたは構造、あるいはそれらの組み合わせ中に含まれうる。
[0126]MFRAボックス166は、ビデオファイル150のムービーフラグメント内のランダムアクセスポイントを記述しうる。これは、ビデオファイル150によってカプセル化されたセグメント内の特定の時間的ロケーション(すなわち、再生時間)に対してシークを遂行するといったような、トリックモードを遂行することを支援しうる。いくつかの例では、MFRAボックス166は概してオプションであり、ビデオファイル中に含まれる必要はない。同様に、クライアントデバイス40のようなクライアントデバイスは、ビデオファイル150のビデオデータを正しく復号および表示するために、必ずしもMFRAボックス166を参照する必要はない。MFRAボックス166は、ビデオファイル150のトラックの数に等しい、またはいくつかの例では、ビデオファイル150のメディアトラック(例えば、非ヒントトラック(non-hint tracks))の数に等しい、数のトラックフラグメントランダムアクセス(TFRA)ボックス(図示せず)を含みうる。
[0127]いくつかの例では、ムービーフラグメントは、IDRピクチャのような1つまたは複数のストリームアクセスポイント(SAP)を含みうる。同様に、MFRAボックス166は、SAPのビデオファイル150内のロケーションのインジケーションを提供しうる。それ故に、ビデオファイル150の時間的サブシーケンスは、ビデオファイル150のSAPから形成されうる。時間的サブシーケンスはまた、SAPに依存する(depend from)Bフレームおよび/またはPフレームのような他のフレームを含みうる。時間的サブシーケンスのフレームおよび/またはスライスは、サブシーケンスの他のフレーム/スライスに依存する時間的サブシーケンスのフレーム/スライスが適正に復号されることができるように、セグメント内に配列されうる。例えば、データの階層的配列では、他のデータについての予測のために使用されるデータもまた、時間的サブシーケンス中に含まれうる。
[0128]この開示の技法にしたがって、ビデオファイル150のファイルフォーマット情報中のデータ構造は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。例えば、STBL176は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含みうる。
[0129]ビデオファイル150のファイルフォーマット情報中のデータ構造は、インジケーション、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を含みうる。例えば、STBL176は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。
[0130]いくつかの例では、ビデオファイル150は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージ全体に対するそれぞれの最も関心のある領域の上側オフセットを表す第1のシンタックス要素と、イメージ全体に対するそれぞれの最も関心のある領域の下側オフセットを表す第2のシンタックス要素と、イメージ全体に対するそれぞれの最も関心のある領域の左側オフセットを表す第3のシンタックス要素と、イメージ全体に対するそれぞれの最も関心のある領域の右側オフセットを表す第4のシンタックス要素とを含みうる。
[0131]いくつかの例では、ビデオファイル150は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域である長方形の左上角の座標を、イメージ全体に対する輝度サンプルで表す2つのシンタックス要素の第1のセットと、それぞれの最も関心のある領域の幅および高さを表す2つのシンタックス要素の第2のセットとを含みうる。
[0132]いくつかの例では、ビデオファイル150は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域である長方形の左上角の座標を、イメージ全体に対する輝度サンプルで表す2つのシンタックス要素のセットを含みうる。いくつかの例では、ビデオファイル150は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域がそれぞれの最も関心のある領域の幅および高さを表す2つのシンタックス要素のセットを含むかどうかを示すフラグを含みうる。
[0133]いくつかの例では、ビデオファイル150は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、それぞれの最も関心のある領域である長方形の左上角の座標を、イメージについての球体に対する輝度サンプルで示す3つのシンタックス要素(例えば、ヨー度、ピッチ度、および半径長)のセットと、それぞれの最も関心のある領域のピッチの幅およびヨーの高さを表す2つのシンタックス要素のセットとを含みうる。
[0134]TRAFボックス165中に含まれうるサンプルグループの詳細な例は、以下の通りである。
[0135]VRビデオの1つまたは複数の最も関心のある領域のシグナリングのために、新しいサンプルグループが設計される。サンプルグルーピングタイプは、「mir 」である。
[0136]1つまたは複数の最も関心のある領域のサンプルグループは、ファイル中に表されたVRビデオの1つまたは複数の最も関心のある領域をドキュメントする。1つまたは複数の最も関心のある領域は、ディレクターまたはプロデューサーの意図によって、あるいは、サービスまたはコンテンツプロバイダによるユーザ統計によって、例えば、VRビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された/見られたかの統計を通じて、決定されうる。VRビデオピクチャ中の最も関心のある領域は、統計的にピクチャの提示時間においてユーザにレンダリングされる可能性が最も高い領域のうちの1つである。
[0137]注記:最も関心のある領域の情報は、エッジサーバまたはクライアントによるVR適応型ストリーミング中でのデータプリフェッチング、および/またはVRビデオが、例えば、異なるコーデック、プロジェクションマッピングにトランスコーディングされたときのトランスコーディング最適化、のために使用されうる。
[0138]この例では、「mir 」に等しいgrouping_typeを有するSampleToGroupBoxがトラックフラグメントボックス(「TRAF」)中に含まれると、SampleToGroupBoxのバージョンは、2に等しくなるべきである。
[0139]この例では、SampleToGroupBoxのバージョン2は、SampleToGroupBox中にドキュメントされたサンプルが、1つまたは複数の後続のトラックフラグメント中に包含されたサンプルを参照することを可能にする。言い換えれば、SampleToGroupBoxについてのバージョンが2であるとき、このボックス中の総サンプルカウントが現在のトラックフラグメントボックス中のサンプルの総数より大きくなるのは誤りではないが、このボックス中の総サンプルカウントがトラック中の現在のトラックフラグメントから始まる全てのトラックフラグメント中のサンプルの総数より大きくなるのは誤りであり、そのケースでは、リーダの挙動(the reader behavior)は、未定義とされるであろう。
[0140]この例では、サンプルグループエントリのシンタックスは、以下の通りである:
class MostInterestedRegions() extends VisualSampleGroupEntry ('mir ') {
unsigned int(16) entry_count;
for (i=1; i<= entry_count; i++) {
unsigned int(16) left_horizontal_offset;
unsigned int(16) top_vertical_offset;
unsigned int(16) region_width;
unsigned int(16) region_height;
}
}
[0141]この例では、上述された実例的なシンタックスについてのセマンティクスは、以下の通りである:
[0142]entry_countは、サンプルグループエントリ中のエントリの数を指定する。
[0143]left_horizontal_offset、top_vertical_offset、region_width、およびregion_heightは、最も関心のある領域の位置およびサイズを示す整数値である。left_horizontal_offsetおよびtop_vertical_offsetは、それぞれ、このサンプルグループエントリが適用されるコーディングされたピクチャ中の最も関心のある領域の左上角の水平および垂直座標を輝度サンプルで示す。region_widthおよびregion_heightは、それぞれ、このサンプルグループエントリが適用されるコーディングされたピクチャ中の最も関心のある領域の幅および高さを輝度サンプルで示す。
[0144]代替として、left_horizontal_offset、top_vertical_offset、region_width、およびregion_heightのセマンティクスは、以下の通りである:
[0145]left_horizontal_offset、top_vertical_offset、region_width、およびregion_heightは、最も関心のある領域の位置およびサイズを示す整数値である。left_horizontal_offsetおよびtop_vertical_offsetは、それぞれ、このサンプルグループエントリが適用され、および全ての代替トラックの中で最も高い解像度を有するコーディングされたピクチャ中の最も関心のある領域の左上角の水平および垂直座標を輝度サンプルで示す。region_widthおよびregion_heightは、それぞれ、このサンプルグループエントリが適用され、および全ての代替トラックの中で最も高い解像度を有するコーディングされたピクチャ中の最も関心のある領域の幅および高さを輝度サンプルで示す。
[0146]ビデオファイル150のファイルフォーマット情報中のデータ構造は、インジケーション、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を含みうる。例えば、STBL176は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、ベース領域に対するそれぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を指定する最も関心のある領域データを含みうる。
[0147]より具体的には、例えば、ビデオファイル150のファイルフォーマット情報中のデータ構造は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第4のシンタックス要素とを含みうる。いくつかの例では、ビデオファイル150は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の上側オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の下側オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の左側オフセットを表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の右側オフセットを表す第4のシンタックス要素とを含みうる。
[0148]例えば、STBL176は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第4のシンタックス要素とを含みうる。
[0149]いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第4のシンタックス要素とを含みうる。
[0150]TRAFボックス165中に含まれうるサンプルグループの詳細な例は、以下の通りである。
[0151]VRビデオの1つまたは複数の最も関心のある領域のシグナリングのために、新しいサンプルグループが設計される。サンプルグルーピングタイプは、「mir 」である。
[0152]1つまたは複数の最も関心のある領域のサンプルグループは、ファイル中に表されたVRビデオの1つまたは複数の最も関心のある領域をドキュメントする。1つまたは複数の最も関心のある領域は、ディレクターまたはプロデューサーの意図によって、あるいは、サービスまたはコンテンツプロバイダによるユーザ統計によって、例えば、VRビデオコンテンツがストリーミングサービスを通じて提供されたときにどの領域がユーザによって最も要求された/見られたかの統計を通じて、決定されうる。VRビデオピクチャ中の最も関心のある領域は、統計的にピクチャの提示時間においてユーザにレンダリングされる可能性が最も高い領域のうちの1つである。
[0153]注記:最も関心のある領域の情報は、エッジサーバまたはクライアントによるVR適応型ストリーミング中でのデータプリフェッチング、および/またはVRビデオが、例えば、異なるコーデック、プロジェクションマッピングにトランスコーディングされたときのトランスコーディング最適化、のために使用されうる。
[0154]この例では、「mir 」に等しいgrouping_typeを有するSampleToGroupBoxがトラックフラグメントボックス(「TRAF」)中に含まれると、SampleToGroupBoxのバージョンは、2に等しくなるべきである。
[0155]この例では、SampleToGroupBoxのバージョン2は、SampleToGroupBox中にドキュメントされたサンプルが、1つまたは複数の後続のトラックフラグメント中に包含されたサンプルを参照することを可能にする。言い換えれば、SampleToGroupBoxについてのバージョンが2であるとき、このボックス中の総サンプルカウントが現在のトラックフラグメントボックス中のサンプルの総数より大きくなるのは誤りではないが、このボックス中の総サンプルカウントがトラック中の現在のトラックフラグメントから始まる全てのトラックフラグメント中のサンプルの総数より大きくなるのは誤りであり、そのケースでは、リーダの挙動は、未定義とされるであろう。
[0156]ある例では、サンプルグループエントリのシンタックスは、以下の通りである:
class MostInterestedRegions() extends VisualSampleGroupEntry ('mir ') {
unsigned int(32) regionbase_track_id;
unsigned int(16) entry_count;
for (i=1; i<= entry_count; i++) {
unsigned int(16) left_horizontal_offset;
unsigned int(16) top_vertical_offset;
unsigned int(16) region_width;
unsigned int(16) region_height;
}
}
[0157]およびこの例におけるセマンティクスは、以下の通りである:
[0158]regionbase_track_idは、1つまたは複数の最も関心のある領域の位置およびサイズが指定されるベース領域の指定のためのトラックを指定する。現在のトラック中にあり、およびこのサンプルグループエントリが適用されるサンプルは、ターゲットサンプルであるとする。regionbase_track_idに等しいtrack_idを有するトラック中にあり、およびコロケートされた(collocated)サンプルとしてターゲットサンプルと同じサンプル番号を有するサンプル。ベース領域は、コロケートされたサンプル中で搬送されるコーディングされたビデオデータによって全体的にまたは部分的に表されるピクチャの領域全体である。
[0159]entry_countは、サンプルグループエントリ中のエントリの数を指定する。
[0160]left_horizontal_offset、top_vertical_offset、region_width、およびregion_heightは、最も関心のある領域の位置およびサイズを示す整数値である。left_horizontal_offsetおよびtop_vertical_offsetは、それぞれ、ベース領域に対する最も関心のある領域の左上角の水平および垂直座標を輝度サンプルで示す。region_widthおよびregion_heightは、それぞれ、ベース領域に対する最も関心のある領域の幅および高さを輝度サンプルで示す。
[0161]いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第4のシンタックス要素とを含みうる。
[0162]加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の幅を表す第3のシンタックス要素と、ベース領域に対するそれぞれの最も関心のある領域の高さを表す第4のシンタックス要素とを含みうる。
[0163]ビデオファイル150のファイルフォーマット情報中のデータ構造は、インジケーション、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を含みうる。例えば、STBL176は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を指定する最も関心のある領域データを含みうる。いくつかの例では、1つまたは複数のタイル識別子によって指定されるイメージの1つまたは複数のタイルは、1つまたは複数の最も関心のある領域と空間的にコロケートされる。このように、1つまたは複数のタイル識別子は、1つまたは複数の最も関心のある領域についての位置およびサイズを直接シグナリングすることなしに、1つまたは複数の最も関心のある領域を識別しうる。
[0164]ビデオファイル150のファイルフォーマット情報中のデータ構造は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を含みうる。例えば、STBL176は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を含みうる。いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を含みうる。いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を含みうる。加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、イメージの複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を含みうる。
[0165]ビデオファイル150のファイルフォーマット情報中のデータ構造は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を含みうる。例えば、STBL176は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を含みうる。いくつかの例では、TRAFボックス165は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を含みうる。いくつかの例では、SIDXボックス162は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を含みうる。加えて、または代替として、SEIメッセージ178は、1つまたは複数の最も関心のある領域の各最も関心のある領域について、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を含みうる。いくつかの例では、1つまたは複数のトラック識別子によって指定される1つまたは複数のトラックは、1つまたは複数の最も関心のある領域についてのVCLデータを含む。このように、1つまたは複数のトラック識別子は、1つまたは複数の最も関心のある領域についての位置およびサイズを直接シグナリングすることなしに、1つまたは複数の最も関心のある領域を識別しうる。
[0166]ビデオファイル150のファイルフォーマット情報中のデータ構造は、1つまたは複数のベースタイルトラックを表すベースリファレンス161を含みうる。例えば、TRAKボックス158は、1つまたは複数の最も関心のある領域を指定するベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を含みうる。
[0167]SEIメッセージ178は、イメージ順序カウントを表す1つまたは複数のシンタックス要素を示すシンタックス要素を含みうる。イメージ順序カウントは、1つまたは複数の最も関心のある領域を表すデータがイメージに適用されることを示しうる。
[0168]図4は、立方体投影230における実例的なタイルコーディングを例示する概念図である。立方体投影230は、示されているように立方体面232A、232B、232Cを含み、および追加の立方体面を含み、それらは、それらが遮られていることから示されていない。この例では、立方体投影230の立方体面の各々は、4つのタイルに分割される:立方体面232Aは、4つのタイル234A〜234Dに分割され、立方体面232Bは、4つのタイル236A〜236Dに分割され、および立方体面232Cは、4つのタイル238A〜238Dに分割される。他の示されていない立方体面もまた、4つのそれぞれのタイルに分割され、この例では、合計で24個の小さいタイルとなるであろう。一般に、コンテンツ準備デバイス20は、タイル(例えば、タイル234A〜234D、236A〜236D、238A〜238D、および示されていない立方体面のタイル)の各々にビデオデータを提供しうる。
[0169]加えて、コンテンツ準備デバイス20は、大きいタイルにビデオデータを提供しえ、それらは、立方体面の各々をカバーしうる。例えば、コンテンツ準備デバイス20は、立方体面232Aをカバーするタイルにビデオデータを、立方体面232Bをカバーするタイルにビデオデータを、立方体面232Cをカバーするタイルにビデオデータを、および示されていない立方体面をカバーするタイルにビデオデータを提供しうる。いくつかの例では、ビデオ符号化器28は、見られる可能性がより高いそれらのビューポイントについてのみ、より大きなタイルサイズを符号化しうる。このことから、ユーザが見上げるか、または見下ろすであろう可能性が低い場合、ビデオ符号化器28は、立方体面232Bおよび232Cをカバーする大きいタイルについてと、立方体面232Bおよび232Cに向かい合う立方体面とについてのみ、ビデオデータをコーディングしうるが、例えば、立方体面232Aについてはしないことがありうる。オプションとして、タイルの各々は、ステレオビデオデータについての左側および右側ビューを有しうる。
[0170]VRは、没入したユーザの動きによって相関された自然および/または合成イメージとサウンドとのレンダリングによって作成された非物理的世界の中に仮想的に存在するための能力であり、ユーザがその世界とインタラクトすることを可能にする。ヘッドマウントディスプレイ(HMD)のようなレンダリングデバイスと、(360度ビデオと呼ばれることも多い)VRビデオ作成とにおいてなされた近年の進歩により、有意な品質のエクスペリエンスが提供されることができる。VRアプリケーションは、ゲーミング、トレーニング、教育、スポーツビデオ、オンラインショッピング、アダルトエンターテインメント、等を含む。
[0171]典型的なVRビデオシステムは、以下のコンポーネントおよび技法を含みうる:
[0172]異なる方向に向いており、且つ理想的には集合的にカメラセットの周囲の全てのビューポイントをカバーしている複数の個々のカメラから典型的に成るカメラセット。
[0173]球面ビデオになるが、(世界地図のような)正距円筒図法(equi-rectangular)マップまたは立方体マップのような長方形フォーマットにマッピングされるイメージスティッチングであって、ここで、複数の個々のカメラによって撮られたビデオピクチャは、時間ドメイン中で同期され、空間ドメイン中で繋ぎ合わされる。
[0174]マッピングされた長方形フォーマットのビデオは、ビデオコーデック、例えば、H.265/HEVCまたはH.264/AVC、を使用して符号化/圧縮される。
[0175]圧縮されたビデオビットストリーム(1つ以上)は、メディアフォーマットで記憶および/またはカプセル化され、受信機にネットワークを通じて送信されうる(ことによると、ユーザによって見られているエリアのみをカバーするサブセットのみ)。
[0176]受信機は、ことによるとあるフォーマットでカプセル化されたビデオビットストリーム(1つ以上)またはその一部を受信し、レンダリングデバイスに復号されたビデオ信号またはその一部を送る。
[0177]レンダリングデバイスは、例えば、頭の動きおよび目の動きの瞬間さえも追跡することができるHMDであり、および没入型のエクスペリエンスがユーザに配信されるようにビデオの対応する部分をレンダリングすることができる。
[0178]通常のビデオと比較してVRビデオの特徴は、VRでは典型的に、ビューポートとも呼ばれる、現在のFOVに対応する、ビデオピクチャによって表されるビデオ領域全体のサブセットのみ、例えば、ユーザによって現在見られているエリア、が表示され、その一方で通常のビデオアプリケーションでは典型的に、ビデオ領域全体が表示される。この特徴は、例えば、ビューポート依存の(viewport dependent)プロジェクションマッピングまたはビューポート依存のビデオコーディングを使用することによって、VRビデオシステムの性能を改善するために利用されうる。性能の改善は、ユーザによって提示されたビデオ部分の同じ解像度/品質の下において、従来のVRビデオシステムと比較して、より低い送信帯域幅とより低い復号複雑性とのうちのいずれかまたは両方であることができる。
[0179]ビューポート依存のプロジェクションマッピングはまた、非対称プロジェクションマッピングと呼ばれうる。一例は、サブサンプリングされた立方体マップ、例えば、立方体投影230である。典型的な立方体マップは、6つの等しいサイズの面を含みうる。サブサンプリングされた立方体マップの一例では、面のうちの1つは、変更されずに保持されることができ、その一方で反対側上の面は、当初の面の形状の中央エリアにおいてロケートされたより小さいサイズにダウンスケーリングされるか、またはサブサンプリングされることができ、そして他の面は、それにしたがって幾何学的にスケーリングされる(依然として6つの面を保持する)。極端なものは、反対側上の面を単一点になるようにダウンスケーリングすることでありえ、このことから、立方体は、角錐(a pyramid)になる。サブサンプリングされた立方体マップの別の例では、いくつかの面が、例えば、2x2の比率で、比例的にダウンサイジングされる(すなわち、面の端に平行する各方向に2:1)。
[0180]そのようなダウンサイジングされたスケーリングはまた、正距円筒図法のような他のプロジェクションマッピングのための異なる領域に適用されることができる。一例は、上側および下側領域(すなわち、極)の両方をダウンサイジングすることである。
[0181]ビューポート依存のビデオコーディングはまた、現在のFOVまたはビューポートの表示のために十分な情報を提供すべく、符号化されたビデオ領域全体を部分的にのみ復号することを可能にするための、ビューポートベースの部分的ビデオ復号と呼ばれうる。
[0182]ビューポート依存のビデオコーディングの一例では、VRビデオは、FOVまたはビューポートをカバーする各潜在的領域が他の領域から独立して復号されることができるように、タイルの動き抑制されたセットを使用してコーディングされる。特定の現在のFOVまたはビューポートでは、現在のFOVまたはビューポートをカバーする独立して復号可能なタイルの最小セットのコーディングされたビデオデータは、クライアントに送られ、復号され、そして表示される。このアプローチの欠点は、送られたビデオデータによってカバーされていない新しいFOVにユーザが彼または彼女の頭を素早く向けたとき、ビデオデータのタイルによってカバーされていないエリア中のいずれも、新しいFOVをカバーするデータが届くまで見られることができないということである。これは、例えば、10ミリ秒の大きさのように、ネットワークのラウンドドリップタイムが極めて低くない限り容易に起こりかねず、それは、実現可能ではない、あるいは少なくとも今日または近い将来においては大きな課題である。
[0183]ビューポート依存のビデオコーディングの別の例は、2016年6月28日に出願された米国特許出願第15/195,439号中に提案されており、その内容全体は、ここに参照によって組み込まれ、独立マルチ解像度コーディング(IMRC:independent multi-resolution coding)という名称であり、ここにおいて、球面/パノラマビデオは、互いとは独立した複数の異なる解像度で符号化され、各リプレゼンテーションは、タイルの動き抑制されたセットを使用してコーディングされる。受信機は、異なる解像度で球面/パノラマビデオの異なる一部分を復号することを選ぶ。典型的に、ユーザによって現在観察されている球面ビデオの一部分、すなわち、現在のFOVまたは現在のビューポートは、最も高い解像度でコーディングされたビデオビットストリームの一部である。現在のFOVの周囲の領域は、若干より低い解像度、等を使用してコーディングされたビデオビットストリームの一部である。観察者の頭の真後ろのパノラマの一部分は、最も低い解像度でコーディングされたビデオビットストリームの一部である。ユーザによって頭が動いたケースでは、ユーザエクスペリエンスは、ほとんどのケースにおいて少量だけしか低下せず、品質の低下が最も深刻になるのは、非常に大きく、突然頭が動いたケースにおいてのみであることが主張され、それはまれである。
[0184]ビューポート依存のビデオコーディングのさらに別の例では、多重解像度(multiple-resolutions)のビデオビットストリームは、SHVCのようなスケーラブルビデオコーデックを使用してスケーラブルコーディングされる。加えて、最も低い解像度ビデオ(またはベースレイヤ)のビットストリーム全体が常に送られる。最も低い解像度ビデオは、タイルまたはタイルの動き抑制されたセットを使用してコーディングされる必要はないが、それはまた、それがタイルまたはタイルの動き抑制されたセットを使用してコーディングされた場合にも機能する(work)であろう。他の態様では、上述されたものと同じストラテジが適用される。このアプローチは、タイルまたはタイルのタイル動き抑制されたセットのコーディングがコーディング効率を低減することから、最も低い解像度ビデオのより効率的なコーディングを、そしてまた、レイヤ間予測の使用に起因して、より高い解像度のストリームのより効率的なコーディングを、可能にする。さらに、このアプローチはまた、FOV切り替え(FOV switching)が始まると、サーバまたはエッジサーバが、(ベースレイヤよりも)より高い解像度のビデオビットストリームからのものであり、および新しいFOVのいかなる領域もカバーしていないビデオデータを送ることを速やかに停止することができることから、より効率的なFOV切り替えを可能にする。現在のFOVをカバーしている最も低い解像度のビデオデータが送られない(すなわち、現在のFOVをカバーしている最も高い解像度のビデオデータのみが送られる)場合、FOV切り替え中に、ユーザが、彼/彼女が古いFOVまたはその一部に向き直った(turns back)ケースであっても、少なくとも最も低い品質のビデオを見ることができるように準備するために、サーバは時として、最も高い解像度のビデオストリームからのものであり、および古いFOVまたはその一部のみをカバーしているビデオデータを送り続けなければならないであろう。
[0185]MPEGコントリビューション(contribution)m37819では、ディレクターズカットに関する情報のシグナリングおよび使用に関するユースケース(case was)が論述されており、それにより、VR再生は、ユーザが彼/彼女の頭を向けていないときであってもディレクターがオーディエンスに注目してもらいたい動的に変化するビューポートを表示しうるか、または他のUIを通じてビューポートを変更しうる。そのようなビューポートは、シーン毎に(scene by scene)全方位ビデオを提供されうることが言及された。
[0186]タイル(例えば、タイル234A〜234D、236A〜236D、238A〜238Dおよび示されていない立方体面のタイル)を要求するための品質を選択するために、ユーザの視野にのみ必ず依拠するというよりはむしろ、ここに説明される1つまたは複数の技法は、1つまたは複数の最も関心のある領域を含む1つまたは複数のタイルについてのビデオデータに対して、クライアントデバイス40および/またはサーバデバイス60を許可する。例えば、クライアントデバイス40は、タイル234A〜234Dが1つまたは複数の最も関心のある領域を含むことを、1つまたは複数の最も関心のある領域を表すデータが示すときに、234A〜234Dについてのビデオデータを含むビデオファイルを受信する前にタイル234A〜234Dを要求しうる。FOVが1つまたは複数の最も関心のある領域中に含まれていないイメージの領域を含む例では、ユーザのFOVを受信すると、クライアントデバイス40は、ユーザのFOVを満たすためにさらなるタイル(例えば、236A〜236D、238A〜238D)を要求しうる。このように、1つまたは複数の最も関心のある領域は、1つまたは複数の最も関心のある領域についてのビデオデータがプリフェッチされることを許可することを(例えば、イメージについてのビデオデータを含むビデオファイルを受信するより前に)要求されえ、それにより、仮想現実ビデオのようなビデオの再生を改善する。
[0187]図5は、この開示中に説明される1つまたは複数の技法にしたがってビデオデータについての情報を決定するための実例的なアプローチを例示するフローチャートである。図5の方法は、図1のクライアントデバイス40およびサーバデバイス60に関して説明される。しかしながら、他のデバイスがこれらの技法を遂行するように構成されうることが理解されるべきである。
[0188]初めに、図5中には示されていないが、クライアントデバイス40は、イメージについての最も関心のある領域データを要求しうる。例えば、クライアントデバイス40は、メディアプレゼンテーション記述(MPD)、SEIメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを要求しうる。この要求に応答して、サーバデバイス60は、イメージの1つまたは複数の最も関心のある領域を表すデータを送りうる(300)。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれうる。例えば、サーバデバイス60は、最も関心のある領域が静的であるときに、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むSEIメッセージ(例えば、図3のSEIメッセージ178)を送りうる。いくつかの例では、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むファイルフォーマットヘッダ情報(例えば、図3のSTBL176、図3のTRAKボックス158、図3のSIDXボックス162、等)を送る。いくつかの例では、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むMPD(例えば、図2のMPD122)を送る。
[0189]クライアントデバイス40は、1つまたは複数の最も関心のある領域を表すデータからイメージの1つまたは複数の最も関心のある領域を決定しうる(302)。例えば、クライアントデバイス40は、1つまたは複数の最も関心のある領域の各1つについて、1つまたは複数の最も関心のある領域を表すデータを使用して、それぞれの最も関心のある領域の位置と、それぞれの最も関心のある領域のサイズとを表すシンタックス要素についての値を決定しうる。いくつかの例では、クライアントデバイス40は、1つまたは複数の最も関心のある領域のうちの各1つについて、1つまたは複数の最も関心のある領域を示す識別子(例えば、図3のタイル識別子172、図3のグループ識別子174、図3のトラック識別子160、等)を決定しうる。
[0190]クライアントデバイス40は、1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力しうる(304)。例えば、クライアントデバイス40は、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定するビデオデータを求める要求を生成し、要求を出力しうる。この例では、クライアントデバイス40は、ビデオ復号器を包含するエンティティでありうる。他の例では、しかしながら、1つまたは複数の最も関心のある領域を指定するビデオデータを求める要求を生成し、要求を出力するデバイスは、コンテンツ配信ネットワーク(CDN)ノードのようなネットワーク要素でありうる。サーバデバイス60は、1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を受信し(306)、1つまたは複数の要求された領域についてのビデオデータを送りうる(308)。クライアントデバイス40は、1つまたは複数の要求された領域についてのビデオデータを受信しうる(310)。
[0191]クライアントデバイス40は、イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を出力しうる(312)。例えば、クライアントデバイス40は、1つまたは複数の最も関心のある領域が図4のイメージ238A〜Dを含むとき、およびユーザのユーザのFOVが図4のイメージ238A〜Dと234C〜Dとを含むとき、図4のイメージ234C〜Dについてのビデオデータを要求しうる。
[0192]サーバデバイス60は、イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を受信し(314)、1つまたは複数の他の要求された領域についてのビデオデータについてのビデオデータを送りうる(316)。クライアントデバイス40は、1つまたは複数の他の要求された領域についてのビデオデータを受信しうる(318)。クライアントデバイス40は、ユーザのFOVを決定し(320)、ユーザのFOV中に含まれた領域についてのデータを出力しうる(322)。例えば、クライアントデバイス40は、ユーザのFOVが図4のイメージ238A〜Dと234C〜Dとを含むと決定し、高いおよび低い品質のビデオデータを使用して表示するために図4のイメージ238A〜Dと234C〜Dとを出力しうる。
[0193]このように、図5の方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む方法の例を表している。
[0194]同様に、図5の方法はまた、ソースデバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備え、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれることを含む方法の例を表している。
[0195]図6は、この開示中に説明される1つまたは複数の技法にしたがってビデオデータについての情報をシグナリングするための実例的なアプローチを例示するフローチャートである。図6の方法は、図1のクライアントデバイス40およびサーバデバイス60に関して説明される。しかしながら、他のデバイスがこれらの技法を遂行するように構成されうることが理解されるべきである。
[0196]初めに、図6中には示されていないが、クライアントデバイス40は、イメージについての最も関心のある領域データを要求しうる。例えば、クライアントデバイス40は、メディアプレゼンテーション記述(MPD)、SEIメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを要求しうる。この要求に応答して、サーバデバイス60は、イメージの1つまたは複数の最も関心のある領域を決定しうる(330)。例えば、サーバデバイス60は、1つまたは複数の最も関心のある領域のディレクターまたはプロデューサーによる選択のインジケーションを受信しうるか、あるいはサーバデバイス60(または別のデバイス)は、ユーザ統計から1つまたは複数の最も関心のある領域を導出しうる。いずれのケースでも、サーバデバイス60は、1つまたは複数の最も関心のある領域を表すデータを生成しうる(332)。1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれうる。例えば、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むSEIメッセージ(例えば、図3のSEIメッセージ178)を生成する。いくつかの例では、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むファイルフォーマットヘッダ情報(例えば、図3のSTBL176、図3のTRAKボックス158、図3のSIDXボックス162、等)を生成する。いくつかの例では、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むMPD(例えば、図2のMPD122)を生成する。いずれのケースでも、サーバデバイス60は、1つまたは複数の最も関心のある領域を表すデータを送り(334)、クライアントデバイス40は、1つまたは複数の最も関心のある領域を表すデータを受信しうる(336)。
[0197]1つまたは複数の最も関心のある領域を表すデータを受信することに応答して、クライアントデバイス40は、イメージの1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力しうる(338)。例えば、クライアントデバイス40は、1つまたは複数の最も関心のある領域を指定する要求を出力しうる。いくつかの例では、しかしながら、1つまたは複数の最も関心のある領域を指定する要求を出力するデバイスは、コンテンツ配信ネットワーク(CDN)ノードのようなネットワーク要素でありうる。サーバデバイス60は、イメージの1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を受信し(340)、1つまたは複数の要求された領域についてのビデオデータを送りうる(342)。クライアントデバイス40は、1つまたは複数の要求された領域についてのビデオデータを受信しうる(344)。
[0198]クライアントデバイス40は、イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を出力しうる(346)。サーバデバイス60は、イメージの1つまたは複数の他の領域についてのビデオデータまたは要求を受信しうる(348)。イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を受信することに応答して、サーバデバイス60は、1つまたは複数の他の要求された領域についてのビデオデータを送りうる(350)。クライアントデバイス40は、1つまたは複数の他の要求された領域についてのビデオデータを受信しうる(352)。図6の例には示されていないが、クライアントデバイス40はその後、例えば、ユーザの視野に基づいて、例えば、図5に関して上述されたように、ユーザに受信されたビデオデータの少なくとも一部を提示することへと進みうる。
[0199]このように、図6の方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む方法の例を表している。
[0200]同様に、図6の方法はまた、ソースデバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備え、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを生成することと、ここにおいて、1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれ、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを出力した後に、ビデオデータを出力することとを含む方法の例を表している。
[0201]図7は、この開示中に説明される1つまたは複数の技法にしたがってビデオデータをプリフェッチするための実例的なアプローチを例示するフローチャートである。図7の方法は、図1のクライアントデバイス40およびサーバデバイス60に関して説明される。しかしながら、他のデバイスがこれらの技法を遂行するように構成されうることが理解されるべきである。図7の例では、サーバデバイス60は、初めにオリジンサーバからデータを検索し、およびそのデータを一時的に記憶するCDNサーバとして構成されうる。図7の例は、クライアントデバイス40およびサーバデバイス60のうちのいずれかまたは両方が1つまたは複数の最も関心のある領域を表すデータを使用しうることを実証していることが理解されるべきである。
[0202]初めに、図7中には示されていないが、クライアントデバイス40は、イメージの1つまたは複数の最も関心のある領域を表すデータを要求しうる。例えば、クライアントデバイス40は、メディアプレゼンテーション記述(MPD)、SEIメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを要求しうる。この要求に応答して、サーバデバイス60は、オリジンデバイスのようなアップストリームデバイスに1つまたは複数の最も関心のある領域を表すデータを求める要求を送り(または転送し)、イメージの1つまたは複数の最も関心のある領域を表すデータを受信しうる(360)。例えば、サーバデバイス60は、アップストリームサーバ(例えば、エッジサーバ)、コンテンツ準備デバイス20、または別のデバイスからイメージの1つまたは複数の最も関心のある領域を表すデータを受信しうる。
[0203]1つまたは複数の最も関心のある領域を表すデータは、ビデオデータを含むビットストリーム中に含まれうる。例えば、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むSEIメッセージを受信する。いくつかの例では、サーバデバイス60は、1つまたは複数の最も関心のある領域を表す最も関心のある領域データを含むファイルフォーマットヘッダ情報(例えば、図3のSTBL176、図3のTRAKボックス158、図3のSIDXボックス162、等)を受信する。いずれのケースでも、サーバデバイス60は、1つまたは複数の関心のある領域についてのビデオデータをプリフェッチしうる(362)。
[0204]1つまたは複数の関心のある領域についてのビデオデータをプリフェッチすると、サーバデバイス60は、1つまたは複数の最も関心のある領域についてのプリフェッチされたビデオデータを記憶しうる(364)。サーバデバイス60がビデオデータを記憶(例えば、キャッシュ)するように構成されたエッジサーバである例では、サーバデバイス60は、1つまたは複数の最も関心のある領域についてのビデオデータを記憶しうる。いくつかの例では、サーバデバイス60は、イメージの1つまたは複数の最も関心のある領域を表すデータに基づいて、1つまたは複数の最も関心のある領域についてのビデオデータのための記憶の持続時間を決定しうる。例えば、サーバデバイス60は、サーバデバイス60が1つまたは複数の最も関心のある領域についてのビデオデータを決定するときに、1つまたは複数の最も関心のある領域についてのビデオデータをより高くランク付けしえ、それにより、1つまたは複数の最も関心のある領域についてのビデオデータは、長期記憶のために保持され、その一方で1つまたは複数の最も関心のある領域についてのビデオデータと同様の時間において検索された(例えば、他の領域についての)他のビデオデータは、取り除かれる。
[0205]図7中には示されていないが、サーバデバイス60は、クライアントデバイス40にイメージの1つまたは複数の最も関心のある領域を表すデータを送りうる。例えば、サーバデバイス60は、メディアプレゼンテーション記述(MPD)、SEIメッセージ、またはイメージに対応する上述された他のタイプのデータのうちの任意のものを送りうる。
[0206]クライアントデバイス40へのイメージの1つまたは複数の最も関心のある領域を表すデータを受信することに応答して、クライアントデバイス40は、イメージの1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力しうる(366)。この例では、クライアントデバイス40は、ビデオ復号器を包含するエンティティでありうる。他の例では、しかしながら、イメージの1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を出力するデバイスは、コンテンツ配信ネットワーク(CDN)ノードのようなネットワーク要素でありうる。サーバデバイス60は、イメージの1つまたは複数の最も関心のある領域についてのビデオデータを求める要求を受信し(368)、1つまたは複数の要求された領域についてのビデオデータを送りうる(370)。クライアントデバイス40は、1つまたは複数の要求された領域についてのビデオデータを受信しうる(372)。
[0207]クライアントデバイス40は、イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を出力しうる(374)。サーバデバイス60は、イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を受信しうる(376)。イメージの1つまたは複数の他の領域についてのビデオデータを求める要求を受信することに応答して、サーバデバイス60は、イメージの1つまたは複数の他の領域についてのビデオデータを検索しうる(378)。例えば、サーバデバイス60は、オリジンデバイスのようなアップストリームデバイスにビデオデータを求める要求を送りうる(または転送しうる)。中間ネットワークデバイスが既に、要求されたビデオデータをキャッシュしている事例では、中間ネットワークデバイスは、キャッシュされたビデオデータを使用して要求に応答しうる。いくつかの事例では、オリジンサーバは、要求されたビデオデータを送ることによって要求に応答しうる。
[0208]イメージの1つまたは複数の他の領域についてのビデオデータを検索すると、サーバデバイス60は、1つまたは複数の他の要求された領域についてのビデオデータを送りうる(380)。クライアントデバイス40は、1つまたは複数の他の要求された領域についてのビデオデータを受信しうる(382)。図7の例には示されていないが、クライアントデバイス40はその後、例えば、ユーザの視野に基づいて、例えば、図5に関して上述されたように、ユーザに受信されたビデオデータの少なくとも一部を提示することへと進みうる。
[0209]このように、図7の方法は、デバイスのプロセッサが、ここで、プロセッサは、回路中にインプリメントされ、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、プロセッサが、1つまたは複数の最も関心のある領域を表すデータを使用して1つまたは複数の最も関心のある領域を指定する要求を生成することと、プロセッサが、サーバデバイスに要求を出力することとを含む方法の例を表している。
[0210]1つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせにおいてインプリメントされうる。ソフトウェアにおいてインプリメントされる場合、それら機能は、コンピュータ可読媒体上で1つまたは複数の命令またはコードとして記憶あるいは送信され、ハードウェアベースの処理ユニットによって実行されうる。コンピュータ可読媒体は、例えば、通信プロトコルにしたがって、コンピュータプログラムのある場所から別の場所への転送を容易にする任意の媒体を含む通信媒体、またはデータ記憶媒体のような有形媒体に対応するコンピュータ可読記憶媒体を含みうる。このように、コンピュータ可読媒体は概して、(1)非一時的である有形コンピュータ可読記憶媒体、または(2)信号または搬送波のような通信媒体に対応しうる。データ記憶媒体は、この開示中に説明された技法のインプリメンテーションのための命令、コード、および/またはデータ構造を検索するために、1つまたは複数のコンピュータあるいは1つまたは複数のプロセッサによってアクセスされることができる任意の利用可能な媒体でありうる。コンピュータプログラム製品は、コンピュータ可読媒体を含みうる。
[0211]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、フラッシュメモリ、あるいはデータ構造もしくは命令の形態で所望されるプログラムコードを記憶するために使用されることができ、且つコンピュータによってアクセスされることができる任意の他の媒体を備えることができる。また、任意の接続は、厳密にはコンピュータ可読媒体と称される。例えば、命令が、ウェブサイト、サーバ、あるいは同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線(DSL)、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用する他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義中に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的、有形記憶媒体を対象にすることが理解されるべきである。ディスク(disk)およびディスク(disc)は、ここに使用される場合、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)、およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は通常、磁気的にデータを再生するが、その一方でディスク(disc)は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[0212]命令は、1つまたは複数のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、あるいは他の同等な集積またはディスクリートロジック回路のような1つまたは複数のプロセッサによって実行されうる。それ故に、ここに使用されるような「プロセッサ」という用語は、前述の構造またはここに説明された技法のインプリメンテーションに適したあらゆる他の構造のうちの任意のものを指しうる。加えて、いくつかの態様では、ここに説明された機能は、符号化および復号のために構成された専用ハードウェアおよび/またはソフトウェアモジュール内で提供されうるか、あるいは組み合わされたコーデック中に組み込まれうる。また、それら技法は、1つまたは複数の回路またはロジック要素において完全にインプリメントされることができる。
[0213]この開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(例えば、チップセット)を含む、幅広い多様なデバイスまたは装置においてインプリメントされうる。様々なコンポーネント、モジュール、またはユニットは、開示された技法を遂行するように構成されたデバイスの機能的な態様を強調するためにこの開示中に説明されているが、必ずしも異なるハードウェアユニットによる実現を必要とはしない。むしろ、上述されたように、様々なユニットは、コーデックハードウェアユニット中で組み合わされうるか、あるいは、適したソフトウェアおよび/またはファームウェアと併せて、上述されたような1つまたは複数のプロセッサを含む、相互動作するハードウェアユニットの集合によって提供されうる。
[0214]様々な例が説明されてきた。これらおよび他の例は、次の特許請求の範囲内にある。
[0214]様々な例が説明されてきた。これらおよび他の例は、次の特許請求の範囲内にある。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
ビデオについての情報を決定する方法であって、前記方法は、
デバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定することと、
前記プロセッサが、前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成することと、
前記プロセッサが、サーバデバイスに前記要求を出力することと
を備える、方法。
[C2]
前記プロセッサが、ユーザの視野(FOV)を使用して前記イメージの1つまたは複数の他の領域を指定する要求を生成することと、
前記プロセッサが、前記サーバデバイスに前記イメージの前記1つまたは複数の他の領域を指定する前記要求を出力することと
をさらに備える、C1に記載の方法。
[C3]
前記1つまたは複数の最も関心のある領域を決定することは、補足エンハンスメント情報(SEI)メッセージから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C1に記載の方法。
[C4]
前記1つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C1に記載の方法。
[C5]
前記1つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルテーブルボックスまたはトラックフラグメントから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C1に記載の方法。
[C6]
前記1つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるセグメントインデックスボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C1に記載の方法。
[C7]
前記1つまたは複数の最も関心のある領域を決定することは、HTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)から最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C1に記載の方法。
[C8]
前記1つまたは複数の最も関心のある領域を決定することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定することを備える、C1に記載の方法。
[C9]
前記複数のシンタックス要素についての前記複数の値を決定することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を抽出することと
を備える、C8に記載の方法。
[C10]
前記1つまたは複数の最も関心のある領域を決定することは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を抽出することを備え、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、C1に記載の方法。
[C11]
前記1つまたは複数の最も関心のある領域を決定することは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を抽出することを備える、C1に記載の方法。
[C12]
前記1つまたは複数の最も関心のある領域を決定することは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を抽出することを備え、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C1に記載の方法。
[C13]
前記1つまたは複数の最も関心のある領域を決定することは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を抽出することを備え、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C1に記載の方法。
[C14]
前記1つまたは複数の最も関心のある領域を決定することは、
1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を抽出することと、
前記1つまたは複数のベースタイルトラック識別子を使用して前記1つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
を備える、C1に記載の方法。
[C15]
前記1つまたは複数の最も関心のある領域を決定することは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を決定することを備え、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、C1に記載の方法。
[C16]
ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定することと、
前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成することと、
サーバデバイスに前記要求を出力することと
を行うように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを備える、デバイス。
[C17]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、補足エンハンスメント情報(SEI)メッセージから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C16に記載のデバイス。
[C18]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C16に記載のデバイス。
[C19]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、HTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)から最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C16に記載のデバイス。
[C20]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定するようにさらに構成される、C16に記載のデバイス。
[C21]
前記複数のシンタックス要素についての前記複数の値を決定するために、前記1つまたは複数のプロセッサは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を抽出することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を抽出することと
を行うようにさらに構成される、C20に記載のデバイス。
[C22]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を抽出するようにさらに構成され、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、C16に記載のデバイス。
[C23]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を抽出するようにさらに構成される、C16に記載のデバイス。
[C24]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を抽出するようにさらに構成され、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C16に記載のデバイス。
[C25]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を抽出するようにさらに構成され、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C16に記載のデバイス。
[C26]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、
1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を抽出することと、
前記1つまたは複数のベースタイルトラック識別子を使用して前記1つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
を行うようにさらに構成される、C16に記載のデバイス。
[C27]
前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を決定するようにさらに構成され、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、C16に記載のデバイス。
[C28]
ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定するための手段と、
前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成する手段と、
サーバデバイスに前記要求を出力するための手段と
を備える、デバイス。
[C29]
実行されると、プロセッサに、
1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定することと、
前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成することと、
サーバデバイスに前記要求を出力することと
を行わせる命令を記憶した、コンピュータ可読記憶媒体。
[C30]
ビデオデータについての情報をシグナリングする方法であって、前記方法は、
ソースデバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
前記プロセッサが、前記1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記プロセッサが、前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を備える、方法。
[C31]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含む補足エンハンスメント情報(SEI)メッセージを生成することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C30に記載の方法。
[C32]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C30に記載の方法。
[C33]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含むHTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)を生成することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C30に記載の方法。
[C34]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成する、C30に記載の方法。
[C35]
前記複数のシンタックス要素についての前記複数の値を出力することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を生成することと
を備える、C34に記載の方法。
[C36]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を生成することを備え、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、C30に記載の方法。
[C37]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を生成することを備える、C30に記載の方法。
[C38]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を生成することを備え、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C30に記載の方法。
[C39]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を生成することを備え、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C30に記載の方法。
[C40]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、
1つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
前記1つまたは複数の最も関心のある領域を表す前記データにおいて、前記1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を生成することと
を備える、C30に記載の方法。
[C41]
前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を生成することを備え、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、C30に記載の方法。
[C42]
前記1つまたは複数の最も関心のある領域を決定することは、ディレクターの意図またはユーザ統計のうちの1つまたは複数を使用して前記1つまたは複数の最も関心のある領域を決定することを備える、C30に記載の方法。
[C43]
ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
前記1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を行うように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを備える、デバイス。
[C44]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、最も関心のある領域データを含む補足エンハンスメント情報(SEI)メッセージを生成するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C43に記載のデバイス。
[C45]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C43に記載のデバイス。
[C46]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、最も関心のある領域データを含むHTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)を生成するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、C43に記載のデバイス。
[C47]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成するようにさらに構成される、C43に記載のデバイス。
[C48]
前記複数のシンタックス要素についての前記複数の値を出力するために、前記1つまたは複数のプロセッサは、
前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を生成することと、
前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を生成することと
を行うようにさらに構成される、C47に記載のデバイス。
[C49]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を生成するようにさらに構成され、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、C43に記載のデバイス。
[C50]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を生成するようにさらに構成される、C43に記載のデバイス。
[C51]
前記1つまたは複数の最も関心のある領域を表す前記データを出力定するために、前記1つまたは複数のプロセッサは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を生成するようにさらに構成され、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C43に記載のデバイス。
[C52]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を生成するようにさらに構成され、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、C43に記載のデバイス。
[C53]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、
1つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
前記1つまたは複数の最も関心のある領域を表す前記データにおいて、前記1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を生成することと
を行うようにさらに構成される、C43に記載のデバイス。
[C54]
前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を生成するようにさらに構成され、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、C43に記載のデバイス。
[C55]
ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するための手段と、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
前記1つまたは複数の最も関心のある領域を表すデータを出力するための手段と、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力するための手段と
を備える、デバイス。
[C56]
実行されると、プロセッサに、
ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
前記1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
を行わせる命令を記憶した、コンピュータ可読記憶媒体。

Claims (56)

  1. ビデオについての情報を決定する方法であって、前記方法は、
    デバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定することと、
    前記プロセッサが、前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成することと、
    前記プロセッサが、サーバデバイスに前記要求を出力することと
    を備える、方法。
  2. 前記プロセッサが、ユーザの視野(FOV)を使用して前記イメージの1つまたは複数の他の領域を指定する要求を生成することと、
    前記プロセッサが、前記サーバデバイスに前記イメージの前記1つまたは複数の他の領域を指定する前記要求を出力することと
    をさらに備える、請求項1に記載の方法。
  3. 前記1つまたは複数の最も関心のある領域を決定することは、補足エンハンスメント情報(SEI)メッセージから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項1に記載の方法。
  4. 前記1つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項1に記載の方法。
  5. 前記1つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるサンプルテーブルボックスまたはトラックフラグメントから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項1に記載の方法。
  6. 前記1つまたは複数の最も関心のある領域を決定することは、ファイルフォーマットヘッダ情報中に含まれるセグメントインデックスボックスから最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項1に記載の方法。
  7. 前記1つまたは複数の最も関心のある領域を決定することは、HTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)から最も関心のある領域データを抽出することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項1に記載の方法。
  8. 前記1つまたは複数の最も関心のある領域を決定することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定することを備える、請求項1に記載の方法。
  9. 前記複数のシンタックス要素についての前記複数の値を決定することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、
    前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を抽出することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を抽出することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を抽出することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を抽出することと
    を備える、請求項8に記載の方法。
  10. 前記1つまたは複数の最も関心のある領域を決定することは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を抽出することを備え、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項1に記載の方法。
  11. 前記1つまたは複数の最も関心のある領域を決定することは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を抽出することを備える、請求項1に記載の方法。
  12. 前記1つまたは複数の最も関心のある領域を決定することは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を抽出することを備え、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項1に記載の方法。
  13. 前記1つまたは複数の最も関心のある領域を決定することは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を抽出することを備え、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項1に記載の方法。
  14. 前記1つまたは複数の最も関心のある領域を決定することは、
    1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を抽出することと、
    前記1つまたは複数のベースタイルトラック識別子を使用して前記1つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
    を備える、請求項1に記載の方法。
  15. 前記1つまたは複数の最も関心のある領域を決定することは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を決定することを備え、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項1に記載の方法。
  16. ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
    1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定することと、
    前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成することと、
    サーバデバイスに前記要求を出力することと
    を行うように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを備える、デバイス。
  17. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、補足エンハンスメント情報(SEI)メッセージから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項16に記載のデバイス。
  18. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中に含まれるサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスから最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項16に記載のデバイス。
  19. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、HTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)から最も関心のある領域データを抽出するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項16に記載のデバイス。
  20. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を決定するようにさらに構成される、請求項16に記載のデバイス。
  21. 前記複数のシンタックス要素についての前記複数の値を決定するために、前記1つまたは複数のプロセッサは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、
    前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を抽出することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を抽出することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を抽出することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を抽出することと
    を行うようにさらに構成される、請求項20に記載のデバイス。
  22. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を抽出するようにさらに構成され、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項16に記載のデバイス。
  23. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を抽出するようにさらに構成される、請求項16に記載のデバイス。
  24. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を抽出するようにさらに構成され、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項16に記載のデバイス。
  25. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を抽出するようにさらに構成され、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項16に記載のデバイス。
  26. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、
    1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を抽出することと、
    前記1つまたは複数のベースタイルトラック識別子を使用して前記1つまたは複数のベースタイルトラックから最も関心のある領域データを抽出することと
    を行うようにさらに構成される、請求項16に記載のデバイス。
  27. 前記1つまたは複数の最も関心のある領域を決定するために、前記1つまたは複数のプロセッサは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を決定するようにさらに構成され、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項16に記載のデバイス。
  28. ビデオデータについての情報を決定するためのデバイスであって、前記デバイスは、
    1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定するための手段と、
    前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成する手段と、
    サーバデバイスに前記要求を出力するための手段と
    を備える、デバイス。
  29. 実行されると、プロセッサに、
    1つまたは複数の最も関心のある領域を表すデータからビデオデータのイメージの複数の領域のうちの前記1つまたは複数の最も関心のある領域を決定することと、
    前記1つまたは複数の最も関心のある領域を表す前記データを使用して前記1つまたは複数の最も関心のある領域を指定する要求を生成することと、
    サーバデバイスに前記要求を出力することと
    を行わせる命令を記憶した、コンピュータ可読記憶媒体。
  30. ビデオデータについての情報をシグナリングする方法であって、前記方法は、
    ソースデバイスのプロセッサが、ここで、前記プロセッサは、回路中にインプリメントされ、ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
    前記プロセッサが、前記1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
    前記プロセッサが、前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
    を備える、方法。
  31. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含む補足エンハンスメント情報(SEI)メッセージを生成することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項30に記載の方法。
  32. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項30に記載の方法。
  33. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、最も関心のある領域データを含むHTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)を生成することを備え、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項30に記載の方法。
  34. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成する、請求項30に記載の方法。
  35. 前記複数のシンタックス要素についての前記複数の値を出力することは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、
    前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を生成することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を生成することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を生成することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を生成することと
    を備える、請求項34に記載の方法。
  36. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を生成することを備え、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項30に記載の方法。
  37. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を生成することを備える、請求項30に記載の方法。
  38. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を生成することを備え、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項30に記載の方法。
  39. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を生成することを備え、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項30に記載の方法。
  40. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、
    1つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
    前記1つまたは複数の最も関心のある領域を表す前記データにおいて、前記1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を生成することと
    を備える、請求項30に記載の方法。
  41. 前記1つまたは複数の最も関心のある領域を表す前記データを出力することは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を生成することを備え、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項30に記載の方法。
  42. 前記1つまたは複数の最も関心のある領域を決定することは、ディレクターの意図またはユーザ統計のうちの1つまたは複数を使用して前記1つまたは複数の最も関心のある領域を決定することを備える、請求項30に記載の方法。
  43. ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
    ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
    前記1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
    前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
    を行うように構成された、回路中にインプリメントされた1つまたは複数のプロセッサを備える、デバイス。
  44. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、最も関心のある領域データを含む補足エンハンスメント情報(SEI)メッセージを生成するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項43に記載のデバイス。
  45. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、ファイルフォーマットヘッダ情報中で、最も関心のある領域データを含むサンプルグループボックス、サンプルテーブルボックス、トラックフラグメント、またはセグメントインデックスボックスを生成するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項43に記載のデバイス。
  46. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、最も関心のある領域データを含むHTTPを通した動的適応型ストリーミング(DASH)メディアプレゼンテーション記述(MPD)を生成するようにさらに構成され、前記最も関心のある領域データは、前記1つまたは複数の最も関心のある領域を表す、請求項43に記載のデバイス。
  47. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記1つまたは複数の最も関心のある領域の各最も関心のある領域について、ベース領域に対するそれぞれの最も関心のある領域の位置と、前記ベース領域に対する前記それぞれの最も関心のある領域のサイズとを表す複数のシンタックス要素についての複数の値を生成するようにさらに構成される、請求項43に記載のデバイス。
  48. 前記複数のシンタックス要素についての前記複数の値を出力するために、前記1つまたは複数のプロセッサは、
    前記ベース領域に対する前記それぞれの最も関心のある領域の左水平オフセットを表す第1のシンタックス要素についての値を生成することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の上部垂直オフセットを表す第2のシンタックス要素についての値を生成することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の幅を表す第3のシンタックス要素についての値を生成することと、
    前記ベース領域に対する前記それぞれの最も関心のある領域の高さを表す第4のシンタックス要素についての値を生成することと
    を行うようにさらに構成される、請求項47に記載のデバイス。
  49. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のタイルを表す1つまたは複数のタイル識別子を生成するようにさらに構成され、前記1つまたは複数のタイルは、前記1つまたは複数の最も関心のある領域と空間的にコロケートされる、請求項43に記載のデバイス。
  50. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記イメージの前記複数の領域のうちの1つまたは複数の領域を表す1つまたは複数のグループ識別子を生成するようにさらに構成される、請求項43に記載のデバイス。
  51. 前記1つまたは複数の最も関心のある領域を表す前記データを出力定するために、前記1つまたは複数のプロセッサは、1つまたは複数のトラックを表す1つまたは複数のトラック識別子を生成するようにさらに構成され、前記1つまたは複数のトラックの各トラックは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項43に記載のデバイス。
  52. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、前記イメージの1つまたは複数のリプレゼンテーションを表す1つまたは複数のリプレゼンテーション識別子を生成するようにさらに構成され、前記1つまたは複数のリプレゼンテーションの各リプレゼンテーションは、前記1つまたは複数の最も関心のある領域についてのビデオコーディングレイヤ(VCL)データを含む、請求項43に記載のデバイス。
  53. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、
    1つまたは複数のベースタイルトラックにおいて最も関心のある領域データを生成することと、
    前記1つまたは複数の最も関心のある領域を表す前記データにおいて、前記1つまたは複数のベースタイルトラックを表す1つまたは複数のベースタイルトラック識別子を生成することと
    を行うようにさらに構成される、請求項43に記載のデバイス。
  54. 前記1つまたは複数の最も関心のある領域を表す前記データを出力するために、前記1つまたは複数のプロセッサは、イメージ順序カウントを表す1つまたは複数のシンタックス要素を生成するようにさらに構成され、前記イメージ順序カウントは、前記1つまたは複数の最も関心のある領域を表す前記データが前記イメージに適用されることを示す、請求項43に記載のデバイス。
  55. ビデオデータについての情報をシグナリングするためのデバイスであって、前記デバイスは、
    ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定するための手段と、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
    前記1つまたは複数の最も関心のある領域を表すデータを出力するための手段と、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
    前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力するための手段と
    を備える、デバイス。
  56. 実行されると、プロセッサに、
    ビデオデータのイメージの複数の領域のうちの1つまたは複数の最も関心のある領域を決定することと、前記1つまたは複数の最も関心のある領域は、クライアントデバイスによって検索される可能性が最も高い1つまたは複数の領域を備える、
    前記1つまたは複数の最も関心のある領域を表すデータを出力することと、ここにおいて、前記1つまたは複数の最も関心のある領域を表す前記データは、前記ビデオデータを含むビットストリーム中に含まれる、
    前記1つまたは複数の最も関心のある領域を表す前記データを出力した後に、前記ビデオデータを出力することと
    を行わせる命令を記憶した、コンピュータ可読記憶媒体。
JP2018561468A 2016-05-24 2017-05-11 イメージ中の最も関心のある領域の高度なシグナリング Pending JP2019521583A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662341017P 2016-05-24 2016-05-24
US62/341,017 2016-05-24
US15/591,805 2017-05-10
US15/591,805 US10565463B2 (en) 2016-05-24 2017-05-10 Advanced signaling of a most-interested region in an image
PCT/US2017/032185 WO2017205069A1 (en) 2016-05-24 2017-05-11 Advanced signaling of a most-interested region in an image

Publications (2)

Publication Number Publication Date
JP2019521583A true JP2019521583A (ja) 2019-07-25
JP2019521583A5 JP2019521583A5 (ja) 2021-04-15

Family

ID=59034850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018561468A Pending JP2019521583A (ja) 2016-05-24 2017-05-11 イメージ中の最も関心のある領域の高度なシグナリング

Country Status (9)

Country Link
US (1) US10565463B2 (ja)
EP (1) EP3466084A1 (ja)
JP (1) JP2019521583A (ja)
KR (1) KR102342274B1 (ja)
CN (1) CN109155865A (ja)
AU (1) AU2017271981A1 (ja)
BR (1) BR112018073956A2 (ja)
TW (1) TW201742461A (ja)
WO (1) WO2017205069A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11108670B2 (en) 2015-09-09 2021-08-31 Vantrix Corporation Streaming network adapted to content selection
US10419770B2 (en) 2015-09-09 2019-09-17 Vantrix Corporation Method and system for panoramic multimedia streaming
US11287653B2 (en) 2015-09-09 2022-03-29 Vantrix Corporation Method and system for selective content processing based on a panoramic camera and a virtual-reality headset
US10694249B2 (en) * 2015-09-09 2020-06-23 Vantrix Corporation Method and system for selective content processing based on a panoramic camera and a virtual-reality headset
US20180176468A1 (en) 2016-12-19 2018-06-21 Qualcomm Incorporated Preferred rendering of signalled regions-of-interest or viewports in virtual reality video
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11290755B2 (en) 2017-01-10 2022-03-29 Qualcomm Incorporated Signaling data for prefetching support for streaming media data
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
KR102332525B1 (ko) * 2017-06-01 2021-11-29 삼성전자주식회사 전자 장치 및 그 동작방법
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10754242B2 (en) * 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
EP3692721A1 (en) 2017-10-04 2020-08-12 VID SCALE, Inc. Customized 360-degree media viewing
CN109996055B (zh) 2017-12-06 2022-08-12 杜比实验室特许公司 位置零时延
CN109996110B (zh) * 2017-12-29 2021-10-22 中兴通讯股份有限公司 一种视频播放方法、终端、服务器及存储介质
CN111937396B (zh) * 2018-04-03 2023-11-17 华为技术有限公司 基于子图像码流视角相关视频编码中的误差抑制的文件格式指示
WO2019199379A1 (en) * 2018-04-13 2019-10-17 Futurewei Technologies, Inc. Immersive media metrics for virtual reality content with multiple viewpoints
US10958987B1 (en) * 2018-05-01 2021-03-23 Amazon Technologies, Inc. Matching based on video data
US10630990B1 (en) 2018-05-01 2020-04-21 Amazon Technologies, Inc. Encoder output responsive to quality metric information
KR20190136417A (ko) * 2018-05-30 2019-12-10 삼성전자주식회사 3차원 360도 영상 데이터의 전송 방법, 그에 따른 디스플레이 장치, 및 그에 따른 영상 저장 장치
US10623791B2 (en) 2018-06-01 2020-04-14 At&T Intellectual Property I, L.P. Field of view prediction in live panoramic video streaming
US10812774B2 (en) 2018-06-06 2020-10-20 At&T Intellectual Property I, L.P. Methods and devices for adapting the rate of video content streaming
US11108841B2 (en) 2018-06-19 2021-08-31 At&T Intellectual Property I, L.P. Apparatus, storage medium and method for heterogeneous segmentation of video streaming
US10616621B2 (en) 2018-06-29 2020-04-07 At&T Intellectual Property I, L.P. Methods and devices for determining multipath routing for panoramic video content
US11019361B2 (en) 2018-08-13 2021-05-25 At&T Intellectual Property I, L.P. Methods, systems and devices for adjusting panoramic view of a camera for capturing video content
US10708494B2 (en) 2018-08-13 2020-07-07 At&T Intellectual Property I, L.P. Methods, systems and devices for adjusting panoramic video content
WO2020068284A1 (en) * 2018-09-26 2020-04-02 Futurewei Technologies, Inc. Virtual reality (vr) viewpoint grouping
US10779014B2 (en) * 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
US11323754B2 (en) * 2018-11-20 2022-05-03 At&T Intellectual Property I, L.P. Methods, devices, and systems for updating streaming panoramic video content due to a change in user viewpoint
CN112312159A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 视频的缓存方法和装置
CN112511866B (zh) * 2019-12-03 2024-02-23 中兴通讯股份有限公司 媒体资源播放方法、装置、设备和存储介质
US11417076B2 (en) * 2020-09-01 2022-08-16 Qualcomm Incorporated Detecting a sub-image region of interest in an image using pilot signals
US11698794B2 (en) * 2020-09-02 2023-07-11 Ge Aviation Systems Llc Systems and method for flexible access of a regulated system
WO2023044214A1 (en) * 2021-09-20 2023-03-23 Qualcomm Incorporated Processing video data picture size change request and notification messages
US11924464B2 (en) 2021-09-20 2024-03-05 Qualcomm Incorporated Processing video data picture size change request and notification messages
CN115546652B (zh) * 2022-11-29 2023-04-07 城云科技(中国)有限公司 一种多时态目标检测模型及其构建方法、装置及应用

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09233467A (ja) * 1996-02-21 1997-09-05 Fujitsu Ltd 画像データ通信装置及び画像データ通信システムにおける通信データ量調整方法
JP2005260319A (ja) * 2004-03-09 2005-09-22 Ricoh Co Ltd 画像処理装置、プログラム、記憶媒体及び画像送信方法
JP2011234065A (ja) * 2010-04-27 2011-11-17 Nec Corp 動画像通信システム
JP2013502147A (ja) * 2009-08-12 2013-01-17 トムソン ライセンシング 画像シーケンスの関心領域に基づくアーティファクト低減のためのシステム及び方法
JP2013505687A (ja) * 2010-12-13 2013-02-14 インテル コーポレイション データのハイライト及び抽出
US20140082054A1 (en) * 2012-09-14 2014-03-20 Canon Kabushiki Kaisha Method and device for generating a description file, and corresponding streaming method
US20150016504A1 (en) * 2013-07-15 2015-01-15 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
WO2015014773A1 (en) * 2013-07-29 2015-02-05 Koninklijke Kpn N.V. Providing tile video streams to a client
JP2015533051A (ja) * 2012-09-18 2015-11-16 ヴィド スケール インコーポレイテッド タイルおよびタイル群を使用した関心領域ビデオ符号化
WO2015197815A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Determining a region of interest on the basis of a hevc-tiled video stream

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613727B2 (en) 2002-02-25 2009-11-03 Sont Corporation Method and apparatus for supporting advanced coding formats in media files
US7058203B2 (en) * 2002-05-14 2006-06-06 Lockheed Martin Corporation Region of interest identification using region of adjacent pixels analysis
US8184153B2 (en) * 2005-09-26 2012-05-22 Electronics And Telecommunications Research Institute Method and apparatus for defining and reconstructing ROIs in scalable video coding
US20070165007A1 (en) * 2006-01-13 2007-07-19 Gerald Morrison Interactive input system
US8606952B2 (en) * 2008-01-15 2013-12-10 International Business Machines Corporation Method and system for optimizing bandwidth usage in remote visualization
JP5039627B2 (ja) * 2008-03-31 2012-10-03 株式会社コナミデジタルエンタテインメント ゲーム画像送信装置、ゲーム画像送信装置の制御方法、及びプログラム
CN101699862B (zh) * 2009-11-16 2011-04-13 上海交通大学 Ptz摄像机获取感兴趣区域高分辨率图像的方法
US8571280B2 (en) * 2010-02-22 2013-10-29 Canon Kabushiki Kaisha Transmission of medical image data
US9883203B2 (en) * 2011-11-18 2018-01-30 Qualcomm Incorporated Adaptive overlapped block motion compensation
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
US10225546B2 (en) 2016-02-26 2019-03-05 Qualcomm Incorporated Independent multi-resolution coding

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09233467A (ja) * 1996-02-21 1997-09-05 Fujitsu Ltd 画像データ通信装置及び画像データ通信システムにおける通信データ量調整方法
JP2005260319A (ja) * 2004-03-09 2005-09-22 Ricoh Co Ltd 画像処理装置、プログラム、記憶媒体及び画像送信方法
JP2013502147A (ja) * 2009-08-12 2013-01-17 トムソン ライセンシング 画像シーケンスの関心領域に基づくアーティファクト低減のためのシステム及び方法
JP2011234065A (ja) * 2010-04-27 2011-11-17 Nec Corp 動画像通信システム
JP2013505687A (ja) * 2010-12-13 2013-02-14 インテル コーポレイション データのハイライト及び抽出
US20140082054A1 (en) * 2012-09-14 2014-03-20 Canon Kabushiki Kaisha Method and device for generating a description file, and corresponding streaming method
JP2015533051A (ja) * 2012-09-18 2015-11-16 ヴィド スケール インコーポレイテッド タイルおよびタイル群を使用した関心領域ビデオ符号化
US20150016504A1 (en) * 2013-07-15 2015-01-15 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
WO2015014773A1 (en) * 2013-07-29 2015-02-05 Koninklijke Kpn N.V. Providing tile video streams to a client
WO2015197815A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Determining a region of interest on the basis of a hevc-tiled video stream

Also Published As

Publication number Publication date
US10565463B2 (en) 2020-02-18
KR102342274B1 (ko) 2021-12-22
CN109155865A (zh) 2019-01-04
BR112018073956A2 (pt) 2019-02-26
KR20190014501A (ko) 2019-02-12
AU2017271981A1 (en) 2018-11-01
US20170344843A1 (en) 2017-11-30
WO2017205069A1 (en) 2017-11-30
TW201742461A (zh) 2017-12-01
EP3466084A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
US10565463B2 (en) Advanced signaling of a most-interested region in an image
US10582201B2 (en) Most-interested region in an image
KR102614207B1 (ko) Mime 타입 파라미터들을 이용하는 네트워크 비디오 스트리밍에서의 중요 비디오 정보 시그널링
JP7027518B2 (ja) メディアコンテンツのためのリージョンワイズパッキング、コンテンツカバレッジ、およびシグナリングフレームパッキング
US11290755B2 (en) Signaling data for prefetching support for streaming media data
JP2019521584A (ja) Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング
US11665219B2 (en) Processing media data using a generic descriptor for file format boxes
US10587904B2 (en) Processing media data using an omnidirectional media format

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210302

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210302

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220104