JP6746507B2 - 処理装置及び処理方法 - Google Patents

処理装置及び処理方法 Download PDF

Info

Publication number
JP6746507B2
JP6746507B2 JP2016575041A JP2016575041A JP6746507B2 JP 6746507 B2 JP6746507 B2 JP 6746507B2 JP 2016575041 A JP2016575041 A JP 2016575041A JP 2016575041 A JP2016575041 A JP 2016575041A JP 6746507 B2 JP6746507 B2 JP 6746507B2
Authority
JP
Japan
Prior art keywords
track
tile
generating
metadata
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016575041A
Other languages
English (en)
Other versions
JP2017525249A5 (ja
JP2017525249A (ja
Inventor
ドゥヌアル フランク
ドゥヌアル フランク
マゼ フレデリック
マゼ フレデリック
コンコラト シリル
コンコラト シリル
ル フェーブル ジャン
ル フェーブル ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2017525249A publication Critical patent/JP2017525249A/ja
Publication of JP2017525249A5 publication Critical patent/JP2017525249A5/ja
Application granted granted Critical
Publication of JP6746507B2 publication Critical patent/JP6746507B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2212/00Encapsulation of packets

Description

本発明は、一般的には、メディアデータの交換、管理、編集、およびプレゼンテーションを容易にするフレキシブルで拡張可能なフォーマットを提供するとともに、特に圧縮されたビデオストリーム内のユーザにより選択された関心領域のHTTP(HyperText Transfer Protocol(ハイパーテキストトランスファープロトコル))およびRTP(Real−time Transport Protocol(リアルタイムトランスポートプロトコル))ストリーミングに関してストリーム配信を改善するために、例えばMPEG標準化機構により定義されたベースメディアファイルフォーマット(Base Media File Format)に従う、タイムドメディアデータのカプセル化の分野に関する。特に、本発明は、特に1つ以上のタイルのデータの効率的ストリーミングまたは抽出を可能にする空間タイルなどのマルチレイヤ分割データを包含する基本ストリームをカプセル化するときにレイヤ間ディペンデンシーを符号化する方法、装置、およびコンピュータプログラムに関する。
ビデオ符号化は、ビデオ画像を送信または格納し得るように一連のビデオ画像のシリーズをコンパクトなデジタル化されたビットストリームに変換する方法である。符号化装置はビデオ画像を符号化するために使用され、関連する復号化装置はビットストリームを表示および鑑賞のために復元するために利用可能である。一般的目的は、ビットストリームを原ビデオ情報より小さいサイズであるように形成することである。このことは、ビットストリームコードを送信あるいは格納するために転送ネットワークまたは記憶装置に必要とされる容量を有利に小さくする。送信されるために、ビデオビットストリームは、一般的に、通例ヘッダおよびチェックビットを追加する伝送プロトコルに従ってカプセル化される。例えば3GPPの適応型HTTPストリーミング(Adaptive HTTP Streaming(AHS))、マイクロソフトのスムースストリーミング)あるいはアップルのHTTPライブストリーミングなどのHTTP(HyperText Transfer Protocol)を通してオーディオ/ビデオメディアをストリーミングするために、インターネットネットワークおよびモバイルネットワークを通してビデオストリーミングメカニズムが広く展開され使用されている。
近時、ムービングピクチャエクスパーツグループ(Moving Picture Experts Group(MPEG))は、HTTPを通しての既存のストリーミングソリューションを統一し、これらに取って代わる新しい標準規格を公開した。“ダイナミックアダプティブストリーミングオーバーHTTP(Dynamic adaptive streaming over HTTP(DASH))と呼ばれるこの新しい標準規格は、標準的ウェブサーバに基づいてHTTP上のメディアストリーミングモデルをサポートすることを意図していて、ここでインテリジェンス(すなわち、ストリーミングするメディアデータの選択と、ユーザの選択、ネットワーク条件、およびクライアントの能力へのビットストリームの動的適応)はもっぱらクライアントの選択肢および装置に依拠する。
このモデルでは、メディアプレゼンテーションは、データセグメントと、提示されるべきタイムドメディアデータの編成を表す“メディアプレゼンテーションデスクリプション(Media Presentation Description(MPD))”と呼ばれるマニフェストに編成されている。特に、マニフェストは、データセグメントをダウンロードするために使用するリソース識別子を含むとともに、妥当なメディアプレゼンテーションを得るためにこれらのデータセグメントを選択し結合するためのコンテキストを提供する。リソース識別子は、通例、HTTP−URL(ユニフォームリソースロケータ(Uniform Resource Locator))であり、場合によってはバイト範囲と組み合わされる。マニフェストに基づいて、クライアント装置は、任意の時に、そのニーズ、その能力(例えば、サポートされるコーデック、ディスプレイのサイズ、フレームレート、品質レベル、など)に応じ、ネットワーク条件(例えば、利用可能な帯域幅)に依存してメディアデータサーバからどのメディアセグメントをダウンロードするべきかを決定する。
例えばリアルタイムトランスポートプロトコル(Real−time Transport Protocol(RTP))など、HTTPに代わるプロトコルが存在することに留意するべきである。
加えて、ビデオ解像度は、標準精細度(standard definition(SD))から高精細度(high definition(HD))へ、さらにウルトラハイ精細度(例えば、4K2Kまたは8K4K、すなわち、4,096×2,400ピクセルまたは7,680×4,320ピクセルの画像を含むビデオ)まで、連続的に増大しつつある。しかし、全ての受信およびビデオ復号化装置が、特にビデオがウルトラハイ精細度のものであるときに、最大限の解像度でビデオにアクセスするためのリソース(例えば、ネットワークアクセス帯域幅またはCPU((Central Processing Unit)中央処理装置)を持っているわけではなく、全てのユーザがそのようなビデオにアクセスする必要があるわけでもない。そのような文脈においては、幾つかの関心領域(Region−of−Interest(ROI))だけにアクセスする、すなわち、ビデオシーケンス全体のうちの幾つかの空間サブパーツだけにアクセスする、能力を提供することが特に有利である。
ビデオに属するフレームの空間サブパーツにアクセスする1つの公知メカニズムは、ビデオの各フレームを、一般にタイルと称される独立に復号化し得る空間エリアの配列として編成することにある。幾つかのビデオフォーマットHEVC(High Efficiency Video Coding(高精細度ビデオ符号化))などは、タイル定義のためのサポートを提供する。ユーザ定義されたROIは、1つまたは数個の連続するタイルをカバーすることができる。
代わりに、ユーザは、ビデオシーケンス中のピクチャの特定の細部だけに集中したければ、ROIを選択することができる。
従って、ビデオシーケンスまたはユーザが選択したROIをHTTPプロトコルに従ってストリーミングするためには、1つ以上のタイルへの空間的アクセスを可能にするとともにアクセスされるタイルの結合を可能にする仕方で符号化済みビデオビットストリームのタイムドメディアデータのカプセル化を提供することが重要である。
符号化済みビデオビットストリームは、一般に完全なフレームに対応する連続するテンポラルサンプルのセットとして構成されるNALユニット(Network Abstraction Layer(ネットワーク抽象化レイヤ))に編成され、テンポラルサンプルは復号化順序の関数として編成されるということを思い出すべきである。そのような符号化済みビットストリームをカプセル化し記述するためにファイルフォーマットが使用される。
説明のために、国際標準化機構ベースメディアファイルフォーマット(International Standard Organization Base Media File Format(ISO BMFF))は、ローカル記憶またはネットワークを介してのもしくは他のビットストリーム配信メカニズムを介しての伝送のために符号化済みタイムドメディアデータビットストリームを記述する公知のフレキシブルで拡張可能なフォーマットである。このファイルフォーマットはオブジェクト指向である。それは、シーケンシャルにまたは階層的に編成されている、タイミングおよび構造パラメータなどの符号化済みタイムドメディアデータビットストリームのパラメータを定義するボックスと呼ばれるビルディングブロックから構成されている。このファイルフォーマットでは、タイムドメディアデータビットストリームは、トラックボックスと称される他のデータ構造において定義されるmdatボックスと称されるデータ構造に包含される。このトラックはサンプルのタイムドシーケンスを表し、サンプルは、単一のタイムスタンプと関連付けられた全てのデータ、すなわち単一のフレームと関連付けられた全データまたは同じタイムスタンプを共有する数個のフレームと関連付けられた全データ、に対応する。
マルチレイヤHEVCフォーマットのビデオなどのスケーラブルなビデオについては、階層化メディアデータ編成は、特定レベルのスケーラビリティでビデオをそれぞれ表す複数の依存的トラックを用いることによって効率的に表現され得る。トラック間でのデータ重複を避けるためにエクストラクタが使用され得る。1つの標準的ファイルフォーマットでは、エクストラクタは、他のネットワーク抽象化レイヤ(NAL)ユニットを他のビットストリームから効率的に抽出することを可能にする、ビットストリームに直接含まれる特別の種類のネットワーク抽象化レイヤ(NAL)データ構造である。例えば、エンハンスメントレイヤトラックのビットストリームは、ベースレイヤトラックからNALユニットを参照するエクストラクタを含むことができる。後に、そのようなエンハンスメントレイヤトラックがファイルフォーマットから抽出されるとき、エクストラクタは自分たちが参照しているデータにより取って代わられなければならない。
下位情報を記述し、この下位情報へのアクセスを容易にし、あるいはビットストリームを複数のセグメントに効率的に編成するためにISO BMFFを用いてこれらのメカニズムを埋め込むとき、幾つかの方策が採用され得る。
例えば、“H.264/SVCの適応型HTTPストリーミングに関するISOベースメディアファイルフォーマットの示唆(Implications of the ISO Base Media File Format on Adaptive HTTP Streaming of H.264/SVC)”と題された論文において、著者のコフラー他(Kofler et al.)はISO BMFFの可能性および限界を考慮してHTTPストリーミングのためのスケーラブルなビデオビットストリーム(H264/SVC)を編成するための3つの異なる方策を提示している。
a)ファイルタイプボックス“ftyp”と、全てのISO BMFFメタデータ(トラック定義を含む)を包含するムービーボックス“moov”とを含む特定のファイルヘッダを包含する単一のファイル。この単一のファイルは、符号化済みビットストリーム全体を包含する単一のmdatボックスも含む。この編成は、ローカル記憶には適するけれども、クライアントがビットストリーム全体のうちの一部分を必要とするだけであるかもしれないHTTPストリーミングには適合していない。このような編成は、好ましくは、ビットストリームが複数のセグメントに分割されるときには初期化ファイルとして使用されるファイルのために使用される。その編成がb)で定義される他の1つの単一ファイルがこの初期化ファイルの後に続く。この初期化ファイルは全セグメントに関する情報を収集する。
b)フラグメンテーションに適する複数のmoof/mdatボックスを包含する単一のファイル。moof/mdatの各カップルは、ビットストリームの複数のセグメントのうちの1つに関連する。このフォーマットは、漸進的ダウンロードに配慮している。より詳しくは、moofボックスはフラグメントレベルでmoovボックスと同等である。この方式では、分割されたメディアファイルを用いて、スケーラブルなビットストリームは、異なるスケーラビリティレベルでビデオを表す複数の依存的トラックに分割され得る。エクストラクタは、他の1つまたは複数のトラックからのNALユニットを参照するために使用される特別のNALユニットである。タイル当たりに1トラックが使用される場合、全てのアドレス可能トラックは前もって準備されなければならず、トラックは独立して選択されることはできない。数個のタイルが表示されるべきであるならば、数個のビットストリームが復号化されなければならず、ベースレイヤは数回復号化される。c)で記載される最後の編成は、各トラックの独立選択に特に適する。
c)複数のセグメントファイル。各ファイルは、それ自身のURLによりアクセス可能であるとともに独立してダウンロード可能である。各ファイルは1つのフラグメントに関連付けられ、複数のセグメントファイルは好ましくは専用の初期化ファイルに先行される。各セグメントは、通例、一種のファイルヘッダとして作用するセグメントタイプボックス(styp)、任意のセグメントインデックスボックス(sidx)および1つまたは複数のフラグメントから成る。さらに、各フラグメントはmoofボックスおよびmdatボックスから成る。この方式では、分割されたメディアファイルを用いて、各トラックは、スケーラビリティの1つのレベルと関連付けられた関連するビットストリームと共にそれ自身のセグメントに格納される。必要ならば、依存的トラックから所要のビットストリームを参照するためにエクストラクタが使用される。このような符号化方式は、トラックを独立にストリーミングするために特に適する。それは、DASH標準規格には良く適合しているけれども、数個のビットストリームを復号化せねばならず、従ってトラック当たりに1つのデコーダが必要なので、タイルストリーミングには適していない。さらに、2つ以上のタイルを選択するときにベースレイヤのビットストリームの重複があり得る。
文書“HEVCおよびMVC+DのISO/IEC14496−15 2013/AMD1エンハンストサポートのWD3(WD3 of ISO/IEC14496−15 2013/AMD1 Enhanced support of HEVC and MVC+D)、ISO/IEC JTC1/SC29/WG11、W14328、2014年3月〜4月、バレンシア、スペイン”(以下では“w14328”と称される)に関連して行われた上記ボックスの定義およびこれらのボックスに含まれるサブボックスの定義は、ISO BMFFメタデータの編成を複雑であまり効率的でない編成とするであろう。
さらに、タイルトラックは階層化HEVCのために適切に定義されていなくて、その使用を制限している。
これらの問題を解決するために、マルチレイヤビデオストリームのために階層化HEVCにおいて空間タイルを処理するために特に適する効率的なデータ編成およびトラック記述方式が提供される。これは、ISO BMFF構文解析の結果がより効率的で階層化HEVCに適合することを保証する。
これらの制約に直面して、本発明者たちは、マルチレイヤタイルドタイムドメディアデータをサーバにおいてカプセル化し、複数のメディアセグメントファイルにカプセル化されたマルチレイヤタイルドタイムドメディアデータからタイムドメディアデータビットストリームを提供する方法および装置を提供する。
上記の従来技術の欠点を改善することは本発明の広範な目的である。
本発明の一態様に従って、処理装置は、L−HEVC(Layered High Efficiency Video Coding)に基づいてタイル符号化されたビデオデータに基づいて1又は複数のメディアファイルを生成する処理装置であって、前記ビデオデータのうち、少なくとも1つのタイル領域のビデオデータを有するタイルトラックを生成するトラック生成手段と、前記トラック生成手段により生成されるタイルトラックに関するメタデータを生成するメタデータ生成手段であって、前記タイルトラックがL−HEVCタイルトラックであることを示し、且つ当該タイルトラックのデータのデコードに必要なコンフィグレーション情報を含まないことを示す識別情報がISOBMFF(ISO/IEC14496−12)において規定されるサンプルディスクリプションボックスに記述されたメタデータを生成するメタデータ生成手段と、前記トラック生成手段により生成されたタイルトラックと、前記メタデータ生成手段により生成されたメタデータとに基づく1又は複数のメディアファイルを生成するファイル生成手段と、を有することを特徴とする。
本発明のこの第1の態様は、必要でない任意の幾つかのサブボックスを作ることによってカプセル化プロセスの単純化を提供する。
一実施態様において、もし各タイムドサンプルが第1レイヤおよび唯一の第2レイヤに符号化されるならば、どの主記述ボックスも、異なるレイヤの編成に関する記述情報を包含する前記サブボックスを含まない。
一実施態様において、作成されたトラックが少なくとも1つの得られたサブサンプルを含み、各サブサンプルが単一のレイヤに関連するとき、どの主記述ボックスも、異なるレイヤの編成に関する記述情報を包含する前記サブボックスを含まない。
一実施態様において、もし1つの主記述ボックスが前記1つ以上のサブボックスを含むならば、第2レイヤに関連する主記述ボックスに包含される、タイムドサンプルを符号化するために使用される符号化方法に応じて復号化装置を設定するための記述情報を含む設定ボックスは、前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスからその値が推定されるインデックスを含み、
あるいはどの主記述ボックスも前記1つ以上のサブボックスを含まないならば、設定ボックス内のインデックスの値はデフォルト値にセットされる。
この実施態様は、前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスを利用できない特別の場合を考慮することを可能にする。それは、この状況においてもカプセル化プロセスが続行されることを可能にする。
一実施態様では、デフォルト値は‘0’である。
他の1つの実施態様では、もし1つの主記述ボックスが前記1つ以上のサブボックスを含むならば、第2レイヤに関連する主記述ボックスに包含される、タイムドサンプルを符号化するために使用される符号化方法に応じて復号化装置を設定するための記述情報を含む設定ボックスは、もし所定のフラグ(例えば“operationPointFlag”)が所定値にセットされるならば、前記設定ボックスは前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスからその値が推定されるインデックスを含み、
あるいは、もし所定フラグが他の1つの値にセットされるならば、前記設定ボックスは、前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスからその値が推定される前記インデックスを含まない。
一実施態様では、前記方法はISOBMFFパート15に準拠する。
一実施態様では、前記サブボックスの1つは‘oinf’サブボックスである。
一実施態様では、前記サブボックスの1つは‘tcon’サブボックスである。
9一実施態様では、カプセル化方法のためのパラメータの所定セットを指すインデックスはprof_tier_levelインデックスである。
一実施態様では、マルチレイヤ分割タイムドメディアデータはマルチレイヤタイルドタイムドメディアデータであり、サブサンプルは空間サブサンプルである。
本発明の第2の態様に従って、少なくとも1つのメディアセグメントファイルにカプセル化されたマルチレイヤ分割タイムドメディアデータからマルチレイヤタイムドメディアデータビットストリームをサーバにおいて提供する方法が提供され、マルチレイヤ分割タイムドメディアデータはタイムドサンプルを含み、各タイムドサンプルは第1レイヤおよび少なくとも1つの第2レイヤに符号化され、少なくとも1つのタイムドサンプルは少なくとも第1レイヤまたは少なくとも1つの第2レイヤに符号化された少なくとも1つのサブサンプルを含み、少なくとも1つのメディアセグメントファイルはタイムドサンプルのうちの少なくとも1つから得られた少なくとも1つのサブサンプルを含む少なくとも1つのトラックを含み、少なくとも1つのメディアセグメントファイルは少なくとも1つのトラックに関連付けられた記述メタデータと関連付けられ、記述メタデータは第1および第2レイヤ当たりに1つの主記述ボックスに編成され、異なるレイヤの編成に関する記述情報は1つ以上のサブボックスに含められる。高々1つの主記述ボックスがこの1つ以上のサブボックスを含む。
一実施態様では、もし各タイムドサンプルが第1レイヤおよび唯一の第2レイヤに符号化されるならば、どの主記述ボックスも、異なるレイヤの編成に関する記述情報を包含する前記サブボックスを含まない。
一実施態様では、1つのトラックのサブサンプルは単一のレイヤに関連付けられ、どの主記述ボックスも、異なるレイヤの編成に関する記述情報を包含する前記サブボックスを含まない。
一実施態様では、もし1つの主記述ボックスが前記1つ以上のサブボックスを含むならば、第2レイヤに関連する主記述ボックスに包含される、タイムドサンプルを符号化するために使用される符号化方法に応じて復号化装置を設定するための記述情報を含む設定ボックスは、前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスからその値が推定されるインデックスを含み、
あるいはどの主記述ボックスも前記1つ以上のサブボックスを含まないならば、設定ボックス内のインデックスの値はデフォルト値にセットされる。
一実施態様では、デフォルト値は‘0’である。
他の1つの実施態様では、もし1つの主記述ボックスが前記1つ以上のサブボックスを含むならば、第2レイヤに関連する主記述ボックスに包含される、タイムドサンプルを符号化するために使用される符号化方法に応じて復号化装置を設定するための記述情報を含む設定ボックスは、もし所定のフラグ(例えば“operationPointFlag”)が所定値にセットされるならば、前記設定ボックスは前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスからその値が推定されるインデックスを含み、
あるいはもし所定フラグが他の1つの値にセットされるならば、前記設定ボックスは、前記サブボックスのうちの1つからのカプセル化方法のためのパラメータの所定セットを指すインデックスからその値が推定される前記インデックスを含まない。
一実施態様では、前記方法はISOBMFFパート15に準拠する。
一実施態様では、前記サブボックスの1つは‘oinf’サブボックスである。
一実施態様では、前記サブボックスの1つは‘tcon’サブボックスである。
一実施態様では、カプセル化方法のためのパラメータの所定セットを指すインデックスはprof_tier_levelインデックスである。
一実施態様では、マルチレイヤ分割タイムドメディアデータはマルチレイヤタイルドタイムドメディアデータであり、サブサンプルは空間サブサンプルである。
本発明の第3の態様に従って、プログラマブルな装置のためのコンピュータプログラム製品が提供され、このコンピュータプログラム製品は、プログラムがプログラマブルな装置にロードされ実行されるとき上記の方法の各ステップを実行するための命令を含む。
本発明の第4の態様に従って、上記方法を実行するためのコンピュータプログラムの命令を格納したコンピュータ可読記憶媒体が提供される。
本発明の第5の態様に従って、上記カプセル化方法を保持するようにされている手段を含むサーバにおいてマルチレイヤ分割タイムドメディアデータをカプセル化するための装置が提供される。
本発明の第6の態様に従って、上記の提供する方法を保持するようにされている手段を含むサーバにおいてマルチレイヤ分割タイムドメディアデータをカプセル化するための装置が提供される。
一実施態様では、それはサーバ装置に組み込まれる。
本発明の第7の態様に従って、サーバにおいてマルチレイヤタイルドタイムドメディアデータをカプセル化する方法が提供され、マルチレイヤタイルドタイムドメディアデータはタイムドサンプルを含み、各タイムドサンプルは第1レイヤおよび少なくとも1つの第2レイヤに符号化され、
少なくとも1つのタイムドサンプルは少なくとも1つの空間サブサンプルを含み、各サブサンプルは第1レイヤまたは少なくとも1つの第2レイヤに符号化される。方法は:
タイムドサンプルのうちの少なくとも1つから少なくとも1つのサブサンプルを得ること;
その少なくとも1つの得られたサブサンプルを含むトラックを作成すること;および
その作成されたトラックと関連付けられた記述メタデータを生成することであって、記述メタデータはトラック当たりに1つの主記述ボックスに編成され、異なるレイヤの編成に関する記述情報はサブボックスに含められる、作成すること;を含み、
もし主記述ボックスが、少なくとも1つの第2レイヤに符号化されるサブサンプルのカプセル化から生じるトラックに関連するならば、前記主記述ボックスの少なくとも1つのサブボックスは、メディアデータがマルチレイヤタイルドメディアデータであることを信号するためのタイプパラメータを含む。
この新しいタイプのパラメータは、それが特にマルチレイヤメディア内のタイルトラックを指すことをパーサが直ちに認識することを可能にする。
一実施態様では、サブサンプルは、HEVC標準規格のマルチレイヤエクステンションを用いて符号化される。
一実施態様では、タイプパラメータは‘lht1’である。
一実施態様では、タイプパラメータは、少なくとも1つの第2レイヤに符号化されるサブサンプルのカプセル化から生じるトラックに関連する前記主記述ボックスに包含される第2設定サブボックスに含まれ、前記第2設定サブボックスは、タイムドサンプルを符号化するために使用される符号化方法に応じて復号化装置を設定するための記述情報を含む。
一実施態様では、前記第2設定サブボックスの記述情報は、ISOBMFF標準規格に適合させられる。
本発明の第7の態様に従って、サーバにおいて、少なくとも1つのメディアセグメントファイルにカプセル化されたマルチレイヤ分割タイムドメディアデータからマルチレイヤタイムドメディアデータビットストリームを提供する方法が提供され、マルチレイヤタイルドタイムドメディアデータはタイムドサンプルを含み、各タイムドサンプルは第1レイヤおよび少なくとも1つの第2レイヤに符号化され、少なくとも1つのタイムドサンプルは、少なくとも第1レイヤまたは少なくとも1つの第2レイヤに符号化された少なくとも1つのサブサンプルを含み、少なくとも1つのメディアセグメントファイルは、タイムドサンプルのうちの少なくとも1つから得られた少なくとも1つのサブサンプルを含む少なくとも1つのトラックを含み、少なくとも1つのメディアセグメントファイルは少なくとも1つのトラックに関連付けられた記述メタデータに関連付けられ、記述情報はサブボックスに分割され、もし主記述ボックスが少なくとも1つの第2レイヤに符号化されているサブサンプルに関連するトラックに関連するならば、前記主記述ボックスの少なくとも1つのサブボックスは、メディアデータがマルチレイヤタイルドメディアデータであることを信号するためのタイプパラメータを含む。
一実施態様では、サブサンプルは、HEVC標準規格のマルチレイヤエクステンションを用いて符号化される。
一実施態様では、タイプパラメータは‘lht1’である。
一実施態様では、タイプパラメータは、少なくとも1つの第2レイヤに符号化されているサブサンプルのカプセル化から生じるトラックに関連する前記主記述ボックスに包含される第2設定サブボックスに含まれ、前記第2設定サブボックスは、タイムドサンプルを符号化するために使用される符号化方法に応じて復号化装置を設定するための記述情報を含む。
一実施態様では、前記第2設定サブボックスの記述情報はISOBMFF標準規格に適合させられる。
本発明の第8の態様に従って、プログラマブルな装置のためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は、プログラムがプログラマブルな装置によりロードされ実行されるときに上記方法の各ステップを実行するための命令を含む。
本発明の第9の態様に従って、上記方法を実行するためのコンピュータプログラムの命令を格納したコンピュータ可読記憶媒体が提供される。
本発明の第10の態様に従って、上記カプセル化方法を保持するようにされている手段を含むサーバにおいてマルチレイヤ分割タイムドメディアデータをカプセル化するための装置が提供される。
本発明の第11の態様に従って、上記の提供する方法を保持するようにされている手段を含むサーバにおいてマルチレイヤ分割タイムドメディアデータをカプセル化するための装置が提供される。
本発明はソフトウェアにおいて実装され得るので、本発明は任意の適切なキャリヤ媒体でプログラマブルな装置に提供されるコンピュータ可読コードとして具体化され得る。有形のキャリヤ媒体は、フロッピーディスク、CD−ROM、ハードディスクドライブ、磁気テープ装置またはソリッドステート記憶装置などの記憶媒体を含み得る。過渡的キャリヤ媒体は、電気信号、電子信号、光信号、音響信号、磁気信号または電磁信号、例えばマイクロウェーブもしくはRF信号、などの信号を含み得る。
本発明のさらなる利点は、図面および詳細な説明を検討すれば当業者にとって明らかとなるであろう。追加の利点がここに組み込まれることが意図されている。
ここで本発明の実施態様が、単なる例として、次の図面と関連して記述されるであろう。
階層化HEVCのための本発明に従うトラックボックスを表す実施態様を示す。 タイルド階層化HEVCのための本発明に従うトラックボックスを表す実施態様を示す。 1つ以上の実施態様が実装され得るサーバまたはクライアント装置のブロック図を表す。
以下の3つのパートは3つの異なる特徴、それぞれのピクチャの空間編成(パートA)、NALユニット(パートB)、およびVisualSampleEntryと称される特別のディスクリプタ(パートC)、に関する周知の情報を記載する。これらの特徴は、図1から3に表されている実施態様をより良く理解してもらうためにここに記載される。
パートA
ビデオは、好ましくはスケーラブルなビデオまたはマルチビュービデオであって、種々のレベルのスケーラビリティ/ビューに編成される。
1つの特定の実施態様では、タイムドサンプル(例えば画像)を含むマルチレイヤタイルドタイムドメディアデータ(例えばスケーラブルタイルドビデオデータまたはマルチビュータイルドビデオデータ)などのマルチレイヤ分割タイムドメディアデータは、数個のタイムドメディアデータトラック、通例ベーストラックおよびタイルトラック、のセットとして送信される。なお1つの特定の実施態様では、ベーストラックはベースレイヤベーストラックおよび少なくとも1つのエンハンスメントレイヤベーストラックを含む。追加のタイルトラックはベースレイヤタイルトラックおよび/またはエンハンスメントレイヤタイルトラックであり得る。各タイムドメディアデータトラックは、数個のタイムドサンプルの1つの空間サブサンプル(例えば数個のNALユニット)を含む。各ビデオフレーム(タイムドサンプル)は、そのビデオフレームの空間サブパート(空間サブサンプル)に対応する独立して復号化可能なタイルから構成され得る。階層化HEVCでは、各ビデオフレームは、そのビデオフレームの空間サブパート(空間サブサンプル)に対応する依存的に復号化可能なレイヤから構成され得る。さらに階層化HEVCでは、各ビデオフレームは依存的に復号化可能なレイヤから構成されることができ、各レイヤはそのビデオフレームの空間サブパート(空間サブサンプル)に対応する独立して復号化可能なタイル(所与のレイヤのための)から構成されることができる。
トラックディペンデンシー(タイリング、レイヤ間および/またはレイヤ内ディペンデンシー)を記述するためにリストが使用される。タイムドメディアデータトラックのこのようなセットは、マルチレイヤ空間ビデオタイルの選択、組み立て、および効率的ストリーミングを可能にする。各トラックは、メディアセグメントファイルのセットとしてサーバ装置からクライアント装置へ送信され得る。初期化セグメントファイルは、メディアセグメントファイルを復号化するために必要とされるメタデータを送信するために使用され得る。
本発明の一実施態様は、例えば、HEVCまたは階層化HEVC(LHVCまたはマルチレイヤHEVCとしても周知されている)として周知されているビデオフォーマットに適用され得る。
HEVC標準規格では画像を空間的にタイル、スライス、およびスライスセグメントに分割し得ることを思い出していただきたい。この標準規格では、タイルは水平境界および垂直境界(すなわち行および列)により画定される画像の矩形領域に対応する。それは整数個の符号化ツリーユニット(Coding Tree Unit(CTU))を含む。従って、タイルは、例えば関心領域のための位置およびサイズを定義することによって関心領域を特定するために効率的に使用され得る。しかし、HEVCビットストリームの構造およびネットワーク抽象化レイヤ(NAL)ユニットとしてのそのカプセル化は、タイルと関連して編成されてはいなくて、スライスに基づいている。
HEVC標準規格では、スライスはスライスセグメントのセットであり、スライスセグメントのセットのうちの第1スライスセグメントは独立スライスセグメントである、すなわち、ヘッダ内に格納されているその一般的情報が他の1つのスライスセグメントのそれを参照しないスライスセグメントである。スライスセグメントのセットのうちの他のスライスセグメントは、もし存在するならば、依存的スライスセグメント(すなわち、ヘッダ内に格納されているその一般的情報が独立スライスセグメントのそれを参照するスライスセグメント)である。
スライスセグメントは、整数個の(ラスタースキャン順に)連続する符号化ツリーユニットを包含する。従って、スライスセグメントは、矩形または非矩形であり得るので、これは関心領域を表すのに適していない。それはHEVCビットストリームにおいて、スライスセグメントデータが追随するスライスセグメントヘッダを得るために符号化される。独立スライスセグメントと依存的スライスセグメントとの違いは、それらのヘッダにある。なぜならば、依存的スライスセグメントは独立スライスセグメントに依存し、そのヘッダの情報の量は独立スライスセグメントのそれより少ない。独立スライスセグメントおよび依存的スライスセグメントの両方が、タイルを画定するためにまたはエントロピー復号化同期ポイントとして使用される、対応するビットストリーム内のエントリーポイントのリストを包含する。
HEVC標準規格では、スライスセグメントは、次のように要約され得る規則に従ってタイルにリンクされる(一方または両方の条件が満たされなければならない):
− スライスセグメント内の全てのCTUは同じタイルに属する(すなわち、スライスセグメントは数個のタイルに属することはできない);および
− タイル内の全てのCTUは同じスライスセグメントに属する(すなわち、タイルは数個のスライスセグメントに、これらのスライスセグメントの各々がそのタイルだけに属することを条件として、分割され得る)。
パートB
上記のように、タイルは関心領域のための適切なサポートとみなされ得るが、スライスセグメントは、実際に通信網を通して運ばれるべくNALユニット内に置かれ、アクセスユニット(すなわち、ファイルフォーマットレベルにおける符号化済みピクチャまたはサンプル)を形成するために集められるものである。
HEVC標準規格では、NALユニットのタイプは次のように定義され得るNALユニットヘッダの2バイトに符号化されることを思い出すべきである。
[数1]
nal_unit_header () {
forbidden_zero_bit
nal_unit_type
nuh_layer_id
nuh_temporal_id_plus1

スライスセグメントを符号化するために使用されるNALユニットは、スライスセグメントアドレスシンタックスエレメントのおかげでスライスセグメント内の第1CTUのアドレスを示すスライスセグメントヘッダを含む。そのようなスライスセグメントヘッダは次のように定義され得る。
[数2]

slice_segment_header () {
first_slice_segment_in_pic_flag
if(nal_unit_type >= BLA_W_LP && nal_unit_type <= RSV_IRAP_VCL23)
no_output_of_prior_pics_flag
slice_pic_parameter_set_id
if(!first_slice_segment_in_pic_flag){
if(dependent_slice_segments_enabled_flag)
dependent_slice_segment_flag
slice_segment_address

If(!dependent_slice_segment_flag){ […]
タイリング情報は、PPS(Picture Parameter Set(ピクチャパラメータセット))NALユニットにおいて提供される。スライスセグメントとタイルとの関係は、これらのパラメータから演繹され得る。
空間的予測は境界で(定義により)リセットされるけれども、タイルが1つまたは複数の参照フレーム内の異なるタイルからの時間予測値を使用することを妨げるものは何もない。従って、独立のタイルを構築するために、予測ユニットのための動きベクトルは、1つまたは複数の参照フレーム内の一緒に置かれているタイル内に留まるために、符号化中、タイルの中に拘束されるのが有利である。さらに、ループ内フィルタ(デブロッキングフィルタおよびサンプルアダプティブオフセット(sample adaptive offset(SAO))フィルタ)は、唯一のタイルを復号化するときにエラードリフトが導入されないようにタイル境界で非アクティブ化されるのが好ましい。ループ内フィルタのそのような制御はHEVC標準規格において利用可能であるということに留意するべきである。それは、loop_filter_across_tiles_enabled_flagとして知られているフラグと共にスライスセグメントヘッダ内にセットされる。このフラグを明示的にゼロにセットすることにより、タイル境界にあるピクセルは、隣のタイルの境界に接するピクセルに依存できなくなる。動きベクトルおよびループ内フィルタに関連するこれら2つの条件が満たされたとき、タイルは“独立して復号化可能なタイル”または“独立タイル”とみなされ得る。
パートC
MPEG−4パート12標準規格の現存するサンプルグループ化メカニズムは、タイルをカプセル化するために使用され得る。従って、特別の種類の標準的VisualSampleGroupEntryディスクリプタであるタイルディスクリプタを用いて特別のサンプルグループ記述が作成される。サンプルグループ化メカニズムは、トラック内のサンプルのパーティションを表現するために使用される。それらは、2つのボックスすなわち:サンプルのサンプルグループへの割り当てを記述するSampleToGroupボックス(‘sbgp’)および特定のサンプルグループ内のサンプルの共通特性を記述するSampleGroupDescriptionボックス(‘sgpd’)、の使用に依拠する。1つの特定のタイプのサンプルグループ化は、タイプフィールド(‘grouping_type’)を介しての1つのSampleToGroupボックスおよび1つのSampleGroupDescriptionボックスの結合によって定義される。多様なサンプルグループ化インスタンス(すなわち、SampleToGroupボックスおよびSampleGroupDescriptionボックスのペア)が様々なグループ化基準に基づいて存在し得る。
サンプルのタイリングに関連する特定のグループ化基準が使用される。‘trif’と称されるこの特定のグループ化タイプは、タイルの特性を記述し、標準的VisualSampleGroupEntryから導出される。それはTileRegionSampleGroupEntryと称されることができて、次のように定義される:
[数3]

class TileRegionGroupEntry () extends VisualSampleGroupEntry (‘trif’) {
unsigned int(16) groupID;
unsigned int(2) independent;
unsigned int(6) reserved=0;
unsigned int(16) horizontal_offset;
unsigned int(16) vertical_offset;
unsigned int(16) region_width;
unsigned int(16) region_height;

この特定のタイプのグループエントリに従って、パラメータgroupIDは、そのグループにより記述されるタイルのための一意の識別子である。パラメータhorizontal_offsetおよびvertical_offsetは、それぞれ、タイルにより表される矩形領域の左上ピクセルの、HEVCフレームの左上のピクセルに対する水平オフセットおよび垂直オフセットをベース領域のルマサンプル(luma sample)単位でセットするために使用される。パラメータregion_widthおよびregion_heightは、それぞれ、タイルにより表される矩形領域の幅および高さをHEVCフレームのルマサンプル単位でセットするために使用される。
パラメータindependentは、独立タイルの定義に関連して上で記載されたように、そのタイルが同じタイルのみに属するサンプルに関連する復号化ディペンデンシーを含むことを明示する2ビットワードである。説明のために、タイル編成を記述するためのSEIメッセージ(Supplemental Enhancement Information(補助的エンハンスメント情報))の標準的使用に関連して、tile_section_exact_match_flagとして知られているフラグは、その意味が次の通りにセットされ得るindependentフラグの値をセットするために使用され得る。
− もしパラメータindependentが0に等しければ、このタイルと同じフレームまたは前のフレーム内の他のタイルとの間の符号化ディペンデンシーはタイルセットレベルで記述されるかまたは不明である。
− もしパラメータindependentが1に等しければ、このタイルと任意の参照フレーム内の異なるgroupIDを有する他のタイルとの間にテンポラル符号化ディペンデンシーは無いけれどもこのタイルと参照フレーム内の同じgroupIDを有するタイルとの間に符号化ディペンデンシーが存在し得る。
− もしパラメータindependentが2に等しければ、このタイルと同じフレーム内の他のタイルとの間に符号化ディペンデンシーは無く、このタイルと参照フレーム内の他のどのタイルとの間にも符号化ディペンデンシーは無い。
independentパラメータ値3は、取っておかれている。
各タイルの特性は、各タイルトラックについて、‘trif’grouping_typeおよびTileRegionGroupEntryを有する1つのSampleGroupDescriptionボックス(‘sgpd’)を定義することによってムービーヘッダ(‘moov’ボックス)において一度与えられる。タイル特性はトラックフラグメントごとにも定義され得る。このようなmp4トラックは、ビデオタイルトラックまたはタイルトラックとして定義され得る。HEVC標準規格では、HEVCタイルトラックは、このトラック内の1つまたは複数のタイルが属するHEVCレイヤの他のNALU(通例、種々のパラメータセットなどのセットアップ情報)を運ぶHEVCトラックへの参照がそれについて存在するところのビデオタイルトラックである。その参照は、タイルベーストラックを示すために、‘sbas’4文字符号、あるは‘tbas’などのもっと詳細なもの、などのMPEG−4パート15標準規格において既に定義されている値を使用することができる。
1つのタイルトラックは、唯一のTileRegionGroupEntryおよび0個のTileSetGroupEntryを有するか、または、唯一のTileSetGroupEntryおよび1つ以上の、それからこのタイルセットが作られるところの依存的TileRegionGroupEntryを有しなければならず、TileSetGroupEntryは、タイルのセットを記述するためのTileRegionGroupEntryのエクステンションである。これらのグループの各々に、1つのNALUを1つのグループに関連付けるために使用され得る一意の識別子が割り当てられることに留意するべきである。タイル領域およびタイルセットは、‘tbas’トラック参照により示されるように、ベースHEVCレイヤにより算定される、groupIDのための同じネーム空間を共有する(すなわち、同じベースレイヤを有するどのトラックにおいても同じgroupIDを有する2つのタイル領域またはタイルセットがあってはならない)。
ここで新種のトラック、タイルトラック、を導入することは、ファイルフォーマット(File Format)デザインに準拠するために対応するサンプルエントリを定義することを意味する。実際には、各トラックは、その記述データの中に、必須のSampleDescriptionBox(‘stsd’)を伴うSampleTableBox(‘stbl’)を包含しなければならない。サンプル記述テーブルは、使用された符号化タイプに関する詳しい情報、および、トラックサンプルの復号化に必要な初期化情報を与える。SampleDescriptionBoxに格納される情報は、トラック特有であり、ビジュアルサンプルエントリのために抽象記述を特殊化することによってビデオトラックのために記述される。通例、ビジュアルサンプルエントリは、サンプルを処理するために使用される圧縮フォーマットデコーダを提供する“符号化名称”パラメータを包含する。このパラメータは、4文字符号として符号化される一意の識別子でなければならない。タイルトラック内に挿入されるサンプルを記述するために、次に私たちはこれらのサンプルを特別の種類のVisualSampleEntryで記述しなければならない。タイルトラックのサンプルを処理するためにタイルケイパビリティを有するHEVCデコーダが必要であることを示すために、例えば符号‘hvt1’により表されるHEVCTileSampleEntryが導入される。普通、サンプル記述テーブルには、デコーダ設定情報を提供するためにConfigurationBoxがパラメータとして含まれる。HEVCタイルトラックの特別の場合に関して、私たちは、設定ボックスを繰り返さず、トラックヘッダ内のトラック参照タイプ‘tbas’で示されるタイルベーストラックに記述されるものを継承する。任意に、タイルごとの平均ビットレートを記述するパラメータは、プロファイル、階層およびレベル情報と同じくHEVCTileSampleEntryにセットされ得る。プロファイルは、通例アプリケーションドメインをターゲットとして、特徴の見地から標準規格のサブセットを定義する。各プロファイルは階層およびレベルを定義する。階層は入れ子にされた複雑さレベルとみなされることができ、各レベルは、ピクセルの数、スライスの数、タイル・・・のような幾つかの値のための限界を定める。複雑さが増す順に編成されて、プロファイルにおいて所与のレベルにある最高の階層を処理し得るデコーダは、同じプロファイルにおいて同じレベルかまたは下にあるより下位の任意の階層をサポートし得るであろう。帯域幅に基づく適応化のためにストリーミングしているクライアントに提供されるように、タイルごとのビットレート情報をこのボックスに格納することは有益であり得る。mp4ボックスの大部分に関しては、アプリケーション特有のニーズに調和するようにオプションの特別なボックスでHEVCTileSampleEntryボックスが拡張され得る。
図1はMPEG−4ファイルフォーマットに従う2つのスケーラビリティレイヤをカプセル化することの例を示す。図示されているように、各レイヤ(エンハンスメントレイヤELおよびベースレイヤBL)はそれ自身のトラックにカプセル化され、効率的なデータアドレッシングを可能にするとともにビデオの2つのトラックとしてのカプセル化をもたらす。
より正確には、図1は、マルチレイヤHEVCビットストリームに符号化されていてS個のサンプルを包含するメディアデータシーケンスのための全てのISO BMFFメタデータを包含するムービーボックス“moov”100を表している。同じ原理が、ムービーフラグメントと共にまたはページ3のb)およびc)において定義されているセグメントとしてカプセル化されるメディアデータにも当てはまる。
単一の“madat”ボックス101は、2つのチャンク、すなわちベースレイヤのための1つのチャンク102およびエンハンスメントレイヤのための1つのチャンク103、に編成された符号化済みビットストリーム全体を包含し、各チャンクはS個のサンプル104、105を含む。エンハンスメントレイヤELについて、チャンクEL103は、S個のサンプルのための符号化済みビットストリームの対応する部分を含む。各サンプルは1つ以上のNALユニットに編成されている。さらに、ベースレイヤチャンク内の対応する部分を参照するためにエクストラクタ106を含めるための部分の先頭に特別のNALユニットが付加される。最後に、エンハンスメントレイヤチャンクは、パラメータを例えばピクチャレベル(PPS)またはシーケンスレベル(SPS)などの所与の“x”レベルで定義するための種々のパラメータセット(“xPS”107として要約されている)を含む。
“moov”ボックス100は2つのボックス“track”、すなわち、もっぱらベースレイヤトラックのための1つ110(ベースレイヤカプセル化から生じる)およびもっぱらエンハンスメントレイヤトラックのための1つ130(エンハンスメントレイヤカプセル化から生じる)、を含む。
各レイヤトラックは、mdatボックス101において示されているそれぞれのS個のサンプルを記述する。
ベースレイヤトラック110は、シーケンシャルにまたは階層的に編成された、ビットストリームの符号化済み上記符号化済み部分のパラメータを定義する数個のボックスを含む。明瞭性を目的として、選ばれたボックスだけが図1に示されている。
トラックヘッダ111のための‘tkhd’という名前のボックスまたはサブボックスは、時間情報、空間情報および識別情報を含む。時間情報は、S個のサンプルの作成時間および改変時間に関係する(creation_time、modification_time)。ここで“BL”に等しい識別子(track_ID)は、トラックを識別することを可能にする。空間情報は、ベースレイヤの表示サイズ情報(幅および高さ)を含む。
‘mdia’112という名前の他の1つのボックスまたはサブボックスは、メディア情報記述ボックスであって、ビットストリームのS個のサンプルに関連するメディアデータに関する情報を含む。
‘mdia’ボックスは、明瞭性を目的として表されていない幾つかのヘッダボックスと、記述情報自体を包含するメディア情報ボックス‘minf’113とを含む。この例では、‘minf’ボックスは3個の異なるボックスまたはサブボックスに細分されている。
第1のボックスまたはサブボックス‘oinf’114は、レイヤおよびサブレイヤ(例えばテンポラルサブレイヤ)ならびにそれらの、オペレーションポイント、それらの間のディペンデンシー(もしあるならば)、オペレーションポイントのためのHEVCビットストリームのVPSに包含されるプロファイル、階層およびレベル情報を表すprof_tier_levelパラメータを構成する編成などのオペレーションポイント情報を包含する。より詳しくは、ボックス‘oinf’は、スケーラビリティ構造、レイヤの数、ここでは2個(max_layer_count=2)、に関する情報を与えるパラメータ((scala_mask)を含むとともに、各レイヤのために、識別子、プロファイル/階層およびレベル情報により、さらにこのオペレーションポイントを構成するレイヤのセットにより各々記述される、ファイル内のオペレーションポイントの数が後に続く依存的レイヤのリストを含む。
サンプルテーブルボックス(Sample Table Box)のための‘stbl’)ボックス115という名前の第2のボックスまたはサブボックスは、サンプルを記述する情報を包含する。高効率ビデオ符号化(High Efficiency Video Coding(HEVC))方法に関する情報の一部分は、サンプル記述ボックス(Sample Description Box)のための‘stsd’ボックス116またはサブボックスに含まれている。パラメータ“entry_count”は、唯一の(ビジュアル(Visual))サンプルエントリ(Sample Entry)が含まれていることを示す。4バイトの‘hvc1’は、考慮されているメディアデータに対応するビットストリームが、下で‘hvcC’ボックス117において定義されているHEVCDecoderConfigurationRecordにおいて与えられる設定(プロファイル、階層、およびレベルを含む)の下で動作するHEVCデコーダに準拠しデコーダにより使用可能である、ということを示す。この例では、バージョン設定は第1のもの(configVersion=1)である。HEVCDecoderConfigurationRecordは、HEVCビットストリームのビデオパラメータセット(Video Parameter Set)に包含されるプロファイル、階層およびレベル情報をも与える。
‘tcon’118という名前の第3のボックスまたはサブボックスは、トラックで運ばれる全てのレイヤおよびサブレイヤをリストし、ここでは1つだけである(num_layer=1)。取っておかれるパラメータ(reserved parameter)は、ボックスのさらなる進化のために常に0値を有する。
1つの好ましい実施態様では、‘oinf’ボックスおよび/または‘tcon’ボックスは任意であり、その任意性はイタリック体の使用によって信号される。例えば、唯一のエンハンスメントレイヤが存在するとき、2つの上記ボックス‘oinf’114および‘tcon’118(あるいは、これらのボックスのうちの1つだけ)はファイル内に存在しない。実際、レイヤを運ぶトラック内に、特にサンプル記述ボックス内に、エンハンスメントレベルのため全ての階層/プロファイル/レベル情報が含まれるであろうからオペレーションポイント情報は有益でないということが指摘されている。従って‘oinf’ボックスおよび/または‘tcon’は必須ではない。
レイヤの編成に関連する他の情報は、種々のサンプルエントリと同様に任意であってよい:‘shv1’、‘she1’、‘shvC’およびスケーラブルなHEVCだけのための4文字符号ならびに‘mhv1’、‘mhe1’、‘mhvC’およびマルチビューHEVCサンプルエントリだけのための4文字符号。1種または2種のサンプルエントリだけが維持され得る:例えば‘lhv1’、‘lhvC’または‘lhe1’、あるいは階層化HEVCサンプルエントリを記述する4文字符号。
他のトラックはエンハンスメントレイヤ130のために専用される。それは、track_IDがエンハンスメントレイヤのための“EL”であることを除いて、ベースレイヤトラックの‘tkhd’ボックスと類似するトラックヘッダボックス‘tkhd’131またはサブボックスを含む。
エンハンスメントレイヤのためのトラックはトラック参照ボックス(Track Referece Box)‘tref’132またはサブボックスを含む。それは、プレゼンテーションにおける、ここではエンハンスメントレイヤトラックである包含するトラックから、ここではベースレイヤトラックである他の1つのトラックへの、参照を提供する。
第1参照‘sbas’は、ベースレイヤ110のトラックがエンハンスメントトラック130のためのベーストラックであることを示す。(track_ids[]=BL)。
他の1つの参照‘oref’は、ここではベースレイヤトラックに置かれている‘oinf’ボックスへの参照を可能にする。‘oref’参照は、イタリック体を用いることにより書かれる。実際以下で説明されるように、‘oinf’ボックスがベースレイヤトラック内に存在しないことを前提として、もし参照レイヤが1つだけ存在するならば、‘oref’参照は任意であってよい。
ベースレイヤトラックに関しては、エンハンスメントレイヤトラックは、‘minf’ボックス134を含む‘mdiaボックス’133を含む。この‘minf’ボックスは‘stbl’ボックス135を含み、それ自体は‘stsd’ボックスを含む。この最後のボックスは例えば4バイト‘lhe1’を含み、これは、考慮されているメディアデータに対応するビットストリームが、下で‘lhvC’ボックス137において定義される設定ボックスで与えられる設定(プロファイル、階層、およびレベルを含む)の下で動作するL−HEVCデコーダに準拠しデコーダにより使用可能であることを示す。
この‘lhvc’ボックスは、以下でより詳しく記載される。
最後にベースレイヤトラックに関して‘mdia’ボックスは任意の‘tcon’ボックス138を含む。
上で言及された好ましい実施態様に従って、予め定められた条件(例えば、1つだけのエンハンスメントレイヤ)に基づいて、‘tref’ボックス内の‘oref’参照を介しての‘oinf’ボックスへの参照に関しては‘tcon’ボックスはトラックから除去され得る。
より一般的には、もしベースレイヤを意味する各レイヤおよび数個のエンハンスメントレイヤのうちの各レイヤが別のトラックにカプセル化されるならば‘oinf’ボックスおよび‘tcon’ボックスは任意である。実際、代表的な設定では1つのレイヤが1つのオペレーションポイントに対応するとき、これらのボックスは有益な情報を何ら提供しない:‘tcon’ボックスはトラック内に1つのレイヤがあることを示すだけであり、‘oinf’は各トラックを記述するであろう(トラックは、それ自体がオペレーションポイントに合うレイヤに合うから)。‘oinf’ボックス内に見出されるプロファイル/階層/レベル情報は、LHEVCDecoderConfigurationRecordから直接読まれ得る。同様に、依存的レイヤ(すなわち、この場合にはトラック)のリストは、トラック参照ボックス(Track Referece Box)を介して見出され得る。‘oinf’ボックスおよび‘tcon’ボックスは、数個のレイヤのカプセル化から1つのトラックがもたらされるときに有益であるにすぎないであろう。
他の1つの好ましい実施態様では、共通の‘sbas’トラック参照を有するトラックのセットについて、‘oinf’ボックスを運ぶトラックがこのセットの中に高々1つ存在する。もし‘oinf’ボックスが存在するならば、共通の‘sbas’被参照トラックを有する全てのトラックは、‘oref’タイプのトラック参照を用いることによって‘oinf’ボックスを運ぶトラックにリンクされなければならない。
‘lhvC’ボックスは、operationPointIdxという名前のインデックスを含む。このフィールドは、オペレーションポイント情報ボックス‘oinf’が存在するときにこのボックスにおいて文書化されるオペレーションポイントのインデックスを信号する。オペレーションポイントは、サブビットストリーム抽出プロセスにより得ることのできるL−HEVCビットストリームの部分を表す。どの有効なオペレーションポイントも、他のオペレーションポイントと無関係に復号化され得る。
1つの好ましい実施態様では、operationPointIdxは、oinfボックスに記述されているオペレーションポイントの1−ベースのインデックスであるか(ここではエンハンスメントレベルのために‘2’)、あるいは不明であるかもしくは明示されていない場合には0でなければならない。
他の1つの実施態様では、デコーダ設定情報に関して、ベーストラックがHEVCで符号化されるか否かを示すhevc_baselayer_flagと称されるフィールドがある(AVC(Advanced Video Coding(アドバンストビデオ符号化))フォーマットの頂部に階層化HEVCが使用され得る)。この情報はトラック参照から見いだされ得る:もし‘sbas’参照により参照されたトラックがHEVCトラックでなければ、ベースレイヤはHEVCではない。このフラグは、他の1つのパラメータ:すなわち、特にオペレーションポイント情報のためのボックスが存在しないとき、デコーダ設定情報137の末尾のオペレーションポイントインデックス、を任意のものとするために使用され得る。そうすることにより、LHEVCDecoderConfigurationRecordは次の通りに定義されるであろう:
[数4]

aligned(8) class LHEVCDecoderConfigurationRecord {
unsigned int(8) general_level_idc; bit(1) complete_representation;
// previous bit for “hevc_baselayer_flag”;
bit(2) reserved = ‘11’b;
unsigned int(12) min_spatial_segmentation_idc;
bit(1) operationPointFlag;
if (operationPointFlag==1) {
bit(16) operationPointIdx;

… // rest of the decoder configuration information
// with unsigned int(16) operationPointIdx removed at the end.
この新しい構造は、デコーダ設定情報のサイズを大きくはせず、operationPointIdxのためにデフォルト値をセットする必要を回避する。
上で言及された文書w14328は、現在、ビットストリームにおいて使用されるスケーラビリティのタイプを示さずにLHEVCDecoderConfigurationRecordを定義している。w14328において現在定義されているようにジェネリック‘lhv1’/‘lhe1’が使用されるべきであるならば、クライアント側に存在するファイルリーダは、スケーラビリティタイプを理解するためにビデオパラメータセット(video parameter set(VPS))エクステンションをパースしなければならない。このVPSは、NALU107チャンク内に存在し得る。これは複雑なプロセスである。
1つの好ましい実施態様では、‘scalability_mask’と称される16ビットのスケーラビリティマスクを含む新しいLHEVCDecoderConfigurationRecordが提案される(ボックス137を見よ)。他の1つの実施態様では、構造全体が整数個のバイトに基づいて整列したままであることを条件として、スケーラビリティマスクはnビットで表現されることができ、nは整数である。例えば、HEVC標準規格の場合の通りにn=8である。
LHEVCDecoderConfigurationRecordは、w14328において定義される“general_level_idc”と称されるフィールドを含み、これは明瞭性を目的として表示されていない。フィールド“general_level_idc”は、ピクセルの最大数、および可能なタイルおよびスライスに関する情報を与える。
本発明の1つの好ましい実施態様では、サンプルを復号化するために必要とされる階層化HEVCの種類を明確にするためにデコーダ設定レコードに他の1つのパラメータを、例えば“general_level_idc”パラメータの後に、付け加えることが提案される。
[数5]


unsigned int(8) general_level_idc;
unsigned int(16) scalability_mask;


bit(1) complete_representation;

“scalability_mask”の値(この例では‘2’)は、スケーラビリティのタイプ空間またはクオリティを示す。このフィールドは、クライアントが、スケーラビリティタイプがサポートされるかどうかを発見してそれがファイルをプレイできるかどうかを判定するのを助けるという利点を有する。ファイルをプレイできないとき、それは、例えばベースレイヤトラックのみのような、より下位のオペレーションポイントを選択することができる。
図2は、考慮されるピクチャのうちのエンハンスメントレイヤのみのピクチャが4個のタイルに分割されるときのISOベースメディアファイルフォーマット(ISO−Base Media File Format)に従う2つのスケーラビリティレイヤのカプセル化の例を示す。このカプセル化は、4つの追加のタイルトラック(140〜143)またはエンハンスメントタイルトラックELTTを運ぶ。
HEVCタイルトラックと同様に、エンハンスメントレイヤの空間サブパートの効率的アクセスを可能にするために階層化HEVCタイルトラックを定義することが可能である。そのような場合のために、本発明の1つの実施態様では、LHEVCTileSampleEntryサンプル記述フォーマットを用いて特別のサンプルを伴う特別のトラックが作成される。
LHEVCタイルトラックは、このトラック内の1つまたは複数のタイルが属するHEVCレイヤの非ビデオ符号化レイヤのNALUを運ぶLHEVCトラックへの‘tbas’参照がそれについて存在するところのビデオトラックである。本発明の1つの実施態様では、新しいサンプル記述タイプが定義される。すなわち‘lht1’。
本発明の1つの実施態様では、タイルトラックのサンプルもサンプル記述ボックスもVPS、SPSまたはPPS NALユニットを包含してはならず、これらのNALユニットは、トラック参照タイプ‘tbas’により識別される、関連付けられているレイヤを包含するトラックのサンプル内にまたはサンプル記述ボックス内に存在しなければならない(図2のエンハンスメントレイヤトラック130)。
本発明の1つの実施態様では、LHEVCタイルトラックおよび、‘tbas’トラック参照により示される、関連付けられているレイヤを包含するトラックまたはレイヤトラックの両方が、原ビットストリームがどのように復元されるかを示すために、w14328の付属書類B(Annex B)において明らかにされているエクストラクタを使用する。これらのタイルトラックにおけるエクストラクタの存在は幾つかの適用領域においては制限されることがある、例えば、特に復号化してプレイするタイルのサブセットの選択を可能にするために、エクストラクタを各タイルトラック内にではなくてタイルベーストラック内に置くことが好ましいかもしれない。あるいは複数のタイルドレイヤの場合、既述サイズは、エクストラクタをタイルベーストラック内にのみ置くとき、小さくされる。
タイルトラックに内に格納されるLHEVCサンプルは、ISO/IEC23008−2において定義されているように、1つ以上のタイルについてのスライスの完全なセットである。通例、タイルトラックが単一のタイルを参照するならば、このタイルを符号化するために使用される1つまたは複数のスライスだけがサンプル内に見出される。タイルトラックは、通例、1つのTileRegionGroupEntryを(単一タイルのトラック)、または、1つのTileSetGroupEntryおよび、HEVCのために既に定義されている、このタイルセットがそれから構成されるところの1つ以上の依存的TileRegionGroupEntryを含む(マルチタイルトラック)。
もしサンプルに包含される符号化済みスライスがインスタンテニアスデコーディングリフレッシュ(Instantaneous Decoding Refresh(IDR))スライス、クリーンランダムアクセス(Clean Random Access(CRA))スライス、またはブロークンリンクアクセス(Broken Link Access(BLA))スライスであることをサンプル内のVCL NALユニットが示すならば、タイルトラックに格納されたLHEVCサンプルは“sync”サンプル、例えばシークのようなランダムアクセスのための同期化サンプル、とみなされる。
正規のLHEVC(w14328において)サンプルのために定義されているサブサンプルおよびサンプルグルーピングは、LHEVCタイルサンプルのための同じ定義を有する。
本発明の1つの実施態様では、インプリメンテーションは、HEVCシーケンスの完全なタイルのサブセットだけを復号化すると決定することができる。この場合、それは、HEVCシーケンスを復号化している間、不要なトラックを廃棄するかあるいは幾つかのエクストラクタを無視するためにTileRegionGroupEntryおよびTileSetGroupEntryサンプルグループ記述内のタイルディペンデンシー情報を使用することができる。
図2において、図1と同じ参照符号を有する要素は同様である。さらに、明瞭性を目的として‘moov’ボックスだけが表されている。
図2においては‘moov’ボックスは4つのタイルトラックボックス140、141、142、143である追加のトラックボックスを含む。ここではタイルトラック141だけが記述される。他のタイルトラックボックスは容易に推測され得る。
タイルトラックボックスは‘tkhd’、トラックヘッダ(Track Header)ボックスまたはサブボックス150、を含み、これはBLレイヤトラックボックスおよびELレイヤトラックボックスに属する‘tkhd’ボックス111または131と同じ特性を有する。
タイルトラックボックスは‘tref’、トラック参照(Track Reference)ボックスまたはサブボックスを含み、これは下記のこと:
− それがタイルベーストラックとの関係を示す4バイト‘tbas’を包含すること、および
− 識別子track_IDs[]は、このトラックのためのタイルベーストラックが識別子“ELBT”を有するエンハンスメントタイルトラックであることを示すこと、
を除いてBLレイヤトラックボックスおよびELレイヤトラックボックスに属する‘tref’ボックスと同じ特性を有する。
タイルトラックボックスは、BLトラックおよびELトラックと同じく‘mdia’ボックス152、‘stbl’ボックスまたはサブボックス153、‘stsd’ボックスまたはサブボックス154を有するminf(明瞭性を目的として表されていない)ボックスを含む。
‘stbl’ボックス153は、特性をトラックサンプルに関連付ける2つのボックスまたはサブボックス:‘sgpd’156および‘sgpd’に含まれる‘trif’154、を含む。これらのボックスは、w14328において良く定義されている。
‘sgpd’は、特定のサンプルグループ内のサンプルの共通特性を記述するSampleGroupDescriptionボックスである。ここで、パラメータ“def_sample_descr_index”は、トラックの全サンプルに当てはまるデフォルト特性:第1(および‘trif’ボックス内で唯一)、を示す。
‘trif’は、考慮されるタイルに関する情報を含むTileRegionGroupEntryボックスである。この場合、考慮されるタイルは値‘1’を有するgroupIDにより特定され、その位置およびサイズは、それぞれ、“horizontal_offset”、“vertical_offset”および“region_width”、“region_height”によって定められる。予備のパラメータは意味を持っておらず、独立フラグは、そのタイルが自己内蔵型(すなわち、復元されるために他のタイルを必要としない)であるか否かを示す。最後に、フルフレーム(full−frame)パラメータは、そのタイルがピクチャ全体(1)をカバーするか否か(0)を示す。
本発明の1つの実施態様では、新しいサンプルエントリ155を定義する4バイトは、メディアデータまたはLHEVCタイルトラックのサンプルに対応するビットストリームが、下で‘lhvC’ボックス156において定義されるDecoderConfigurationRecordあるいはより明確にはLHEVCDecoderConfigurationRecordにおいて与えられる設定(プロファイル、階層、およびレベルを含む)の下で動作するHEVCデコーダに準拠しデコーダにより使用可能であることを示す。
1つの実施態様では、4バイトは、‘lht1’である。
この新しいサンプルエントリの定義は下記のものであり得る。
[数6]


Box Types: ‘lht1’
Container: Sample Description Box (‘stsd’)
Mandatory: No
Quantity: Zero or more sample entries may be present

この新しいサンプルエントリの定義は、それがLHEVCタイルトラックに関係することをパーサが直ちに認知することを可能にする。これは、現存するサンプルエントリでは可能ではなかった。
さらに、タイルトラックに関連するだけの幾つかの特別の特性が導入され得る。
上述されたように、このサンプルエントリはLHEVCタイルトラックのメディアサンプルを記述する。LHEVCタイルトラック(サンプルエントリタイプ‘lht1’)のためのVisualSampleEntryの幅および高さは、トラックに包含される1つまたは複数のタイル(Tile)または1つまたは複数のタイルセット(TileSet)の最大幅および高さにセットされなければならない。タイルトラックのトラックヘッダ内のレイアウト情報(すなわち、レイヤ、タイルを位置決めするためのマトリックス、幅および高さ)は、‘tbas’トラック参照により特定される関連付けられた参照トラック(タイルベーストラックとも称される)のトラックヘッダ情報と同一でなければならず、そうでない場合は無視されなければならない。
好ましくは、‘lht1’サンプル記述の中の‘clap’(クリーンアパーチャ(Clean Aperture)を意味する)および‘pasp’(ピクセルアスペクト比(Pixel Aspect Ratio)を意味する)は無視されなければならない。
従って、特別の種類の標準的VisualSampleGroupEntryディスクリプタであるLHEVCタイルディスクリプタのために、特別のサンプル記述が生成される。
[数7]

class LHEVCTileSampleEntry () extends VisualSampleEntry (‘lht1’){
MPEG4BitRateBox ();
extra_boxes boxes;

MPEG4BitRateBoxおよびextra_boxesはいずれもオプションである。
好ましくはLHEVCTileSampleEntryは、LHEVCConfigurationBox(あるいはLHVCConfigurationBoxまたは階層化HEVCフォーマットのための設定ボックスを示すための任意の名称)、HEVCConfigurationBoxまたはMPEG4ExtensionDescriptorsBoxを包含しない。実際、これらのボックスは、‘tbas’トラック参照タイプにより示されるように、タイルベースLHEVCトラックサンプル記述の中に見出される。
他の任意のボックスがLHEVCTileSampleEntryに含まれ得る。普通、LHEVCタイルトラックのSampleDescriptionBox内には、タイルベースLHEVCトラックのSampleDescriptionBox内のエントリと同数のエントリがある。SampleDescriptionBoxは、HEVCタイルトラックの周知のディスクリプタであって、HEVCタイルトラックに関する記述的情報を包含する。
LHEVCタイルトラック(LHEVC Tile Track)のためのMIMEタイプ‘codecs’パラメータのためのサブパラメータは、標準規格を定義するw14328の付属書類E.3で定義されている規則に従う。デコーダ設定レコードは、‘tbas’トラック参照タイプにより示されるように、ベーストラックサンプル記述から取られる。その後、このデコーダ設定レコードを用いてMIMEタイプ‘codecs’のためのサブパラメータが構築される。
好ましくは、L−HEVCのためのコーデックサブタイプパラメータは、次の例外を除けば、HEVCのものと同一である:もしコーデックタイプがLHVCタイルトラックのジェネリックL−HEVCメディアサンプル(すなわち、‘lhv1コードポイント)を特定するならば、構築されるHEVCコーデックパラメータは“.SXX”を付加されなければならず、“S”はスケーラビリティタイプを示し、“XX”はこのトラックのためのスケーラビリティマスクの値に対応するバイトであり;後置バイトはゼロならば省略され得る。これは、関連付けられたビデオを符号化するために使用されるコーデックに関する正確な情報を得るために例えばDASH表現(DASH Representations)において有益であり得る。例えば、マルチビューストリーミングアプリケーションでは、マルチレイヤHEVCデコーダを有するDASHクライアントは、空間またはクオリティスケーラビリティを示すコーデックパラメータで宣言された表現を選択しないであろう。
図3は、1つ以上の実施態様のステップが実行され得るサーバまたはクライアント装置300のブロック図を表す。
好ましくは、装置300は、通信バス302、装置のパワーアップ時にプログラムROM306からの命令を実行するとともにパワーアップ後にメインメモリ308からのソフトウェアアプリケーションに関連する命令を実行し得る中央処理装置(CPU)304を含む。メインメモリ308は例えば通信バス302を介してCPU304の作業領域として機能するランダムアクセスメモリ(RAM)型のものであり、その記憶容量は、拡張ポート(図示されていない)に接続された任意のRAMによって拡張され得る。ソフトウェアアプリケーションに関連する命令は、例えばハードディス(HD)310またはプログラムROM306からメインメモリ308にロードされ得る。そのようなソフトウェアアプリケーションは、CPU304により実行されたとき、図1および2に関して記載されたカプセル化ステップをサーバで実行させる。
参照番号312は、装置300の通信網314への接続を可能にするネットワークインターフェースである。ソフトウェアアプリケーションは、CPU304により実行されたとき、ネットワークインターフェースを通して受信された要求に応じて通信網を介してデータストリームおよび要求を他の装置に供給するようにされている。
参照番号316は、ユーザに対して情報を表示しおよび/またはユーザから入力を受信するためのユーザインターフェースを表す。
ここで、1つの変化形として、マルチメディアビットストリームの受信または送信を管理するための装置300は、図1、2、および3に関して記載された方法を実行することのできる1つ以上の専用集積回路(ASIC)から成り得るということが指摘されるべきである。これらの集積回路は、例えば、非限定的に、ビデオシーケンスを生成しまたは表示しおよび/またはオーディオシーケンスを聞くための装置に統合される。
本発明の実施態様は、カメラ、スマートフォン、または、例えば特定の関心領域を徐々に拡大するためにTVのためのリモートコントローラとして働くタブレットなどの装置に埋め込まれ得る。それらは、特定の関心領域を選択することによってTV番組の個人的閲覧経験を得るために同じ装置から使用されることもできる。ユーザによるこれらの装置の他の使用法は、彼の/彼女の好きなビデオの選択されたサブパートを他の接続されている装置と共有することである。それらは、監視カメラがこの発明の生成部分をサポートするとすれば、建物の監視下に置かれている特定の区域で何が起きるかを監視するためにスマートフォンまたはタブレット内で使用されることもできる。
当然に、局所的で特別の要求を満たすために、当業者は上記ソリューションに対して次の請求項により定義される発明の保護の範囲内に全て含まれる多くの改変および改造を加えることができる。

Claims (8)

  1. L−HEVC(Layered High Efficiency Video Coding)に基づいてタイル符号化されたビデオデータに基づいて1又は複数のメディアファイルを生成する処理装置であって、
    前記ビデオデータのうち、少なくとも1つのタイル領域のビデオデータを有するタイルトラックを生成するトラック生成手段と、
    前記トラック生成手段により生成されるタイルトラックに関するメタデータを生成するメタデータ生成手段であって、前記タイルトラックがL−HEVCタイルトラックであることを示し、且つ当該タイルトラックのデータのデコードに必要なコンフィグレーション情報を含まないことを示す識別情報がISOBMFF(ISO/IEC14496−12)において規定されるサンプルディスクリプションボックスに記述されたメタデータを生成するメタデータ生成手段と、
    前記トラック生成手段により生成されたタイルトラックと、前記メタデータ生成手段により生成されたメタデータとに基づく1又は複数のメディアファイルを生成するファイル生成手段と、を有することを特徴とする処理装置。
  2. 1以上のフレームがタイル符号化されたビデオデータであって、且つ、ベースレイヤとエンハンスメントレイヤを含む複数のレイヤに符号化されたビデオデータに基づいて1又は複数のメディアファイルを生成する処理装置であって、
    前記1以上のフレームが有する複数のタイル領域のうち、少なくとも1つのタイル領域のビデオデータを有するタイルトラックを生成するトラック生成手段と、
    前記トラック生成手段により生成されるタイルトラックに関するメタデータを生成するメタデータ生成手段であって、前記タイルトラックが前記複数のレイヤに基づくレイヤ符号化がなされたタイルトラックであることを示し、且つ当該タイルトラックのデータのデコードに必要なコンフィグレーション情報を含まないことを示す識別情報がISOBMFF(ISO/IEC14496−12)において規定されるサンプルディスクリプションボックスに記述されたメタデータを生成するメタデータ生成手段と、
    前記トラック生成手段により生成されたタイルトラックと、前記メタデータ生成手段により生成されたメタデータとに基づく1又は複数のメディアファイルを生成するファイル生成手段と、を有することを特徴とする処理装置。
  3. 前記ビデオデータは、ベースレイヤとエンハンスメントレイヤとを含む複数のレイヤに符号化されることを特徴とする請求項1に記載の処理装置。
  4. 前記サンプルディスクリプションボックスは、ISOBMFF(ISO/IEC14496−12)において規定されるサンプルテーブルボックスが有するボックスであることを特徴とする請求項1乃至3のうち、何れか1項に記載の処理装置。
  5. 前記識別情報は、4文字の符号“lht1”であることを特徴とする請求項1乃至4のうち、何れか1項に記載の処理装置。
  6. L−HEVC(Layered High Efficiency Video Coding)に基づいてタイル符号化されたビデオデータに基づいて1又は複数のメディアファイルを生成するための処理方法であって、
    前記ビデオデータのうち、少なくとも1つのタイル領域のビデオデータを有するタイルトラックを、トラック生成手段において生成するトラック生成工程と、
    前記トラック生成工程により生成されるタイルトラックに関するメタデータを、メタデータ生成手段において生成するメタデータ生成工程であって、前記タイルトラックがL−HEVCタイルトラックであることを示し、且つ当該タイルトラックのデータのデコードに必要なコンフィグレーション情報を含まないことを示す識別情報がISOBMFF(ISO/IEC14496−12)において規定されるサンプルディスクリプションボックスに記述されたメタデータを生成するメタデータ生成工程と、
    前記トラック生成工程により生成されたタイルトラックと、前記メタデータ生成工程により生成されたメタデータとに基づく1又は複数のメディアファイルを、ファイル生成手段において生成するファイル生成工程と、を有することを特徴とする処理方法。
  7. 1以上のフレームがタイル符号化されたビデオデータであって、且つ、ベースレイヤとエンハンスメントレイヤを含む複数のレイヤに符号化されたビデオデータに基づいて1又は複数のメディアファイルを生成するための処理方法であって、
    前記1以上のフレームが有する複数のタイル領域のうち、少なくとも1つのタイル領域のビデオデータを有するタイルトラックを、トラック生成手段において生成するトラック生成工程と、
    前記トラック生成工程により生成されるタイルトラックに関するメタデータを、メタデータ生成手段において生成するメタデータ生成工程であって、前記タイルトラックが前記複数のレイヤに基づくレイヤ符号化がなされたタイルトラックであることを示し、且つ当該タイルトラックのデータのデコードに必要なコンフィグレーション情報を含まないことを示す識別情報がISOBMFF(ISO/IEC14496−12)において規定されるサンプルディスクリプションボックスに記述されたメタデータを生成するメタデータ生成工程と、
    前記トラック生成工程により生成されたタイルトラックと、前記メタデータ生成工程により生成されたメタデータとに基づく1又は複数のメディアファイルを、ファイル生成手段において生成するファイル生成工程と、を有することを特徴とする処理方法。
  8. 前記ビデオデータは、ベースレイヤとエンハンスメントレイヤとを含む複数のレイヤに符号化されることを特徴とする請求項6に記載の処理方法。
JP2016575041A 2014-07-01 2015-07-01 処理装置及び処理方法 Active JP6746507B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1411731.1 2014-07-01
GB1411731.1A GB2527786B (en) 2014-07-01 2014-07-01 Method, device, and computer program for encapsulating HEVC layered media data
PCT/EP2015/065047 WO2016001337A1 (en) 2014-07-01 2015-07-01 Method, device, and computer program for encapsulating hevc layered media data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019185544A Division JP6768907B2 (ja) 2014-07-01 2019-10-08 メディアファイルの処理装置及び処理方法

Publications (3)

Publication Number Publication Date
JP2017525249A JP2017525249A (ja) 2017-08-31
JP2017525249A5 JP2017525249A5 (ja) 2018-08-09
JP6746507B2 true JP6746507B2 (ja) 2020-08-26

Family

ID=51410464

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016575041A Active JP6746507B2 (ja) 2014-07-01 2015-07-01 処理装置及び処理方法
JP2019185544A Active JP6768907B2 (ja) 2014-07-01 2019-10-08 メディアファイルの処理装置及び処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019185544A Active JP6768907B2 (ja) 2014-07-01 2019-10-08 メディアファイルの処理装置及び処理方法

Country Status (7)

Country Link
US (1) US11005904B2 (ja)
EP (1) EP3164994B1 (ja)
JP (2) JP6746507B2 (ja)
KR (1) KR101887799B1 (ja)
CN (1) CN106664446B (ja)
GB (1) GB2527786B (ja)
WO (1) WO2016001337A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10148969B2 (en) 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
GB2539462B (en) * 2015-06-16 2019-04-03 Canon Kk Obtaining media data and metadata from encapsulated bit-streams wherein operating point descriptors can be dynamically set
WO2017188750A1 (ko) * 2016-04-27 2017-11-02 엘지전자 주식회사 고품질 미디어 제공을 위한 방송 신호 송수신 방법 및 장치
US10652631B2 (en) * 2016-05-24 2020-05-12 Qualcomm Incorporated Sample entries and random access
CN110506421B (zh) * 2017-03-20 2023-11-07 夏普株式会社 用于以媒体应用程序格式发信号通知可伸缩视频的系统和方法
GB2560921B (en) 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
WO2019008174A1 (en) 2017-07-06 2019-01-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPTS FOR CONTINUOUSLY DISPLAYING VIDEOS CUT INTO PARTS
GB2567625B (en) 2017-10-12 2020-07-15 Canon Kk Method, device, and computer program for generating timed media data
US10944977B2 (en) * 2018-04-03 2021-03-09 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding overlay compositions
GB2575074B (en) * 2018-06-27 2022-09-28 Canon Kk Encapsulating video content with an indication of whether a group of tracks collectively represents a full frame or a part of a frame
ES2962871T3 (es) * 2018-09-18 2024-03-21 Nokia Technologies Oy Método y aparato para señalización de restricción de perfil no binario para codificación de video
CN110971906B (zh) * 2018-09-29 2021-11-30 上海交通大学 层级化的点云码流封装方法和系统
US11581022B2 (en) * 2019-05-29 2023-02-14 Nokia Technologies Oy Method and apparatus for storage and signaling of compressed point clouds
WO2021034238A1 (en) * 2019-08-19 2021-02-25 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for handling media data streams
JP2023504097A (ja) * 2019-11-29 2023-02-01 中興通訊股▲ふん▼有限公司 マルチビュービデオ処理方法および装置
GB2590435B (en) * 2019-12-17 2023-12-20 Canon Kk Method, device, and computer program for improving encapsulation of media content
GB2605965A (en) * 2021-04-16 2022-10-26 Canon Kk Methods and devices for improving storage and transmission of uncompressed data while using a standard format
CN115474053A (zh) * 2021-06-11 2022-12-13 腾讯科技(深圳)有限公司 一种媒体数据的处理方法及相关设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100524770B1 (ko) 2003-09-17 2005-10-31 엘지전자 주식회사 주문형 비디오 서비스 장치 및 방법
EP2041976A4 (en) 2006-07-12 2012-06-20 Nokia Corp SIGNALING OF SCALABILITY INFORMATION FROM THE INTERESTING REGION IN MEDIA FILES
EP2055107B1 (en) 2006-08-24 2013-05-15 Nokia Corporation Hint of tracks relationships for multi-stream media files in multiple description coding MDC.
EP2145270B1 (en) 2007-05-04 2016-08-17 Nokia Technologies Oy Media stream recording into a reception hint track of a multimedia container file
CN103098484A (zh) 2010-06-14 2013-05-08 汤姆森许可贸易公司 用于封装编码多组件视频的方法和装置
JP5905957B2 (ja) 2011-06-08 2016-04-20 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ 空間的にセグメント化されたコンテンツの配信
US20130170561A1 (en) 2011-07-05 2013-07-04 Nokia Corporation Method and apparatus for video coding and decoding
JP5838925B2 (ja) * 2012-06-29 2016-01-06 ブラザー工業株式会社 通信システム、端末装置、動画の表示方法、及びプログラム
EP3657806A1 (en) * 2012-10-12 2020-05-27 Canon Kabushiki Kaisha Method and corresponding device for streaming video data
US9648348B2 (en) * 2013-10-23 2017-05-09 Qualcomm Incorporated Multi-layer video file format designs
US10205949B2 (en) * 2014-05-21 2019-02-12 Arris Enterprises Llc Signaling for addition or removal of layers in scalable video
KR101953679B1 (ko) * 2014-06-27 2019-03-04 코닌클리즈케 케이피엔 엔.브이. Hevc-타일드 비디오 스트림을 기초로 한 관심영역 결정
CN106464941B (zh) 2014-06-30 2019-10-29 索尼公司 信息处理装置和方法

Also Published As

Publication number Publication date
KR20170012396A (ko) 2017-02-02
GB2527786B (en) 2016-10-26
KR101887799B1 (ko) 2018-08-10
CN106664446A (zh) 2017-05-10
WO2016001337A1 (en) 2016-01-07
US11005904B2 (en) 2021-05-11
EP3164994A1 (en) 2017-05-10
CN106664446B (zh) 2019-09-10
GB2527786A (en) 2016-01-06
US20170171282A1 (en) 2017-06-15
GB201411731D0 (en) 2014-08-13
JP2020022187A (ja) 2020-02-06
JP6768907B2 (ja) 2020-10-14
EP3164994B1 (en) 2019-03-13
JP2017525249A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
JP6768907B2 (ja) メディアファイルの処理装置及び処理方法
US11128898B2 (en) Method, device, and computer program for encapsulating scalable partitioned timed media data
JP6743059B2 (ja) カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設置可能な方法、デバイス及びコンピュータプログラム
US11412017B2 (en) Method, device, and computer program for encoding inter-layer dependencies in encapsulating multi-layer partitioned timed media data
EP3025505B1 (en) Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
EP3025508A1 (en) Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature
GB2535453A (en) Method, device, and computer program for encapsulating hevc layered media data
CN117296317A (zh) 媒体文件处理方法及其设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191008

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191017

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20191213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200805

R151 Written notification of patent or utility model registration

Ref document number: 6746507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151