JP2018524877A - カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設置可能な方法、デバイス及びコンピュータプログラム - Google Patents

カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設置可能な方法、デバイス及びコンピュータプログラム Download PDF

Info

Publication number
JP2018524877A
JP2018524877A JP2017564383A JP2017564383A JP2018524877A JP 2018524877 A JP2018524877 A JP 2018524877A JP 2017564383 A JP2017564383 A JP 2017564383A JP 2017564383 A JP2017564383 A JP 2017564383A JP 2018524877 A JP2018524877 A JP 2018524877A
Authority
JP
Japan
Prior art keywords
track
descriptor
layer
metadata
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017564383A
Other languages
English (en)
Other versions
JP6743059B2 (ja
JP2018524877A5 (ja
Inventor
フランク ドゥヌアル
フランク ドゥヌアル
フレデリック マゼ
フレデリック マゼ
ナエル ウエドラオゴ
ナエル ウエドラオゴ
フェーブル ジャン ル
フェーブル ジャン ル
シリル コンコラト
シリル コンコラト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2018524877A publication Critical patent/JP2018524877A/ja
Publication of JP2018524877A5 publication Critical patent/JP2018524877A5/ja
Application granted granted Critical
Publication of JP6743059B2 publication Critical patent/JP6743059B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/34Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本発明は、ビットストリームのカプセル化から生じるカプセル化ビットストリームからメディアデータ及びメタデータを取得する方法に関し、ビットストリームの各々のメディアデータはレイヤに編成され、各レイヤはタイムドサンプル又はサブサンプルを備える。メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためにデータ構造体が取得される。各ビットストリームに対して少なくとも1つの動作基点ディスクリプタが取得され、少なくとも1つの動作基点ディスクリプタは、データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルを独立して復号可能とする記述的情報に関するメタデータを提供する。タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタは、グループに属するタイムドサンプルの記述的情報を定義する。
【選択図】 図7

Description

本発明は、概略として、特に、圧縮ビデオストリームにおいて対象となるユーザ選択領域のHTTP(HyperText Transfer Protocol)及びRTP(Real−time Transport Protocol)ストリーミングに関して、メディアデータの交換、管理、編集及び表示を容易化する柔軟かつ拡張可能なフォーマットを提供し、ストリーム配信を改善する、MPEG標準化機構によって規定されたベースメディアファイルフォーマットなどによるタイムドメディアデータのカプセル化の分野に関する。より具体的には、本発明は、カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設定可能な方法、デバイス及びコンピュータプログラムに関する。
ビデオコード化は、動画が送信又は記憶可能となる一連の動画を小さなデジタル化ビットストリームに変換する態様である。符号化デバイスは、ビットストリームを再構成して表示及び視聴するのに利用可能な関連の符号化デバイスとともに、動画をコード化するのに使用される。一般的な目的は、元のビデオ情報よりも小さなサイズとなるようにビットストリームを形成することである。これによって、有利なことに、ビットストリームコードを送信又は記憶するのに転送ネットワーク又は記憶デバイスで必要となる容量が減少する。送信されるために、ビデオビットストリームは一般に、通常はヘッダ及びチェックビットを付加する送信プロトコルに従ってカプセル化される。ビデオストリームメカニズムは、インターネットネットワーク及びモバイルネットワーク上で広範に配備及び使用されて、例えば、3GPPのアダプティブHTTPストリーミング(AHS)、マイクロソフトのスムースストリーミング又はアップルのHTTPライブストリーミングなどのHTTP(HyperText Transfer Protocol)を介したオーディオ/ビデオメディアをストリーム配信する。
最近では、Moving Picture Experts Group(MPEG)が、HTTPを介した既存のストリーミング手段を統一して代替する新たな標準を公表した。この新たな標準を「Dynamic adaptive streaming over HTTP(DASH)」といい、知能(すなわち、ストリーミングするメディアデータの選択並びにユーザの選択、ネットワーク条件及びクライアントの能力に対するビットストリームの動的な適応)が専らクライアントの選択及びデバイスに依拠する標準ウェブサーバに基づくHTTPを介したメディアストリーミングモデルに対応するものである。
このモデルでは、メディアの表示は、データセグメントにおいて、及び表示されるタイムドメディアデータの編成を表す「Media Presentation Description(MPD)」といわれるマニフェストにおいて編成される。特に、マニフェストは、ダウンロードデータセグメントについて使用されるリソース識別子を備え、有効なメディア表示を得るようにそれらのデータセグメントを選択及び合成するコンテキストを提供する。リソース識別子は、通常はHTTP−URL(Uniform Resource Locator)であり、おそらくはバイト範囲と組み合わせられる。マニフェストに基づいて、クライアントデバイスは、どのメディアセグメントがメディアデータサーバからダウンロードされるべきかを、その必要性、その能力(例えば、対応しているコーデック、表示サイズ、フレームレート、品質レベルなど)に従って、そしてネットワーク条件(例えば、利用可能な帯域幅)に応じて随時判定する。
なお、HTTPに対する代替プロトコル、例えば、Real−time Transport Protocol(RTP)も存在する。
さらに、映像解像度も増加し続けており、標準精細(SD)から高精細(HD)まで、そして超高精細(例えば、4K2K又は8K4K、すなわち、4096×2400画素又は7680×4320画素の画像からなる映像)まで進んでいる。しかし、特に、映像が超高精細のものであって全てのユーザがそのような映像を利用する必要があるわけではない場合、全ての受信及びビデオ復号デバイスが、最大解像度で映像にアクセスするリソース(例えば、ネットワークアクセス帯域幅又はCPU(中央処理装置))を有しているわけではない。そのような背景では、ビデオビットストリームの一部分のみをアクセスして抽出する能力を与えること、すなわち、例えば、あるスケーラビリティレイヤ、ビューワ、又は全ビデオシーケンスの空間的一部分のみにアクセスすることが特に有利となる。
映像に属するスケーラビリティレイヤ、ビュー、又は映像に属するフレームの空間的一部分にアクセスする既知のメカニズムは、ビデオの各フレームを、おそらくはコード化依存性とともにレイヤの構成として編成することに帰着する。HEVC(High Efficiency Video Coding)などのビデオフォーマットによっては、マルチビュー及び/又はタイル符号化に対して、時間的SNR(品質)及び空間スケーラビリティレイヤへのサポートを提供する。例えば、ユーザ定義ROIは、1又は幾つかの隣接タイルをカバーし得る。マルチビューの場合、ユーザは、シングルビューよりもステレオを好み得る。スケーラビリティの場合、適切なレイヤが、例えばスクリーンサイズ又は処理電力の観点でユーザのデバイスに依存して選択可能となる。
ビデオビットストリームの関連部分(すなわち、サブビットストリーム)のみの選択、抽出及び送信を可能とするために、ビデオビットストリームの編成(より一般的には、ビデオだけでなく、オーディオ、メタデータ、サブタイトルなどを備え得るメディアデータの編成)がメディアレイヤに公開されなくてはならない。この編成は、動作点のリストとして表現される。
動作点は、動作基点ともいわれ、レイヤードHEVCビットストリームの一部分すなわちビットストリームサブセットであって、この特定のビットストリームサブセットを復号するのに必要とされる全てのデータからなるビットストリーム部分を抽出することによって取得可能であり、他の動作点とは無関係に復号可能なものを表す。結果として、動作点は、ゼロ以上かつ選択される最大値以下で変動する値の範囲の時間識別子に対応付けられた出力レイヤのセットとなる。説明の目的のため、30Hz及び60Hzのフレームレートに対応する2つの時間識別子の値(0及び1)を図5a及び5bに示す。
図5a及び5bからなる図5は、非出力レイヤを伴うレイヤ構成の例を示す。
より正確には、図5aは、ビデオシーケンスの幾つかの表示の間の関係の例を示す。これらの表示は、異なる時間解像度(すなわち、30Hz及び60Hzのフレームレート)を有する表示からなり、時間解像度の各々について、表示は異なるビュー(すなわち、左(left)、右(right)及び共通(common))からなる。
図示するように、共通ビューは、左右のビューから直接導出可能であり、30Hzのフレームレートの共通ビューは60Hzのフレームレートの共通ビューから直接導出可能である。
表示はまた、時間解像度の各々に応じてフルビューのスケーラブルでない表示を備える。
図5bに示すように、図5aに示す表示は、3個の可能なビュー(すなわち、左、右及び共通)に対応する3層のレイヤに従って、及び2つのフレームレート(すなわち、30Hz及び60Hz)に従って符号化可能である。
したがって、HTTPプロトコルに従うストリーミングビデオシーケンス又はユーザ選択データについて、選択データへのアクセスを可能とする態様での符号化ビデオビットストリームのタイムドメディアデータのカプセル化、並びにユーザ選択データの再構成、復号及び表示を可能とする最小量のデータを送信するそれらのコード化依存性を提供することが重要である。
適応HTTPストリーミングの典型的使用は、ビットストリームスプライシングである。
図6は図6a、6b及び6cからなり、ビットストリームスプライシングのアプリケーションの例を示す。
図6aに示すように、ビットストリームスプライシングは、低解像度ビットストリーム(SD)から高解像度ビットストリーム(HD)への切換で起こり得る。図6bに示す他の例によると、ビットストリームスプライシングは、ライブビットストリーム(live)から再生のためのオンデマンドビットストリーム(replay)への切換で起こり得る。
そのような場合では、スプライスされたビットストリーム603は、それぞれの初期化セグメント(すなわち、国際標準化機構ベースメディアファイルフォーマットによるカプセル化される場合の「moov」及び「trak」ボックス)に記載される編成を有する601及び602で示す2つの交互のビットストリームの組合せから生じる。
それによって2つのストリーム601及び602が異なる動作点を有する場合、スプライスされたビットストリーム603は、2つの異なる動作点リストの連結を含むべきである。これは、例えば、スプライスされたHEVCビットストリームを異なるVPS(Video Parameter Set)とともに記憶する場合に起こり得る。
一方で、L−HEVCの現行のカプセル化フォーマットによると、2つの異なる動作点リストの連結をスプライスされたビットストリームに動的に関連付けることはできない。同様の制限が、時間とともに変化するレイヤ編成、スケーラビリティタイプ又はプロファイル、ティア又はレベル(実際には動作点の記述における任意のパラメータ)を有するビデオビットストリームで存在し、記述的メタデータ(例えば「trak」ファイルフォーマットボックスの階層)は動的には更新できない。
例えば、長期断片化MP4ファイルをレイヤ構成の変更とともにストリーミングする場合にそのような問題に直面する。そのような場合、コンテンツ生成器が、2つのクラスのデバイス(例えば、SD、HD)に対して2つのスケーラブルなレイヤを定義する。ある期間後に、新たなクラスのデバイス(例えば、UHD)が利用可能となった場合、2つのトラックを再利用し、追加のレイヤを付加することを可能とすべきである。動画断片が使用される構成では、断片を除去する動作は、情報の喪失をもたらすべきではない。ストリーミング中にレイヤ構成が変化する場合、これが捕捉されるべきである。
他の例が、同じプロファイル制約に従うファイルの連結に向けられる。そのような連結は、異なる戦略に従うことになる:
−両ファイルからのベースレイヤを含むトラックにおけるサンプルが単に連結され、異なるサンプル入力において、又はより大きなhvcC NALUアレイにおいて、複数のVPS/SPS/PPSをもたらし得る、
−非ベースレイヤからのサンプルが、トラックを1つずつ検査し、もしあれば、同様の制約でレイヤに対応するトラックからのサンプルにそれらを連結することによって連結され得る、
−第2のファイルの非ベースレイヤのトラックからのサンプルが、新たなセットのトラックに付加され、連結されるベーストラックとの同期を保持するように時間的にシフトされ得る。後者の手法は複雑であり、好適でないことがある。そのようなシナリオにおいて、トラックレイヤ構成の変化を可能とすることが有用となり得る。
これらの制限は、動作点についての現行のディスクリプタがmp4ファイル全体に対して単一のインスタンスとして宣言されることから生じる。
符号化ビデオビットストリームが、完全なフレームに対応する連続する時間的サンプルのセットとして一般に構成されるNAL(ネットワーク抽象化レイヤ)ユニットに編成され、時間的サンプルが復号順序の関数として編成されていることを思い出すべきである。ファイルフォーマットは、そのような符号化ビットストリームをカプセル化及び記述するのに使用される。
説明の目的のため、国際標準化機構ベースメディアファイルフォーマット(ISO BMFF)は、ネットワークを介して又は他のビットストリーム配信メカニズムを介したローカルな記憶又は伝送のために符号化タイムドメディアデータビットストリームを記述する公知の柔軟かつ拡張可能なフォーマットであるものとする。このファイルフォーマットは、オブジェクト指向である。これは、順次又は階層的に編成され、タイミング及び構造パラメータなどの符号化タイムドメディアデータビットストリームのパラメータを定義するボックスというブロックを構築することで構成される。このファイルフォーマットによって、タイムドメディアデータビットストリームは、track boxという他のデータ構造で定義されるmdat boxというデータ構造体に含まれる。トラックは、単一のタイムスタンプに対応付けられた全てのデータ、すなわち、単一のフレームに対応付けられた全てのデータ又は同じタイムスタンプを共有する幾つかのフレームに対応付けられた全てのデータにサンプルが対応する場合のタイムドシーケンスのサンプルを表す。
マルチレイヤHEVCフォーマットの映像のようなスケーラブルな映像について、レイヤ化されたメディアデータ編成は、各々のトラックが特定レベルのスケーラビリティで映像を表す、複数の従属トラックを用いることによって効果的に表され得る。トラック間でのデータの重複を回避するため、エクストラクタが使用されてもよい。標準的ファイルフォーマットによると、エクストラクタは、他のビットストリームからの他のネットワーク抽象化レイヤ(NAL)ユニットの効率的な抽出を可能とするビットストリームに直接含まれる特定種のネットワーク抽象化レイヤ(NAL)データ構造体である。例えば、エンハンスメントレイヤトラックのビットストリームは、ベースレイヤトラックからNALユニットを参照するエクストラクタを備えていてもよい。その後、そのようなエンハンスメントレイヤトラックがファイルフォーマットから抽出されると、エクストラクタは、それらが参照しているデータによって置換されなければならない。
サブ情報を記述し、このサブ情報へのアクセスを容易化し、又はビットストリームを効率的に複数のセグメントに編成するこれらのメカニズムを組み込んだISO BMFFを用いる場合に、幾つかの戦略が採用され得る。
例えば、表題「Implications of the ISO Base Media File Format on Adaptive HTTP Streaming of H.264/SVC」、Kofler他著の記事は、ISO BMFFの可能性と制限を考慮するHTTPストリーミングについてのスケーラブルなビデオビットストリーム(H264/SVC)を編成するための3つの異なる戦略を示す。
a)(トラックの定義を含む)全てのISO BMFFメタデータを含むファイルタイプボックス「ftyp」及び動画ボックス「moov」を備える特定のファイルヘッダを含む単一のファイルであって、単一のファイルは全符号化ビットストリームを含む単一のmdatボックスも備える。この編成は、ローカルストレージには適するが、クライアントが全ビットストリームの一部のみを必要とするHTTPストリーミングには適合されない。そのような編成は、好ましくは、ビットストリームが複数のセグメントに断片化される場合に初期化ファイルとして使用されるファイルに使用される。この初期化ファイルには、編成がb)において規定される他の単一のファイルが続き、この初期化ファイルは全てのセグメントについての情報を収集する。
b)断片化に適した複数のmoof/mdatボックスを含む単一のファイルであって、moof/mdatの各対がビットストリームの複数のセグメントの1つに対する。このフォーマットによってプログレッシブダウンロードが可能となる。より詳細には、moofボックスは、断片レベルにおいてmoovボックスと等価である。この手法によると、断片化メディアファイルを用いて、スケーラブルなビットストリームが、異なるスケーラビリティレベルで映像を表す複数の従属トラックに分割可能となる。エクストラクタは、他のトラックからNALユニットを参照するのに使用される特定のNALユニットである。タイル毎のトラックが使用される場合、全てのアドレス指定可能なトラックが予め準備されなければならず、トラックは独立して選択されることはできない。幾つかのタイルが表示されるべき場合、幾つかのビットストリームが復号されなければならず、ベースレイヤは何回か復号される。c)において記載される最後の編成は、独立して選択された各トラックに特に適する。
c)複数のセグメントファイルであって、各ファイルがそれ自体のURLによってアクセス可能であり、独立してダウンロード可能である。各ファイルは1つの断片に関係し、複数のセグメントファイルは好ましくは専用初期化ファイルに先行される。各セグメントは通常、ファイルヘッダの一種として作用するセグメントタイプボックス(styp)、選択的セグメントインデックスボックス(sidx)及び1又は複数の断片からなる。ここでも各断片は、moof及びmdatボックスからなる。この手法によると、断片化されたメディアファイルを用いて、各トラックが、あるレベルのスケーラビリティに関係する対応のビットストリームとともにそれ自体のセグメントに格納される。必要であれば、必要なビットストリームを従属トラックから参照するのにエクストラクタが使用される。そのようなコード化手法は、独立してトラックをストリーミングするのに特に適する。これはDASH標準に正しく適合されるが、幾つかのビットストリームが復号されることによってトラック毎に1つのデコーダが必要となるので、タイルストリーミングには適さない。さらに、2以上のタイルを選択する場合には、ベースレイヤのビットストリームが潜在的に重複する。
上記ボックスの定義、及び「Draft text of ISO/IEC DIS 14496−15 第4版、ISO/IEC JTC1/SC29/WG11、WG15182、2015年4月、スイス、ジェノバ」(以下「w15182」という)として知られる文書を参照して構成されるそれらのボックスに含まれるサブボックスの定義は、ISO BMFFメタデータの複雑かつ非効率な編成をもたらすことになる。
さらに、タイルトラックは、LayeredHEVCに対して適切に定義されておらず、その使用を制限する。
これらの問題を解決するために、そして特に、動作点についてディスクリプタを動的に設定することを可能とするために、マルチレイヤビデオストリームについてのLayeredHEVCにおいて空間タイル、スケーラブルレイヤ及びマルチビューを取り扱うのに特に適した効率的データ編成及びトラック記述手法が提供される。
これらの制約に直面して、発明者は、サーバにおけるマルチレイヤのタイル化されたタイムドメディアデータをカプセル化するための、及び複数のメディアセグメントファイルにおいてカプセル化されたマルチレイヤタイル化タイムドメディアデータからタイムドメディアデータビットストリームを供給するための方法及びデバイスを提供する。
本発明の広い意味での課題は、上述の従来技術の欠点を改善することである。
本発明の第1の観点によると、1以上のビットストリームのカプセル化から生じるカプセル化されたビットストリームからメディアデータ及びメタデータを取得する方法であって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記方法が、
前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を取得するステップ、及び
前記1以上のビットストリームの各々に対して少なくとも1つの動作基点ディスクリプタを取得するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップを備える方法が提供される。
したがって、本発明の方法は、特に標準化機構のベースメディアファイルフォーマットに従ってメディアデータを送信する場合に、動作基点ディスクリプタを動的に設定することにより、サーバとクライアントデバイスの間で伝送されるデータ量を最適化することを可能とする。
一実施形態では、前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている。
一実施形態では、前記カプセル化ビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて受信される前記少なくとも1つの動作基点ディスクリプタを備える。
一実施形態では、前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する。
一実施形態では、前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる。
一実施形態では、前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである。
一実施形態では、前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える。
一実施形態では、少なくとも1つのレイヤディスクリプタを取得するステップをさらに備え、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する。
一実施形態では、デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される。
一実施形態では、デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される。
一実施形態では、メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである。
一実施形態では、前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される。
本発明の第2の観点によると、1以上のビットストリームのカプセル化のためにカプセル化されるビットストリームにメディアデータ及びメタデータを提供する方法であって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記方法が、
前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を提供するステップ、及び
前記1以上のビットストリームの各々に対する少なくとも1つの動作基点ディスクリプタを提供するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップを備える方法が提供される。
したがって、本発明の方法は、特に標準化機構のベースメディアファイルフォーマットに従ってメディアデータを送信する場合に、動作基点ディスクリプタを動的に設定することにより、サーバとクライアントデバイスの間で伝送されるデータ量を最適化することを可能とする。
一実施形態では、前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている。
一実施形態では、前記カプセル化されるビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて送信される前記少なくとも1つの動作基点ディスクリプタを備える。
一実施形態では、前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する。
一実施形態では、前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる。
一実施形態では、前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである。
一実施形態では、前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える。
一実施形態では、前記方法が、少なくとも1つのレイヤディスクリプタを提供するステップをさらに備え、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する。
一実施形態では、デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される。
一実施形態では、デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される。
一実施形態では、メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである。
一実施形態では、前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される。
本発明の第3の観点によると、1以上のビットストリームのカプセル化から生じるカプセル化されたビットストリームからメディアデータ及びメタデータを取得するデバイスであって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記デバイスが、
前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を取得するステップ、及び
前記1以上のビットストリームの各々に対して少なくとも1つの動作基点ディスクリプタを取得するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップを実行するために構成されたプロセッサを備える、デバイスが提供される。
したがって、本発明のデバイスは、特に標準化機構のベースメディアファイルフォーマットに従ってメディアデータを送信する場合に、動作基点ディスクリプタを動的に設定することにより、サーバとクライアントデバイスの間で伝送されるデータ量を最適化することを可能とする。
一実施形態では、前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている。
一実施形態では、前記カプセル化ビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて受信される前記少なくとも1つの動作基点ディスクリプタを備える。
一実施形態では、前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する。
一実施形態では、前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる。
一実施形態では、前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである。
一実施形態では、前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える。
一実施形態では、前記プロセッサがさらに、少なくとも1つのレイヤディスクリプタを取得するステップを実行するように構成され、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する。
一実施形態では、デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される。
一実施形態では、デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される。
一実施形態では、メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである。
一実施形態では、前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される。
本発明の第4の観点によると、1以上のビットストリームのカプセル化のためにカプセル化されるビットストリームにメディアデータ及びメタデータを提供するデバイスであって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記デバイスが、
前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を提供するステップ、及び
前記1以上のビットストリームの各々に対する少なくとも1つの動作基点ディスクリプタを提供するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップを実行するために構成されたプロセッサ備えるデバイスが提供される。
したがって、本発明のデバイスは、特に標準化機構のベースメディアファイルフォーマットに従ってメディアデータを送信する場合に、動作基点ディスクリプタを動的に設定することにより、サーバとクライアントデバイスの間で伝送されるデータ量を最適化することを可能とする。
一実施形態では、前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている。
一実施形態では、前記カプセル化されるビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて送信される前記少なくとも1つの動作基点ディスクリプタを備える。
一実施形態では、前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する。
一実施形態では、前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる。
一実施形態では、前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである。
一実施形態では、前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える。
一実施形態では、前記プロセッサがさらに、少なくとも1つのレイヤディスクリプタを提供するステップを実行するように構成され、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する。
一実施形態では、デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される。
一実施形態では、デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される。
一実施形態では、メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである。
一実施形態では、前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される。
本発明はソフトウェアで実施され得るので、本発明はプログラム可能な装置への任意の適切な搬送媒体上での提供のためのコンピュータ可読コードとして具現され得る。有体搬送媒体は、フロッピーディスク、CD−ROM、ハードディスクドライブ、磁気テープデバイス又は固体メモリデバイスなどの記憶媒体からなり得る。一時的搬送媒体は、電気信号、電子信号、光信号、音響信号、磁気信号又は電磁信号、例えば、マイクロ波又はRF信号などの信号を含み得る。
本発明の更なる効果が、図面及び詳細な説明を検討した当業者には明らかとなる。何らかの追加の効果がここに含まれることが意図されている。
ここで本発明の実施形態を、例示としてのみ、そして以下の図面を参照して説明する。
MPEG−4ファイルフォーマットによる2層のスケーラビリティレイヤをカプセル化する例を示す図である。 タイル化Layered−HEVCについての本発明によるトラックボックスを表示する実施形態を示す図である。 1以上の実施形態が実施され得るサーバ又はクライアントデバイスのブロック図である。 代替のトラック及びタイルトラック依存性シグナリングの例を示す図である。 非出力レイヤを伴うレイヤ構成の例を示す図である。 ビットストリームスプライシングのアプリケーションの例を示す図である。 本発明の実施形態による動作基点に対する特定のかつ動的に拡張可能なディスクリプタを示す図である。 標準動作基点ディスクリプタを示す図である。 レイヤ情報記述のための特定のかつ動的に拡張可能なディスクリプタを示す図である。 本発明によってカプセル化されたメディアファイルに対するクライアント端での処理を示すフローチャートである。 本発明による新たなデコーダ構成情報を示す図である。 本発明によるビデオビットストリームカプセル化のためのサーバ端での処理を示すフローチャートである。
以下の3章は、3つの異なる構成、それぞれ、ピクチャの空間編成、NALユニット、及びVisualSampleEntryという特定のディスクリプタについての公知の情報を説明するものである。これらの構成を、図1から図3で表される実施形態のより深い理解のためにここに説明する。
<ピクチャの空間編成>
映像は好ましくはスケーラブル又はマルチビューの映像であり、様々なレベルのスケーラビリティ/ビューにおいて編成される。
特定の実施形態によると、タイムドサンプル(例えば、画像)を備えるマルチレイヤタイル化タイムドメディアデータ(例えば、スケーラブル又はマルチビューのタイル化ビデオデータ)などのマルチレイヤ区画のタイムドメディアデータは、幾つかのタイムドメディアデータトラックのセット、通常はベーストラック及びタイルトラックとして伝送される。さらに特定の実施形態によると、ベーストラックは、ベースレイヤベーストラック及び少なくとも1つのエンハンスメントレイヤベーストラックを備える。追加のタイルトラックは、ベースレイヤタイルトラック及び/又はエンハンスメントレイヤタイルトラックとなり得る。各タイムドメディアデータトラックは、幾つかのタイムドサンプルの1つの空間サブサンプル(例えば、幾つかのNALユニット)を備える。各ビデオフレーム(タイムドサンプル)は、ビデオフレームの空間小部分(空間サブサンプル)に対応する独立して復号可能なタイルで構成され得る。LayeredHEVCでは、各ビデオフレームは、ビデオフレームの空間小部分(空間サブサンプル)に対応する従属的に復号可能なレイヤで構成され得る。さらに、LayeredHEVCでは、各ビデオフレームは従属的に復号可能なレイヤで構成されていてもよく、各レイヤはビデオフレームの空間小部分(空間サブサンプル)に対応する(所与のレイヤに対して)独立して復号可能なタイルで構成されていてもよい。
トラック依存性(タイル化、レイヤ間及び/又はレイヤ内レイヤ依存性)を記述するのにリストが使用される。そのようなタイムドメディアデータトラックのセットによって、マルチレイヤ空間ビデオタイルの選択、構成及び効率的なストリーミングが可能となる。各トラックは、サーバデバイスからクライアントデバイスにメディアセグメントファイルのセットとして送信され得る。初期化セグメントファイルは、メディアセグメントファイルを復号するのに必要なメタデータを送信するのに使用され得る。
本発明の実施形態は、例えば、HEVC又はLayeredHEVCとして知られる(LHVC又はマルチレイヤHEVCとしても知られる)ビデオフォーマットに適用可能である。
HEVC標準によると、画像は、タイル、スライス及びスライスセグメントに空間的に分割され得ることを注記しておく。この標準では、タイルは、横及び縦の境界(すなわち、行及び列)によって画定される画像の矩形領域に対応する。それは、整数の符号化ツリーユニット(CTU)を含む。したがって、タイルは、例えば、対象領域について位置及びサイズを定義することによって、対象領域を識別するのに効果的に使用され得る。ただし、HEVCビットストリームの構造及びネットワーク抽象化レイヤ(NAL)ユニットとしてのそのカプセル化は、タイルに関しては編成されずにスライスに基づく。
HEVC標準では、スライスはスライスセグメントのセットであり、スライスセグメントのセットの第1のスライスセグメントは独立したスライスセグメント、すなわち、ヘッダ内に格納された一般的情報が他のスライスセグメントのものを参照しないスライスセグメントである。スライスセグメントのセットの他のスライスセグメントは、もしあれば、従属スライスセグメント(すなわち、ヘッダ内に格納された一般的情報が独立したスライスセグメントのものを参照するスライスセグメント)となる。
スライスセグメントは、整数の(ラスター走査順で)連続する符号化ツリーユニットを含む。したがって、スライスセグメントは矩形のものであってもなくてもよく、そのため、対象領域を表すのに適さない。それは、スライスセグメントデータが続くスライスセグメントヘッダに対してHEVCビットストリームにおいて符号化される。独立及び従属スライスセグメントはそれらのヘッダによって異なり、従属スライスセグメントは独立スライスセグメントに依存するので、そのヘッダの情報量は独立スライスセグメントの1つよりも小さい。独立及び従属スライスセグメントの双方とも、タイルを定義するのに使用され、又はエントロピー復号同期点として使用される対応のビットストリームにおける入力点のリストを含む。
HEVC標準によると、スライスセグメントは、以下のようにまとめられることができる規則に従ってタイルにリンクされる(一方又は両方の条件が満たされなければならない):
−スライスセグメントにおける全てのCTUが、同じタイルに属する(すなわち、スライスセグメントは複数のタイルに属することはできない)、及び
−タイルにおける全てのCTUが、同じスライスセグメントに属する(すなわち、タイルは、これらのスライスセグメントのみがそのタイルに属することを条件として、幾つかのスライスセグメントに分割され得る)。
<NALユニット>
上述したように、タイルが対象領域のための適切なサポートとしてみなされる一方で、スライスセグメントは、通信ネットワークを介した搬送のためにNALユニットに実際に挿入されてアクセスユニット(すなわち、ファイルフォーマットレベルでのコード化ピクチャ又はサンプル)を形成するように統合されるエンティティである。
HEVC標準によると、NALユニットのタイプが、以下のように定義される2バイトのNALユニットヘッダにおいて符号化されることを再度注記しておく:
Figure 2018524877
スライスセグメントをコード化するのに使用されるNALユニットは、スライスセグメントアドレスシンタックス要素によるスライスセグメントにおける第1のCTUのアドレスを示すスライスセグメントヘッダを備える。そのようなスライスセグメントヘッダは、以下のように定義され得る:
Figure 2018524877
タイル化情報が、PPS(ピクチャパラメータセット)NALユニットにおいて提供される。そして、スライスセグメントとタイルの間の関係が、これらのパラメータから推定可能となる。
空間予測が(定義によって)タイル境界上でリセットされる一方で、参照フレームにおける異なるタイルからの時間独立変数をタイルが使用することを妨げるものはない。したがって、独立タイルを構築するために、予測ユニットに対する移動ベクトルが、有利なことに符号化中にタイル内部で制限されて、参照フレームにおいて共に配置されるタイルに残る。さらに、1つのタイルのみを復号する場合にエラードリフトが導入されないように、好ましくは、ループ内フィルタ(デブロッキング及びサンプル適応オフセット(SAO)フィルタ)がタイル境界上で非活性化される。なお、そのようなループ内フィルタの制御は、HEVC標準において利用可能である。それは、loop_filter_across_tiles_enabled_flagとして知られるフラグとともにスライスセグメントヘッダにおいて設定される。このフラグをゼロに明示的に設定することによって、タイル境界における画素は、隣接タイルの境界上となる画素に依存し得なくなる。移動ベクトル及びループ内フィルタに関するこれらの2つの条件が満たされる場合、タイルは「独立して復号可能なタイル」又は「独立タイル」とみなされることができる。
<VisualSampleEntryという特定のディスクリプタ>
MPEG−4 Part12標準の既存のサンプルグループ化メカニズムが、タイルをカプセル化するのに使用可能である。したがって、特定のサンプルグループの記述が、特定種の標準VisualSampleGroupEntryディスクリプタであるタイルディスクリプタとともに作成される。サンプルグループ化メカニズムは、トラックにおけるサンプルの区画を表すために使用される。それらは、2つのボックス:サンプルグループへのサンプルの割当てを記述するSampleToGroupボックス(「sbgp」)及び特定のサンプルグループ内のサンプルの共通プロパティを記述するSampleGroupDescriptionボックス(「sgpd」)の使用によるものである。特定タイプのサンプルグループ化が、タイプフィールド(「grouping_type」)を介して1つのSampleToGroupボックス及び1つのSampleGroupDescriptionボックスの組合せによって定義される。複数のサンプルグループ化の例(すなわち、SampleToGroup及びSampleGroupDescriptionボックスの対)が、様々なグループ化参照に基づいて存在し得る。
サンプルのタイル化に関する特定のグループ化参照が用いられる。この特定のグループ化のタイプは「trif」といい、タイルのプロパティを記述し、標準的VisualSampleGroupEntryから導出される。それは、TileRegionSampleGroupEntryともいい、以下のように定義される:
Figure 2018524877
この特定のタイプのグループ入力によると、パラメータgroupIDは、グループによって記述されるタイルに対する固有の識別子である。パラメータhorizontal_offset及びvertical_offsetは、ベース領域の輝度サンプルにおいて、HEVCフレームの左上画素に対する、タイルによって表される矩形領域の左上画素の横及び縦オフセットをそれぞれ設定するのに使用される。パラメータregion_width及びregion_heightは、HEVCフレームの輝度サンプルにおいて、タイルによって表される矩形領域の幅及び高さをそれぞれ設定するのに使用される。
パラメータindependent_flagは、独立タイルの定義を参照して上述したように、同じタイルに属するサンプルのみに関する復号依存性をタイルが備えることを指定する2ビットワードである。説明の目的のため、及びタイル編成を記述するためのSEIメッセージ(Supplemental Enhancement Information)の標準的使用に言及するため、tile_section_exact_match_flagとして知られるフラグが、その意味が以下のように設定され得るindependent_flagパラメータの値を設定するのに使用され得る。
−パラメータindependent_flagが0に等しい場合、このタイルと、同じフレーム又は前フレームにおける他のタイルとの間のコード化依存性は、タイル設定レベルで記述されるか、又は未知である。
−パラメータindependent_flagが1に等しい場合、このタイルと、任意の参照フレームにおける異なるgroupIDの他のタイルとの間の時間的なコード化依存性はないが、このタイルと参照フレームにおける同じgroupIDのタイルとの間のコード化依存性はあり得る。
−パラメータindependent_flagが2に等しい場合、このタイルと、同じフレームにおける他の任意のタイルとの間のコード化依存性はなく、このタイルと、参照フレームにおける任意の他のタイルとのコード化依存性もない。
independent_flag値3は予約されている。
full_pictureパラメータは、1に設定される場合、このタイル領域が実際に完全なピクチャであることを示す。そのような場合、region_width及びregion_heightはレイヤ輝度サイズに設定されるべきであり、independent_flagは1に設定されるべきである。
パラメータfiltering_disableは、1に設定される場合、このタイル領域に隣接する画素へのアクセスを必要とする、このタイル領域への後段復号フィルタリング動作がないこと、すなわち、タイル領域のビット抽出再構成は隣接タイルを復号することなく可能であることを示す。
各タイルのプロパティが、各タイルトラックについて「trif」grouping_type及びTileRegionGroupEntryで1つのSampleGroupDescriptionボックス(「sgpd」)を定義することによって、動画ヘッダ(「moov」ボックス)において一度与えられる。タイルプロパティはまた、トラック断片毎に定義され得る。そのようなmp4トラックは、ビデオタイルトラック又はタイルトラックとして定義され得る。HEVC標準によると、HEVCタイルトラックは、このトラックにおけるタイルが属するHEVCレイヤの他のNALU(通常は、種々のパラメータセットなどのセットアップ情報)を搬送するHEVCトラックに対する参照があるようなビデオタイルトラックである。参照は、タイルベーストラックを示す「sbas」4文字コードなどのMPEG−4 Part15標準又は「tbas」などのより特化したものにおいて既に定義された値を使用することができる。
1つのタイルトラックは、1つかつ唯一の(図8aに示す)TileRegionGroupEntryを有し、かつTileSetGroupEntryを有さないか、又は1つかつ唯一のTileSetGroupEntry及びこのタイルセットが作成された1以上の従属TileRegionGroupEntryを有すべきであり、TileSetGroupEntryはタイルのセットを記述するTileRegionGroupEntryの拡張である。なお、これらのグループの各々は、NALUをグループに関連付けるのに使用され得る固有識別子に割り当てられる。タイル領域及びタイルセットは、「tbas」トラック参照として示すように、ベースHEVCレイヤによって範囲付けられるgroupIDに対する同じネームスペースを共有する(すなわち、同じベースレイヤを有するいずれのトラックにおいても同じgroupIDの2つのタイル領域又はタイルセットがあってはならない)。
新たな種類のトラック、ここではタイルトラックを導入することは、ファイルフォーマット設計に準拠するために対応のサンプル入力を定義することを意味する。もちろん、各トラックは、その記述的データの中に、強制的SampleDescriptionBox(「stsd」)とともにSampleTableBox(「stbl」)を含まなければならない。サンプル記述テーブルは、使用されるコード化タイプについての詳細な情報及びトラックサンプルの復号のための初期化情報を与える。SampleDescriptionBoxに格納された情報はトラック固有であり、任意のビジュアルサンプル入力に対する抽象記述を特殊化することによってビデオトラックに対して記述される。通常は、任意のビジュアルサンプル入力は、サンプルを取り扱うのに使用する圧縮フォーマットデコーダを提供する「コード化名」パラメータを含む。このパラメータは、4文字コードとして符号化された固有識別子でなければならない。タイルトラックに挿入されるサンプルを記述するためには、これらのサンプルを特定種のVisualSampleEntryで記述しなければならない。HEVCTileSampleEntryが導入され、例えばコード「hvt1」によって表現されて、タイル能力を有するHEVCデコーダがタイルトラックのサンプルを処理する必要があることを示す。通常、サンプル記述テーブルにおいて、デコーダ構成情報を提供するのにCongirugationBoxがパラメータとして含まれる。特定の場合のHEVCタイルトラックについて、我々は、構成ボックスを複製しないが、トラックヘッダにおいてトラック参照タイプ「tbas」において示されるタイルベーストラックにおいて記述されるものを受け継ぐ。選択的に、タイル毎の平均ビットレートを記述するパラメータは、HEVCTileSampleEntry並びにプロファイル、ティア及びレベル情報において設定され得る。プロファイルは、通常はアプリケーション領域をターゲットとする構成に関して標準のサブセットを定義する。各プロファイルは、ティア及びレベルを定義する。ティアは、複雑化のレベルでネストされて見ることができ、各レベルは画素数、スライス数、タイルなどのある値に対する制限を定義する。増加する複雑さに編成されると、プロファイルにおける所与のレベルで最高のティアを扱うことができるデコーダは、同じプロファイルにおいて同等以下のレベルで、より低い任意のティアに対応することができる。このボックスにプリタイルビットレート情報を、帯域幅に基づく適応のためにストリーミングするクライアントに提供されるように格納するのが有用となり得る。mp4ボックスのほとんどについて、HEVCTileSampleEntryボックスは、アプリケーション固有のニーズに見合うように、選択的な追加のボックスで拡張され得る。
図1は、MPEG−4ファイルフォーマットに従って2層のスケーラビリティレイヤをカプセル化する例を示す。図示するように、各レイヤ(エンハンスメントレイヤEL及びベースレイヤBL)がそれ自体のトラックにおいてカプセル化され、効率的なデータアドレス化を可能とし、映像を2つのトラックとしてカプセル化することになる。
より正確には、図1は、マルチレイヤHEVCビットストリームに符号化されたメディアデータシーケンスに対する全てのISO BMFFメタデータを含み、Sサンプルを含む動画ボックス「moov」100を表す。同じ原理が、動画断片とともに又は上述のb)及びc)で定義されたセグメントとしてカプセル化されたメディアデータに当てはまる。
単一の「mdat」ボックス101は、2つのチャンクに編成された全ての符号化ビットストリームを含み、一方がベースレイヤ102に対して、一方がエンハンスメントレイヤ103に対して編成され、各チャンクがSサンプル104、105を含む。エンハンスメントレイヤELについて、チャンクEL103は、Sサンプルに対する符号化ビットストリームの対応する部分を備える。各サンプルは、1以上のNALユニットに編成される。さらに、特定のNALユニットが、ベースレイヤチャンクにおける対応の部分を参照するために、エクストラクタ106を含むための部分の開始において付加される。最後に、エンハンスメントレイヤチャンクは、所与の「x」レベル、例えば、ピクチャレベル(PPS)又はシーケンスレベル(SPS)においてパラメータを定義するための様々なパラメータセット(「xPS」107としてまとめられる)を備える。
「moov」ボックス100は2つのボックス「track」を備え、一方が(ベースレイヤのカプセル化からもたらされる)ベースレイヤトラック110に専用となり、一方が(エンハンスメントレイヤのカプセル化からもたらされる)エンハンスメントレイヤトラック130に専用となる。
各レイヤトラックは、mdatボックス101において示すそのそれぞれのSサンプルを記述する。
ベースレイヤトラック110は、順次又は階層的に編成され、かつビットストリームの符号化された上記符号化部分のパラメータを定義する幾つかのボックスを備える。明瞭化のために、図1にはボックスの選択のみを示す。
トラックヘッダ111に対する「tkhd」というボックス又はサブボックスは、時間、空間及び識別情報を備える。時間情報は、Sサンプルの作成及び修正時間(creation_time、modification_time)に関する。ここでは識別子(track_ID)は「BL」に等しく、トラックの識別を可能とする。空間情報は、ベースレイヤの表示サイズ情報(幅及び高さ)を備える。
「mdia」112とされる他のボックス又はサブボックスは、メディア情報記述ボックスであり、ビットストリームのSサンプルに関するメディアデータについての情報を備える。
「mdia」ボックスは、明瞭化のために不図示の何らかのヘッダボックス及び記述情報自体を含むメディア情報ボックス「minf」113を備える。この例では、「minf」ボックスは、3個の異なるボックス又はサブボックスに小分けされる。
第1のボックス又はサブボックス「oinf」114は、レイヤ及びサブレイヤ(例えば、時間サブレイヤ)並びに動作点を構成するそれらの編成などの動作点情報(動作点ディスクリプタともいう)、それらの間の依存性(もしあれば)、動作点に対するHEVCビットストリームのVPSに含まれるプロファイル、ティア及びレベル情報を反映するprof_tier_levelパラメータを含む。より詳細には、ボックス「oinf」は、図8の符号800で示すように、スケーラビリティ構造についての情報を与えるパラメータ(scala_mask)、レイヤ数、ここでは2(max_layer_count=2)、並びに各レイヤに対して識別子を備え、従属レイヤのリストの後にファイルにおける動作点数が続き、各々がプロファイル/ティア及びレベル情報によって及びこの動作点を構成するレイヤのセットによって記述される。
図8は、動作基点情報800における標準動作基点ディスクリプタを示す。
図示するように、メディアデータ801は、記述的メタデータ804を備えるベースレイヤトラック802において符号化されるベースレイヤを用いて、及び記述的メタデータ805も備えるエンハンスメントレイヤトラック803において符号化されるエンハンスメントレイヤを用いて表示され得る。
ベースレイヤトラックメタデータ804は、メディアデータ801に対するデータ参照を備える。エンハンスメントレイヤトラックメタデータ805は、メディアデータ801に対するデータ参照及び例えば何らかのコード化依存性をシグナリングするベースレイヤトラックに対するトラック参照を備える。
動作基点情報「oinf」800は、トラック編成、特に、例えばスケーラブルHEVC又はマルチビューHEVCのようなマルチレイヤビットストリームのサブセットを独立して復号可能な動作基点の編成に関する情報を備える。
より正確には、動作基点情報800は、ビデオビットストリームのVPS(Video Parameter Set)及びVPS拡張からのプロファイル、ティア及びレベル情報851、動作基点ディスクリプタ852、並びに855で示すVPS拡張からのレイヤ間依存性及びVPS拡張からのスケーラビリティ寸法識別子を備える。動作点ディスクリプタ852は、VPS拡張からの表示フォーマット情報853並びに854で示すVPS VUI(Video Usability Information)からのビット及びフレームレート情報を備える。
SampleTableBoxに対する「stbl」ボックス115という第2のボックス又はサブボックスは、各トラックに対するサンプルを記述する情報を含む。高効率ビデオコード化(HEVC)法に対して、情報の部分はSampleDescriptionBoxに対する「stsd」ボックス116又はサブボックスに含まれる。パラメータ「entry_count」は、1つの(Visual)SampleEntryのみが含まれることを示す。4バイトの「hvc1」は、対象のメディアデータに対応するビットストリームが、「hvcC」ボックス117以下で定義されるHEVCDecoderConfigurationRecordにおいて与えられる構成(プロファイル、ティア及びレベルを含む)の下で動作するHEVCデコーダによって準拠して使用可能であることを示す。この例では、バージョン構成は最初のものとなる(configVersion=1)。HEVCDecoderConfigurationRecordはまた、HEVCビットストリームのVideoParameterSetに含まれるプロファイル、ティア及びレベル情報を与える。
「tcon」118という第3のボックス又はサブボックスは、トラックにおいて搬送される全てのレイヤ及びサブレイヤ、ここでは1のみ(num_layers=1)を列挙する。予約パラメータは、ボックスの更なる進化のために0値を常に有する。
実施形態によると、「tcon」ボックスは任意であり、イタリック体の使用によって選択的に図1に示されている。例えば、1つのエンハンスメントレイヤのみがある場合、ファイルに「tcon」118は存在しない。
レイヤの編成に関する他の情報は、様々な種類のサンプル入力:「shv1」、「she1」、「shvC」及びスケーラブルHEVCのみに対する任意の4文字コード並びに「mhv1」、「mhe1」、「mhvC」及びマルチビューHEVCサンプル入力のみに専用の任意の4文字コードのように任意となり得る。これらのコードは、識別される単一のスケーラビリティタイプを有するトラックに対応する。2以上の単一スケーラビリティタイプ(例えば、SNR及びビュー寸法の双方)を有するトラックについて又は非出力レイヤであるトラックについて、1又は2種類のみのサンプル入力:例えば「lhv1」、「lhvC」若しくは「lhe1」又はレイヤ化されたHEVCサンプル入力を記述する任意の4文字コードが維持される。
他のトラックが、エンハンスメントレイヤ130に専用となる。それは、le track_IDがエンハンスメントレイヤに対する「EL」であることを除き、トラックヘッダボックス「tkhd」131又はベースレイヤトラックの「tkhd」ボックスと同様のサブボックスを備える。
エンハンスメントレイヤに対するトラックは、TrackReferenceBox「tref」132又はサブボックスを備える。それは、表示において、含まれるトラック、ここではエンハンスメントレイヤトラックからの参照を他のトラック、ここではベースレイヤトラックに提供する。
最初の参照「sbas」は、ベースレイヤ110のトラックがエンハンスメントトラック130に対するベーストラックであることを示す(track_ids[]=BL)。
他の参照「oref」は、ここではベースレイヤトラックに挿入される「oinf」ボックス(動作基点ディスクリプタ)の参照を可能とする。「oref」参照は、イタリック体を用いて書かれている。もちろん、以下に説明するように、「oref」トラック参照タイプは、ベースレイヤトラックに「oinf」ボックスが存在しない場合、1つの参照レイヤのみしかない場合には任意となり得る。
ベースレイヤトラックについて、エンハンスメントレイヤトラックは、「minf」ボックス134を含む「mdiaボックス」133を備える。この「minf」ボックスは、「stsd」ボックスを含む「stbl」ボックス135自体を備える。この最後のボックスは、例えば、対象のメディアデータに対応するビットストリームが、「lhvC」ボックス137において以下に定義される構成ボックスにおいて与えられる(プロファイル、ティア及びレベルを含む)構成の下で動作するL−HEVCデコーダによって準拠して使用可能となることを示す4バイト「lhe1」を備える。
この「lhvC」ボックスをより詳細に以下に示す。
最後に、ベースレイヤトラックについて、「mdia」ボックスは、選択的な「tcon」ボックス138を備える。
上記実施形態によると、予め定義された条件(例えば、それ自体のトラックにおいて1つのみのエンハンスメントレイヤ)に基づいて、「tcon」ボックスはトラックから除去されてもよい。これは、それらがそれら自体のトラックにおいてカプセル化されることを条件として複数のレイヤがある場合に相当し得る。
なお、トラック毎に1層のレイヤを有することによって幾つかの効果がもたらされる。まず、トラックはフィルタリング中に使用又は非使用のいずれかであるので、それはレイヤ化コンテンツのフィルタリングを簡素化し、トラック毎のマルチレイヤは、所望のOPによって使用されるレイヤ及びそのOPによっては使用されないレイヤの合成をトラックが含む場合にサンプル検査を課す。
さらに、そのような場合にトラックには単一のスケーラビリティ次元が存在する。これは、簡素化されたコード−ポイント(shc1/・・・)を用いてトラックのタイプを示すことを可能とし、スケーラビリティのタイプを識別するのにプロファイル及びレベルによることなく、マイムタイプの導出を簡素化する。
最後に、トラック毎に1層のレイヤを有することは、ストリームタイプが各タイプのスケーラブルコンテンツに対して定義されて単一のレイヤがトラックにおいて可能となるL−HEVCのMPEG−2 TS搬送との整合を改善することを可能とする。
しかし、トラック毎に単一のレイヤを有することには幾つかの欠点がある。
まず、非出力レイヤがそれら自体のトラックになければならないので、「stbl」/「trun」ボックスが複製されることになるためにそれらはストレージを無駄にしてしまう。しかし、そのような場合(それによって出力レイヤとはならないレイヤ)は非常に限定的であることが考慮され得る。
また、トラック毎に単一のレイヤを有することは、それによってベースレイヤが1つのトラックに格納されるとともに全てのエンハンスメントレイヤが他のトラックに格納される場合又はそれによって全てのベース/lhevcが1つのトラックに格納される場合を可能としない。そのために、トラック毎に1層のレイヤが、図11において符号1100で示すLHEVCDecoderConfigurationRecordの修正又は図9の参照により示すような動的な「tcon」ボックスの使用のいずれかをもたらす代替実施形態が検討される。
それによって「tcon」ボックスが除去される場合では、レイヤ構造情報が、以下の図11において1101で示すトラックによって搬送されるlayerIDの表示としてLHEVCDecoderConfigurationRecord(図11における符号1100)に格納される。最小及び最大時間サブレイヤは、何らかのレイヤを選択するのに「oinf」によっては使用できないので、除去される。なお、それでも(単一レイヤの)HEVCに対して定義された時間グループ化メカニズム(例えば、「tscl」グループ化タイプ)を使用することができる。
より一般的には、ベースレイヤを意味する各レイヤ及び幾つかのエンハンスメントレイヤの各1層が個別のトラックにカプセル化される場合、「tcon」ボックスは任意である。実際に、1層のレイヤが1つの動作点に対応する場合の標準的な構成について、このボックスは何ら有用な情報を提供せず、「tcon」ボックスはトラックに1層のレイヤがあることを示すだけである。従属レイヤ(すなわち、この場合のトラック)のリストは、TrackReferenceBoxを介して見ることができる。「tcon」ボックスは、1つのトラックが幾つかのレイヤのカプセル化から生じる場合にのみ有用となり得る。
好適な実施形態によると、共通の「sbas」トラック参照のトラックのセットについて、このセットの間には、「oinf」ボックスの情報を搬送する最大で1つのトラックがある。共通の「sbas」を参照するトラックの全トラックはまた、「oref」タイプトラック参照を用いることによって「oinf」ボックスの情報を搬送するトラックにリンクされ得る。
ここで2つの選択肢があり、「sbas」トラック参照によって示すように、「oref」タイプを破棄し、「oinf」情報がベーストラックにあることを強制するか(ハイブリッドコード化(AVCベーストラック+HEVCエンハンスメントトラック)の場合では、これはサンプルグループ「oinf」がAVCトラックにおいて許可されであろうことを意味する)、又は可能でない場合には、どのトラックが「oinf」情報を示すサンプルグループ及びサンプルグループ記述ボックスを含むかをシグナリングするように「oref」を維持するかである。
図11は、本発明による新たなデコーダ構成情報を示す。図示するように、レイヤ構造情報は、1101で示すトラックによって搬送されるlayerIDの表示を備えるLHEVCDecoderConfigurationRecord1100に格納される。
情報がISOBMFFにおいて時間に対して変化することを可能とすることは、専用トラック、サンプル入力又はサンプルグループを用いることによって行われる。なお、レイヤ構成が「oinf」及び選択的に「tcon」ボックスによって現在提供されている。
実施形態によると、これらのボックスは、「minf」ボックスから除外され、図7に示すVisualSampleGroupEntryクラスからデータを受け継ぐ。
図7は、本発明の実施形態による動作基点に対する特定のかつ動的に拡張可能なディスクリプタを示す。
図7に示すように、動作点情報は、抽象的VisualSampleGroupEntryを特殊化することによって新たなOperatingPointGroupEntry700を用いて取得され得る。
その実施形態によると、「oref」タイプを参照するトラックは、サンプルグループボックス703及びサンプルグループ記述ボックス702又はデフォルトのサンプルグループ化の場合にはサンプルグループ記述ボックス701のみを含むことになる。サンプルグループ記述ボックス701は、それによって、サンプルの任意のグループにマッピングされないトラックのサンプルがインデックス1(default_sample_description_index=1)を有するサンプルのグループのサンプルプロパティを受け継ぐような場合を示す。
OperationPointGroupEntry(例えば、OperationPointGroupEntry705)は、サンプルグループボックス703において定義される対応のサンプルについて、(図8を参照して説明した標準「oinf」構造体800などの)標準「oinf」構造体で与えられる定義に従って、使用される情報のセットを提供する。
グループボックス703に対するサンプルが「oinf」というgrouping_typeを介してサンプルグループ記述ボックス702に関連付けられる図7に示す例は(なお、ここでは、このコードは説明のために与えられるにすぎず、動作点グループ入力を示すのに予約された任意の4文字コードが使用され得る)、図6を参照して説明した異なる動作基点のストリームスライシングから生じる2つのサンプルグループ(符号603)を示す。
当然に、2つのサンプルグループ記述入力の一方は、1つの特定のサンプルグループ記述入力のみが定義されることになるようにデフォルトによって定義されたサンプルグループ記述となり得る。言い換えると、最初のN1個のサンプルを特定のサンプルグループ記述に関連付け、他のサンプル(すなわち、「oinf」グループにマッピングされないサンプル)をデフォルトのサンプルグループ記述に関連付けることが可能となる。
同様に、トラック内のレイヤ編成は時間とともに変化するので、動的な更新が必要とされる場合に「tcon」ボックスは同様に修正され得る(すなわち、「minf」ボックスから新たなgrouping_type及び新たなVisualSampleGroupEntryに移動する)。
図9に示すように、新たなLayerInfoGroupEntry「tcon」900はその目的に使用され得る。ここでも、説明の目的のため、4文字コード「tcon」と特定の入力の名前(TrackContentGroupEntryであってもよい)が与えられる。
LayerInfoGroupEntry「tcon」は、以下のように定義され得る:
Figure 2018524877
図9は、レイヤ情報記述に対する特定かつ動的に拡張可能なディスクリプタを示す。
ここでも、「oref」タイプを参照するトラックは、サンプルグループボックス903及びサンプルグループ記述ボックス902、又はデフォルトのサンプルグループ化の場合にはサンプルグループ記述ボックス901を含むことになる。
一定のレイヤ編成を有するトラックについて、デフォルトのサンプルグループ化が使用され得る。図6を参照して(例えば、ビットストリームスプライシング603において)説明したように、レイヤ編成は時間とともに変化する場合、サンプルグループボックスは、サンプルをそれらのトラック編成に適したレイヤにマッピングするように定義され得る。説明の目的のため、図6においてストリーム603におけるストリーム602のサンプルと合成されるストリーム601のサンプルに対応し得るグループ903において定義される最初のN1個のサンプル、及び図6においてストリーム603におけるストリーム601のサンプルと合成されるストリーム602のサンプルに対応し得る残りのN2個のサンプルが、サンプルグループ記述ボックス902における異なるレイヤ情報グループ入力と関連付けられ得る。
ここでも、2つのサンプルグループ記述入力の一方は、1つの特定のサンプルグループ記述入力のみが定義されることになるようにデフォルトによって定義されたサンプルグループ記述となり得る。言い換えると、最初のN1個のサンプルを特定のサンプルグループ記述(特定のレイヤ情報グループ入力)に関連付け、他のサンプル(すなわち、「tcon」grouping_typeのいずれのサンプルグループにもマッピングされないサンプル)をデフォルトのサンプルグループ記述(他のレイヤ情報グループ入力)に関連付けることが可能となる。
図10は、本発明による、カプセル化されたメディアファイルに対するクライアント端における処理を示す。
図示するように、クライアントデバイスは、最初のステップ(ステップ1000)において、mp4(又はISOBMFF)ファイル又はmp4(又はISOBMFF)セグメントを受信する。それはmp4パーサ(又はmp4リーダ)によって翻訳又は構文解析される(すなわち、読み出され、又は復号される)。セグメントベースの配信の場合、受信は、メディア表示の最初の初期化セグメントから最後のセグメントまでの巡回処理となる。mp4ファイルについて、全てのデータはファイル受信時に利用可能となり得る。
続くステップ1001は、mp4パーサが動作基点情報を探すことからなる。もちろん、1以上のL−HEVCトラックのサンプルからのアクセスユニットを再構成するために、それらが属するターゲット出力レイヤ及び動作基点が最初に決定される必要があり得る。これは、「moov」ボックス(又はmp4セグメントの場合における「moof」ボックス)の下で記述的メタデータを構文解析することによって行われ得る。
好適な実施形態によると、パーサは、それが遭遇する全ての「trak」ボックスからトラックの内部リストをメモリ内に構築する。これらのトラックから、少なくとも1つのトラックが「oref」トラックとして参照される場合、これはファイル(又はセグメントのリスト)において利用可能な動作基点に関する情報を含むべきものである。そして、このトラックを記述するメタデータボックス、特に、動作点情報を示すグループ化タイプを有するグループボックスに対する何らかのサンプルを探すサンプルテーブルボックスが構文解析される。
これは、例えば、好適な実施形態による「oinf」コードであればよい(例えば、サンプルグループボックス703及び図7を参照して説明したデフォルトのサンプルグループ化の場合にはサンプルグループ記述ボックス702又はサンプルグループ記述ボックス701)。これは、任意の予約された固有の(すなわち、他の目的のために使用されていない)4文字コードであればよい。
そのようなサンプルグループ(図7における符号703及び702)又は少なくともデフォルトのサンプルグループ(図7における符号701)が発見された場合(すなわち、テスト1001が真の場合)、トラック選択は動作点パラメータに基づく(ステップ1002)。
これに対して、テスト1001が偽である場合、デフォルトのトラックが選択される(ステップ1003)。これは、例えば、ファイルにおける最初のトラック又はトラックヘッダボックスにおける最低「レイヤ」値のものであればよい。あるいは、全てのトラックがユーザに提示され、プレーヤがユーザ選択を待機する。
選択されたトラックは、ステップ1004においてそのトラック参照ボックス(「tref」)から発見可能な潜在的にコード化依存性を有する単純なトラックのみであるものとする。
再生する1以上のトラックが動作点情報から選択されると(ステップ1002)、レイヤのリストが動作点情報グループ入力から識別され得る。そして、クライアントデバイスに対する次のステップは、識別されたレイヤがそこにカプセル化されるトラックを識別することである(ステップ1005)。これは、以下のいずれかを介してトラック記述ボックスを構文解析することによって行われ得る。
−w15182で記述されるレイヤードHEVCファイルフォーマットの現バージョンによるトラックコンテンツ情報ボックス「tcon」、
−サンプルグループ記述を介して図9を参照して説明した実施形態によると、「tcon」値(又はサンプル又はトラックのサンプルのグループに対するレイヤ情報を示す任意の予約された固有の4文字コード)を有するグループ化タイプを探し、又は
−ある単一レイヤに1つのトラックが対応する他の実施形態によると、トラックに対する「lhvC」ボックスにおける修正されたLHEVCDecoderConfigurationRecord(図11における符号1100)からの情報を構文解析することによって(ステップ1101)レイヤがトラックに対応するか否かを識別する。図11において1101で示す新たなlayer_idパラメータが、このサンプル入力に関連するサンプルに含まれるVCL NALユニットのnuh_layer_idの値を示す。そのような場合にはトラックはエクストラクタ及びアグリゲータだけを含むので、この値は図11において1102で示すフラグcomplete_representationが0にセットされた場合に0となるべきである。
レイヤからトラックへのマッピングがステップ1005中に実行され、パーサが(ステップ1002中に)(図8のディスクリプタ800において符号855によって記載されるように)動作点のレイヤが従属する従属レイヤのリストを取得したことが監視される。
動作点に対して取得されたトラック及び従属レイヤに対応する従属トラックは、ステップ1004中に相互従属トラックのリストを形成するのに使用される。これらの従属性の性質を知るために、パーサは、ステップ1006において取得されたトラックのトラック参照ボックスを検査する。
ベーストラックという特定のトラックが、ステップ1007において発見されるべきである。
この特定のトラックは、アクセスユニット再構成を開始するトラックである。何も発見されない場合、これはエラーであり、プレーヤは、例えば、無効なメディアファイルを示すエラーメッセージを送信する(ステップ1008)。
「sbas」トラック参照タイプを介して参照されるベーストラックが発見可能な場合、パーサは、ユーザによって与えられる時間において、この1つからのサンプル再構成を開始する(最初のサンプルを識別するサンプルテーブルボックスにおける何らかの誘導を必要とし得る)。
まず、テストが実行されてこの最初のサンプルがエクストラクタを含むか否かを判別する(ステップ1009)。エクストラクタが存在する場合、これは、発見されたベーストラックからの「scal」トラック参照タイプで、そこからサンプルデータを複製する参照トラックに対して示されるべきであり、サンプルの再構成が明示的であり、エクストラクタを分解すること、すなわち、エクストラクタNALユニットをエクストラクタによって指示されるNALユニットデータに置換することにある。
これは、トラックの各サンプルに対して実行されて、ステップ1011においてトラックを表し、最終的にステップ1012においてクライアントデバイスによって復号及び表示可能なビデオビットストリームを生成するNALユニットのリストを生成する。
説明の目的のため、これは、図4aに表すタイルビットストリームのベースレイヤ400に適用可能である。
これに対して、ステップ1009においてエクストラクタが発見されない場合、ステップ1013において、パーサは、(例えば、以降で説明する図4bを参照して説明する「sabt」のような)ベーストラックに関連するトラック参照リストにおける何らかの特定の順序付けされたトラック参照があるか否かを確認する。
ステップ1013において特定の順序付けされたトラック参照が識別された場合、ステップ1014において復号順序依存のトラックの順序付けリストが構築される。
これに対して、ステップ1013において特定の順序付けされたトラック参照が識別されない場合、ISO/IEC23008−2(HEVC標準)に準拠する順序においてそれらのNALユニットを配列することによって、OperationPointInformationBoxによって示すように、アクセスユニットが、必要なトラックにおけるそれぞれのサンプルから再構成される。これは、ステップ1015の潜在的なアクセスユニット再構成である。選択的に、この潜在的又は明示的再構成における表示は、1101で示すlayer_idの直前に、図11において1100で示すLHEVCDecoderConfigurationRecordの予約ビットの1つに配置され得る。
代替として、明示的再構成の場合に、エクストラクタがmp4パーサによって分解されて、ビデオデコーダに対して、分解されることなく提供されないことを保証するために、特定のサンプル入力が、潜在的再構成のトラックに対して、及び明示的再構成のトラックに対して定義され得る。
再構成手段にかかわらず、パーサは、ステップ1012において復号可能ビットストリームを形成するように、ステップ1011において動作点に関与するトラックの全サンプルを考慮してそれらのサンプル(NALユニット)を連結しなければならない。
なお、選択ステップ(1001)は、ファイルにおいて再生する最初のサンプルの時間に依存し得る。例えば、図6における符号603によって記載されるスプライスされたストリームの記録から生じるストリームにおいて、サンプルの時間は、プレーヤがどこで開始するかに応じて、「oref」トラックとして参照されるトラックのサンプルグループ記述ボックス(図7におけるサンプルグループ記述ボックス702など)における、ある又は他のOperationPointInfoGroupEntryをもたらすことになる。
図12は、本発明による、ビデオビットストリームカプセル化のためのサーバ端での処理を示す。
図12に記載されるアルゴリズムを用いて行われるカプセル化は、ヒントトラックを付加することによって適応的なHTTP上のストリーム若しくはRTP上のストリーム用に又はローカルな記憶/記録用にストリームを準備するために行われ得る。カプセル化は、mp4ライタが1以上の符号化メディアストリームを入力として1つのmp4ファイル又はmp4セグメントのリストのいずれかを生成することによって扱われる。
なお、記述がビデオストリームのカプセル化に関する場合、動作点の使用及び依存性のシグナリングは他のレイヤードメディアタイプにも当てはまる。
mp4ライタの最初のステップ(ステップ1200)は、例えば、HEVCにおけるVPS(VideoParameterSet)、VPS_VUI(Video Usability Information)及びVPS拡張などのビデオビットストリームの上位記述パラメータを構文解析することにある。特に、ストリームが複数の動作基点及び依存性のある多数のレイヤを含む場合に、mp4ライタは、ビデオパラメータセットから複雑さの度合いを推定する。このレイヤ数から、mp4ライタは、1つのレイヤがそれ自体のトラックにあるものとしてそれが生成するトラック数を推定する。
マルチレイヤストリームの場合(すなわち、テスト1201が真の場合)、mp4ライタは、VPS及びVPS拡張パラメータを図8を参照して説明した800で示すディスクリプタなどのディスクリプタに配置することによってステップ1203中に動作基点ディスクリプタを満たす。
その間に、mp4ライタは、ビデオビットストリームにおけるベースレイヤ、すなわち、0に等しいnuh_layer_idを有するNALユニットに対応するベーストラックの構成を開始する。
そのようなベーストラック構成は、単一のレイヤビットストリームの場合(すなわち、テスト1201が偽の場合)においても実行されて、カプセル化された単一のトラックを生成する(ステップ1202)。
(レイヤ数に対応する)他のトラックも、通常は、layerID値、例えば図11に示すLHEVCDecoderConfigurationRecord情報1100のlayer_id1101を設定すること、及び「sbas」参照トラックを介してベーストラックを参照することによって開始される。
動作基点情報ディスクリプタに関するステップ1203は、主に、「trak」ボックス並びに特にVPS及びVPS拡張パラメータを有するデフォルトのOperationPointGroupEntry(例えば、図7における符号701)のサンプルテーブルボックスの階層を作成することにある。デフォルトによっては、(図7における符号703のような)SampleToGroupボックスは作成されない。
VPS、VPS_VUI及びVPS拡張パラメータから、mp4ライタは、avg_bit_rateパラメータを介してステップ1204において平均ビットレートを知得する(存在しない場合は、mp4ライタは、サンプル数で除算された全体ストリームのサイズを概算して平均ビットレートを推定することができる)。
そして、1205において、エクストラクタ(明示的再構成)を使用するか否かが決定される。例えば、レイヤ数及びサンプル数を知ることで、エクストラクタ当たり、サンプル当たり、及び従属トラック当たり12バイトが入力ビデオビットストリームに関する所与の割合以上にファイルのサイズを増加させるかを推定することができる。
説明の目的のため、mp4ライタは、対応のオーバヘッドがビットストリームのサイズを5%以上増加させない場合にエクストラクタを使用するようにパラメータ設定され得る。
カプセル化がインタラクティブな場合には、この決定及び閾値はユーザ決定可能であり、mp4ライタは、オーバヘッドを推定し、それを、エクストラクタを用いてビットストリームをカプセル化するか否かを決定することができるユーザに提供する。
オーバヘッドが許容可能なままである場合(又はユーザがエクストラクタを使用することを選択する場合)、mp4ライタは、ステップ1206においてエクストラクタ生成モードを活性化する。そのモードによると、どのようにしてサンプルを再構成するかを明示的に示すための表示が、依存性を有する各トラックの各サンプルに対して生成される。
これに対して、オーバヘッドが非常に重要な場合、mp4ライタは、サンプルの再構成がトラック参照のみから推定されるべきことを意味する潜在的再構成モードを検討する。
その目的のため、mp4ライタは、ステップ1207において、レイヤ依存性がNALユニットの正しい順序を保証するのに充分であるか否か又は曖昧さが残るか(例えば、個別のトラックにおいてタイルをカプセル化する場合)を確認する。順序が示されるべき場合、mp4ライタは、連結順序を示唆する特定のトラック参照タイプ(例えば「sabt」のものなど)に対象のトラック(例えば、図4bに示すようなタイル及びタイルベーストラック)をリンクさせる。
反対に、順序が指定されない(すなわち、テスト1207が偽である)場合、mp4ライタは、以下の再構成規則:所与の時間についてnuh_layer_idを増加させる際の順序NALユニットに依拠する特定のトラック参照を指定しない。
再構成方法が決定されると、mp4ライタは、NALユニットを読み出し始め、サンプルテーブルボックスにサンプル情報(例えば、タイミング、データにおけるバイトオフセットなど)を示す。
それによってエクストラクタが使用される場合に、トラックが他のものに依存する場合、このトラックのサンプルは、(「scal」トラック参照タイプを介して)エクストラクタを用いて参照トラックにおけるデータを参照する。
mp4ライタは、全てのサンプルが処理される(すなわち、テスト1212が偽となる)まで、サンプル記述及びカプセル化処理を実行する。
ステップ1213において、サンプルからサンプルへ、mp4ライタが新たなVPS、新たなVPS拡張又はレイヤ構成の変化(例えば、最大nuh_layer_idの変化)を検出した場合、mp4ライタは、新たなベーストラックがあるか否かを確認する(テスト1214)。これは、同じファイルにおける複数のメディアストリームをカプセル化する場合に相当し得るものであり、トラックのセットがmp4ファイルに既に存在し、特に、0に等しいlayer_id及び新たなビデオビットストリームを有するもの、例えば、nuh_layer_id値が0のNALユニットも有する代替の独立したビデオビットストリームがカプセル化されることになる。
新たなベーストラックは、デフォルトのサンプルグループ記述ボックス(例えば、図7におけるデフォルトのサンプルグループ記述ボックス701)とともに1216中に新たな動作基点ディスクリプタの生成をもたらす。構成が変化しても新たなベーストラックがない(すなわち、テスト1214が偽となる)場合、ベーストラックサンプルグループは1215中に修正されて、新たなOperationPointGroupEntry(例えば、図7の702における1つのOperationPointGroupEntry)を生成し、関連するサンプルをグループ化タイプ「oinf」(又は予約された4文字コード)のグループボックス703に更新する(又はそれでも存在しない場合には作成する)。
最後に、mp4ライタは、トラック記述及びそれらの依存性を有するmp4ファイルを生成する。
サーバ端において実行されるこの処理は、ストリーム化されたメディアファイル、例えば、mp4セグメントを記録するために受信機端においても実行され得る。ステップ1213を参照して説明したように、1つのストリームから他のストリームに切り換える場合に受信機が現在のレイヤ構成について通知され、グループに対して新たなサンプル及びグループ化タイプ「oinf」(又は専用の4文字コード)の関連の記述を追加又は作成することによってその動作基点ディスクリプタを更新するように、サーバは、何らかのmp4セグメントのメタデータ部分においてレイヤ構成の記述を準備していてもよい。
図7を参照して説明したものの代替である実施形態によると、特定のトラックが、動作点情報ディスクリプタ(例えば、図8における動作点情報ディスクリプタ800)から情報を搬送するサンプルに割り当てられる。そして、トラックサンプルのほとんどが空となる。このトラックは、特定のサンプル入力、例えば、Layered−HEVCパラメータセットストリームに対する「lhvp」で宣言される。LayeredHEVCストリームサンプル入力は、以下のLHEVCパラメータストリーム構成を含む。
Figure 2018524877
このトラックは、特定の「oref」トラック参照タイプを有する同じ動作点を用いて他のトラックによって参照されるべきである。「sbas」トラック参照タイプを介してベーストラックを共有するトラックのセットに対して、そのようなトラックは1つのみとなるべきである。
図7を参照して説明したものの他の代替実施形態は、「minf」ボックスにおける静的な「oinf」(例えば、図8における「oinf」800)を維持するが、例えば、新たなレイヤがメディア表示に付加される場合に何らかのパラメータを変化させることを可能とするものである。これは、この「oinf」ボックスの拡張バージョンに異なるものを付加するために、プロファイル構成比較のための追加の手段をmp4パーサ及びライタに要求する。
その目的のため、mp4ライタは、動作基点を比較する特定のモジュールを必要とする。新たな動作基点がVPSから検出されると、mp4ライタは、パラメータ毎に、新たな動作基点と静的な「oinf」ボックスに既に格納されているものと比較する。少なくとも1つのパラメータが異なる場合、新たな入力がこの動作基点においてoinfにおいて作成され、動作基点の数が増分される。
同様に、レイヤ情報が更新され、新たなレイヤ識別子を新たなビットストリームにおけるものに割り当ててID競合を回避する。その後、レイヤの最大数が新たなストリームに存在するレイヤ数で更新される。これらの新たなレイヤの各々について、それらの依存性が、oinfボックスのディスクリプタ855に格納される。最後に、新たなストリームが新たなスケーラビリティ寸法をもたらす場合、スケーラビリティマスクが更新され、したがってこの新たな寸法に対応する1ビットに設定する。
上記の文書w15182は、現在、ビットストリームにおいて使用されるスケーラビリティのタイプを示すことなくLHEVCDecoderConfigurationRecordを定義する。一般的な「lhv1」/「lhe1」が使用されるべき場合、w15182において現在定義されるように、クライアント側におけるファイルリーダは、ビデオパラメータセット(VPS)拡張を構文解析してスケーラビリティのタイプを把握しなければならない。このVPSは、NALU107におけるチャンクであればよい。これは複雑な処理となる。
好適な実施形態(不図示)によると、「scalability_mask」(ボックス137参照)という16ビットのスケーラビリティマスクを含む新たなLHEVCDecoderConfigurationRecordが提案される。他の実施形態によると、nを整数とし、構造全体が整数のバイト上に整列されたままであるとすると、スケーラビリティマスクはnビットで表され得る。例えば、HEVC規格にあるように、n=8である。
LHEVCDecoderConfigurationRecordは、明瞭化のために表されていない、w15182において定義された「general_level_idc」というフィールドを備える。フィールド「general_level_idc」は、画素の最大数並びに可能なタイル及びスライスに関する情報を与える。
特定の実施形態によると、例えば以下の「general_level_idc」パラメータの後に他のパラメータをデコーダ構成記録に付加して、サンプルを復号するのに必要なレイヤードHEVCの種類を明確化することが提案される。
Figure 2018524877
「scalability_mask」の値(本例では「2」)は、空間又は品質のスケーラビリティのタイプを示す。このフィールドは、クライアントが、スケーラビリティタイプがサポートされているかを検出するとともにファイルを再生することができるかを判定することに役立つという効果を有する。ファイルを再生できない場合には、それは、例えばベースレイヤトラックのみなど、より低い動作点を選択することができる。
図2は、対象のピクチャのエンハンスメントレイヤのみのピクチャが4つのタイルに分割される場合のISO−ベースメディアファイルフォーマットによる2つのスケーラビリティレイヤをカプセル化する例を示す。カプセル化は、4つの追加タイルトラック(140−143)又はエンハンスメントタイルトラックELTTを配信する。
HEVCタイルトラックと同様の態様において、エンハンスメントレイヤの空間小部分の効率的アクセスを可能とするようにLayered−HEVCタイルトラックを定義することが可能となる。そのような場合について、実施形態によると、特定のトラックが、LHEVCTileSampleEntryサンプル記述フォーマットを用いて特定のサンプルとともに作成される。
LHEVCタイルトラックは、このトラックにおけるタイルが属するHEVCレイヤの非ビデオコード化レイヤNALUを搬送するLHEVCトラックに対する「tbas」参照があるようなビデオトラックである。本発明の実施形態によると、新たなサンプル記述タイプ「lht1」が定義される。
実施形態によると、タイルトラックのサンプルもサンプル記述ボックスも、VPS、SPS又はPPSのNALユニットを含むべきではなく、これらのNALユニットは、トラック参照タイプ「tbas」(図2におけるエンハンスメントレイヤトラック130)によって識別されるような関連のレイヤを含むトラックのサンプル又はサンプル記述ボックスにあるべきである。
実施形態によると、「tbas」トラック参照によって示すようなLHEVCタイルトラック及び関連のレイヤを含むトラック又はレイヤトラックの双方は、w15182のAnnexBにおいて定義されるようなエクストラクタを用いて、どのようにして元のビットストリームが再構成されるかを示す。これらのタイルトラックにおけるエクストラクタの存在は、幾つかのアプリケーション領域においては制限されることがあり、例えば、(図4aを参照して説明したように)各タイルトラックではなくタイルベーストラックにエクストラクタを配置すること、特に復号及び再生するタイルのサブセットの選択を可能とすることが好ましい場合がある。あるいは、複数のタイル化されたレイヤの場合には、タイルベーストラックのみにおいてエクストラクタを配置する場合に記述サイズが減少される。
図4a及び4bからなる図4は、代替のトラック及びタイルトラック依存性のシグナリングの例を示す。
図4aに示すシグナリングの例によると、タイムドサンプル401を備えるベースレイヤトラック400は、タイルがある分の(すなわち、図4aでは4個の)ベースレイヤのタイルトラックに対するトラック参照403を有する。ベースレイヤトラックは、トラック参照ボックスにおいて宣言される各タイルトラックに対する「scal」参照タイプを有する(これは、メタデータ部分、例えば図8におけるメタデータ部分804において定義される)。
同様に、各タイルトラックは、そのトラック参照ボックスにおいて宣言される「tbas」トラック参照タイプを有する(これは、メタデータ部分、例えば図8におけるメタデータ部分804において定義される)。
さらに、ベースレイヤトラック400の各サンプルは、ベースレイヤトラックにおいてタイルがある分のエクストラクタ402を有する。
サンプル407を備えるエンハンスメントレイヤ406は、同じ記述及び構成規則に従う。ベースレイヤトラック及びエンハンスメントレイヤトラックは、「sbas」及び「scal」トラック参照タイプ404及び405を介して相互参照される。ここでは、「scal」参照タイプは、各参照トラックにおけるサンプルからの各サンプルを再構成するのにエクストラクタが使用されることを示す。
図1aに示すように、タイルトラックを用いるHEVC又はL−HEVCトラックは、そのタイルトラックからのデータを参照するのにエクストラクタを使用し、この場合、トラックは、図4aに示すようにタイルトラックに対して「scal」トラック参照を有すべきである。
<タイル化されたアクセスユニットのデータ共有及び再構成>
図4bは、それによってエクストラクタが使用されない依存性のシグナリングの例を示す。
そのような場合、タイルトラックを用いるHEVC又はL−HEVCトラックは、タイルトラックに対して専用の「sabt」トラック参照タイプ453を用いてタイル順序付けを示す(エクストラクタの使用に対して予約された「scal」参照タイプをもはや示さない)。タイルトラックは、「tbas」トラック参照タイプを有するタイルベーストラックを参照し続ける。
「sabt」トラック参照は、HEVC又はL−HEVCトラックからのタイルトラックを言及するのに使用されるにすぎない。「sabt」トラック参照がトラックに存在する場合、このトラックのサンプルはエクストラクタ又はアグリゲータを使用すべきではなく、HEVC又はL−HEVCトラックのサンプルは、トラック参照の順において、このトラックの「sabt」トラック参照に示される全ての利用可能なトラックにおいて、同じ復号時間のサンプルに含まれるNALユニットをサンプルデータに付加することによって(すなわち、編集リストを考慮することなく時間−サンプルテーブルのみを用いて)再構成される。トラックに対して利用可能なデータがない場合には、対応のサンプルにはデータは割り当てられない。SEI Suffix NALユニットは、再構成されるサンプルにおける全ての非VCL NALユニットの後に移動されるべきである。
トラックは、そのトラック参照ボックスにおいて定義された「sabt」及び「scal」トラック参照の双方とも有さない。さらに、エクストラクタが使用されない場合(潜在的AU再構成)、「scal」トラック参照の使用はあまり有用ではなく、除去され得る。もちろん、「oinf」ボックスは各動作基点に対するレイヤ識別子の完全なリストを与え、レイヤ識別子は各トラックの「tcon」ボックスにおいて(又はトラック毎に1つのレイヤのみがある場合には、デコーダ構成情報におけるレイヤ識別子としてトラックに直接に)示される。そして、アクセスユニットは、それらのNALユニットをISO/IEC23008−2(HEVC標準)に準拠した順序で構成することによって、OperationPointInformationBoxによって示される(そしてトラック参照によっては示されない)ような必要なトラックにおけるそれぞれのサンプルから再構成される。
タイルトラックに格納されるLHEVCサンプルは、ISO/IEC23008−2において定義されるような1以上のタイルに対するスライスの完全なセットである。通常、タイルトラックが単一のタイルのことをいう場合、このタイルをコード化するのに使用されるスライスのみがサンプルにおいて発見される。タイルトラックは通常、1つのTileRegionGroupEntry(単一タイルのトラック)、又は1つのTileSetGroupEntry及び1以上の従属TileRegionGroupEntryを含み、このタイルセットはマルチタイルトラックで構成され、既にHEVCに対して定義されている。
タイルトラックに格納されたLHEVCサンプルは、「sync」サンプル、例えば、サンプルに含まれるコード化されたスライスがInstantaneousDecodingRefresh(IDR)スライス、CleanRandomAccess(CRA)スライス又はBrokenLinkAccess(BLA)スライスであることをサンプルにおけるVCL NALユニットが示すかを確かめるなど、ランダムアクセスのための同期サンプルとみなされる。
規則的な(w15182における)LHEVCサンプルに対して定義されたサブサンプル及びサンプルグループは、LHEVCタイルサンプルに対するものと同じ定義を有する。
本発明の実施形態によると、実施例は、HEVCシーケンスの完全なタイルのサブセットのみを復号することを決定し得る。この場合、それは、TileRegionGroupEntry及びTileSetGroupEntryサンプルグループ記述におけるタイル依存性情報を用いて、不要なトラックを破棄し、又はHEVCシーケンスを復号しつつ幾つかのエクストラクタを無視してもよい。
図2において、図1と同じ符号を有する要素は同様のものである。さらに、明瞭化のために「moov」ボックスのみが表される。
図2において、「moov」ボックスは、4個のタイルトラックボックス140、141、142及び143の追加のトラックボックスを備える。ここではタイルトラック141のみを説明する。他のタイルトラックボックスは、容易に推測可能である。
タイルトラックボックスは、「tkhd」トラックヘッダボックス、すなわちサブボックス150を備え、これはBL及びELレイヤトラックボックスに属する「tkhd」ボックス111又は131と同じ特性を有する。
タイルトラックボックスは、「tref」トラック参照ボックス、すなわちサブボックス151を備え、これは、以下の点を除いて、BL及びELレイヤトラックボックスに属する「tref」ボックスと同じ特性を有する。
−それは、タイルベーストラックに対する関係を示す4バイトの「tbas」を含み、
−識別子track_ID[]は、このトラックに対するタイルベーストラックが識別子「ELBT」を有するエンハンスメントタイルトラックであることを示す。
タイルトラックボックスは、BL及びELトラックとして「mdia」ボックス152、「stbl」ボックスすなわちサブボックス153、「stsd」ボックスすなわちサブボックス154を有するminf(明瞭化のために図示しない)ボックスを備える。
「stbl」ボックス153は、トラックサンプル「sgpd」156及び「sgpd」に含まれる「trif」154にプロパティを関連付ける2つのボックス又はサブボックスを備える。これらのボックスは、w15182において充分に定義されている。
「sgpd」は、特定のサンプルグループ内のサンプルの共通のプロパティを記述するSampleGroupDescriptionボックスである。ここで、パラメータ「def_sample_descr_index」は、トラックの全サンプルに当てはまるデフォルトのプロパティ:最初(かつ「trif」ボックスにおいて唯一の)を示す。
「trif」は、対象のタイルについての情報を備えるTileRegionGroupEntryボックスである。この場合、対象のタイルは値「1」のgroupIDによって識別され、その位置及びサイズは「horizontal_offset」、「vertical_offset」、「region_width」及び「region_height」によってそれぞれ定義される。予約パラメータに意味はなく、独立したフラグが、そのタイルが自己包含されるかを示す(すなわち、再構成される他のタイルを必要としない)。最後に、フルフレームパラメータは、タイルが全ピクチャをカバーする(1)か否か(0)を示す。
実施形態によると、新たなサンプル入力155を定義する4バイトは、LHEVCタイルトラックのメディアデータ又はサンプルに対応するビットストリームが、DecoderConfigurationRecord又はより具体的には「lhvC」ボックス156において以下に定義されるLHEVCDecoderConfigurationRecordにおいて与えられる(プロファイル、ティア及びレベルを含む)構成の下で動作するHEVCデコーダによって準拠して使用可能であることを示す。
実施形態では、4バイトは、「lht1」である。
この新たなサンプル入力の定義は、以下のものであればよい。
ボックスタイプ:「lht1」
コンテナ:SampleDescriptionBox(「stsd」)
強制:なし
品質:ゼロ以上のサンプル入力が存在し得る
新たなサンプル入力の定義によって、それがLHEVCタイルトラックに言及することをパーサが直ちに認識することができる。これは、既存のサンプル入力では許可されていない。
さらに、タイルトラックに関する幾つかのサンプルプロパティのみが導入され得る。
上述のように、このサンプル入力は、LHEVCタイルトラックのメディアサンプルを記述する。LHEVCタイルトラック(サンプル入力タイプ「lht1」)のVisualSampleEntryの幅及び高さがトラックに含まれるTile又はTileSetの最大幅及び高さに設定されるべきである。タイルトラックのトラックヘッダにおけるレイアウト情報(すなわち、レイヤ、タイルを位置決めするためのマトリクス、幅及び高さ)は、「tbas」トラック参照によって定義される関連の参照トラック(タイルベーストラックともいう)のトラックヘッダ情報に同一となり、あるいは無視されるべきである。
好ましくは、「lht1」サンプル記述におけるいずれの「clap」(Clean Apertureを意味する)及び「pasp」(Pixel Aspect Ratioを意味する)ボックスは無視されるべきである。
したがって、特定のサンプル記述が、特定種の標準VisualSampleGroupEntryディスクリプタであるLHEVCタイルディスクリプタに対して作成される。
Figure 2018524877
MPEG4BitRateBox及びextra_boxesの双方は任意である。
好ましくは、LHEVCTileSampleEntryは、LHEVCCongirugationBox(又はLHVCCongirugationBox若しくはレイヤードHEVCフォーマットに対して構成ボックスを指定する任意の名前)、HEVCCongirugationBox又はMPEG4ExtensionDescriptionBoxを含まない。もちろん、これらのボックスは、「tbas」トラック参照タイプによって示されるように、タイルベースLHEVCタイルサンプル記述において発見される。
他の選択的ボックスも、LHEVCTileSampleEntryに含まれ得る。通常、入力がタイルベースLHEVCトラックのSampleDescriptionBoxにあるので、多数の入力がLHEVCタイルトラックのSampleDescriptionBoxにある。SampleDescriptionBoxは、HEVCタイルトラックの公知のディスクリプタであり、HEVCタイルトラックについての記述的情報を含む。
LHEVCTileTrackについてのMIMEタイプ「codecs」パラメータに対するサブパラメータは、標準を規定するw15182のアネックスE.3に定義される規則に従う。デコーダ構成記録が、「tbas」トラック参照タイプによって示されるベーストラックサンプル記述からとられる。そして、MIMEタイプ「codecs」に対するサブパラメータは、このデコーダ構成記録を用いて構成される。
好ましくは、L−HEVCに対するコーデックサブタイプパラメータは、以下の例外とともにHEVCのものと同一である:コーデックタイプがLHVCタイルトラックの一般的なL−HEVCメディアサンプル(すなわち、「lhv1」コードポイント)を特定している場合、構成されるHEVCコーデックパラメータは付加された「.SXX」を有すべきであり、スケーラビリティタイプを示す「S」及び「XX」はこのトラックに対するスケーラビリティマスクの値に対応するバイトである;トレイリングバイトはゼロであれば省略され得る。これは、例えばDASH Representationにおいて、関連するビデオを符号化するのに使用されるコーデックについての正確な情報を有するのに有用となり得る。例えば、マルチビューストリーミングアプリケーションにおいて、マルチレイヤHEVCデコーダを有するDASHクライアントは、空間又は品質スケーラビリティを示すコーデックパラメータで宣言されたRepresentationを選択することはない。
MIMEタイプコーデックに対するサブパラメータに関する代替の実施形態では、w15182において提案されるものよりも小型のMIMEタイプがDASHにおいて有用となり得る。特に、単一のスケーラビリティタイプのトラック毎に1つのレイヤを有する構成では、すなわち、選択的なコーデックMIMEパラメータのリスト項目内のサンプル入力は、「shv1」、「she1」、「mhv1」、「mhe1」、「lhv1」又は「lhe1」であり、同じリスト項目に更なるデータは提供されない。特に、ある単一の動作基点が公表されるので、BLInternalパラメータは、Olsldx及びMaxTidパラメータと同様に任意となり得る。これによって、「lhevcptl」選択肢をスキップすること、及び例えばエンハンスメントレイヤ(スケーラブル)を「shv1.A7.1.L120.B0」として宣言することが可能となる。
図3は、1以上の実施形態のステップが実施されるサーバ又はクライアントデバイス300のブロック図を表す。
好ましくは、デバイス300は、通信バス302、デバイスの電源投入に応じてプログラムROM306からの命令を実行することができる中央処理装置(CPU)304、及び電源投入後に主メモリ308からのソフトウェアアプリケーションに関する命令を備える。主メモリ308は、例えば、通信バス302を介してCPU304の動作領域として機能するランダムアクセスメモリ(RAM)タイプであり、そのメモリ容量は拡張ポート(不図示)に接続された選択的RAMによって拡張され得る。ソフトウェアアプリケーションに関する命令は、例えば、ハードディスク(HD)310又はプログラムROM306から主メモリ308に読み込まれ得る。そのようなソフトウェアアプリケーションによって、CPU304での実行時に、図1及び2を参照して説明したカプセル化ステップがサーバにおいて実行される。
符号312は、デバイス300の接続が通信ネットワーク314を可能とするネットワークインターフェースである。ソフトウェアアプリケーションは、CPU304によって実行されると、ネットワークインターフェースを介して受信されたリクエストに反応し、データストリーム及びリクエストを他のデバイスにネットワークを介して提供するように適合される。
符号316は、情報をユーザに表示し及び/又はユーザから入力を受信するユーザインタフェースを表す。
ここで、変形として、マルチメディアビットストリームの受信及び送信を管理するためのデバイス300は、図1、2及び3を参照して説明した方法を実施することができる1以上の専用集積回路(ASIC)からなり得る。これらの集積回路は、例えば、そして非限定的に、ビデオシーケンスを生成若しくは表示するための及び/又はオーディオシーケンスを聞くための装置に一体化される。
本発明の実施形態は、例えば対象となる特定の領域を拡大するようにTVのリモートコントローラとして作用するカメラ、スマートフォン又はタブレットなどのデバイスに組み込まれてもよい。それらはまた、対象となる特定エリアを選択することによってTV番組の個人用の閲覧体験を有するのに同じデバイスから使用され得る。ユーザによるこれらのデバイスの他の使用は、彼/彼女の選好するビデオの選択された一部を他の接続デバイスと共有することである。それらはまた、監視カメラがこの発明の生成部に対応するものとして、監視下にある建造物の特定エリアで何が起こっているかをモニタするのにスマートフォン又はタブレットにおいても使用され得る。
当然に、局所的かつ特定の要件を満たすために、当業者は、それらの全ては、以下の特許請求の範囲によって規定される本発明の保護範囲内に依然として含まれる多数の変形及び変更を上述の解決手段に適用することができる。

Claims (51)

  1. 1以上のビットストリームのカプセル化から生じるカプセル化されたビットストリームからメディアデータ及びメタデータを取得する方法であって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記方法が、
    前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を取得するステップ、及び
    前記1以上のビットストリームの各々に対して少なくとも1つの動作基点ディスクリプタを取得するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップ
    を備える方法。
  2. 前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている、請求項1に記載の方法。
  3. 前記カプセル化ビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて受信される前記少なくとも1つの動作基点ディスクリプタを備える、請求項1又は2に記載の方法。
  4. 前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する、請求項3に記載の方法。
  5. 前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる、請求項4に記載の方法。
  6. 前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである、請求項3から5のいずれか一項に記載の方法。
  7. 前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える、請求項3から5のいずれか一項に記載の方法。
  8. 少なくとも1つのレイヤディスクリプタを取得するステップをさらに備え、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する、請求項1から4、6及び7のいずれか一項に記載の方法。
  9. デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される、請求項8に記載の方法。
  10. デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される、請求項1から9のいずれか一項に記載の方法。
  11. メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである、請求項1から10のいずれか一項に記載の方法。
  12. 前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される、請求項1から11のいずれか一項に記載の方法。
  13. 1以上のビットストリームのカプセル化のためにカプセル化されるビットストリームにメディアデータ及びメタデータを提供する方法であって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記方法が、
    前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を提供するステップ、及び
    前記1以上のビットストリームの各々に対する少なくとも1つの動作基点ディスクリプタを提供するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップ
    を備える方法。
  14. 前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている、請求項13に記載の方法。
  15. 前記カプセル化されるビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて送信される前記少なくとも1つの動作基点ディスクリプタを備える、請求項13又は14に記載の方法。
  16. 前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する、請求項15に記載の方法。
  17. 前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる、請求項16に記載の方法。
  18. 前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである、請求項15から17のいずれか一項に記載の方法。
  19. 前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える、請求項15から17のいずれか一項に記載の方法。
  20. 少なくとも1つのレイヤディスクリプタを提供するステップをさらに備え、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する、請求項13から16、18及び19のいずれか一項に記載の方法。
  21. デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される、請求項20に記載の方法。
  22. デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される、請求項13から21のいずれか一項に記載の方法。
  23. メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである、請求項13から22のいずれか一項に記載の方法。
  24. 前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される、請求項13から23のいずれか一項に記載の方法。
  25. プログラム可能な装置のためのコンピュータプログラム製品であって、該コンピュータプログラム製品は、前記プログラムがプログラム可能な装置に読み込まれて実行されると、請求項1から24のいずれか一項に記載の方法の各ステップを実行するための命令を備える、コンピュータプログラム製品。
  26. 請求項1から24のいずれか一項に記載の前記方法を実施するためのコンピュータプログラムの命令を記憶するコンピュータ可読記憶媒体。
  27. 1以上のビットストリームのカプセル化から生じるカプセル化されたビットストリームからメディアデータ及びメタデータを取得するデバイスであって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記デバイスが、
    前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を取得するステップ、及び
    前記1以上のビットストリームの各々に対して少なくとも1つの動作基点ディスクリプタを取得するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップ
    を実行するために構成されたプロセッサを備える、デバイス。
  28. 前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている、請求項27に記載のデバイス。
  29. 前記カプセル化ビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて受信される前記少なくとも1つの動作基点ディスクリプタを備える、請求項27又は28に記載のデバイス。
  30. 前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する、請求項29に記載のデバイス。
  31. 前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる、請求項30に記載のデバイス。
  32. 前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである、請求項29から31のいずれか一項に記載のデバイス。
  33. 前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える、請求項29から31のいずれか一項に記載のデバイス。
  34. 前記プロセッサがさらに、少なくとも1つのレイヤディスクリプタを取得するステップを実行するように構成され、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する、請求項27から30、32及び33のいずれか一項に記載のデバイス。
  35. デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される、請求項34に記載のデバイス。
  36. デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される、請求項27から35のいずれか一項に記載のデバイス。
  37. メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである、請求項27から36のいずれか一項に記載のデバイス。
  38. 前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される、請求項27から37のいずれか一項に記載のデバイス。
  39. 1以上のビットストリームのカプセル化のためにカプセル化されるビットストリームにメディアデータ及びメタデータを提供するデバイスであって、前記1以上のビットストリームの各々の前記メディアデータが1以上のレイヤに編成され、各レイヤがタイムドサンプル又はサブサンプルを備え、前記デバイスが、
    前記メディアデータのタイムドサンプルの少なくとも1つのグループの少なくとも1つの定義を含むメタデータを参照するためのデータ構造体を提供するステップ、及び
    前記1以上のビットストリームの各々に対する少なくとも1つの動作基点ディスクリプタを提供するステップであって、前記少なくとも1つの動作基点ディスクリプタは、前記データ構造体によって参照されるメタデータにおいて定義されたタイムドサンプルのグループに属するタイムドサンプルが独立して復号されることを可能とする記述的情報に関するメタデータを提供し、タイムドサンプルの1つのグループに関連付けられた各動作基点ディスクリプタが、前記グループに属する前記タイムドサンプルの前記記述的情報を定義する、ステップ
    を実行するために構成されたプロセッサ備えるデバイス。
  40. 前記1以上のビットストリームの少なくとも1つの前記メディアデータが複数のレイヤに編成され、該レイヤの各々が、時間スケーラビリティレベル、空間スケーラビリティレベル、SNRスケーラビリティレベル、及び/又はマルチビュー表示におけるビューに関連付けられている、請求項39に記載のデバイス。
  41. 前記カプセル化されるビットストリームが、少なくとも1つのトラック、前記データ構造体、及び前記少なくとも1つのトラックにおいて送信される前記少なくとも1つの動作基点ディスクリプタを備える、請求項39又は40に記載のデバイス。
  42. 前記カプセル化ビットストリームが複数のトラックを備え、前記少なくとも1つのトラック以外の該複数のトラックの各トラックが前記少なくとも1つのトラックを参照する、請求項41に記載のデバイス。
  43. 前記1以上のビットストリームの各々の各レイヤが、前記複数のトラックの特定のトラックに関連付けられる、請求項42に記載のデバイス。
  44. 前記少なくとも1つのトラックが、前記データ構造体及び前記少なくとも1つの動作基点ディスクリプタを送信するための専用トラックである、請求項41から43のいずれか一項に記載のデバイス。
  45. 前記少なくとも1つのトラックが、タイムドサンプル又はサブサンプルを備える、請求項41から43のいずれか一項に記載のデバイス。
  46. 前記プロセッサがさらに、少なくとも1つのレイヤディスクリプタを提供するステップを実行するように構成され、前記少なくとも1つのレイヤディスクリプタが、前記1以上のビットストリームの少なくとも1つにおいてレイヤ編成に関するメタデータを提供する、請求項39から42、44及び45のいずれか一項に記載のデバイス。
  47. デフォルトのレイヤディスクリプタとして、該デフォルトのレイヤディスクリプタによって提供される前記メタデータに基づいてレイヤ編成に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つのレイヤディスクリプタが定義される、請求項46に記載のデバイス。
  48. デフォルトの動作基点ディスクリプタとして、該デフォルトの動作基点ディスクリプタによって提供される前記メタデータに基づいて記述的情報に関するメタデータに関連付けられないタイムドサンプルのグループに属するタイムドサンプルが復号されるように、1つの動作基点ディスクリプタが定義される、請求項39から47のいずれか一項に記載のデバイス。
  49. メタデータを参照するための前記データ構造体が、国際標準化機構ベースメディアファイルフォーマットによるSampleToGroupBoxタイプのものである、請求項39から48のいずれか一項に記載のデバイス。
  50. 前記データ構造体によって参照され、タイムドサンプルの少なくとも1つのグループの定義を含むメタデータが、国際標準化機構ベースメディアファイルフォーマットによるSampleGroupDescriptionBoxタイプの構造において定義される、請求項39から49のいずれか一項に記載のデバイス。
  51. 実質的に図10及び12を参照して上述され、図10及び12に図示されるメディアデータ及びメタデータを取得又は提供する方法。
JP2017564383A 2015-06-16 2016-06-07 カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設置可能な方法、デバイス及びコンピュータプログラム Active JP6743059B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1510610.7 2015-06-16
GB1510610.7A GB2539462B (en) 2015-06-16 2015-06-16 Obtaining media data and metadata from encapsulated bit-streams wherein operating point descriptors can be dynamically set
PCT/EP2016/062926 WO2016202648A1 (en) 2015-06-16 2016-06-07 Method, device, and computer program for obtaining media data and metadata from encapsulated bit-streams wherein operating point descriptors can be dynamically set

Publications (3)

Publication Number Publication Date
JP2018524877A true JP2018524877A (ja) 2018-08-30
JP2018524877A5 JP2018524877A5 (ja) 2019-07-11
JP6743059B2 JP6743059B2 (ja) 2020-08-19

Family

ID=53784857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017564383A Active JP6743059B2 (ja) 2015-06-16 2016-06-07 カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設置可能な方法、デバイス及びコンピュータプログラム

Country Status (7)

Country Link
US (1) US10575004B2 (ja)
EP (1) EP3311574B1 (ja)
JP (1) JP6743059B2 (ja)
KR (1) KR102037009B1 (ja)
CN (1) CN107750461B (ja)
GB (1) GB2539462B (ja)
WO (1) WO2016202648A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022050378A (ja) * 2020-09-17 2022-03-30 レモン インコーポレイテッド 符号化映像における動作点エンティティグループの信号通知
JP7444872B2 (ja) 2018-11-29 2024-03-06 キヤノン株式会社 メディアデータをメディアファイルにカプセル化するための方法、装置、およびコンピュータプログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10148969B2 (en) * 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
GB2550604A (en) 2016-05-24 2017-11-29 Canon Kk Method, device, and computer program for encapsulating and parsing timed media data
US10602239B2 (en) * 2017-03-23 2020-03-24 Mediatek Inc. Method and apparatus for track composition
GB2560921B (en) 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
GB2575074B (en) 2018-06-27 2022-09-28 Canon Kk Encapsulating video content with an indication of whether a group of tracks collectively represents a full frame or a part of a frame
CN110876083B (zh) * 2018-08-29 2021-09-21 浙江大学 指定参考图像的方法及装置及处理参考图像请求的方法及装置
US11183220B2 (en) * 2018-10-03 2021-11-23 Mediatek Singapore Pte. Ltd. Methods and apparatus for temporal track derivations
US11205456B2 (en) 2019-01-09 2021-12-21 Mediatek Singapore Pte. Ltd. Methods and apparatus for using edit operations to perform temporal track derivations
KR102596003B1 (ko) * 2019-03-21 2023-10-31 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신장치 및 포인트 클라우드 데이터 수신 방법
US20220360787A1 (en) * 2019-06-21 2022-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Video coding layer up-switching indication
CN110430462B (zh) * 2019-08-02 2021-08-31 福州大学 基于uhd解码器的快速自动设置方法
US11109069B2 (en) * 2019-09-20 2021-08-31 Tencent America LLC Signaling of scalability parameters in video bitstream
AU2021226398A1 (en) * 2020-02-28 2022-09-29 Huawei Technologies Co., Ltd. A decoder and corresponding methods to signal picture partitioning information for slices
WO2021246840A1 (ko) * 2020-06-06 2021-12-09 엘지전자 주식회사 스케일러빌리티를 위한 서브-비트스트림 추출 기반 영상 코딩 장치 및 방법
WO2021246841A1 (ko) * 2020-06-06 2021-12-09 엘지전자 주식회사 레이어 정보 시그널링 기반 영상 코딩 장치 및 방법
GB2597642B (en) * 2020-06-16 2023-08-02 Canon Kk Method, device, and computer program for encapsulating media data into a media file
EP3972272A1 (en) 2020-09-17 2022-03-23 Lemon Inc. Chroma format and bit depth indication in coded video
WO2022071742A1 (ko) * 2020-09-29 2022-04-07 엘지전자 주식회사 미디어 파일을 생성하는 방법 및 장치
CN116325766A (zh) * 2020-12-15 2023-06-23 Lg电子株式会社 生成/接收包含层信息的媒体文件的方法和设备及媒体文件传送方法
WO2023200298A1 (ko) * 2022-04-14 2023-10-19 엘지전자 주식회사 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023200304A1 (ko) * 2022-04-14 2023-10-19 엘지전자 주식회사 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013162808A1 (en) * 2012-04-25 2013-10-31 Qualcomm Incorporated Identifying parameter sets in video files
WO2015011108A1 (en) * 2013-07-23 2015-01-29 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2403835B (en) 2002-04-29 2005-11-23 Sony Electronics Inc Apparatus and method for providing supplemental enhancement information associated with multimedia data
US8948241B2 (en) * 2009-08-07 2015-02-03 Qualcomm Incorporated Signaling characteristics of an MVC operation point
KR101887548B1 (ko) * 2012-03-23 2018-08-10 삼성전자주식회사 증강현실 서비스를 위한 미디어 파일의 처리 방법 및 장치
US20140003504A1 (en) * 2012-07-02 2014-01-02 Nokia Corporation Apparatus, a Method and a Computer Program for Video Coding and Decoding
GB2516825B (en) * 2013-07-23 2015-11-25 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
GB2542282B (en) * 2013-10-22 2018-08-01 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data in a server
US10205949B2 (en) * 2014-05-21 2019-02-12 Arris Enterprises Llc Signaling for addition or removal of layers in scalable video
GB2527786B (en) * 2014-07-01 2016-10-26 Canon Kk Method, device, and computer program for encapsulating HEVC layered media data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013162808A1 (en) * 2012-04-25 2013-10-31 Qualcomm Incorporated Identifying parameter sets in video files
WO2015011108A1 (en) * 2013-07-23 2015-01-29 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ISO/IEC: "Information technology - Coding of audio visual objects - Part 15: Carriage of network abstraction l", INTERNATIONAL STANDARD ISO/IEC14496-15 THIRD EDITION, JPN6020009955, 1 July 2014 (2014-07-01), US, pages 24 - 25, ISSN: 0004233108 *
ISO/IEC: "Information technology - Coding of audio-visual objects - Part 12: ISO base media file format AMENDM", DRAFT AMENDMENT ISO/IEC 14496-12:2012/DAM 3, JPN6020009957, 13 April 2014 (2014-04-13), US, pages 5, ISSN: 0004233109 *
ISO/IEC: "Information technology - Coding of audio-visual objects - Part 12: ISO base media file format", INTERNATIONAL STANDARD ISO/IEC14496-12 CORRECTED VERSION, JPN6020009953, 1 October 2005 (2005-10-01), US, pages 45 - 48, ISSN: 0004233106 *
ISO/IEC: "Information technology - High efficiency coding and media delivery in heterogeneous environments - P", FINAL DRAFT AMENDMENT ISO/IEC 23008-1:2014 FDAM 1, JPN6020009954, 7 January 2015 (2015-01-07), US, pages 22 - 25, ISSN: 0004233107 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7444872B2 (ja) 2018-11-29 2024-03-06 キヤノン株式会社 メディアデータをメディアファイルにカプセル化するための方法、装置、およびコンピュータプログラム
JP2022050378A (ja) * 2020-09-17 2022-03-30 レモン インコーポレイテッド 符号化映像における動作点エンティティグループの信号通知
JP2022050376A (ja) * 2020-09-17 2022-03-30 レモン インコーポレイテッド 符号化映像における動作点サンプルグループ
US11671627B2 (en) 2020-09-17 2023-06-06 Lemon Inc. Operating point entity group signaling in coded video
US11683529B2 (en) 2020-09-17 2023-06-20 Lemon Inc. Operational point sample group in coded video
JP7319336B2 (ja) 2020-09-17 2023-08-01 レモン インコーポレイテッド 符号化映像における動作点サンプルグループ
US11758195B2 (en) 2020-09-17 2023-09-12 Lemon Inc. Dependency information signaling in coded video
JP7376544B2 (ja) 2020-09-17 2023-11-08 レモン インコーポレイテッド 符号化映像における動作点エンティティグループの信号通知

Also Published As

Publication number Publication date
US20180184098A1 (en) 2018-06-28
WO2016202648A1 (en) 2016-12-22
GB201510610D0 (en) 2015-07-29
GB2539462A (en) 2016-12-21
US10575004B2 (en) 2020-02-25
GB2539462B (en) 2019-04-03
KR102037009B1 (ko) 2019-10-25
EP3311574A1 (en) 2018-04-25
EP3311574B1 (en) 2022-03-09
KR20180018662A (ko) 2018-02-21
CN107750461A (zh) 2018-03-02
JP6743059B2 (ja) 2020-08-19
CN107750461B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
JP6743059B2 (ja) カプセル化されたビットストリームからメディアデータ及びメタデータを取得するための、動作基点ディスクリプタを動的に設置可能な方法、デバイス及びコンピュータプログラム
US11128898B2 (en) Method, device, and computer program for encapsulating scalable partitioned timed media data
JP6768907B2 (ja) メディアファイルの処理装置及び処理方法
US10645428B2 (en) Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
US11412017B2 (en) Method, device, and computer program for encoding inter-layer dependencies in encapsulating multi-layer partitioned timed media data
JP6516766B2 (ja) 分割タイムドメディアデータのストリーミングを改善するための方法、デバイス、およびコンピュータプログラム
US9591383B2 (en) Method, device, and computer program for encapsulating partitioned timed media data
US11638066B2 (en) Method, device and computer program for encapsulating media data into a media file
GB2535453A (en) Method, device, and computer program for encapsulating hevc layered media data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200729

R151 Written notification of patent or utility model registration

Ref document number: 6743059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151