JP2022050370A - ビデオコーディングにおけるデコード機能情報のストレージ - Google Patents

ビデオコーディングにおけるデコード機能情報のストレージ Download PDF

Info

Publication number
JP2022050370A
JP2022050370A JP2021151970A JP2021151970A JP2022050370A JP 2022050370 A JP2022050370 A JP 2022050370A JP 2021151970 A JP2021151970 A JP 2021151970A JP 2021151970 A JP2021151970 A JP 2021151970A JP 2022050370 A JP2022050370 A JP 2022050370A
Authority
JP
Japan
Prior art keywords
video
visual media
track
media file
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021151970A
Other languages
English (en)
Other versions
JP7222043B2 (ja
Inventor
ワン イェ-クイ
Ye-Kui Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LEMON Inc
Original Assignee
LEMON Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LEMON Inc filed Critical LEMON Inc
Publication of JP2022050370A publication Critical patent/JP2022050370A/ja
Application granted granted Critical
Publication of JP7222043B2 publication Critical patent/JP7222043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】1つ以上の画像を保管するファイルフォーマットを符号化または復号するためのシステム、方法、および装置が記載される。【解決手段】一つの例示的な方法は、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行することを含む。ここで、フォーマットルールは、デコード機能情報ネットワーク抽象化層ユニットが、ビジュアルメディアファイル内のビデオトラックのサンプルエントリ、または、ビデオトラックのサンプルおよびビジュアルメディアファイル内のビデオトラックのサンプルエントリのいずれに含まれるか否かを、サンプルエントリのタイプが決定することを指定する。【選択図】 図4

Description

本特許文書は、ファイルフォーマットにおけるデジタルオーディオビデオメディア情報の生成、保管、および消費に関する。
パリ条約に基づく適用特許法及び/又はルールの下で、この出願は、2020年9月17日に出願された米国仮特許出願第63/079,869号の優先権および利益を適時に主張して行われるものである。法に基づく全ての目的のために、上記の出願の開示全体が、この出願の開示の一部として引用により包含されている。
デジタルビデオ(digital video)は、インターネットおよびその他のデジタル通信ネットワークにおいて最大の帯域幅使用を占めている。ビデオの受信および表示をすることができる接続されたユーザデバイスの数が増加するにつれて、デジタルビデオの利用に対する帯域幅需要は増加し続けることが予想されている。
本明細書は、ファイルフォーマットに従って、ビデオ(video)または画像(image)の符号化された表現を処理するために、ビデオエンコーダおよびデコーダによって使用され得る技術を開示する。
一つの例として、ビデオ処理方法が開示される。本方法は、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップを含み、ここで、前記フォーマットルールは、情報アイテムが、前記ビジュアルメディアファイルの非ビデオコーディング層トラックに含まれるか否かを制御する条件を指定する。そして、ここで、前記ビジュアルメディアファイルにおける前記非ビデオコーディング層トラックの存在は、前記ビジュアルメディアファイルのビデオコーディング層トラックにおける特定のトラック参照によって示される。
別の例示的な態様において、ビデオ処理方法が開示される。本方法は、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップを含み、ここで、前記フォーマットルールは、デコード機能情報ネットワーク抽象化層ユニットが、前記ビジュアルメディアファイル内のビデオトラックのサンプルエントリ、または、前記ビデオトラックのサンプルおよび前記ビジュアルメディアファイル内のビデオトラックのサンプルエントリのいずれに含まれるか否かを、サンプルエントリのタイプが決定することを指定する。
別の例示的な態様において、ビデオ処理方法が開示される。本方法は、フォーマットルールに従って、ビジュアルメディアファイルと、前記ビジュアルメディアデータに対応する情報を保管するファイルとの間の変換を実行するステップを含む。ここで、前記フォーマットルールは、前記ファイルの非ビデオコーディング層(VCL)トラックを識別するための第1条件、及び/又は、前記ファイルのVCLトラックを識別するための第2条件を指定する。
さらに別の例示的な態様において、ビデオエンコーダ装置が開示される。ビデオエンコーダは、上述の方法を実施するように構成されたプロセッサを備える。
さらに別の例示的な態様において、ビデオデコーダ装置が開示される。ビデオデコーダは、上述の方法を実施するように構成されたプロセッサを備える。
さらに別の例示的な態様において、コードが保管されたコンピュータ可読媒体が開示される。本コードは、プロセッサ実行可能コードの形式でここにおいて説明される方法の1つを具現化する。
さらに別の例示的な態様において、ビットストリームが保管されたコンピュータ読取り可能な媒体が開示される。本ビットストリームは、本文書に説明される方法を使用して生成または処理される。
これら及び他の特徴は、本文書の全体を通して説明される。
図1は、一つの例示的なビデオ処理システムのブロック図である。 図2は、ビデオ処理装置のブロック図である。 図3は、ビデオ処理の例示的方法のためのフローチャートである。 図4は、本開示のいくつかの実施形態に従った、ビデオコーディングシステムを示すブロック図である。 図5は、本開示のいくつかの実施形態に従った、エンコーダを示すブロック図である。 図6は、本開示のいくつかの実施形態に従った、デコーダを示すブロック図である。 図7は、一つの例示的なエンコーダのブロック図を示している。 図8は、例示的なビデオ処理の方法のためのフローチャートを示している。 図9は、例示的なビデオ処理の方法のためのフローチャートを示している。
セクションの見出しは、理解を容易にするために本文書において使用されるものであり、そして、各セクションで開示される技術および実施形態の適用をそのセクションだけに制限するものではない。さらに、H.266用語は、理解を容易にするためだけに使用されるものであり、そして、開示される技術の範囲を限定するためには使用されない。かくして、ここにおいて説明される技術は、他のビデオコーデックプロトコルおよびデザインに対しても、また、適用可能である。本文書において、VVC仕様またはISOBMFFファイルフォーマット仕様の現在の草案(draft)に関して、編集変更が、テキストに対して示されている。オープンおよびクローズの二重括弧(例えば、[[ ]])によって、二重括弧の間にあるテキストがキャンセルされたテキストであることを示すもの、および、追加されたテキストを示す太字イタリック体のテキストによるものである。
1.簡単な説明
本文書はビデオファイルフォーマットに関する。具体的には、ISOベースメディア・ファイルフォーマット(ISOBMFF)に基づく、メディアファイルにおけるバーサタイルビデオコーディング(Versatile Video Coding、VVC)ビデオビットストリームに係る、画像ヘッダ(PH)、適応パラメータセット(APS)、デコード機能情報(decoding capability information、DCI)、および、動作点情報(OPI)ネットワーク抽象化層(NA)ユニットの信号化および保管に関する。本アイデアは、個々に、または様々な組み合わせで、任意のコーデック、例えばVVC標準によって符号化されたビデオビットストリーム、および、任意のビデオファイルフォーマット、例えば開発中のVVCビデオファイルフォーマットに適用され得る。
2.略語
ACT 適応色変換
ALF 適応ループフィルタ
AMVR 適応動きベクトル分解能
APS 適応パラメータセット
AU アクセスユニット
AUD アクセスユニットの区切り記号
AVC アドバンストビデオコーディング(Rec.ITU-T H.264|ISO/IEC 14496-10)
B 双予測(bi-predictive)
BCW CUレベルの重み付けによる双予測
BDOF 双方向のオプティカルフロー
BDPCM ブロックベースのデルタパルス符号変調
BP バッファ期間
CABAC コンテキストベースの適応バイナリ演算符号化
CB 符号化ブロック
CBR 固定ビットレート
CCALF クロスコンポーネント適応ループフィルタ
CPB コード化画像バッファ
CRA クリーンなランダムアクセス
CRC 巡回冗長検査(cyclic redundancy check)
CTB 符号化木ブロック
CTU 符号化木ユニット
CU コーディングユニット
CVS コード化デオシーケンス
DPB デコードされた画像バッファ
DCI デコード機能情報
DRAP 従属ランダムアクセスポイント
DU デコーディングユニット
DUI デコーディングユニット情報
EG 指数関数ゴロム(exponential-Golomb)
EGk k次の指数関数ゴロム
EOB ビットストリームの末尾
EOS シーケンスの末尾
FD フィラーデータ(filler data)
FIFO 先入先出法(first-in,first-out)
FL 固定長
GBR 緑、青、赤
GCI 一般的な制約情報
GDR 漸進的なデコーディングリフレッシュ
GPM 幾何学的パーティション化モード
HEVC 高効率ビデオコーディング(Rec.ITU-T H.265|ISO/IEC 23008-2)
HRD 仮想参照(hypothetical reference)デコーダ
HSS 仮想ストリームスケジューラ
I イントラ(intra)
IBC イントラブロックコピー
IDR 瞬時デコーディングリフレッシュ
ILRP 層間参照ピクチャ
IRAP イントラランダムアクセスポイント
LFNST 低周波非分離(non-separable)変換
LPS 最低確率シンボル
LSB 最下位ビット(least significant bit)
LTRP 長期的な参照ピクチャ
LMCS クロマスケーリングによるルマ(luma)マッピング
MIP マトリクスベースのイントラ予測
MPS 最大確率シンボル
MSB 最上位ビット(most significant bit)
MTS 多重変換選択
MVP 動きベクトル予測
NAL ネットワーク抽象化層
OLS 出力層セット
OP 動作点
OPI 動作点情報
P 予測的
PH ピクチャヘッダ
POC ピクチャーオーダーカウント
PPS 画像パラメータセット
PROF オプティカルフローによる予測精緻化(refinement)
PT ピクチャタイミング
PU ピクチャユニット
QP 量子化パラメータ
RADL ランダムアクセス復号可能リ-ディング(ピクチャ)
RASL ランダムアクセススキップリ-ディング(ピクチャ)
RBSP 生バイト(raw byte)シーケンスペイロード
RGB 赤、緑、青
RPL 参照ピクチャリスト
SAO サンプル適応オフセット
SAR サンプルのアスペクト比
SEI 補足的な強化情報
SH スライスヘッダ
SLI サブピクチャレベルの情報
SODB データビットのストリング
SPS シーケンスパラメータセット
STRP 短期の参照ピクチャ
STSA ステップ毎の時間的サブレイヤアクセス
TR トランケーテッド・ライス
VBR 可変ビットレート
VCL ビデオコーディング層
VPS ビデオパラメータセット
VSEI 汎用性の高い補足拡張情報(Rec.ITU-T H.274|ISO/IEC 23002-7)
VUI ビデオのユーザビリティ情報
VVC バーサタイルビデオコーディング(Rec.ITU-T H.266|ISO/IEC 23090-3)
3.ビデオコーディングの紹介
3.1.ビデオコーディング規格
ビデオコーディング規格は、主に、周知のITU-TおよびISO/IEC規格の開発を通じて発展してきた。ITU-TはH.261とH.263を作り出し、ISO/IECはMPEG-1とMPEG-4Visualを作り出し、そして、2つの組織は、H.262/MPEG-2 Videoと、H.264/MPEG-4 Advanced Video Coding(AVC)と、H.265/HEVC規格とを共同で作成した。H.262から、ビデオコーディング標準は、時間的予測に加えて変換符号化(transform coding)が利用されるハイブリッドビデオコーディング構造に基づいている。HEVCを越えた将来のビデオコーディング技術を探求するために、VCEGとMPEGが共同で2015年に共同ビデオ探査チーム(Joint Video Exploration Team、JVET)を設立した。それ以来、JVETによって多くの新しい方法が採用され、そして、JEM(Joint Exploration Model)と名付けられた参照ソフトウェアの中へ入れられた。その後、バーサタイルビデオコーディング(Versatile Video Coding、VVC)プロジェクトが正式に開始されたときに、JVETは、JVET(Joint Video Experts Team)に改称された。VVCは、HEVCと比較して50%のビットレート低減を目標とする、新しいコーディング標準であり、2020年7月1日に終了した第19回会合でJVETによって最終決定された。
バーサタイルビデオコーディング(VVC)規格(ITU-T H.266|ISO/IEC 23090-3)および関連するバーサタイル追加強化情報(Versatile Supplemental Enhancement Information、VSEI)規格(ITU-T H.274|ISO/IEC 23002-7)は、テレビ放送、ビデオ会議、またはストレージ媒体からのといった従来のアプリケーション、そして、また、適応ビットレートストリーミング、ビデオ領域抽出、複数の符号化ビデオビットストリームからのコンテンツの合成およびマージ、マルチビュービデオ、スケーラブルレイヤコーディング、および、ビューポート適応360°イマーシブメディアといった、より先進的な用途のアプリケーション、の両方を含む、最大限に広範囲のアプリケーションにおける使用のために設計されている。
3.2.ファイルフォーマット規格
メディアストリーミングアプリケーションは、典型的には、IP、TCP、およびHTTPのトランスポート方式に基づいており、そして、典型的には、ISOベースのメディアファイルフォーマット(ISOBMFF)といったファイルフォーマットに依存している。そうしたストリーミングシステムの一つは、HTTP(DASH)上の動的適応ストリーミングである。ISOBMFFおよびDASHでビデオフォーマットを使用するために、AVCファイルフォーマットおよびHEVCファイルフォーマットといった、ビデオフォーマットに特有のファイルフォーマット仕様が、ISOBMFFトラックと、DASH表現と、および、セグメントと、におけるビデオコンテンツのカプセル化のために必要とされるだろう。ビデオビットストリームに関する重要な情報、例えば、プロファイル、層(tier)、およびレベル、並びに、その他の多くは、コンテンツ選択の目的、例えば、ストリーミングセッションの開始時の初期化およびストリーミングセッション中のストリーム適応の両方のための適切なメディアセグメントの選択のために、ファイルフォーマットレベルのメタデータ及び/又はDASHメディアプレゼンテーション記述(MPD)として公開される(exposed)必要があるだろう。
同様に、ISOBMFFで画像フォーマットを使用するためには、AVC画像ファイルフォーマットおよびHEVC画像ファイルフォーマットといった、画像フォーマットに特有のファイルフォーマット仕様が必要とされるだろう。
VVCビデオファイルフォーマット、すなわちISOBMFFに基づくVVCビデオコンテンツのストレージのためのファイルフォーマットが、現在MPEGによって開発されている。
VVC画像ファイルフォーマット、すなわちISOBMFFに基づく、VVCを使用してコード化された画像コンテンツを保管するためのファイルフォーマットが、現在MPEGによって開発されている。
3.3.VVCにおけるPH、APS、DCI、およびOPI NALユニット
いくつかの新しいタイプのNALユニットがVVCに導入されてきており、PH、APS、DCI、およびOPI NALユニットを含んでいる。
3.3.1.適応パラメータセット(APS)
適応パラメータセット(adaptation parameter set、APS)は、画像の複数のスライスにより、かつ/あるいは、異なる画像のスライスによって共有され得る、画像レベル及び/又はスライスレベルの情報を伝達するが、画像間で頻繁に変化し、かつ、変異(variants)総数が多いことがあり、従って、PPSに含めるのに適切でない。APSには、3個のタイプのパラメータが含まれている。適応ループフィルタ(ALF)パラメータ、クロマスケーリングによるルミナンスマッピング(LMCS)パラメータ、および、スケーリングリストパラメータである。APSは、プレフィックスまたはサフィックスとして、関連するスライスの前または後のいずれかに、2つの異なるNALユニットタイプで搬送され得る。後者は、超低遅延シナリオにおいて役に立つことができる。例えば、エンコーダが、画像に基づいてALFパラメータを生成する前に画像のスライスを送ることを可能にし、復号順序でその後の画像により使用される。
3.3.2.ピクチャヘッダ(PH)
各PUについてピクチャヘッダ(PH)構造が存在する。PHは、別個のPH NALユニットに存在するか、または、スライスヘッダ(SH)に含まれている。PUが1つのスライスだけで構成されている場合にのみ、PHはSHに含まれ得る。設計を単純化するために、CLVS内で、PHは、PH NALユニット内に全てあるか、または、SH内に全てあるかのいずれかだけであり得る。PHがSH内にある場合、CLVS内にPH NALユニットは存在しない。
PHは2つの目的のために設計されている。第一に、画像の全てのスライスに対して同じ値を有する全てのパラメータを搬送することによって、画像ごとに複数のスライスを含む画像のSHの信号オーバーヘッドを減らすことであり、従って、各SHで同じパラメータを繰り返さない。これらは、IRAP/GDR画像表示、インター/イントラスライス許容フラグ、および、POC、RPL、デブロッキングフィルタ、SAO、ALF、LMCS、スケーリングリスト、QPデルタ、重み付き予測、コーディングブロック分割、仮想境界、コロケーションされた画像、等に関する情報、を含んでいる。第二に、デコーダが、複数のスライスを含む各コード化画像の最初のスライスを識別するように、手助けすることである。各PUには1つのPHしか存在しないので、従って、デコーダがPH NALユニットを受信すると、次のVCL NALユニットが画像の最初のスライスであることを容易に知ることができる。
3.3.3デコード機能情報(DCI)
DCI NALユニットは、ビットストリームレベルのPTL情報を含んでいる。DCI NALユニットは、VVCビットストリームの送信者と受信者との間のセッションネゴシエーションの最中に使用され得る1つ以上のPTLシンタックス構造を含んでいる。DCI NALユニットがVVCビットストリーム内に存在する場合、ビットストリームのCVS内の各出力レイヤセット(OLS)は、DCI NALユニット内のPTL構造の少なくとも1つで搬送されるPTL情報に準拠する。
AVCおよびHEVCにおいて、セッションネゴシエーションのPTL情報は、SPS(HEVCとAVCについて)およびVPS(HEVC層化拡張について)で利用可能である。HEVCとAVCにおけるセッションネゴシエーションのためのPTL情報を伝達するこの設計は、SPSとVPSの範囲が、ビットストリーム全体の代わりに、CVS内にあるので、欠点がある。そのため、送信側-受信側セッションの開始は、新たなCVS毎にビットストリームのストリーミングの最中に再開始(re-initiation)に悩まされること。DCIは、ビットストリームレベルの情報を搬送するので、この問題を解決する。従って、指示されたデコード機能へのコンプライアンスが、ビットストリームの終わりまで保証され得る。
3.3.4.動作点情報(OPI)
HEVCおよびVVCの復号プロセスは、デコーダAPIを通じて、復号化動作点(decoding operating point)、すなわち、目標OLSおよび復号されるビットストリームの最上サブレイヤ、を設定するための類似の入力変数を有する。しかしながら、伝送中にビットストリームのレイヤ及び/又はサブレイヤが除去されるシナリオ、または、装置がデコーダAPIをアプリケーションに公開しないシナリオでは、デコーダが、所与のビットストリームを処理するためにデコーダの動作点について正確に知らされないことが生じる可能性がある。従って、デコーダは、ビットストリーム内の画像の特性、例えば、デコードされた画像のための適切なバッファ割り当て、並びに、個々の画像が出力されるか否かについて、結論を下すことができない。この問題に対処するために、VVCは、新たに導入された動作点情報(OPI)NALユニットを通して、ビットストリーム内のこれら2つの変数を示すモードを追加する。ビットストリーム、および、その個々のCVSの先頭のAUにおいて、OPI NALユニットは、デコードされるべきビットストリームのターゲットOLSと最上サブレイヤに関してデコーダに通知する。
OPI NALユニットが存在し、かつ、動作点が、また、デコーダAPI情報を介してデコーダにも供給される場合(例えば、アプリケーションが、ターゲットOLSおよびサブレイヤに関して、より多くの更新された情報を有し得る)、デコーダAPI情報が優先する。ビットストリーム内にデコーダAPIおよびOPI NALユニットの両方が存在しない場合、適切なフォールバック選択がVVCで指定され、適切なデコーダ動作を可能にする。
3.4.VVCビデオファイル形式の詳細
3.4.1.トラックの種類
VVCビデオファイルフォーマットは、ISOBMFFファイル内のVVCビットストリームのキャリッジ(carriage)のために、以下のタイプのビデオトラックを指定する。
a)VVCトラック:
VVCトラックは、サンプルおよびサンプルエントリにNALユニットを含めることにより、そして、おそらく、VVCビットストリームの他のサブレイヤを含む他のVVCトラックを参照することにより、そして、おそらく、VVCサブピクチャトラックを参照することによって、VVCビットストリームを表す。VVCトラックがVVCサブピクチャトラックを参照する場合には、VVCベーストラックと呼ばれる。
b)VVC非VCLトラック:
ALF、LMCSを搬送するAPS、または、スケーリングリストパラメータ、および、その他の非VCL NALユニットは、VCL NALユニットを含むトラックとは別のトラックに保管され、そして、送信される。
c)VVCサブピクチャトラック:
VVCサブピクチャトラックは、次のいずれかを含んでいる。
1つ以上のVVCサブピクチャのシーケンス
矩形領域を形成する1つ以上の完全なスライスのシーケンス
VVCサブピクチャトラックのサンプルは、次のいずれかを含んでいる。
復号順に連続するISO/IEC 23090-3において指定される1つ以上の完全なサブピクチャ
矩形領域を形成し、かつ、復号順に連続するISO/IEC 23090-3において指定される1つ以上の完全なスライス
VVCサブピクチャトラックの任意のサンプルに含まれるVVCサブピクチャまたはスライスは、復号順で連続している。
注:VVC非VCLトラックおよびVVCサブピクチャトラックは、以下のようにストリーミングアプリケーションにおいてVVCビデオの最適な配送(delivery)を可能にする。これらのトラックは、それぞれ独自のDASH表現で搬送され得る。そして、トラックのサブセットの復号化とレンダリングのために、VVCサブピクチャトラックのサブセットを含むDASH表現、並びに、非VCLトラックを含むDASH表現が、セグメント毎に、クライアントによって要求され得る。このように、APSおよび他の非VCL NALユニットの冗長な伝送が回避され得る。

3.4.2 VVCエレメンタリストリーム構造
VVCコンテンツを保管するために、3個のタイプのエレメンタリストリーム(elementary streams)が定義されている。
ビデオエレメンタリストリーム(Video elementary stream)、パラメータセットを含まないものであり、全てのパラメータセットがサンプルエントリ(sample entry)に保管される。
ビデオ及びパラメータセットエレメンタリストリーム(Video and parameter set elementary stream)、パラメータセットを含み得るものであり、そして、また、それらのサンプルエントリに保管されたパラメータセットも有し得る。
非VCL非エレメンタリストリーム(Non-VCL elementary stream)、ビデオトラックにおいて搬送されるエレメンタリストリームと同期した非VCL NALユニットを含むもの。
注:VVC非VCLトラックは、サンプルエントリにパラメータセットを含んでいない。

3.4.3 デコーダ構成情報サンプルグループ
3.4.3.1 定義
このサンプルグループのサンプルグループ記述エントリ(description entry)は、DCI NALユニットを含んでいる。同じデコーダ構成情報サンプルグループ(Decoder Configuration Information sample group)記述エントリにマップされた全てのサンプルは、同じVVCビットストリームに属する。
このサンプルグループは、VVCトラック内の異なるサンプルエントリに同じDCI NALユニットが使用されるか否か、すなわち、異なるサンプルエントリに属するサンプルが同じVVCビットストリームに属するか否か、を示す。2つのサンプルエントリのサンプルが同じデコーダ構成情報サンプルグループ記述エントリにマップされている場合、プレーヤは、デコーダの再初期化することなく、サンプルエントリを切り替えることができる。
いずれかのDCI NALユニットが、いずれかのサンプルエントリまたはインバンドに存在する場合、それは、デコーダ構成情報サンプルグループに含まれるDCI NALユニットと厳密に同一である。
3.4.3.2 シンタックス
Class DecoderConfigurationInformation extends VisualSampleGroupEntry ('dcfi') {
unsigned int(16) dciNalUnitLength;
bit(8*NalUnitLength) dciNalUnit;
}
3.4.3.3 セマンティクス
dciNalUnitLengthは、DCI NALユニットのバイト長を示す。
dciNalUnitは、ISO/IEC 23090-3に規定されているDCI NALユニットを含む。
4.開示される技術的ソリューションによって解決される技術的課題の例
PH、APS、DCI、およびOPI NALユニットのシグナリングに関するVVCビデオファイルフォーマットの最新設計は、以下の問題を有している。
1)VVCベーストラックおよびVVC非VCLトラックの両方は、VCL NALユニットを含まない。しかしながら、VVC非VCLトラックの現在の定義は、また、VVCベーストラックにも適用される。さらに、現在の定義では、VVC非VCLトラックは常にAPS NALユニットを含んでいる。しかしながら、このことは、非VCL NALユニットが、画像ヘッダNALユニット、および、おそらく、APS NALユニットを除く、他の非VCL NALユニットを含むことを許容しないだろう。
そうしたVVC非VCLトラックを許容することは、異なるサブピクチャがAPSの異なるセットを使用している場合、サブピクチャトラックの遅延帯域化(late-banding)のために、抽出可能なサブピクチャベースの単一層ビットストリームをファイルに最適に保管することを可能にするだろう。例えば、1つのPHトラック(VVCベーストラックと同じ情報を含むが、非VCLトラックとして)、複数のAPSトラック(VC非VCLトラックとして)、および、それぞれサブピクチャシーケンスを含んでいる複数のVVCサブピクチャトラックを有することによる。
2)APS NALユニットは、全てが、1つのVVC非VCLトラック内、または、VVCトラック内のいずれかに保管される。別の言葉で言えば、APS NALユニットを1つ以上のトラックに保管することはできない。このことは、LMCSパラメータを含むAPS NALユニット(すなわち、LMCS APS)、または、スケーリングリスト(SL APS)パラメータを含むAPS NALユニット(すなわち、SL APS)に対して機能するが、ALFパラメータを含むAPS NALユニット(すなわち、ALF APS)に対しては理想的ではない。異なるVVCサブピクチャトラックはALF APSの異なるセットを使用し得るので、複数のVVC非VCLトラックがVVCビットストリームに対してALF APSを搬送できるようにすることが望ましい。3)DCI NALユニットは、ビデオエレメンタリストリームおよびビデオとパラメータセットエレメンタリストリームの定義では考慮されない。従って、ビデオエレメンタリストリームは、パラメータセットを含まないが、DCI NALユニットを含むことがある。
4)非VCLエレメンタリストリームの定義は、非VCLエレメンタリストリームにVCL NALユニットを含む可能性を除外しない。
5)デコーダ構成情報サンプルグループは、DCI NALユニットのシグナリングのためのメカニズムを提供する。しかしながら、以下の問題が存在している。
a.最も一般的なユースケースでは、トラックの全てのサンプルは、同じビットストリームに属するだろう(または、ビットストリームの数にかかわらず、同じDCIを共有する)。そうした場合について、サンプルグループ・シグナリングを通して適用可能なDCIを探し出すことは複雑である。
b.同じデコーダ構成情報サンプルグループ記述エントリにマップされた全てのサンプルは、同じVVCビットストリームに属すると言われる。しかしながら、このことは、複数のVVCビットストリームに属しているが(例えば、EOB NALユニットによって決定される)、同一のトラック内のサンプルが、それらが可能であっても、同じDCI NALユニットを共有することを許容しない。
6)OPI NALユニットは、サンプルエントリ記述に含めることは許容されない。しかしながら、多くのケースにおいて、OPI NALユニットは、VVCビットストリーム中に存在する場合、パラメータセットと同様に扱われるべきであり、従って、それらは、サンプルエントリ記述に含まめることが許容されるべきである。
5.例示的なソリューションおよび実施形態
上記および他の問題を解決するために、以下にまとめるように方法が開示される。アイテムは、一般的な概念を説明するための例示として考慮されるべきであり、そして、狭義に解釈されるべきではない。さらに、これらのアイテムは、個別に、または任意の方法で組み合わせて適用することができる。
1)問題1および2を解決するために、1つ以上のアイテムが以下に提案される。
a.VVC非VCLトラックは、非VCL NALユニットのみを含むトラックとして定義され、かつ、「vvcN」トラックリファレンスを通じてVVCトラックによって参照される。
b.VVC非VCLトラックは、VCL NALユニットを含むトラックとは別のトラックに保管され、かつ、送信される、他の非VCL NALユニットを有し又は有さない、ALF、LMCS、または、スケーリングリストのパラメータを搬送する、APSを含み得ること、が指定されている。
c.VVC非VCLトラックは、VCL NALユニットを含むトラックとは別のトラックに保管され、かつ、送信される、APS NALユニットを有し又は有さない、および、他の非VCL NALユニットを有し又は有さない、画像ヘッダNALユニットを含み得ること、も指定されている。
d.ビデオストリームのピクチャヘッダNALユニットは、VVCトラックのサンプルまたはVVC非VCLトラックのサンプルのいずれかに保管され得るが、両方が同時には保管されないこと、が指定されている。
2)問題3を解決するために、1つ以上のアイテムが以下に提案される。
a.ビデオエレメンタリストリームは、VCL NALユニットを含み、そして、あらゆるパラメータセット、DCI、またはOPI NALユニットも含まないエレメンタリストリームとして定義される。全てのパラメータセット、DCI、およびOPI NALユニットは、サンプルエントリに保管されている。
i.代替的に、ビデオエレメンタリストリームは、VCL NALユニットを含み、そして、あらゆるパラメータセットまたはDCI NALユニットも含まないエレメンタリストリームとして定義される。全てのパラメータセットおよびDCI NALユニットは、サンプルエントリに保管されている。
b.DCI NALユニットをパラメータセットと全く同じに取り扱う。つまり、DCI NALユニットは、ビデオトラックのサンプルエントリ内のみにあり得るか(例えば、サンプルエントリタイプ名が「vvc1」の場合)、または、ビデオトラックのサンプルおよびサンプルエントリのいずれか又は両方にあり得る(例えば、サンプルエントリタイプ名が「vvi1」の場合)。
3)問題4を解決するために、非VCLエレメンタリストリームは非VCL NALユニットのみを含むエレメンタリストリームであり、そして、これらの非VCL NALユニットはビデオトラックで搬送されるエレメンタリストリームと同期されていること、が指定されている。
4)問題5を解決するために、1つ以上のアイテムが以下に提案される。
a.トラックの全てのサンプルが同じビットストリームに属する(または、ビットストリームの数に関係なく同じDCIを共有する)ケースについて、DCI NALユニットは、トラックレベルボックスで信号化され得る。例えば、トラックレベル・ヘッダボックス、トラックレベルメタボックス、または、別のトラックレベルボックスである。
b.複数のVVCビットストリーム(例えば、EOB NALユニットによって決定される)に属するが、同一トラック内のサンプルが、同一のデコーダ構成情報サンプルグループに属すること、そして、その結果、同一のデコーダ構成情報サンプルグループ記述エントリを共有することを許容する。
5)問題6を解決するために、OPI NALユニットは、例えば、デコーダ構成レコードの非VCL NALユニットアレイの1つとして、サンプルエントリ記述に含めることが許容される。
a.代替的に、OPI NALユニットをパラメータセットと全く同じに取り扱う。つまり、OPI NALユニットは、ビデオトラックのサンプルエントリ内のみにあり得るか(例えば、サンプルエントリタイプ名が「vvc1」の場合)、または、ビデオトラックのサンプルおよびサンプルエントリのいずれか又は両方にあり得る(例えば、サンプルエントリタイプ名が「vvi1」の場合)。

6.実施形態
以下は、上記セクション5で要約した本発明の態様に係るいくつかの例示的な実施形態であり、VVCビデオファイルフォーマットの標準仕様に適用することができる。変更されたテキストは、最新の仕様書草案(draft specification)に基づいている。追加または変更された最も関連する部分は太字のイタリック体のテキストで示され(ここでは下線)、削除された部分の一部はオープンおよびクローズの二重括弧(例えば、[[ ]])で示されており、削除されたテキストは削除または消されたテキストを示す二重括弧の間にある。本質的に編集上の変更であり、従って、強調されない他の変更も存在し得る。
6.1 第1実施形態
本実施形態は、アイテム1に関する。
6.1.1 トラックの種類
この仕様は、VVCビットストリームのキャリッジ(carriage)についてビデオトラックの以下のタイプを規定する。
a)VVCトラック:
VVCトラックは、VVCビットストリームを表している。サンプル及び/又はサンプルエンティティ内にNALユニットを含めることにより、そして、おそらく、「vopi」および「linf」サンプルグループを通じて、または、「opeg」エンティティグループを通して、VVCビットストリームの他のレイヤ及び/又はサブレイヤを含む他のVVCトラックを関連付けることにより、そして、おそらく、VVCサブピクチャトラックを参照することによるものである。

VVCトラックがVVCサブピクチャトラックを参照する場合、それは、また、VVCベーストラックと呼ばれる。VVCベーストラックは、VCL NALユニットを含んではならず、かつ、「vvcN」トラックリファレンスを通じてVVCトラックによって参照されてはならない。
b)VVC非VCLトラック:
VVC非VCLトラックは、非VCL NALユニットのみを含むトラックであり、そして、「vvcN」トラックリファレンスを通じてVVCトラックによって参照される。

VVC非VCLトラックは、VCL NALユニットを含むトラックとは別のトラックに保管され、かつ、送信される、他の非VCL NALユニットを有し又は有さない、ALF、LMCS、または、スケーリングリストのパラメータを搬送する、APSを含み得る

VVC非VCLトラックは、VCL NALユニットを含むトラックとは別のトラックに保管され、かつ、送信される、APS NALユニットを有し又は有さない、および、他の非VCL NALユニットを有し又は有さない、画像ヘッダNALユニットを含み得る。
c)VVCサブピクチャトラック:
VVCサブピクチャトラックは、以下のいずれかを含んでいる。
1つ以上のVVCサブピクチャのシーケンス
矩形領域を形成している1つ以上の完全なスライスのシーケンス
VVCサブピクチャトラックのサンプルは、以下のいずれかを含んでいる。
復号順に連続するISO/IEC 23090-3で既定されている1つ以上の完全なサブピクチャ
矩形領域を形成し、かつ、復号順に連続するISO/IEC 23090-3で規定されている1つ以上の完全なスライス
VVCサブピクチャトラックの任意のサンプルに含まれるVVCサブピクチャまたはスライスは、復号順で連続している。
注:VVC非VCLトラックおよびVVCサブピクチャトラックは、以下のようにストリーミングアプリケーションにおいてVVCビデオの最適な配送(delivery)を可能にする。これらのトラックは、それぞれ独自のDASH表現で搬送され得る。そして、トラックのサブセットの復号化とレンダリングのために、VVCサブピクチャトラックのサブセットを含むDASH表現、並びに、非VCLトラックを含むDASH表現が、セグメント毎に、クライアントによって要求され得る。このように、APSおよび他の非VCL NALユニットの冗長な伝送が回避され得る。そして、不必要なサブピクチャの送信も、また、回避され得る。

6.2 第2実施形態
この実施形態は、アイテム4.bに関する。
6.2.1 デコーダ[[構成]]機能情報サンプルグループ
6.2.1.1 定義
このサンプルグループのサンプルグループ記述エントリは、DCI NALユニットを含んでいる。[[同じデコーダ構成情報サンプルグループ記述エントリにマップされた全てのサンプルは、同じVVCビットストリームに属する。]]
このサンプルグループは、VVCトラック内の異なるサンプルエントリに同じDCI NALユニット[s]が使用されているか否かを示す[[すなわち、異なるサンプルエントリに属するサンプルが同じVVCビットストリームに属するか否か]]。2つのサンプルエントリのサンプルが同じデコーダ構成情報サンプルグループ記述エントリにマップされている場合、プレーヤはデコーダの再初期化なしにサンプルエントリを切り替えることができる。
任意のDCI NALユニットが任意のサンプル登録またはインバンドの中に存在する場合、それは対応するデコーダ構成情報サンプルグループエントリの中に含まれるDCI NALユニットと全く同じである。
6.2.1.2 シンタックス
Class DecoderConfigurationInformation extends VisualSampleGroupEntry ('dcfi') {
unsigned int(16) dciNalUnit;
bit(8*NalUnitLength) dciNalUnit;
}
6.2.1.3 セマンティクス
dciNalUnitLengthは、DCI NALユニットのバイト長を示す。
dciNalUnitは、ISO/IEC 23090-3に規定されているDCI NALユニットを含む。

6.3 第3実施形態
この実施形態は、アイテム5に関する。
6.3.1 VVCデコーダ構成レコードの定義
この項(subclause)は、ISO/IEC 23090-3ビデオコンテンツについてデコーダ構成情報を規定する。
このレコードは、各サンプル内で使用される長さフィールドのサイズを含み、含まれるNALユニットの長さ、並びに、サンプルエントリに保存される場合、パラメータセット、DCI、OPI、およびSEI NALユニットを示す。このレコードは外部で囲まれ(framed)ている(サイズは、それを含む構造体によって提供される)。
このレコードは、バージョンフィールドを含んでいる。本仕様のこのバージョンは、このレコードのバージョン1を定義する。レコードに対する互換性のない変更は、バージョン番号の変更で示される。読者(readers)は、バージョン番号が認識されない場合、このレコードまたは適用されるストリームのデコードを試みてはならない。
このレコードに対する互換性のある拡張は、構成バージョンコードを変更しない。読者は、理解するデータの定義を超える認識されないデータを無視するように用意すべきである。
VvcPtlRecordは、トラックがVVCビットストリームをネイティブに、または、「subp」トラック参照の解決を通じて含んでいる場合、デコーダ構成レコードに存在する。そして、この場合、VVCビットストリームについて設定された特定の出力レイヤは、フィールドoutput_layer_set_idxで示される。ptl_present_flagがトラックのデコーダ構成レコードでゼロに等しい場合、そのトラックは「oref」トラック参照を有する。
・・・
非VCL NALユニットの初期化を進めるためのアレイのセットが存在する。NALユニットタイプは、DCI、OPI、VPS、SPS、PPS、プレフィックスAPS、および、プレフィックスSEI NALユニットのみを示すように制限されている。ISO/IEC 23090-3及びこの仕様でリザーブされているNALユニットタイプは、将来に定義を取得し得るものであり、そして、読者は、NALユニットタイプのリザーブされた又は許可されていない値を伴うアレイ無視すべきである。
注2:この「耐性(“tolerant”)」行為(behavior)は、エラーが起きないように設計されており、将来の仕様における、これらのアレイに対する後方互換性(backward-compatible)のある拡張の可能性を許容している。
注3:サンプルエントリで搬送されるNALユニットは、サンプルエントリを参照する最初のサンプルから再構成されたアクセスユニットにおいて、AUDおよび(もしあれば)OPI NALユニットの直後に、または、そうでなければ最初にに含まれる。
アレイは、DCI、OPI、VPS、SPS、PPS、プレフィックスAPS、プレフィックスSEIの順であることが推奨される。
・・・
6.3.2 VVCデコーダ構成レコードのセマンティクス
・・・
numArraysは、示されたタイプのNALユニットのアレイの数を示す。
array_completenessは、1に等しい場合、所与のタイプの全てのNALユニットが以降のアレイ内にあり、かつ、ストリーム内にないことを示しす。0に等しい場合、示されたタイプの追加的なNALユニットがストリーム内にあり得ることを示す。[[デフォルトおよび]]許容される値は、サンプルエントリ名によって制約される。
NAL_unit_typeは、以降のアレイ内のNALユニットのタイプを示す(全てがそのタイである)。ISO/IEC 23090-3で定義された値をとる。DCI、OPI、VPS、SPS、PPS、プレフィックスAPS、プレフィックスSEI[または、サフィックスSEI]]NALユニットを示す値のうち1つをとるように制限されている。
numNalusは、この構成レコードが適用されるストリームの構成レコード内に含まれる、指示されたタイプのNALユニットの数を示す。SEIアレイは、「宣言的(declarative)」性質のSEIメッセージ、すなわち、ストリーム全体に関する情報を提供するもののみを含むものとする。そうしたSEIの例は、ユーザデータSEIであり得る。
nalUnitLengthは、NALユニットのバイト長を示す。
nalUnitは、ISO/IEC 23090-3に規定されように、DCI、OPI、VPS、SPS、PPS、APS、または宣言的SEI NALユニットを含む。
図1は、ここにおいて開示される様々な技術が実装され得る例示的なビデオ処理システム1900を示すブロック図である。種々の実装は、システム1900のコンポーネントの一部または全部を含んでよい。システム1900は、ビデオコンテンツを受信するための入力1902を含んでよい。ビデオコンテンツは、生(raw)または非圧縮フォーマット、例えば、8または10ビットの多成分(multi-component)画素値で受信されてよく、または、圧縮または符号化フォーマットで受信されてもよい。入力1902は、ネットワークインターフェイス、周辺バスインターフェイス、または、ストレージインターフェイスを表すことができる。ネットワークインターフェイスの例は、イーサネット、受動光ネットワーク(PON)、等の有線インターフェイス、および、Wi-Fiまたはセルラーインターフェイスといった無線インターフェイスを含んでいる。
システム1900は、本文書に記載される種々のコーディングまたは符号化方法を実装し得る符号化コンポーネント1904を含んでよい。符号化コンポーネント1904は、ビデオのコード化表現を生成するために、入力1902から符号化コンポーネント1904の出力へのビデオの平均ビットレートを低減することができる。従って、符号化技術は、ときどきビデオ圧縮またはビデオトランスコーディング技術と呼ばれる。符号化コンポーネント1904の出力は、コンポーネント1906によって表されるように、保管されるか、または、接続された通信を介して送信されてよい。入力1902で受信されたビデオが保管され、または、通信されたビットストリーム(または、コード化)表現は、ディスプレイインターフェイス1910に送られるピクセル値又または表示可能なビデオを生成するために、コンポーネント1908によって使用され得る。ビットストリーム表現からユーザが見ることができるビデオを生成するプロセスは、ときどきビデオ解凍と呼ばれる。さらに、所定のビデオ処理操作が、「符号化(“coding”)」操作またはツールと称される一方で、符号化ツールまたは操作は、エンコーダで使用され、そして、符号化の結果を反転する、対応する復号化ツールまたは操作は、デコーダにより実行されることが理解されるだろう。
ペリフェラルバスインターフェイスまたはディスプレイインターフェイスの例は、ユニバーサルシリアルバス(USB)、または高精細度マルチメディアインターフェイス(HDMI(登録商標))、もしくはディスプレイポート、等を含んでよい。ストレージインターフェイスの例は、SATA(serial advanced technology attachment)、PCI、IDEインターフェイス、等を含む。本文書に記載される技術は、携帯電話、ラップトップ、スマートフォン、または、デジタルデータ処理及び/又はビデオ表示を実行することができる他の装置といった種々の電子装置において具体化することができる。
図2は、ビデオ処理装置3600のブロック図である。装置3600は、ここにおいて記載される1つ以上の方法を実装するために使用され得る。装置3600は、スマートフォン、タブレット、コンピュータ、モノのインターネット(IoT)受信器、等において具体化され得る。装置3600は、1つ以上のプロセッサ3602、1つ以上のメモリ3604、および、ビデオ処理ハードウェア3606を含んでよい。プロセッサ3602は、本文書に記載される1つ以上の方法を実装するように構成され得る。メモリ3604は、ここにおいて記載される方法および技術を実施するために使用されるデータおよびコードを保管するために使用されてよい。ビデオ処理ハードウェア3606は、ハードウェア回路において、本文書に記載されるいくつかの技術を実装するために使用され得る。いくつかの実施形態において、ビデオ処理ハードウェア3606は、プロセッサ3602、例えばグラフィックスコプロセッサ内に少なくとも部分的に含まれてよい。
図4は、本開示の技術を利用することができる例示的なビデオコーディングシステム100を示すブロック図である。
図4に示されるように、ビデオコーディングシステム100は、送信元装置(source device)110および宛先装置(destination device)120を含んでよい。送信元装置110は、コード化ビデオデータを生成し、ビデオコーディング装置として参照され得る。宛先装置120は、送信元装置110によって生成されたコード化ビデオデータを復号することができ、ビデオ復号化装置として参照され得る。
送信元装置110は、ビデオソース112、ビデオエンコーダ114、および、入力/出力インターフェイス116を含み得る。
ビデオソース112は、ビデオキャプチャ装置といったソース、ビデオコンテンツ・プロバイダからビデオデータを受信するためのインターフェイス、及び/又は、ビデオデータを生成するためのコンピュータグラフィックスシステム、または、そうしたソースの組み合わせを含んでよい。ビデオデータは、1つ以上の画像を含み得る。ビデオエンコーダ114は、ビデオソース112からのビデオデータを符号化して、ビットストリームを生成する。ビットストリームは、ビデオデータのコード化表現を形成するビットのシーケンスを含んでよい。ビットストリームは、コード化された画像および関連するデータを含んでよい。コード化画像は、画像のコード化された表現である。関連するデータは、シーケンスパラメータセット、画像パラメータセット、および、他のシンタックス構造を含んでよい。I/Oインターフェイス116は、変調器/復調器(モデム)、及び/又は、送信器を含んでよい。符号化されたビデオデータは、ネットワーク130aを介してI/Oインターフェイス116を通じて宛先装置120に直接的に送信され得る。符号化されたビデオデータは、また、宛先装置120によるアクセスのためにストレージ媒体/サーバ130b上に保管することができる。
宛先装置120は、I/Oインターフェイス126、ビデオデコーダ124、および、ディスプレイ装置122を含んでよい。
I/Oインターフェイス126は、受信器、及び/又は、モデムを含んでよい。I/Oインターフェイス126は、送信元装置110またはストレージ媒体/サーバ130bから符号化されたビデオデータを取得することができる。ビデオデコーダ124は、符号化されたビデオデータを復号することができる。ディスプレイ装置122は、デコードされたビデオデータをユーザに対して表示することができる。ディスプレイ装置122は、宛先装置120と一体化されてよく、または、外部ディスプレイ装置とインターフェイスするように構成された宛先装置120の外部にあってよい。
ビデオエンコーダ114およびビデオデコーダ124は、高効率ビデオコーディング(HEVC)標準、バーサタイルビデオコーディング(VVM)標準、および、その他の現在の、及び/又は、更なる標準といった、ビデオ圧縮標準に従って動作することができる。
図5は、一つの例示的なビデオエンコーダ200を示すブロック図であり、ビデオエンコーダは図4に示されたシステム100内のビデオエンコーダ114であってよい。
ビデオエンコーダ200は、本開示に係る任意または全ての技術を実行するように構成され得る。図5の例において、ビデオエンコーダ200は、複数の機能コンポーネントを含んでいる。本開示に記載される技術は、ビデオエンコーダ200の種々のコンポーネント間で共有され得る。いくつかの例において、プロセッサは、本開示に記載される任意または全ての技術を実行するように構成され得る。
ビデオエンコーダ200の機能コンポーネントは、分割部201と、モード選択部203、動作推定部204、動作補償部205、およびイントラ予測部206、を含む予測部202と、残余生成部207と、変換部208と、量子化部209と、逆量子化部210と、逆変換部211と、再構成部212と、バッファ213と、および、エントロピー符号化部214を含んでよい。
他の例において、ビデオエンコーダ200は、より多く、より少ない、または、異なる機能コンポーネントを含み得る。一つの実施例において、予測部202は、イントラブロックコピー(IBC)ユニットを含んでよい。IBCユニットは、少なくとも1つの参照ピクチャが現在ビデオブロックが配置されている画像である、IBCモードで予測を実行することができる。
さらに、動作推定部204および動作補償部205といったいくつかのコンポーネントは、高度に統合されてもよいが、説明のために図5の例においては別個に示されている。
分割部201は、画像を1つ以上のビデオブロックにパーティション分割することができる。ビデオエンコーダ200およびビデオデコーダ300は、様々なビデオブロックサイズをサポートすることができる。
モード選択部203は、例えば、エラー結果に基づいて、符号化モードのうち1つを選択し、イントラまたはインター、そして、残余ブロックデータを生成するために残余生成部207に対して、また、参照ピクチャとして使用するための符号化ブロックを再構成するために再構成部212に対して、結果として生じるイントラコード化ブロックまたはインターコード化ブロックを提供することができる。いくつかの実施例において、モード選択部203は、予測がイントラ予測信号およびインター予測信号に基づいている、イントラ予測およびインター予測のモードの組み合わせ(CIIP)モードを選択することができる。モード選択部203は、また、インター予測の場合に、ブロックについて動きベクトルに対する解像度(例えば、サブピクセルまたは整数(integer)ピクセル精度)を選択することもできる。
現在ビデオブロックにおいてインター予測を実行するために、動作推定部204は、バッファ213からの1つ以上の参照フレームを現在ビデオブロックに対して比較することによって、現在ビデオブロックについて動き情報(motion information)を生成することができる。動作補償部205は、現在ビデオブロックに関連する画像以外のバッファ213からの画像の動き情報およびデコードされたサンプルに基づいて、現在ビデオブロックについて予測ビデオブロックを決定することができる。
動作推定部204と動作補償部205は、例えば、現在ビデオブロックが、Iスライス内、Pスライス内、または、Bスライス内にあるかに依存して、現在ビデオブロックについて異なるオペレーションを実行することができる。
いくつかの例において、動作推定部204は、現在ビデオブロックに対して単一方向(uni-directional)予測を実行することができ、そして、動作推定部204は、現在ビデオブロックに対する参照ビデオブロックについてリスト0またはリスト1の参照ピクチャ(reference picture)を検索することができる。動作推定部204は、次いで、参照ビデオブロックを含むリスト0またはリスト1における参照ピクチャを示す参照インデックス、および、現在ビデオブロックと参照ビデオブロックとの間の空間的変位を示す動きベクトルを生成することができる。動作推定部204は、現在ビデオブロックの動き情報として、参照インデックス、予測方向指示器、および、動きベクトルを出力することができる。動作補償部205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ブロックの予測ビデオブロックを生成することができる。
他の例において、動作推定部204は、現在ビデオブロックについて双方向(bi-directional)予測を実行することができ、動作推定部204は、現在ビデオブロックに対する参照ビデオブロックについてリスト0における参照ピクチャを検索することができ、そして、また、現在ビデオブロックに対する別の参照ビデオブロックについてリスト1における参照ピクチャを検索することもできる。動作推定部204は、次いで、参照ビデオブロックと現在ビデオブロックとの間の空間的変位を示す、参照ビデオブロックおよび動きベクトルを含んでいるリスト0およびリスト1における参照ピクチャを示す参照インデックスを生成することができる。動作推定部204は、現在ビデオブロックの動き情報として、現在ビデオブロックの参照インデックスおよび動きベクトルを出力することができる。動作補償部205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成することができる。
いくつかの例において、動作推定部204は、デコーダの復号処理のための動き情報の完全なセットを出力することができる。
いくつかの例において、動作推定部204は、現在ビデオに対する完全なセットの動き情報を出力しないことがある。むしろ、動作推定部204は、他のビデオブロックの動き情報を参照して現在ビデオブロックの動き情報を信号化することができる。例えば、動作推定部204は、現在ビデオブロックの動き情報が隣接するビデオブロックの動き情報と十分に類似していると判断することができる。
一つの例において、動作推定部204は、現在ビデオブロックに関連するシンタックス構造において、現在ビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ300に示す値を示すことができる。
別の例において、動作推定部204は、現在ビデオブロックに関連するシンタックス構造において、別のビデオブロックおよび動きベクトル差異(motion vector difference、MVD)を識別することができる。動きベクトル差異は、現在ビデオブロックの動きベクトルと、示されたビデオブロックの動きベクトルとの間の差異を示している。ビデオデコーダ300は、現在ビデオブロックの動きベクトルを決定するために、示されたビデオブロックの動きベクトルおよび動きベクトルの差異を使用することができる。
上述のように、ビデオエンコーダ200は、動きベクトルを予測的に信号化することができる。ビデオエンコーダ200によって実施され得る予測信号化技術の2つの例は、アドバンスト動きベクトル予測(AMVP)およびマージモード信号化を含んでいる。
イントラ予測部206は、現在ビデオブロックについてイントラ予測を実行することができる。イントラ予測部206が現在ビデオブロックについてイントラ予測を行うとき、イントラ予測部206は、同じ画像内の他のビデオブロックのデコードされたサンプルに基づいて、現在ビデオブロックに対する予測データを生成することができる。現在ビデオブロックに対する予測データは、予測されるビデオブロックおよび種々のシンタックス要素を含んでよい。
残余生成部207は、現在ビデオブロックから、現在ビデオブロックの予測ビデオブロックを差し引くことによって(例えば、マイナス記号によって示される)、現在ビデオブロックについて残余データを生成することができる。現在ビデオブロックの残余データは、現在ビデオブロック内のサンプルの異なるサンプル成分に対応する残余ビデオブロックを含んでよい。
他の例においては、例えば、スキップモードにおいて、現在ビデオブロックについて現在ビデオブロックに対する残余データが存在しないことがあり、そして、残余生成部207は、減算オペレーションを実行しないことがある。
変換処理部208は、1つ以上の変換を現在ビデオブロックに関連する残余ビデオブロックに適用することによって、現在ビデオブロックについて1つ以上の変換係数ビデオブロックを生成することができる。
変換処理部208が現在ビデオブロックに関連する変換係数ビデオブロックを生成した後で、量子化部209は、現在ビデオブロックに関連する1つ以上の量子化パラメータ(QP)値に基づいて、現在ビデオブロックに関連する変換係数ビデオブロックを量子化することができる。
逆量子化部210および逆変換部211は、変換係数ビデオブロックから残余ビデオブロックを再構成するため、それぞれに、変換係数ビデオブロックに対して逆量子化および逆変換を適用することができる。再構成部212は、バッファ213に保管するための現在ブロックに関連する再構成ビデオブロックを生成するために、予測部202によって生成された1つ以上の予測ビデオブロックからの対応するサンプルに、再構成残余ビデオブロックを加えることができる。
再構成部212がビデオブロックを再構成した後で、ループフィルタリング・オペレーションを実施されてよく、ビデオブロックにおけるビデオブロッキング・アーチファクトを低減する。
エントロピー符号化部214は、ビデオエンコーダ200の他の機能コンポーネントからデータを受信することができる。エントロピー符号化部214がデータを受信すると、エントロピー符号化部214は、エントロピー符号化データを生成するために、1つ以上のエントロピー符号化オペレーションを実行し、そして、エントロピー符号化データを含むビットストリームを出力するために、1つ以上のエントロピー符号化動作を実行することができる。
図6は、一つの例示的なビデオデコーダ300を示すブロック図であり、ビデオデコーダは図4に示されたシステム100内のビデオデコーダ124であってよい。
ビデオデコーダ300は、本開示に係る任意または全ての技術を実行するように構成され得る。図6の例において、ビデオデコーダ300は、複数の機能コンポーネントを含んでいる。本開示に記載される技術は、ビデオデコーダ300の種々のコンポーネント間で共有され得る。いくつかの例において、プロセッサは、本開示に記載される任意または全ての技術を実行するように構成され得る。
図6の例において、ビデオデコーダ300は、エントロピー復号化部301、動作補償部302、イントラ予測部303、逆量子化部304、逆変換部305、再構成部306、および、バッファ307を含む。ビデオデコーダ300は、いくつかの例において、ビデオエンコーダ200(図5)に関して説明した符号化パスと概ね相互的(reciprocal)な復号化パスを実行することができる。
エントロピー復号化部301は、符号化ビットストリームを検索することができる。符号化ビットストリームは、エントロピー符号化ビデオデータ(例えば、ビデオデータの符号化ブロック)を含むことができる。エントロピー復号化部301は、エントロピー符号化ビデオデータを復号することができ、そして、エントロピー復号化ビデオデータから、動作補償部302は、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス、および、他の動き情報を含む、動き情報を決定することができる。動作補償部302は、例えば、AMVPおよびマージモードを実行することによって、そうした情報を決定することができる。
動作補償部302は、補償ブロックを生成することができ、補償フィルタに基づいて、補間をおそらく実行することができる。サブピクセル精度で使用される補間フィルタのための識別子(identifier)は、シンタックス要素内に含まれてよい。
動作補償部302は、ビデオブロックの符号化の最中にビデオエンコーダ200によって使用されるように補間フィルタを使用することができ、参照ブロックのサブ整数(sub-integer)ピクセルに対する補間値を計算する。動作補償部302は、受信したシンタックス情報に従ってビデオエンコーダ200によって使用される補間フィルタを決定し、そして、予測ブロックを生成するために補間フィルタを使用することができる。
動作補償部302は、符号化ビデオシーケンスのフレーム及び/又はスライスを符号化するために使用されるブロックのサイズを決定するためのシンタックス情報、符号化されたビデオシーケンスの画像の各マクロブロックがどのようにパーティション分割されるかを記述する分割情報、各分割がどのように符号化されるかを示すモード、各インター符号化ブロックに対する1つ以上の参照フレーム(および、参照フレームリスト)、および、符号化ビデオシーケンスを復号するための他の情報、のうちいくつかを使用することができる。
イントラ予測部303は、空間的に隣接するブロックから予測ブロックを形成するために、例えば、ビットストリームで受信されたイントラ予測モードを使用することができる。逆量子化部304は、ビットストリーム内で提供され、そして、エントロピー復号化部301によって復号された量子化ビデオブロック係数を逆量子化、すなわち、脱量子化(de-quantize)する。逆変換部305は、逆変換を適用する。
再構成部306は、復号化されたブロックを形成するために、残余ブロックを、動作補償部302またはイントラ予測部303によって生成された対応する予測ブロックと合計することができる。所望であれば、ブロック性(blockiness)アーチファクトを除去するために、デコードされたブロックをフィルタリングするためデブロックフィルタが、また、適用されてもよい。デコードされたビデオブロックは、次いで、バッファ307に保管され、バッファは、後続の動作補償/イントラ予測のための参照ブロックを提供し、そして、また、ディスプレイ装置上に提示するためのデコードされたビデオも生成する。
いくつかの実施形態によって好まれるソリューションのリストが、次に、提供される。
以下のソリューションは、以前のセクション(例えば、アイテム1から4まで)において説明された技術の例示的な実施形態を示している。
1. ビジュアルメディアデータを処理する方法(例えば、図3に描かれた方法3000)であって、フォーマットルールに従って、ビジュアルメディアファイルと、前記ビジュアルメディアデータに対応する情報を保管するファイルとの間の変換を実行するステップ(3002)、を含む。ここで、前記フォーマットルールは、前記ファイルの非ビデオコーディング層(VCL)トラックを識別するための第1条件、及び/又は、前記ファイルのVCLトラックを識別するための第2条件を指定する。
2. ソリューション1の方法であり、前記第1条件は、前記非VCLトラックが非VCLネットワーク抽象化層ユニットのみを含むこと、および、特定のトラック基準を介して前記VCLトラック内で識別されることを規定する。
3. ソリューション1-2の方法であり、ここで、第1条件は、前記非VCLトラックが前記VCLトラックに対応する適応パラメータセット(APS)を含むことを指定する。
4. ソリューション1-3のいずれかの方法であり、前記VCLトラックのための前記第2条件は、前記VCLトラックがデコード機能情報(DCI)または動作点情報(OPI)ネットワーク抽象化ユニットを含むように許可されないことを指定する。
5. ソリューション1の方法であり、ここで、前記第1条件は、前記非VCLトラックが、非VCLネットワーク抽象化層ユニットを含む1つ以上のエレメンタリストリームを含むことを指定し、そして、ここで、前記非VCLネットワーク抽象化層ユニットは、前記VCLトラック内のエレメンタリストリームと同期する。
6. ソリューション1-5のいずれかの方法であり、ここで、前記変換は、前記ビジュアルメディアデータのビットストリーム表現を生成すること、および、前記フォーマットルールに従って前記ファイルにビットストリーム表現を保管することを含む。
7. ソリューション1-5のいずれかの方法であり、ここで、前記変換は、前記ビジュアルメディアデータを回復するために、前記フォーマットルールに従って前記ファイルをシンタックス解析することを含む。
8. ソリューション1-7の1つ以上に記載の方法を実施するように構成されたプロセッサを含む、ビデオ復号化装置。
9. ソリューション1-7の1つ以上に記載の方法を実装するように構成されたプロセッサを含む、ビデオ符号化装置。
10. コンピュータコードが保管されたコンピュータプログラム製品であって、本コードは、プロセッサによって実行されると、前記プロセッサに、ソリューション1-7のいずれかに記載の方法を実施させる。
11. コンピュータ可読媒体であって、ビットストリーム表現が、ソリューション1-7のいずれかに従って生成されたファイルフォーマットに準拠している。
12. 本文書に記載された方法、装置、またはシステム。
ここにおいて説明されるソリューションにおいて、エンコーダは、フォーマットルールに従ってコード化された表現を生成することによりフォーマットルールに適合し得る。ここにおいて説明されるソリューションにおいて、デコーダは、フォーマットルールに従ってシンタックス要素の存在および不存在の知識を伴うコード化表現におけるシンタックス要素を解析するためにフォーマットルールを使用することができ、復号されたビデオを生成する。
テクニック1. ビジュアルメディアデータを処理する方法(例えば、図8に示す方法8000)であって、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップ(8002)を含む。ここで、前記フォーマットルールは、情報アイテムが、前記ビジュアルメディアファイルの非ビデオコーディング層トラックに含まれるか否かを制御する条件を指定し、かつ、ここで、前記ビジュアルメディアファイルにおける前記非ビデオコーディング層トラックの存在は、前記ビジュアルメディアファイルのビデオコーディング層トラックにおける特定のトラック参照によって示される。
テクニック2. テクニック1の方法であり、前記条件は、前記非ビデオコーディング層トラックが前記情報アイテムとして非ビデオコーディング層ネットワーク抽象化層ユニットのみを含むことを指定する。
テクニック3. テクニック1-2いずれかの方法であり、前記条件は、非ビデオコーディング層トラックが、情報アイテムとして適応パラメータセットを含むことを指定する。ここで、適応パラメータセットは、適応ループフィルタパラメータ、クロマスケーリングパラメータによるルミナンスマッピング、またはスケーリングリストパラメータを含む。そして、ここで、前記条件は、適応パラメータセットが、ビデオコーディング層ネットワーク抽象化層ユニットを含む別のトラックから分離されたトラックに保管され、かつ、そのトラックを介して伝送されることを指定する。
テクニック4. テクニック3に記載の方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが、他のタイプの非ビデオコーディング層ネットワーク抽象化層ユニットを追加的に含むことを可能にする。
テクニック5. テクニック3に記載の方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが、他のタイプの非ビデオコーディング層ネットワーク抽象化層ユニットを追加的に含むことを禁止する。
テクニック6. テクニック1-2いずれかの方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが前記情報アイテムとしてピクチャヘッダネットワーク抽象化層ユニットを含むことを規定する。そして、ここで、前記条件は、ピクチャヘッダネットワーク抽象化層ユニットが、ビデオコーディング層ネットワーク抽象化層ユニットを含む別のトラックとは別のトラックに保管され、該トラックを介して送信されることを指定する。
テクニック7. テクニック6に記載の方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが、他のタイプの非ビデオコーディング層ネットワーク抽象化層ユニットを追加的に含むことを可能にする。
テクニック8. テクニック6に記載の方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが、他のタイプの非ビデオコーディング層ネットワーク抽象化層ユニットを追加的に含むことを禁止する。
テクニック9. テクニック6に記載の方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが、適応パラメータセットネットワーク抽象化層ユニットを追加的に含むことを可能にする。
テクニック10. テクニック6に記載の方法であり、ここで、前記条件は、前記非ビデオコーディング層トラックが、適応パラメータセットネットワーク抽象化層ユニットを追加的に含むことを禁止する。
テクニック11. テクニック1-2いずれかの方法であり、ここで、前記条件は、ビデオストリームに対するピクチャヘッダネットワーク抽象化層ユニットが、ビデオコーディング層ネットワーク抽象化層ユニットを含むトラックの第1セットのサンプルに保管されるか、または、非ビデオコーディング層トラックの第2セットのサンプルに保管されるが、両方が同時には保管されない情報アイテムであることを指定する。
テクニック12. テクニック1-11いずれかの方法であり、ここで、前記変換は、前記ビジュアルメディアファイルを生成すること、および、前記フォーマットルールに従って前記ビジュアルメディアファイルにビットストリームを保管することを含む。
テクニック13. テクニック1-11いずれかの方法であり、ここで、前記変換は、前記ビジュアルメディアファイルを生成することを含む。そして、前記方法は、前記ビジュアルメディアファイルを非一時的なコンピュータ読取可能な記録媒体に保管することをさらに含む。
テクニック14. テクニック1-11いずれかの方法であり、ここで、前記変換は、前記ビットストリームを再構成するために、前記フォーマットルールに従って前記ビジュアルメディアファイルを解析することを含む。
テクニック15. テクニック1-14いずれかの方法であり、ここで、前記ビジュアルメディアファイルは、バーサタイルビデオコーディング(VVC)によって処理される。そして、ここで、前記非ビデオコーディング層トラックまたは前記ビデオコーディング層トラックは、VVCトラックである。
テクニック16. プロセッサと、その上に命令を有する非一時的メモリとを含むビジュアルメディアデータを処理する装置であり、前記プロセッサによって実行されると、前記命令は、前記プロセッサに、テクニック1-15のいずれか1つ以上に記載の方法を実施させる、装置。
テクニック17. プロセッサに、テクニック1-15のいずれか1つ以上に記載の方法を実施させる命令を保管する非一時的コンピュータ読取可能記憶媒体。
テクニック18. テクニック1-15のうち1つ以上に記載の方法を実施するように構成されたプロセッサを含む、ビデオ復号化装置。
テクニック16. テクニック1-15のうち1つ以上に記載の方法を実施するように構成されたプロセッサを含む、ビデオ符号化装置。
テクニック17. コンピュータコードが保管されたコンピュータプログラム製品であり、本コードは、プロセッサによって実行されると、プロセッサに、テクニック1-15のいずれかに記載の方法を実施させる。
テクニック18. ビジュアルメディアファイルが、1-15のいずれかのテクニックに従って生成されたファイルフォーマットに準拠しているコンピュータ可読媒体。
テクニック19. ビデオ処理装置によって実行される方法によって生成されたビジュアルメディアファイルのビットストリームを保管する非一時的なコンピュータ読取可能な記録媒体であり、ここで、前記方法は、テクニック1-15のいずれかに記載されている。
テクニック20. ビジュアルメディアファイルの生成方法であり、テクニック1-15のいずれかに記載の方法に従ってビジュアルメディアファイルを生成すること、および、コンピュータ読み取り可能なプログラム媒体上に前記ビジュアルメディアファイルを保存することを含む。
実施1.ビジュアルメディアデータを処理する方法(例えば、図9に示す方法9000)であって、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップ(9002)を含む。ここで、前記フォーマットルールは、デコード機能情報ネットワーク抽象化層ユニットが、前記ビジュアルメディアファイル内のビデオトラックのサンプルエントリ、または、前記ビデオトラックのサンプルおよび前記ビジュアルメディアファイル内のビデオトラックのサンプルエントリのいずれに含まれるか否かを、サンプルエントリのタイプが決定することを指定する。
実施2. クレーム1に記載の方法であり、ここで、前記フォーマットルールは、サンプルエントリのタイプがvvc1であることに応答して、デコード機能情報ネットワーク抽象化層ユニットが、ビデオトラックのサンプルエントリに含まれることを指定する。
実施3. 実施1に記載の方法であり、ここで、前記フォーマットルールは、サンプルエントリのタイプがvvi1であることに応答して、デコード機能情報ネットワーク抽象化層ユニットが、ビデオトラックのサンプルおよびビデオトラックのサンプルエントリに含まれることを指定する。
実施4. 実施1に記載の方法であり、ここで、前記フォーマットルールは、ビジュアルメディアファイル内のビデオエレメンタリストリーム(video elementary stream)がビデオコーディング層ネットワーク抽象化層ユニットを含むことを指定する。ここで、前記フォーマットルールは、ビジュアルメディアファイル内のビデオエレメンタリストリームが、パラメータセットまたはデコード機能情報ネットワーク抽象化ユニットを含むことを禁止されることを指定する。そして、ここで、前記フォーマットルールは、ビジュアルメディアファイル内のサンプルエントリが、前記パラメータセットおよび前記デコード機能情報ネットワーク抽象化ユニットを保管することを指定する。
実施5. 実施4に記載の方法であり、ここで、前記フォーマットルールは、ビジュアルメディアファイル内のビデオエレメンタリストリームが、パラメータセット、デコード機能情報ネットワーク抽象化ユニット、または動作点情報ネットワーク抽象化ユニットを含むことを禁止されることを指定する。そして、ここで、前記フォーマットルールは、ビジュアルメディアファイル内のサンプルエントリが、パラメータセット、デコード機能情報ネットワーク抽象化ユニット、および動作点情報ネットワーク抽象化ユニットを保管することを指定する。
実施6. ビジュアルメディアデータを処理する方法であって、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップを含み、ここで、前記フォーマットルールは、複数のバーサタイルビデオコーディング・ビットストリームに属するサンプルに応答して、かつ、同じトラックに含まれるサンプルに応答して、ビジュアルメディアファイル内のサンプルが同じデコード機能情報サンプルグループに属することを許容することを指定する。そして、ここで、前記フォーマットルールは、同じデコード機能情報サンプルグループに属する全てのサンプルが、同じデコード機能情報サンプルグループ記述エントリを共有することを指定する。いくつかの実施形態において、前記フォーマットルールは、複数のバーサタイルビデオコーディングビットストリームに属するサンプルに応答して、かつ、同じトラックに含まれるサンプルに応答して、ビジュアルメディアファイル内のサンプルが同一のデコード機能情報サンプルグループに属することが許容されることを指定する。そして、ここで、前記フォーマットルールは、同じデコード機能情報サンプルグループに属する全てのサンプルが、同じデコード機能情報サンプルグループ記述エントリを共有することを指定する。
実施7. 実施6に記載の方法であり、ここで、前記フォーマットルールは、同一ビットストリームに属するトラックの全てのサンプルに応答して、または、多数のビットストリームにかかわらず同じデコード機能情報を共有する全てのサンプルに応答して、前記デコード機能情報ネットワーク抽象化層ユニットが、前記ビジュアルメディアファイル内のトラックレベルボックスに示されることを指定する。いくつかの実施形態において、前記フォーマットルールは、デコード機能情報ネットワーク抽象化層ユニットが、同じビットストリームに属するトラックの全てのサンプルに応答して、または、複数のビットストリームにかかわらず同じデコード機能情報を共有する全てのサンプルに応答して、ビジュアルメディアファイル内のトラックレベルボックスに示されることを指定する。
実施8. クレーム7に記載の方法であり、前記トラックレベルボックスは、トラックヘッダボックス、トラックレベルメタボックス、または別のトラックレベルボックスである。
実施9. ビジュアルメディアデータを処理する方法であって、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップを含む。ここで、前記フォーマットルールは、動作点情報ネットワーク抽象化層ユニットが、デコーダ構成レコード内の複数の非ビデオコーディング層ネットワーク抽象化層アレイの1つとして、サンプルエントリ記述内の前記ビジュアルメディアファイルに含まれることを許容することを指定する。いくつかの実施形態において、前記フォーマットルールは、デコーダ構成レコード内の複数の非ビデオコーディング層ネットワーク抽象化層ユニットアレイの1つとして、動作点情報ネットワーク抽象化層ユニットをサンプルエントリ記述内のビジュアルメディアファイルに含めることを許容することを指定する。
実施10. ビジュアルメディア処理方法であって、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップを含む。ここで、前記フォーマットルールは、サンプルエントリのタイプが、(1)前記ビジュアルメディアファイル内のビデオトラックの前記サンプルエントリ、または、(2)前記ビジュアルメディアファイル内のビデオトラックのサンプル又は前記ビジュアルメディアファイル内のビデオトラックの前記サンプルエントリのいずれか、もしくは両方、のいずれに含まれるか決定することを指定する。いくつかの実施形態において、前記フォーマットルールは、第2サンプルエントリの第2タイプが、動作点情報ネットワーク抽象化層ユニットが、(1)前記ビジュアルメディアファイル内のビデオトラックの前記第2サンプルエントリ、または、(2)前記ビジュアルメディアファイル内のビデオトラックのサンプル又は前記ビジュアルメディアファイル内のビデオトラックの前記第2サンプルエントリのいずれか、もしくは両方、のいずれに含まれるか否かを、決定することを指定する。
実施11. 実施10に記載の方法であり、ここで、前記フォーマットルールは、前記サンプルエントリのタイプがvvc1であることに応答して、前記動作点情報ネットワーク抽象化層ユニットが、前記ビデオトラックのサンプルエントリに含まれることを指定する。いくつかの実施態様において、前記フォーマットルールは、第2サンプルエントリの第2タイプがvvc1であることに応じて、ビデオトラックの第2サンプルエントリに動作点情報ネットワーク抽象化層ユニットが含まれることを指定する。
実施12. 実施10に記載の方法であり、ここで、前記フォーマットルールは、サンプルエントリのタイプがvvi1であるに応答して、動作点情報ネットワーク抽象化層ユニットが、ビデオトラックのサンプル又はビデオトラックのサンプルエントリのいずれか、もしくは、両方、に含まれることを指定する。いくつかの実施形態において、前記フォーマットルールは、第2サンプルアイテムの第2タイプがvvi1であることに応答して、動作点情報ネットワーク抽象化層ユニットが、ビデオトラックのサンプル又はビデオトラックの第2サンプルアイテムのいずれか、もしくは両方、に含まれることを指定する。
実施13. ビジュアルメディアデータを処理する方法であって、フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップを含む。ここで、前記フォーマットルールは、ビジュアルメディアファイル内の非ビデオコーディング層のエレメンタリストリームが、ビデオコーディング層のネットワーク抽象化層ユニットを含むことを禁止されることを指定する。そして、ここで、前記フォーマットルールは、非ビデオコーディング層のネットワーク抽象化層ユニットが、ビデオトラック内で搬送されるエレメンタリストリームと同期することを指定する。いくつかの実施態様において、前記フォーマットルールは、ビジュアルメディアファイル中の非ビデオコーディング層要素ストリームが、ビデオコーディング層ネットワーク抽象化層ユニットを含むことを禁止されることを指定する。そして、ここで、前記フォーマットルールは、非ビデオコーディング層ネットワーク抽象化層ユニットが、ビデオトラックで搬送されるエレメンタリストリームと同期することを指定する。
実施14. 実施1-13いずれかの方法であり、ここで、前記変換は、前記ビジュアルメディアファイルを生成すること、および、前記フォーマットルールに従って前記ビジュアルメディアファイルにビットストリームを保管することを含む。
実施15. 実施1-13いずれかの方法であり、ここで、前記変換は、前記ビジュアルメディアファイルを生成することを含む。そして、前記方法は、前記ビジュアルメディアファイルを非一時的なコンピュータ読取可能な記録媒体に保管することをさらに含む。
実施16. 実施1-13いずれかの方法であり、ここで、前記変換は、前記ビットストリームを再構成するために、前記フォーマットルールに従って前記ビジュアルメディアファイルをシンタックス解析することを含む。
実施17. 実施1-16いずれかの方法であり、ここで、前記ビジュアルメディアファイルは、バーサタイルビデオコーディング(VVC)によって処理される。そして、ここで、前記ビデオトラックは、VVCトラックである。
実施18. プロセッサと、その上に命令を有する非一時的メモリとを含むビジュアルメディアデータを処理する装置であり、前記プロセッサによって実行されると、前記命令は、前記プロセッサに、実施1-17のいずれか1つ以上に記載の方法を実施させる、装置。
実施19. プロセッサに、実施1-17のいずれかに記載の方法を実施させる命令を保管する非一時的コンピュータ読取可能記憶媒体。
実施20. 実施1-17のうち1つ以上に記載の方法を実施するように構成されたプロセッサを含む、ビデオ復号化装置。
実施21. 実施1-17のうち1つ以上に記載の方法を実施するように構成されたプロセッサを含む、ビデオ符号化装置。
実施22. コンピュータコードが保管されたコンピュータプログラム製品であり、本コードは、プロセッサによって実行されると、プロセッサに、実施1-17のいずれかに記載の方法を実施させる。
実施23. ビジュアルメディアファイルが、実施1-17のいずれかに従って生成されたファイルフォーマットに準拠しているコンピュータ可読媒体。
実施24. ビデオ処理装置によって実行される方法によって生成されたビジュアルメディアファイルのビットストリームを保管する非一時的なコンピュータ読取可能な記録媒体であって、前記方法は、実施1-17のいずれかに記載されている。
実施25. ビジュアルメディアファイルの生成方法であり、実施1-17のいずれかに記載の方法に従ってビジュアルメディアファイルを生成すること、および、コンピュータ読み取り可能なプログラム媒体上に前記ビジュアルメディアファイルを保存することを含む。
本文書において、「ビデオ処理(“video processing”)」という用語は、ビデオ符号化(coding)、ビデオ復号化(decoding)、ビデオ圧縮(compression)、またはビデオ解凍(decompression)を指すことができる。例えば、ビデオ圧縮アルゴリズムは、ビデオの画素表現から対応するビットストリーム表現への変換の最中に適用されてよく、または、その逆も同様である。現在ビデオブロックのビットストリーム表現は、例えば、シンタックスによって定義されるように、共に配置されるか(co-located)、または、ビットストリーム内の異なる場所に拡散されるビットに対応し得る。例えば、マクロブロックは、変換され、かつ、コード化されたエラー残差値の観点から、そして、また、ビットストリーム内のヘッダおよび他のフィールド内のビットを使用して、符号化されてもよい。さらに、変換中に、デコーダは、上述のソリューションに記載されるように、決定に基づいて、いくつかのフィールドが存在し得るか、または、存在しないかを知ることで、ビットストリームを解析することができる。同様に、エンコーダは、特定のシンタックスフィールドが含まれているか、含まれないかを決定し、そして、それに応じて、コード化表現からシンタックスフィールドを含めるか、または除外することによって、コード化表現を生成することができる。
この文書において説明されている、開示されたソリューション、実施例、実施形態、モジュール、および機能オペレーションは、デジタル電子回路、または、この文書において開示された構造及びそれらの構造的等価物を含む、コンピュータソフトウェア、ファームウェア、またはハードウェア、もしくは、それらの1つ以上の組み合わせで実現することができる。開示された実施形態および他の実施形態は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のため、または、データ処理装置のオペレーションを制御するために、コンピュータ読取り可能な媒体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実装することができる。コンピュータ読取り可能な媒体は、マシン読取り可能な記憶装置、マシン読取り可能な記憶基板、メモリ装置、マシン読取り可能な伝搬信号に影響を与える物質の組成、または、1つ以上のそれらの組み合わせであり得る。用語「データ処理装置(“data processing apparatus”)」は、例えば、プログラマブルプロセッサ、コンピュータ、もしくは、複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、およびマシンを包含している。装置は、ハードウェアに加えて、問題のコンピュータプログラムの実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、または、それらの1つ以上の組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に生成された信号、例えば、適切な受信器装置に送信するための情報を符号化するために生成されるマシン発生電気信号、光学信号、または電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても、また知られているもの)は、コンパイルまたはインタープリート(interpreted)された言語を含む、任意の形態のプログラミング言語で書くことができる。そして、スタンドアロンプログラムとして、または、コンピューティング環境での使用に適したモジュール、コンポーネント、サブルーチン、または他のユニットを含む、任意の形態として展開することができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するものではない。プログラムは、問題のプログラム専用の単一ファイル、または、複数の調整されたファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部分を保管するファイル)において、他のプログラムまたはデータを保持するファイルの一部分(例えば、マークアップ言語文書に保管される1つ以上のスクリプト)に保管することができる。コンピュータプログラムは、1つのコンピュータ上で、もしくは、1つのサイトに配置され、または、複数のサイトにわたり分散され、かつ、通信ネットワークによって相互接続された、複数のコンピュータ上で実行されるように展開することができる。
この文書で説明されるプロセスおよび論理フローは、入力データを操作し、かつ、出力を生成することによって機能を実施するために1つ以上のコンピュータプログラムを実行する、1つ以上のプログラマブルプロセッサによって実施され得る。プロセスおよび論理フローは、また、特殊目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)といったもの、によっても実行することができ、かつ、装置を実行することもできる。
コンピュータプログラムの実行に適したプロセッサは、例えば、汎用および専用マイクロプロセッサの両方、および、任意の種類のデジタルコンピュータのうち任意の1つ以上のプロセッサを含む。一般的に、プロセッサは、読出し専用メモリ、またはランダムアクセスメモリ、もしくは、その両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを保管するための1つ以上のメモリデバイスである。一般的に、コンピュータは、また、データを保管するための1つ以上の大容量ストレージ装置、例えば、磁気ディスク、光磁気ディスク、または光ディスクからデータを受信し、または、データを転送し、もしくは、両方のために含まれ、または、動作可能に結合される。しかしながら、コンピュータは、そうした装置を有する必要はない。コンピュータプログラム命令およびデータを保管するのに適したコンピュータ読取り可能な媒体は、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、および、CD ROMとDVD-ROMディスクを含む、不揮発性メモリ、媒体、およびメモリデバイスに係る全ての形態を含む。プロセッサおよびメモリは、特殊目的論理回路によって補足されるか、または、内蔵されてよい。
この特許文献は多くの詳細を含んでいるが、これらは、いずれかの技術的事項(subject matter)または請求の範囲を限定するものではなく、むしろ、特定のテクニックの特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別々の実施形態のコンテキストにおいてこの特許文献に記載されている特定の特徴は、また、単一の実施形態で組み合わせて実施することもできる。逆に、単一の実施形態のコンテキストにおいて記載されている種々の特徴は、また、複数の実施形態において別々に、または、任意の適切なサブコンビネーションで実施することもできる。さらに、特徴は、所定の組合せにおいて動作するものとして上述され、かつ、最初にそのようにクレームされてもよいが、クレームされた組合せからの1つ以上の特徴は、場合によっては、組合せから切り出され得るものであり、そして、クレームされた組合せは、サブコンビネーション、または、サブコンビネーションのバリエーションに向けられ得る。
同様に、図面には特定の順序で動作が示されているが、このことは、所望の結果を達成するために、そうした動作が、示される特定の順序で、または、逐次的な順序で実行されること、もしくは、全ての例示される動作が実行されること、を要求するものとして理解されるべきではない。さらに、この特許文献に記載されている実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそうした分離を必要とするものとして理解されるべきではない。
この特許文献に記載され、かつ、説明されている内容に基づいて、ほんのわずかな実施形態および例のみが記述されており、そして、他の実施形態、拡張、および変形が行われ得る。

Claims (15)

  1. ビジュアルメディアデータを処理する方法であって、
    フォーマットルールに従って、ビジュアルメディアファイルとビジュアルメディアデータのビットストリームとの間の変換を実行するステップ、を含み、
    前記フォーマットルールは、デコード機能情報ネットワーク抽象化層ユニットが、前記ビジュアルメディアファイル内のビデオトラックのサンプルエントリ、または、前記ビデオトラックのサンプルおよび前記ビジュアルメディアファイル内のビデオトラックのサンプルエントリのいずれに含まれるか否かを、サンプルエントリのタイプが決定することを指定する、
    方法。
  2. 前記フォーマットルールは、前記サンプルエントリのタイプがvvc1であることに応答して、デコード機能情報ネットワーク抽象化層ユニットが、前記ビデオトラックのサンプルエントリに含まれることを指定する、
    請求項1に記載の方法。
  3. 前記フォーマットルールは、前記サンプルエントリのタイプがvvi1であることに応答して、デコード機能情報ネットワーク抽象化層ユニットが、前記ビデオトラックのサンプルおよび前記ビデオトラックのサンプルエントリに含まれることを指定する、
    請求項1に記載の方法。
  4. 前記フォーマットルールは、前記ビジュアルメディアファイル内のビデオエレメンタリストリームがビデオコーディング層ネットワーク抽象化層ユニットを含むことを規定し、
    前記フォーマットルールは、前記ビジュアルメディアファイル内のビデオ基本ストリームが、パラメータセットまたはデコード機能情報ネットワーク抽象化ユニットを含むことを禁止されることを指定し、かつ、
    前記フォーマットルールは、前記ビジュアルメディアファイル内のサンプルエントリが、前記パラメータセットおよび前記デコード機能情報ネットワーク抽象化ユニットを保管することを指定する、
    請求項1乃至3いずれか一項に記載の方法。
  5. 前記フォーマットルールは、前記ビジュアルメディアファイル内のビデオエレメンタリストリームが、前記パラメータセット、前記デコード機能情報ネットワーク抽象化ユニット、または、動作点情報ネットワーク抽象化ユニットを含むことを禁止されることを指定し、かつ、
    前記フォーマットルールは、前記ビジュアルメディアファイル内のサンプルエントリが、前記パラメータセット、前記デコード機能情報ネットワーク抽象化ユニット、および、前記動作点情報ネットワーク抽象化ユニットを保管することを指定する、
    請求項4に記載の方法。
  6. 前記フォーマットルールは、複数のバーサタイルビデオコーディング・ビットストリームに属するサンプルに応答して、かつ、同じトラックに含まれるサンプルに応答して、前記ビジュアルメディアファイル内のサンプルが、同じデコード機能情報サンプルグループに属することを許容することを指定し、かつ、
    前記フォーマットルールは、前記同じデコード機能情報サンプルグループに属する全てのサンプルが、同じデコード機能情報サンプルグループ記述エントリを共有することを指定する、
    請求項1乃至5いずれか一項に記載の方法。
  7. 前記フォーマットルールは、同一ビットストリームに属するトラックの全てのサンプルに応答して、または、多数のビットストリームにかかわらず同じデコード機能情報を共有する全てのサンプルに応答して、前記デコード機能情報ネットワーク抽象化層ユニットが、前記ビジュアルメディアファイル内のトラックレベルボックスに示されることを指定する、
    請求項6に記載の方法。
  8. 前記トラックレベルボックスは、トラックヘッダボックス、トラックレベルメタボックス、または、別のトラックレベルボックスである、
    請求項7に記載の方法。
  9. 前記フォーマットルールは、動作点情報ネットワーク抽象化層ユニットが、デコーダ構成レコード内の複数の非ビデオコーディング層ネットワーク抽象化層アレイの1つとして、サンプルエントリ記述内の前記ビジュアルメディアファイルに含まれることを許容することを指定する、
    請求項1乃至8いずれか一項に記載の方法。
  10. 前記フォーマットルールは、第2サンプルエントリの第2タイプが、
    動作点情報ネットワーク抽象化層ユニットが、
    (1)前記ビジュアルメディアファイル内のビデオトラックの前記第2サンプルエントリ、または、
    (2)前記ビジュアルメディアファイル内のビデオトラックのサンプル又は前記ビジュアルメディアファイル内のビデオトラックの前記第2サンプルエントリのいずれか、もしくは両方、
    のいずれに含まれるか否かを、決定することを指定する、
    請求項1乃至9いずれか一項に記載の方法。
  11. 前記変換は、前記ビジュアルメディアファイルを生成すること、および、前記ビットストリームを、前記フォーマットルールに従って、前記ビジュアルメディアファイルに保管すること、を含む、
    請求項1乃至10いずれか一項に記載の方法。
  12. 前記変換は、前記ビットストリームを再構成するために、前記フォーマットルールに従って、前記ビジュアルメディアファイルを解析すること、を含む、
    請求項1乃至10いずれか一項に記載の方法。
  13. 前記ビジュアルメディアファイルは、バーサタイルビデオコーディング(VVC)によって処理され、かつ、前記ビデオトラックは、VVCトラックである、
    請求項1乃至12いずれか一項に記載の方法。
  14. プロセッサと、命令が保管された非一時的メモリとを含む、ビジュアルメディアデータを処理する装置であって、
    前記命令が前記プロセッサによって実行されると、前記プロセッサに、請求項1乃至13のいずれか一項に記載の方法を実施させる、
    装置。
  15. 命令を保管している非一時的コンピュータ読取り可能記憶媒体であって、
    前記命令は、プロセッサに、請求項1乃至13いずれか一項に記載の方法を実施させる、
    非一時的コンピュータ読取り可能記憶媒体。
JP2021151970A 2020-09-17 2021-09-17 ビデオコーディングにおけるデコード機能情報のストレージ Active JP7222043B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063079869P 2020-09-17 2020-09-17
US63/079,869 2020-09-17

Publications (2)

Publication Number Publication Date
JP2022050370A true JP2022050370A (ja) 2022-03-30
JP7222043B2 JP7222043B2 (ja) 2023-02-14

Family

ID=77801616

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021151970A Active JP7222043B2 (ja) 2020-09-17 2021-09-17 ビデオコーディングにおけるデコード機能情報のストレージ
JP2021151922A Active JP7223088B2 (ja) 2020-09-17 2021-09-17 バーサタイルビデオコーディングのトラック符号化

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021151922A Active JP7223088B2 (ja) 2020-09-17 2021-09-17 バーサタイルビデオコーディングのトラック符号化

Country Status (5)

Country Link
US (2) US11711518B2 (ja)
EP (2) EP3972277A1 (ja)
JP (2) JP7222043B2 (ja)
KR (2) KR20220037393A (ja)
CN (2) CN114205610A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11711518B2 (en) 2020-09-17 2023-07-25 Lemon Inc. Decoding capability information storage in video coding
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding
WO2024053954A1 (ko) * 2022-09-05 2024-03-14 엘지전자 주식회사 종속 랜덤 액세스 포인트 픽처에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림 전송 방법
CN115474063B (zh) * 2022-10-27 2023-01-10 中诚华隆计算机技术有限公司 一种流媒体后端解码方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511437A (ja) * 2012-01-30 2015-04-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオを符号化しビデオコンテンツを記憶する方法
JP2018511208A (ja) * 2015-02-11 2018-04-19 クゥアルコム・インコーポレイテッドQualcomm Incorporated 階層化されたビデオファイルフォーマットにおけるサンプルエントリー及び動作点信号伝達の設計
JP2018524891A (ja) * 2015-06-18 2018-08-30 クゥアルコム・インコーポレイテッドQualcomm Incorporated 階層化hevcファイルフォーマットでのトラックおよびオペレーティングポイントシグナリングの設計

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8365060B2 (en) 2006-08-24 2013-01-29 Nokia Corporation System and method for indicating track relationships in media files
EP2147558A2 (en) 2007-04-17 2010-01-27 Nokia Corporation Feedback based scalable video coding
KR101115547B1 (ko) 2007-04-24 2012-03-05 노키아 코포레이션 미디어 파일들에서의 다중 디코딩 시각들을 시그날링
US9584792B2 (en) 2013-01-04 2017-02-28 Qualcomm Incorporated Indication of current view dependency on reference view in multiview coding file format
US9621919B2 (en) 2013-10-23 2017-04-11 Qualcomm Incorporated Multi-layer video file format designs
CN105900401B (zh) 2014-01-07 2020-03-06 佳能株式会社 用于对层间依赖性进行编码的方法、装置和计算机程序
GB2522014A (en) 2014-01-07 2015-07-15 Canon Kk Method, device, and computer program for encoding inter-layer dependencies in encapsulating multi-layer partitioned timed media data
WO2016002496A1 (ja) 2014-06-30 2016-01-07 ソニー株式会社 情報処理装置および方法
US9936128B2 (en) 2015-05-20 2018-04-03 Google Llc Automatic detection of panoramic gestures
US10129527B2 (en) 2015-07-16 2018-11-13 Google Llc Camera pose estimation for mobile devices
US20170111642A1 (en) 2015-10-14 2017-04-20 Qualcomm Incorporated Support of random access and switching of layers and sub-layers in multi-layer video files
US10306253B2 (en) 2015-10-14 2019-05-28 Qualcomm Incorporated Signaling of parameter sets in files of multi-layer bitstreams
US10034010B2 (en) 2015-10-14 2018-07-24 Qualcomm Incorporated Alignment of operation point sample group in multi-layer bitstreams file format
US10623755B2 (en) 2016-05-23 2020-04-14 Qualcomm Incorporated End of sequence and end of bitstream NAL units in separate file tracks
US10652630B2 (en) 2016-05-24 2020-05-12 Qualcomm Incorporated Sample entries and random access
US10917564B2 (en) 2016-10-12 2021-02-09 Qualcomm Incorporated Systems and methods of generating and processing files for partial decoding and most interested regions
US11290755B2 (en) 2017-01-10 2022-03-29 Qualcomm Incorporated Signaling data for prefetching support for streaming media data
US10805650B2 (en) 2017-03-27 2020-10-13 Qualcomm Incorporated Signaling important video information in network video streaming using mime type parameters
US10944977B2 (en) 2018-04-03 2021-03-09 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding overlay compositions
WO2020097232A1 (en) 2018-11-07 2020-05-14 Futurewei Technologies, Inc. Header parameter set for video coding
BR112021016925A2 (pt) 2019-02-27 2021-11-03 Huawei Tech Co Ltd Codificador, decodificador e métodos correspondentes
WO2020179713A1 (en) 2019-03-06 2020-09-10 Sharp Kabushiki Kaisha Systems and methods for signaling tile group information in video coding
US11190793B2 (en) 2019-07-09 2021-11-30 Qualcomm Incorporated Memory constraint for adaptation parameter sets for video coding
BR112022005413A2 (pt) 2019-09-24 2022-06-21 Huawei Tech Co Ltd Sinalização de cabeçalho de imagem em codificação de vídeo
IL296930A (en) 2020-03-31 2022-12-01 Ericsson Telefon Ab L M Video processing using syntax elements
US11711518B2 (en) 2020-09-17 2023-07-25 Lemon Inc. Decoding capability information storage in video coding
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511437A (ja) * 2012-01-30 2015-04-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオを符号化しビデオコンテンツを記憶する方法
JP2018511208A (ja) * 2015-02-11 2018-04-19 クゥアルコム・インコーポレイテッドQualcomm Incorporated 階層化されたビデオファイルフォーマットにおけるサンプルエントリー及び動作点信号伝達の設計
JP2018524891A (ja) * 2015-06-18 2018-08-30 クゥアルコム・インコーポレイテッドQualcomm Incorporated 階層化hevcファイルフォーマットでのトラックおよびオペレーティングポイントシグナリングの設計

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Information technology - Coding of audio-visual objects - Part 15: Carriage of network abstraction l", ISO文書(SC29) DRAFT AMENDMENT ISO/IEC 14496-15:2019 DAM 2, JPN7022005926, 28 December 2020 (2020-12-28), pages 1 - 9, ISSN: 0004955902 *

Also Published As

Publication number Publication date
US20220086446A1 (en) 2022-03-17
CN114205610A (zh) 2022-03-18
CN114205599A (zh) 2022-03-18
KR20220037393A (ko) 2022-03-24
JP7222043B2 (ja) 2023-02-14
US20220086430A1 (en) 2022-03-17
JP7223088B2 (ja) 2023-02-15
EP3972277A1 (en) 2022-03-23
EP3972276A1 (en) 2022-03-23
JP2022050366A (ja) 2022-03-30
KR20220037391A (ko) 2022-03-24
US11711518B2 (en) 2023-07-25
US11750815B2 (en) 2023-09-05

Similar Documents

Publication Publication Date Title
JP7433280B2 (ja) ビデオストリームにおける従属ランダムアクセスポイント指示
JP7222043B2 (ja) ビデオコーディングにおけるデコード機能情報のストレージ
JP2022050368A (ja) コーディングされたビデオにおけるデコーダ・コンフィギュレーション・レコード
JP7202429B2 (ja) 符号化映像におけるクロマフォーマット及びビット深度のインジケーション
US11611752B2 (en) Adaptation parameter set storage in video coding
KR20230129008A (ko) 교차 랜덤 액세스 포인트 시그널링 향상
JP7418489B2 (ja) サブピクチャエンティティグループに対するレベルインジケータ
WO2022089396A1 (en) Decoder configuration information in vvc video coding
KR20230127982A (ko) 교차 랜덤 액세스 포인트 샘플 그룹
CN115428438A (zh) 视频编解码中的水平信息

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230202

R150 Certificate of patent or registration of utility model

Ref document number: 7222043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150