JP2024501685A - クロスランダムアクセスポイント信号通知拡張 - Google Patents

クロスランダムアクセスポイント信号通知拡張 Download PDF

Info

Publication number
JP2024501685A
JP2024501685A JP2023539841A JP2023539841A JP2024501685A JP 2024501685 A JP2024501685 A JP 2024501685A JP 2023539841 A JP2023539841 A JP 2023539841A JP 2023539841 A JP2023539841 A JP 2023539841A JP 2024501685 A JP2024501685 A JP 2024501685A
Authority
JP
Japan
Prior art keywords
picture
drap
pictures
crr
rap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023539841A
Other languages
English (en)
Inventor
イェクイ ワン
ヤン ワン
リー ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Original Assignee
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd, ByteDance Inc filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2024501685A publication Critical patent/JP2024501685A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

映像データを処理するためのメカニズムを開示する。1つ以上のランダムアクセスポイント(RAP)ピクチャ識別子は、1つ以上のクロスRAP参照(CRR)ピクチャに対して信号通知される。1つ以上のRAPピクチャ識別子に基づいて、ビジュアルメディアデータとビットストリームとの間で変換が実行される。【選択図】図7

Description

関連出願の相互参照
本願は、参照によりここに援用される、Ye-Kui Wangらによって2021年1月6日に出願され、タイトルが「Signalling Of Cross Random Access Point Referencing In Video Bitstreams And Media Files」である、国際出願第PCT/CN2021/070400号の利益を主張する。
この特許文献は、ファイルフォーマットのデジタルオーディオ映像メディア情報の生成、記憶、および消費に関する。
デジタル映像は、インターネットおよび他のデジタル通信ネットワークにおいて最大の帯域幅の使用量を占めている。映像を受信および表示することが可能である接続されるユーザ機器の数が増加するにつれ、デジタル映像の使用に対する帯域幅需要は増大し続けるであろう。
第1の態様は、1つ以上のクロスRAP参照(CRR)ピクチャに対する1つ以上のランダムアクセスピクチャ(RAP)ピクチャ識別子を決定すること、および1つ以上のRAPピクチャ識別子に基づいてビジュアルメディアデータとビットストリームとの間の変換を行うこと、を有する映像データの処理方法に関する。
任意選択で、前述の態様のうちいずれかにおいて、本態様の別の実装形態は、1つ以上のRAPピクチャ識別子が、それぞれ、コーディングされたレイヤ映像シーケンスマイナス1(t2drap_rap_id_in_clvs_minus1)フィールドでコーディングされることを提供する。
任意選択で、前述の態様のうちいずれかにおいて、本態様の別の実装形態は、1つ以上のRAPピクチャ識別子が、それぞれ、タイプ2の従属ランダムアクセスポイント(DRAP)付加拡張情報(SEI)メッセージに含まれることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、1つ以上のRAPピクチャ識別子が、それぞれ、t2drap_rap_id_in_clvs_minus1フィールドの値に1を加えた値で規定されることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、各CRRピクチャに対する1つ以上のRAPピクチャ識別子が0よりも大きい値に設定されることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、各CRRピクチャが1つのイントラランダムアクセスポイント(IRAP)ピクチャに関連付けられ、IRAPピクチャが0のRAPピクチャ識別子に関連付けられることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、IRAPピクチャのRAPピクチャ識別子が0であると推測され、信号通知されないことを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、1つ以上のRAPピクチャ識別子が、同じIRAPピクチャに関連付けられた各CRRピクチャに異なることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、1つ以上のRAPピクチャ識別子がRapPicIdsとして表されることを規定する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、タイプ2DRAP SEIメッセージにおける他の構文要素は、タイプ2DRAP SEIメッセージにおけるRAPピクチャ識別子が0よりも大きい場合にのみ信号通知されることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、CRRピクチャがタイプ2DRAPピクチャとして表されることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、CRRピクチャが拡張従属ランダムアクセスポイント(EDRAP)ピクチャとして表されることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、1つ以上のRAPピクチャ識別子が、それぞれ、SEIメッセージに含まれることを提供する。
任意選択で、前述の態様のうちのいずれかにおいて、本態様の別の実装形態は、CRRピクチャと同じレイヤで、かつ、復号順にCRRピクチャに後続する任意のピクチャが、同じレイヤで、かつ、復号順にCRRピクチャに先行する任意のピクチャに出力順で後続するように、ビットストリームを制約することを提供する。
任意選択で、前述の態様のいずれかにおいて、本態様の別の実装形態は、タイプ2DRAP SEIメッセージが、復号順でCRRピクチャに後続し、出力順でCRRピクチャに先行するピクチャが、インター予測のために、復号順でCRRピクチャの前に位置する参照ピクチャを参照することが許可されているかどうかの指示を含むことを提供する。
任意選択で、前述の態様のいずれかにおいて、本態様の別の実装形態は、指示が、参照ピクチャがピクチャと同じレイヤにある場合、そのピクチャが参照ピクチャを参照することが許可されているかどうかをさらに示すことを提供する。
任意選択で、前述の態様のいずれかにおいて、本態様の別の実装形態は、指示が1つのビットフラグであることを提供する。
任意選択で、前述の態様のいずれかにおいて、本態様の別の実装形態は、指示がt2drap_reserved_zero_13bitsフィールドにおける1つのビットであることを提供する。
任意選択で、前述の態様のいずれかにおいて、本態様の別の実装形態は、変換が、ビジュアルメディアデータに従ってビットストリームを生成することを含むことを提供する。
任意選択で、前述の態様のいずれかにおいて、本態様の別の実装形態は、変換が、ビットストリームを構文解析してビジュアルメディアデータを取得することを含むことを提供する。
第2の態様は、プロセッサと、命令が記憶された非一時的メモリとを備える、映像データを処理するための装置であって、命令は、プロセッサによって実行された際に、プロセッサに前述の態様のうちのいずれかの方法を実行させる。
第3の態様は、映像コーディングデバイスで使用するためのコンピュータプログラム製品を備える非一時的なコンピュータ可読媒体であって、コンピュータプログラム製品は、非一時的なコンピュータ可読媒体に記憶されたコンピュータ実行可能命令を備え、プロセッサによって実行された場合、映像コーディングデバイスに前述の態様のうちのいずれかの方法を実行させるようにする。
明瞭にするために、前述の実施例のうちのいずれか1つを前述の他の実施例のうちのいずれか1つと組み合わせ、本開示の範囲内で新しい実施例を作製してもよい。
これらおよび他の特徴は、添付の図面および特許請求の範囲と関連付けられた以下の詳細な説明から、より明瞭に理解されるであろう。
本開示をより完全に理解するために、以下の簡単な説明を添付の図面および詳細な説明と併せて参照する。ここで、同様の参照番号は同様の部分を表す。
IRAPピクチャを用いてビットストリームを復号する場合のランダムアクセスのための例示的なメカニズムを示す模式図である。 DRAPピクチャを用いてビットストリームを復号する場合のランダムアクセスのための例示的なメカニズムを示す模式図である。 CRRピクチャを用いてビットストリームを復号する場合のランダムアクセスのための例示的なメカニズムを示す模式図である。 CRRに基づくランダムアクセスを支援するために、外部ビットストリームに信号通知するための例示的なメカニズムを示す模式図である。 ピクチャが復号順でDRAPおよび/またはCRRピクチャに続き、かつ、出力順でDRAPおよび/またはCRRピクチャに先行する場合の潜在的な復号の誤りを示す模式図である。 国際標準化機構(ISO)ベースメディアファイルフォーマット(ISOBMFF)に記憶されるメディアファイルを示す模式図である。 符号化されたビジュアルメディアデータを含むビットストリームを示す模式図である。 映像処理システムの例を示すブロック図である。 映像処理装置の例を示すブロック図である。 映像処理の方法の例を示すフローチャートである。 映像コーディングシステムの例を説明するブロック図である。 エンコーダの例を説明するブロック図である。 デコーダの例を説明するブロック図である。 エンコーダの例を示す回路図である。
以下、1つ以上の実施形態について例示的な実装形態を提供するが、開示されるシステムおよび/または方法は、現在知られているかまたはまだ開発されていないかにかかわらず、任意の数の技術を用いて実装されてもよいことを初めに理解されたい。本開示は、本明細書で例示され説明される例示的な設計および実装形態を含む、以下に例示される例示的な実装形態、図面、および技術に決して限定されるべきではなく、添付の特許請求の範囲内において、それらの均等物の全範囲とともに、修正されてもよい。
H.266としても知られる汎用映像コーディング(VVC)という用語は、ある説明において、理解を容易にするためだけに用いられており、開示される技術の範囲を限定するためではない。このように、本明細書で説明される技術は、他の映像コーデックプロトコルおよび設計にも適用可能である。本明細書において、VVC規格または国際標準化機構(ISO)ベースメディアファイルフォーマット(ISOBMFF)のファイルフォーマット規格に対しての編集変更は、取り消されたテキストを示す太字のイタリック体、および追加されたテキストを示す下線によって、テキストに示す。
この特許文献は、映像コーディング、映像ファイルフォーマット、映像信号通知、および映像アプリケーションに関する。具体的には、本文書は、付加拡張情報(SEI)メッセージに基づく映像コーディングにおけるクロスランダムアクセスポイント(RAP)参照の拡張された信号通知、およびメディアファイルにおけるクロスRAP参照(CRR)の信号通知に関するものである。開示された例は、個々にまたは様々な組み合わせで、任意の映像コーディング規格または非標準映像コーデック、例えばVVC、および任意のメディアファイルフォーマット、例えばISOBMFFに適用されてもよい。
本開示は、以下の略語を含む。適応色変換(ACT)、適応ループフィルタ(ALF)、適応動きベクトル解像度(AMVR)、適応パラメータセット(APS)、アクセスユニット(AU)、アクセスユニット区切り文字(AUD)、高度映像コーディング(Rec.ITU-TH.264|ISO/IEC 14496-10)(AVC))、双方向予測(B)、CUレベル重み付き双方向予測(BCW)、双方向オプティカルフロー(BDOF)、ブロックベースのデルタパルスコード変調(BDPCM)、バッファリング周期(BP)、コンテキストベースの適応二進算術コーディング(CABAC)、コーディングブロック(CB)、一定ビットレート(CBR)、クロスコンポーネント適応ループフィルタ(CCALF)、コーディングされたレイヤ映像シーケンス(CLVS)、コーディングされたレイヤ映像シーケンス開始(CLVSS)、コーディングされたピクチャバッファ(CPB)、クリーンランダムアクセス(CRA)、巡回冗長性検査(CRC)、クロスRAP参照(CRR)、コーディングツリーブロック(CTB)、コーディングツリーユニット(CTU)、コーディングユニット(CU)、コーディングされた映像シーケンス(CVS)、コーディングされた映像シーケンス開始(CVSS)、復号能力情報(DCI)、復号されたピクチャバッファ(DPB)、従属ランダムアクセスポイント(DRAP)、復号ユニット(DU)、復号ユニット情報(DUI)、指数ゴロム(EG)、k次指数ゴロム(EGk)、ビットストリーム終端(EOB)、シーケンス終端(EOS)、フィラーデータ(FD)、先入れ先出し(FIFO)、固定長(FL)、緑、青、および赤(GBR)、一般的制約情報(GCI)、漸次的復号更新(GDR)、幾何学的分割モード(GPM)、Rec.ITU-T H.265|ISO/IEC 23008-2としても知られる、高効率映像コーディング(HEVC)、仮想参照デコーダ(HRD)、仮想ストリームスケジューラ(HSS)、イントラ(I)、イントラブロックコピー(IBC)、瞬時復号更新(IDR)、レイヤ間参照ピクチャ(ILRP)、イントラランダムアクセスポイント(IRAP)、低周波数非可分変換(LFNST)、最小確率記号(LPS)、最下位ビット(LSB)、長期参照ピクチャ(LTRP)、彩度スケーリングを伴う輝度マッピング(LMCS)、マトリックスに基づくイントラ予測(MIP)、最大確率記号(MPS)、最上位ビット(MSB)、多重変換選択(MTS)、動きベクトル予測(MVP)、ネットワーク抽象化レイヤ(NAL)、出力レイヤセット(OLS)、操作点(OP)、操作点情報(OPI)、予測(P)、ピクチャヘッダ(PH)、ピクチャオーダカウント(POC)、ピクチャパラメータセット(PPS)、予測微調整オプティカルフロー(PROF)、ピクチャタイミング(PT)、ピクチャユニット(PU)、量子化パラメータ(QP)、ランダムアクセス復号可能リーディングピクチャ(RADL)、ランダムアクセスポイント(RAP)、ランダムアクセススキップリーディングピクチャ(RASL)、生バイトシーケンスペイロード(RBSP)、赤、緑、および青(RGB)、参照ピクチャリスト(RPL)、サンプル適応オフセット(SAO)、サンプルアスペクト比(SAR)、付加拡張情報(SEI)、スライスヘッダ(SH)、サブピクチャレベル情報(SLI)、データビットの文字列(SODB)、シーケンスパラメータセット(SPS)、短期参照ピクチャ(STRP)、段階的時間的サブレイヤアクセス(STSA)、短縮ライス(TR)、変換ユニット(TU)、可変ビットレート(VBR)、映像コーディングレイヤ(VCL)、映像パラメータセット(VPS)、Rec.ITU-T H.274|ISO/IEC 23002-7としても知られる、汎用付加拡張情報(VSEI)、映像ユーザビリティ情報(VUI)、Rec.ITU-T H.266|ISO/IEC 23090-3としても知られる、汎用映像コーディング(VVC)。
映像コーディング規格は、主にITU-TおよびISO/IEC規格の開発によって発展してきた。ITU-TはH.261とH.263とを作り、ISO/IECはMPEG-1とMPEG-4Visualとを作り、両団体はH.262/MPEG-2VideoとH.264/MPEG-4高度映像コーディング(AVC)とH.265/HEVC規格とを共同で作った。H.262以来、映像コーディング規格は、時間的予測に加えて変換コーディングも利用されるハイブリッド映像コーディング構造に基づく。HEVCを超えたさらなる映像コーディング技術を探索するため、映像コーディング専門家グループ(VCEG)とMPEGが共同で合同映像探索チーム(JVET)を設立した。多くの方法がJVETによって採用され、合同探索モード(JEM)と呼ばれる参照ソフトウェアに組み込まれてきた。JVETは、後に汎用映像コーディング(VVC)プロジェクトが正式に始まった際に、合同映像探索チーム(JVET)に改称された。VVCはコーディング規格であり、HEVCに比べて50%のビットレート低減を目指している。VVCはJVETによって完成した。
VVCおよびVSEI規格は、テレビ放送、ビデオ会議、記憶媒体からの再生、適応ビットレートストリーミング、映像領域抽出、複数のコーディングされた映像ビットストリームからのコンテンツの合成および結合、マルチビュー映像、スケーラブルなレイヤ状のコーディング、およびビューポート適応360°没入型媒体等の用途を含む、最大限に幅広い応用分野における使用のために設計されている。
エッセンシャル映像コーディング(EVC)規格(ISO/IEC 23094-1)は、MPEGが開発した別の映像コーディング規格である。
ファイルフォーマット規格については後述する。メディアストリーミングアプリケーションは、一般的に、インターネットプロトコル(IP)、トランスミッションコントロールプロトコル(TCP)、ハイパーテキストトランスファープロトコル(HTTP)トランスポート方式に基づいており、一般的にISOBMFFのようなファイルフォーマットに依存する。このようなストリーミングシステムの1つは、HTTP(DASH)による動的適応ストリーミングである。映像は、AVCおよび/またはHEVC等の映像フォーマットで符号化され得る。符号化された映像は、ISOBMFFトラックにカプセル化され、DASH表現およびセグメントに含まれてもよい。プロファイル、階層、レベル等の映像ビットストリームに関する重要な情報は、コンテンツ選択のために、ファイルフォーマットレベルのメタデータおよび/またはDASHメディアプレゼンテーションディスクリプション(MPD)として公開されてもよい。例えば、このような情報は、ストリーミングセッションの開始時の初期化およびストリーミングセッション中のストリーム適応の両方のために、適切なメディアセグメントを選択するために使用され得る。
同様に、ISOBMFFの画像フォーマットを使用する場合、AVC画像ファイルフォーマットおよびHEVC画像ファイルフォーマット等の、画像フォーマットに特有のファイルフォーマット規格を採用してもよい。ISOBMFFに基づくVVC映像コンテンツを記憶するためのファイルフォーマットであるVVC映像ファイルフォーマットは、MPEGにより開発が行なわれている。また、ISOBMFFに基づく、VVCを用いてコーディングされた画像コンテンツを記憶するためのファイルフォーマットであるVVC画像ファイルフォーマットも、MPEGにより開発が行われている。
HEVCおよびVVCにおけるランダムアクセスのサポートについて以下に説明する。ランダムアクセスとは、復号順のビットストリームの最初のピクチャでないピクチャからのビットストリームのアクセスと復号を開始することを指す。ブロードキャスト/マルチキャストおよびマルチパーティビデオ会議におけるチューニングおよびチャネル切り替え、ローカル再生およびストリーミングにおける探索、並びにストリーミングにおけるストリーム適応をサポートするために、ビットストリームは、頻繁なランダムアクセスポイントを含むべきである。このようなランダムアクセスポイントは、通常、イントラコーディングされたピクチャであるが、インターコーディングされたピクチャであってもよい(例えば、漸次的復号更新の場合)。イントラコーディングされたピクチャは、ピクチャ内のブロックを参照してコーディングされるピクチャであり、インターコーディングされたピクチャは、他のピクチャのブロックを参照してコーディングされるピクチャである。
HEVCは、NALユニットタイプによって、NALユニットのヘッダ内のイントラランダムアクセスポイント(IRAP)ピクチャを信号通知することを含む。HEVCは、3つのタイプのIRAPピクチャ、即ち、瞬時復号更新(IDR)、クリーンランダムアクセス(CRA)、およびリンク切れへのアクセス(BLA)ピクチャをサポートする。IDRピクチャは、インターピクチャ予測構造が現在のピクチャグループ(GOP)の前のどのピクチャも参照しないようにするよう制約しており、従来、クローズドGOPランダムアクセスポイントと呼ばれている。CRAピクチャは、あるピクチャが現在のGOPの前にピクチャを参照することを許可することによって、制限が緩和され、ランダムアクセスの場合、これらはすべて破棄される。CRAピクチャは、オープンGOPランダムアクセスポイントと呼ばれている。BLAピクチャは、通常、例えばストリーム切り替え時に、CRAピクチャにおいて2つのビットストリームまたはその一部をスプライシングすることで生成される。IRAPピクチャのより優れたシステム使用を可能にするために、IRAPピクチャのプロパティを信号通知する6つの異なるNALユニットが定義されており、これらがISOベースメディアファイルフォーマット(ISOBMFF)により定義されるストリームアクセスポイントタイプに合わせて使用され得る。そのようなストリームアクセスポイントタイプは、HTTP(DASH)を介する動的適応ストリーミングにおけるランダムアクセスサポートにも利用される。
VVCは、3つのタイプのIRAPピクチャ、2つのタイプのIDRピクチャ(関連付けられたRADLピクチャを有する1つのタイプおよび関連付けられたRADLピクチャを有しない他のタイプ)および1つのタイプのCRAピクチャをサポートする。これらはHEVCと同様に使用される。HEVCにおけるBLAピクチャタイプは、VVCに含まれない。これは、BLAピクチャの基本機能は、CRAピクチャにシーケンス終了NALユニットを加えたものによって実現することができ、このシーケンス終了NALユニットが存在することは、後続のピクチャがシングルレイヤビットストリームにおいて新しいCVSを開始することを示すためである。さらに、NALユニットヘッダのNALユニットタイプフィールドに6ビットの代わりに5ビットを用いることによって示されるように、VVCの開発の間にHEVCよりも少ないNALユニットタイプを規定する点で要求があった。
VVCとHEVCとの間のランダムアクセスサポートにおける別の相違は、VVCではより規範的な方法でGDRをサポートすることである。GDRにおいて、ビットストリームの復号は、インターコーディングされたピクチャから開始することができる。ランダムアクセスポイントにおける第1のピクチャでは、正確に復号できるのはピクチャの一部だけである。しかしながら、複数のピクチャの後、ピクチャ領域全体を正確に復号して表示することができる。AVCおよびHEVCはまた、GDRランダムアクセスポイントおよびリカバリポイントの信号通知のためのリカバリポイントSEIメッセージを使用して、GDRをサポートする。VVCにおいて、GDRピクチャを示すためにNALユニットタイプが規定され、ピクチャヘッダ構文構造においてリカバリポイントが信号通知される。CVSおよびビットストリームは、GDRピクチャで開始することができる。したがって、ビットストリーム全体には、イントラコーディングされたピクチャを1つも持たず、インターコーディングされたピクチャのみを含むことが許される。GDRサポートをこのように規定する主な利点は、GDRに適合した動作を提供することである。GDRは、エンコーダが、ピクチャ全体をイントラコーディングするのではなく、複数のピクチャにわたってイントラコーディングされたスライスまたはブロック(これらは、インターコーディングされたスライス/ブロックよりも圧縮されていない)を分布させることによって、ビットストリームのビットレートを平滑化することを可能にする。これは、著しいエンドツーエンドの遅延の低減を可能にし、これは、無線ディスプレイ、オンラインゲーム、無人機に基づくアプリケーション等のような超低遅延アプリケーションの使用が増加していることに起因して、より重要であると考えられる。
VVCにおける別のGDRに関連する特徴は、仮想境界信号通知である。GDRピクチャとリカバリポイントとの間のピクチャにおける、更新された領域(GDRにおける正しく復号された領域)と未更新の領域との境界を、仮想境界として信号通知することができる。信号通知される場合、境界をまたぐインループフィルタリングは適用されない。これにより、境界またはその付近でのいくつかのサンプルの復号の不整合を回避することができる。これは、アプリケーションがGDRプロセス中に正しく復号された領域を表示することを決定した場合に有用となりうる。IRAPピクチャおよびGDRピクチャを集合的に、ランダムアクセスポイント(RAP)ピクチャと呼ぶことができる。
VUIおよびSEIメッセージについては後述する。VUIは、SPSの一部として(および場合によってはHEVCのVPSにおいても)送信される構文構造である。VUIは、規範的な復号処理に影響を及ぼさないが、コーディングされた映像の適切なレンダリングに使用可能な情報を搬送する。SEIは、復号、表示、または他の目的に関連する処理を支援する。VUIと同様に、SEIは規範的な復号プロセスに影響を与えない。SEIはSEIメッセージで搬送される。SEIメッセージのデコーダサポートは任意である。しかし、SEIメッセージはビットストリーム適合性に影響を及ぼす。例えば、ビットストリームにおけるSEIメッセージの構文がこの規格に従わない場合、そのビットストリームは適合していない。いくつかのSEIメッセージは、HRD規格において使用される。
VUI構文構造およびVVCで使用されるほとんどのSEIメッセージは、VVC規格では規定されておらず、VSEI規格で規定されている。HRD適合性試験に使用されるSEIメッセージは、VVC規格で規定されている。VVCは、HRD適合性試験に関連する5つのSEIメッセージを定義し、VSEIは、20個の追加のSEIメッセージを規定する。VSEI規格で搬送されるSEIメッセージは、適合するデコーダの動作に直接影響を及ぼすものではなく、コーディングフォーマットに依存しない方式で使用できるように定義されており、VVCに加え、他の映像コーディング規格とともにVSEIを使用することができる。VVC構文要素名を具体的に参照するのではなく、VSEI規格は、VVC規格内で値が設定される変数を参照する。
HEVCと比較して、VVCのVUI構文構造は、ピクチャの適切なレンダリングに関連する情報のみに焦点を当てており、タイミング情報またはビットストリーム制限指示を含んでいない。VVCにおいて、VUIはSPS内で信号通知され、SPSはVUI構文構造の前に1つの長さフィールドを含み、VUIペイロードの長さをバイトで信号通知する。これにより、デコーダは情報を簡単に飛び越えることができ、SEIメッセージの構文拡張と同様に、VUI構文構造の末端に新しい構文要素を直接追加することで、VUI構文の拡張を可能にする。
VUI構文構造は、次の情報を含む。コンテンツがインターレースまたはプログレッシブであることの指示、コンテンツがフレームパックされた立体映像または投影された全方位映像を含むかどうかの指示、サンプルアスペクト比、コンテンツがオーバースキャン表示に適切であるかどうかの指示、超高解像度(UHD)対高解像度(HD)の色空間およびハイダイナミックレンジ(HDR)の信号通知をサポートする、原色、色行列および色変換特性を含む色記述、および、輝度と比較した彩度位置の指示(HEVCと比較して、進歩的なコンテンツの信号通知が明確化されている)。
SPSにVUIが含まれない場合、この情報は不特定と見なされ、ビットストリームの内容をディスプレイ上でレンダリングすることを意図している場合、外部手段を介して伝達されるか、アプリケーションによって規定される。
表1は、VVCに規定されたSEIメッセージ、それらの構文およびセマンティクスを含む規格を列挙する。VSEI規格で規定されている20個のSEIメッセージのうち、多くはHEVCから継承されている(例えば、フィラーペイロードと両ユーザデータSEIメッセージ)。SEIメッセージの中には、コーディングされた映像コンテンツを正しく処理したりレンダリングしたりするためのものがある。これは、表示色量のマスタリング、コンテンツの光レベル情報、および/または代替転送特性SEIメッセージの場合に当てはまり、これらはHDRコンテンツに特に関係がある。他の例としては、360°の映像コンテンツの信号通知および処理に関連する、等方形投影、球面回転、領域単位のパッキング、および/または全方向性ビューポートSEIメッセージを含む。
表1:VVC v1におけるSEIメッセージの一覧
Figure 2024501685000002
Figure 2024501685000003
VVC v1に規定されるSEIメッセージは、フレームフィールド情報SEIメッセージと、サンプルアスペクト比情報SEIメッセージと、サブピクチャレベル情報SEIメッセージと、を含む。フレームフィールド情報SEIメッセージは、関連するピクチャをどのように表示すべきか(例えば、フィールドパリティまたはフレーム繰り返し周期)、関連するピクチャのソーススキャンタイプ、および関連するピクチャが前のピクチャの複製であるかどうかを示すための情報を含む。この情報は、ある映像コーディング規格におけるピクチャタイミングSEIメッセージにおいて、関連するピクチャのタイミング情報とともに信号通知されてもよい。しかしながら、フレームフィールド情報およびタイミング情報は、必ずしも一緒に信号通知される必要がない2つの異なる種類の情報である。典型的な例において、タイミング情報はシステムレベルで信号通知されるが、フレームフィールド情報はビットストリーム内で信号通知される。そのため、フレームフィールド情報はピクチャタイミングSEIメッセージから取り除かれ、代わりに専用のSEIメッセージ内で信号通知される。この変更は、また、フレーム繰り返しのためにフィールドを一緒にするまたはより多くの値をペアリングするような、追加のかつより明瞭な命令をディスプレイに伝達するように、フレームフィールド情報の構文を変更することをサポートする。
サンプルアスペクト比SEIメッセージは、同じシーケンス内の異なるピクチャに対して異なるサンプルアスペクト比を信号通知することを可能にするが、VUIに含まれる対応する情報は、シーケンス全体に適用される。これは、同じシーケンスの異なるピクチャが異なるサンプルアスペクト比を持つようにするスケーリング係数を持つ参照ピクチャ再サンプリング機能を使用する場合に関連する場合がある。
サブピクチャレベル情報SEIメッセージは、サブピクチャシーケンスのレベル情報を規定する。
DRAP指示SEIメッセージについては後述する。VSEI規格は、DRAP指示SEIメッセージを含み、このメッセージは、以下のように規定される。
Figure 2024501685000004
従属ランダムアクセスポイント(DRAP)指示SEIメッセージに関連するピクチャをDRAPピクチャと呼ぶ。DRAP指示SEIメッセージの存在は、この節で規定されたピクチャの順番およびピクチャの参照に関する制約が適用されることを示す。これらの制約は、デコーダが、DRAPピクチャの関連するIRAPピクチャを除く他のピクチャを復号する必要なく、DRAPピクチャおよびDRAPピクチャに後続するピクチャを復号順および出力順の両方で適切に復号することを可能にすることができる。
DRAP指示SEIメッセージの存在によって示される制約は以下の通りであり、すべて適用されるべきである。DRAPピクチャはトレーリングピクチャである。DRAPピクチャは、0に等しい時間的サブレイヤ識別子を有する。DRAPピクチャは、DRAPピクチャの関連するIRAPピクチャを除き、DRAPピクチャの参照ピクチャリストのアクティブエントリにおけるピクチャを含まない。復号順および出力順の両方においてDRAPピクチャの後に後続する任意のピクチャは、そのピクチャの参照ピクチャリストのアクティブエントリにおいて、DRAPピクチャの関連するIRAPピクチャを除き、復号順または出力順にDRAPピクチャに先行する任意のピクチャを含まない。
メディアファイルにおけるDRAP信号通知については後述する。ISOBMFFは、サンプルグループに基づいてDRAPのための信号通知機構を以下のように含む。DRAPサンプルグループは、以下のように定義される。DRAPサンプルは、DRAPサンプルに先行する最も近い初期サンプルが参照可能な場合、その後の復号順ですべてのサンプルが正しく復号されるサンプルである。初期サンプルは、ストリームアクセスポイント(SAP)タイプ1、2、または3のSAPサンプルであり、同期サンプルであるか、SAPサンプルグループによってそのようにマークされる。例えば、ファイル中の第32サンプルがI-ピクチャを含む初期サンプルである場合、第48サンプルはP-ピクチャを含み、従属ランダムアクセスポイントサンプルグループのメンバーとしてマークされてもよい。これは、最初に32番目のサンプルを復号し(サンプル33~47を無視する)、次に48番目のサンプルからの復号を続けることによって、48番目のサンプルにおいてランダムアクセスを実行することができることを示す。
サンプルは、以下の条件が満たされる場合にのみ、従属ランダムアクセスポイントサンプルグループのメンバーとなり得る(したがって、DRAPサンプルと呼ばれる)。DRAPサンプルは、最も近い先行する初期サンプルのみを参照する。DRAPサンプルにおいて復号を開始するとき、DRAPサンプルおよび出力順にDRAPサンプルに後続するすべてのサンプルを正しく復号することができる。これは、タイプ1、2、または3の最も近い先行するSAPサンプルを復号した後に発生し、これらのサンプルは、例えば同期サンプルであるかまたはSAPサンプルグループによってマークされることができる。DRAPサンプルは、タイプ1、2、および3のSAPサンプルとの組み合わせでのみ併用可能である。これは、先行するSAPサンプルをDRAPサンプルおよびDRAPサンプルに後続するサンプルに出力順に連結することによって、復号可能なサンプルのシーケンスを生成する機能を可能にするためである。DRAPサンプルグループのための例示的な構文は、以下の通りである。
class VisualDRAPEntry()
extends VisualSampleGroupEntry(‘drap’){
unsigned int(3)DRAP_type;
unsigned int(29)reserved=0;
DRAPサンプルグループのための例示的なセマンティクスは、以下の通りである。DRAP_typeは非負の整数である。DRAP_typeが1~3の範囲内にある場合、DRAP_typeは、DRAPサンプルが対応していたであろうSAP_type(附属書Iに規定)を示し、DRAPサンプルが最も近い先行するSAPに依存していなかったとする。他のタイプ値は予約されている。予約済みは0に等しいものとする。この従属節の意味は、予約された値が0であるサンプルグループ記述エントリにのみ適用される。構文解析ツールは、このサンプルグループを構文解析する際に、0より大きく予約されたサンプルグループ記述エントリを許可し、かつ無視する。
以下では、外部復号更新(EDR)および/またはタイプ2DRAPとも呼ばれる、クロスRAP参照(CRR)に基づく映像コーディングアプローチを説明する。この映像コーディングアプローチの基本的な考え方は、以下の通りである。イントラコーディングされたIRAPピクチャとしてランダムアクセスポイントをコーディングする代わりに(但し、ビットストリーム中の正に最初のピクチャを除く)、ランダムアクセスポイントは、IRAPピクチャとしてコーディングされた場合に前のピクチャが使用できないことを回避するため、インター予測を用いてコーディングされる。このメカニズムは、別個の映像ビットストリーム(外部ストリームおよび/または外部手段と呼ばれてもよい)を介して、限られた数の前のピクチャ(通常、映像コンテンツの異なるシーンを表す)を規定する。このような前のピクチャを外部ピクチャと呼ぶ。その結果、各外部ピクチャは、ランダムアクセスポイントをまたぐピクチャによるインター予測参照に使用することができる。コーディング効率の向上は、ランダムアクセスポイントをインター予測ピクチャとしてコーディングし、EDRピクチャに復号順に後続するピクチャに対してより多くの参照ピクチャを利用可能とすることから得られる。このような映像コーディングアプローチでコーディングされるビットストリームは、以下に説明するように、ISOBMFFおよびDASHに基づくアプリケーションに用いることができる。
DASHコンテンツ作成動作については後述する。映像コンテンツは、1つ以上の表現にコーディングされ、各表現は、特定の空間分解能、時間分解能、および品質を含む。映像コンテンツの各表現は、メインストリームによって表され、場合によっては外部ストリームによっても表される。メインストリームは、EDRピクチャを含んでもよいし、含まなくてもよいコーディングされるピクチャを含む。少なくとも1つのEDRピクチャがメインストリームに含まれている場合、外部ストリームも存在し、この外部ストリームは外部ピクチャを含む。EDRピクチャがメインストリームに含まれていない場合、外部ストリームは存在しない。各メインストリームは、メインストリーム表現(MSR)で搬送される。MSR内の各EDRピクチャは、セグメントの最初のピクチャとなる。
各外部ストリームは、存在する場合、外部ストリーム表現(ESR)で搬送される。EDRピクチャで始まるMSRの各セグメントに対して、MPDから導出された同じセグメント開始時間を有する、対応するESRにおいて、セグメントが存在し、セグメントは、MSRにて搬送されるビットストリームにおいて、そのEDRピクチャと、復号順において後続のピクチャとを復号するために要求される外部ピクチャを搬送する。同じ映像コンテンツのMSRは、1つの適応セット(AS)に含まれる。同じ映像コンテンツのESRが、1つのASに含まれる。
DASHストリーミング動作を以下に説明する。クライアントは、DASHメディアプレゼンテーションのMPDを取得し、MPDを構文解析し、MSRを選択し、コンテンツを消費する開始プレゼンテーション時間を決定する。クライアントは、開始プレゼンテーション時間に等しい(または十分に近い)プレゼンテーション時間を有するピクチャを含むセグメントから始めて、MSRのセグメントを要求する。開始セグメントの第1のピクチャがEDRピクチャである場合、好ましくはMSRセグメントを要求する前に、関連するESRにおける対応するセグメント(MPDから導出された同じセグメント開始時間を有する)も要求する。そうでない場合、関連するESRのセグメントは要求されない。
異なるMSRに切り替えるとき、クライアントは、MSRからの切り替えの最後に要求されたセグメントのセグメント開始時間よりも長いセグメント開始時間を有する第1のセグメントから始めて、MSRへの切り替えのセグメントを要求する。切り替え先のMSRにおける開始セグメントにおける第1のピクチャがEDRピクチャである場合、好ましくはMSRセグメントを要求する前に、関連するESRにおける対応するセグメントも要求される。そうでない場合、関連するESRのセグメントは要求されない。
同じMSRで連続的に動作している場合(探索またはストリーム切り替え動作の後、開始セグメントを復号した後)、EDRピクチャで開始する任意のセグメントを要求するときを含め、関連するESRのセグメントを要求しない。
以下、映像におけるクロスRAP参照の信号通知について説明する。CRRは、以下のように、タイプ2のDRAP指示SEIメッセージと呼ばれるSEIメッセージで信号通知することができる。タイプ2のDRAP指示SEIメッセージ構文は、以下のとおりである。
Figure 2024501685000005
タイプ2のDRAP指示SEIメッセージのセマンティクスは、次の通りである。タイプ2のDRAP指示SEIメッセージに関連するピクチャは、タイプ2のDRAPピクチャと呼ばれる。タイプ1のDRAPピクチャ(DRAP指示SEIメッセージに関連する)およびタイプ2のDRAPピクチャをまとめてDRAPピクチャと呼ぶ。タイプ2のDRAP指示SEIメッセージの存在は、この従属節に規定されるピクチャの順番およびピクチャの参照に関する制約が適用されることを示す。これらの制約により、デコーダは、タイプ2のDRAPピクチャと、同じレイヤで、かつ復号順および出力順の両方でタイプ2のDRAPピクチャに続くピクチャとを、適切に復号することができる。これは、同じCLVS内にあり、t2drap_ref_rap_id[i]の構文要素で識別される、復号順のIRAPまたはDRAPピクチャのリストを含むピクチャリストreferenceablePicturesを除き、同じレイヤ内の他のピクチャを復号する必要なしに、達成され得る。
タイプ2のDRAP指示SEIメッセージが存在することによって示される制約は、すべて適用されるべきであり、以下のとおりである。タイプ2のDRAPピクチャはトレーリングピクチャである。タイプ2のDRAPピクチャは、0に等しい時間的サブレイヤ識別子を有する。タイプ2のDRAPピクチャは、referenceablePicturesを除き、タイプ2のDRAPピクチャの参照ピクチャリストのアクティブエントリにおける同じレイヤの任意のピクチャを含まない。同じレイヤで、かつ、復号順および出力順の両方でタイプ2のDRAPピクチャに続く任意のピクチャは、タイプ2のDRAPピクチャの参照ピクチャリストのアクティブエントリにおいて、referenceablePicturesを除き、同じレイヤで、かつ、復号順または出力順でタイプ2のDRAPピクチャに先行する任意のピクチャを含まない。リストreferenablePicturesにおける任意のピクチャは、ピクチャの参照ピクチャリストのアクティブエントリにおいて、同じレイヤで、かつ、リストreferenceablePicturesにおけるより前の位置のピクチャではない任意のピクチャを含まない。その結果、referenceablePicturesにおける第1のピクチャには、このピクチャがIRAPピクチャではなくDRAPピクチャである場合であっても、このピクチャの参照ピクチャリストのアクティブエントリに同じレイヤのピクチャが含まれない。
t2drap_rap_id_in_clvsは、RapPicIdと表記される、タイプ2のDRAPピクチャのRAPピクチャ識別子を規定する。各IRAPまたはDRAPピクチャは、RapPicIdに関連付けられる。IRAPピクチャに対するRapPicIdの値は0に等しいと推測される。RapPicIdの値は、CLVS内の任意の2つのIRAPまたはDRAPピクチャについて異なるものとする。t2drap_reserved_zero_13bitsは、本明細書のこのバージョンに準拠するビットストリームにおいて0に等しいものとする。t2drap_reserved_zero_13bitsの他の値は予約されている。デコーダは、t2drap_reserved_zero_13bitsの値を無視するものとする。t2drap_num_ref_rap_pics_minus1+1は、タイプ2のDRAPピクチャと同じCLVS内にあり、タイプ2のDRAPピクチャの参照ピクチャリストのアクティブエントリに含まれ得るIRAPまたはDRAPピクチャの数を示す。t2drap_ref_rap_id[i]は、タイプ2のDRAPピクチャと同じCLVS内にあり、タイプ2のDRAPピクチャの参照ピクチャリストのアクティブエントリに含まれ得る、i番目のIRAPまたはDRAPピクチャのRapPicIdを示す。
開示される技術案が解決しようとする技術課題の例を以下に示す。例えば、映像ビットストリームおよびメディアファイルにおけるCRRおよび/またはDRAPの信号通知には、以下のような問題が存在する。DRAP指示SEIメッセージは、DRAPピクチャからランダムアクセスする際、復号順でDRAPピクチャに後続し、かつ、出力順でDRAPピクチャに先行するピクチャを正しく復号することができるかどうかを示す信号通知を欠く。このようなピクチャは、復号順にDRAPピクチャよりも前にあるピクチャをインター予測のために参照するため、この場合、誤って復号される可能性がある。
図5に、復号順で関連するDRAPピクチャに続き、出力順で関連するDRAPピクチャに先行するピクチャの例を示す。各ボックスは、左から右への復号順に示されるピクチャである。ボックス内の数字は出力順であり、これはピクチャのピクチャオーダカウントとしても知られている。矢印は、左側(矢印の原点)のピクチャを参照ピクチャとして用いる、右側(矢印の頭部)のピクチャを有する2つのピクチャの間のインター予測の関係を示す。
図5に示される例において、ピクチャ6からピクチャ8へのインター予測は、オフにされてもよい(2つのピクチャを結び付ける矢印が削除される)。この場合、DRAPピクチャ(ピクチャ10)からランダムアクセスを行うと、ピクチャ8を正しく復号することができる。しかしながら、ピクチャ6からピクチャ8へのインター予測を用いる場合、DRAPピクチャ(ピクチャ10)をランダムアクセスポイントとして用いたとき、ピクチャ8を正しく復号することができない。このようなインター予測がオフにされるかどうかの指示は、DRAPピクチャからランダムアクセスするときに映像の提示をいつ開始するかをシステムが知るために有用である。例えば、このような指示があれば、DRAPピクチャ(ピクチャ10)からランダムにアクセスする場合、アプリケーションシステムは、プレゼンテーションをピクチャ8から始めることができるか、またはピクチャ10から始めることができるかを知ることができる。
タイプ2のDRAP指示SEIメッセージは、復号順でタイプ2のDRAPピクチャに後続し、かつ、出力順でタイプ2のDRAPピクチャに先行するピクチャが、タイプ2のDRAPピクチャからランダムアクセスするときに正しく復元され得るかどうかを示すための信号通知メカニズムも備えていない。このようなピクチャは、復号順でタイプ2のDRAPピクチャよりも前にあるピクチャをインター予測のために参照する場合に、誤って復号される可能性がある。このような指示は、タイプ2のDRAPピクチャからランダムアクセスするときに、いつ映像の提示を開始するかを決定するシステムに有用である。メディアファイルにおけるCRRを信号通知するメカニズムも欠けている。
更に、ISOBMFFにおけるDRAPサンプルグループのセマンティクスは誤っている。ISOBMFFは、DRAPサンプルは、DRAPサンプルに先行する最も近い初期サンプルが参照可能な場合、その後の復号順ですべてのサンプルが正しく復号されるサンプルである、と述べている。しかし、DRAPサンプルの前の最も近い初期サンプルが参照可能であっても、復号順でDRAPサンプルの後であって、かつ、出力順でDRAPサンプルの前のサンプルは、参照において、最も近い初期サンプルのピクチャよりも前にあるピクチャを参照する場合がある。このような場合、このようなサンプル(ピクチャ)を正しく復号することができない。
本明細書では、上述した問題の1つまたは複数に対処するメカニズムを開示する。例えば、DRAPピクチャは、IRAPピクチャを参照してインター予測によりコーディングされるランダムアクセスポイントピクチャである。さらに、CRRピクチャは、タイプ2のDRAPおよび/または拡張従属ランダムアクセスポイント(EDRAP)ピクチャとしても知られており、IRAPピクチャを参照することでインター予測を介してコーディングされ、1つ以上の他の従属ランダムアクセスポイントピクチャを参照することが許可されるランダムアクセスポイントピクチャである。したがって、CRR/DRAP/タイプ2DRAPはDRAPの一種と見なすことができる。DRAPおよびCRRは、映像が特定の順番で管理されることを前提として設計される。しかしながら、エンコーダは、コーディング効率を向上させるためにピクチャの並び替えを許可される。したがって、映像ピクチャは、出力順および復号順を有することができる。出力順は、ピクチャを提示/表示する順であり、復号順は、ピクチャをビットストリームにコーディングする順である。DRAPおよびCRRの設計によっては、このような区別が考慮されていないため、DRAPおよび/またはCRRを用いて映像がコーディングされ、エンコーダがピクチャの並び替えを決定したときに、エラーが発生する場合がある。具体的には、インター予測ピクチャがDRAP/CRRピクチャに復号順で後続し、DRAP/CRRピクチャに出力順で先行する場合、エラーが発生し得る。そのようなピクチャは、復号順でDRAP/CRRピクチャに先行するさらなるピクチャを参照してコーディングすることを許容される場合があるため、エラーが発生する場合がある。DRAP/CRRピクチャがランダムアクセスポイントとしてデコーダによって使用される場合、さらなるピクチャを参照することによってインター予測が使用されるかどうかに基づいて、ピクチャは完全に復号可能であってもなくてもよい。さらに、様々な信号通知メカニズムは、DRAPおよび/またはCRRを完全には支援しない場合がある。
したがって、本開示は、復号順でDRAP/CRRピクチャに後続し、かつ出力順でDRAP/CRRピクチャに先行するインター予測されるピクチャが、DRAP/CRRピクチャに先行する他のピクチャを参照することを許可されるかどうかを示すための信号通知メカニズムを含む。一例において、この信号通知メカニズムは、符号化されるビットストリームにおけるSEIメッセージである。このようなインター予測の参照が許可される場合、DRAP/CRRピクチャをランダムアクセスポイントとして使用するとき、インター予測されるピクチャは表示されない。このようなインター予測の参照が許可されない場合、DRAP/CRRピクチャをランダムアクセスポイントとして使用するとき、インター予測されるピクチャを表示することができる。さらに、本開示は、DRAPおよび/またはCRRピクチャを説明するためにISOBMFFメディアファイルに含まれ得るサンプルグループおよび/またはサンプルエントリを説明する。これにより、デコーダは、ファイルフォーマットレベルでDRAPおよび/またはCRRピクチャの存在および位置を決定することができる。
さらに、本開示は、CRRピクチャに信号通知するメカニズムを含む。各CRRピクチャは、コーディングされたレイヤ映像シーケンスマイナス1(t2drap_rap_id_in_clvs_minus1)フィールドのタイプ2のDRAP RAP識別子によって識別される。一例において、t2drap_rap_id_in_clvs_minus1フィールドの値に1を加えた値は、CRRピクチャのRAPピクチャ識別子(RapPicId)を規定する。各IRAPおよびCRRピクチャは、RapPicIdに関連付けられる。IRAPピクチャのRapPicIdは0である。各CRRピクチャのRapPicIdは、同じIRAPピクチャに関連付けられた他のCRRピクチャのRapPicIdとは異なる、0ではない正の値である。CRRピクチャの識別子は、タイプ2のDRAP SEIメッセージに含まれてもよい。このアプローチは、各IRAPピクチャおよびそのIRAPピクチャに関連付けられたCRRピクチャを一意に識別する。しかしながら、このアプローチは、CRRピクチャが同じ映像シーケンスにおける複数の期間にわたってRapPicIdを再利用することも可能にする。
上述した課題等を解決するために、以下に要約される方法が開示されている。これらの項目は、一般的な概念を説明するための例であり、狭義に解釈されるべきではない。さらに、これらの項目は、個々に適用されてもよく、または任意の方法で組み合わされてもよい。
例1
一例において、復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行する、DRAPピクチャと同じレイヤにあるピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照することを許可されるかどうかを示す指示が、DRAP指示SEIメッセージ構文に追加される。そのような参照が許可されない場合、デコーダは、DRAPがランダムアクセスポイントとして使用されるとき、そのようなピクチャを正確に復号し、表示することができる。参照が許可される場合、復号ができない可能性があり、DRAPをランダムアクセスとして使用する際に、そのようなピクチャをデコーダで表示するべきではない。一例において、この指示は1ビットのフラグである。一例において、フラグがXに等しく設定され(Xは1または0である)、同じレイヤにおいて復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照することを許可されることを示す。一例において、フラグが1-Xに等しく設定されてよく(Xは1または0)、同じレイヤにおいて復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照しないことを示す。一例において、この指示は、マルチビット指標である。一例において、制約は、同じレイヤにおいて復号順でDRAPピクチャに続くピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前のピクチャに、出力順で続くことを要求する。
例2
一例において、追加のSEIメッセージが規定され、このSEIメッセージの存在は、同じレイヤにおいて復号順でビットストリームのDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照しないことを示す。一例において、このSEIメッセージの存在は、同じレイヤにおいて復号順でビットストリームのDRAPピクチャに続き、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照することを許可されることを示す。一例において、制約は、同じレイヤにおいて復号順でDRAPピクチャに続く任意のピクチャが、同じレイヤにおいて復号順でDRAPピクチャに先行する任意のピクチャに、出力順で続くことを要求する。
例3
一例において、追加のSEIメッセージが規定される。この追加のSEIメッセージの存在は、同じレイヤにおいて復号順でSEIメッセージおよびDRAP指示SEIメッセージの両方に関連付けられたDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照しないことを示す。一例において、この追加のSEIメッセージが存在しないことは、同じレイヤにおいて復号順で追加のSEIメッセージおよびDRAP指示SEIメッセージの両方に関連付けられたDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照することを許可されることを示す。一例において、制約は、同じレイヤにおいて復号順でDRAPピクチャに続く任意のピクチャが、復号順でDRAPピクチャに先行するピクチャに、出力順で続くことを保証する。
例4
一例において、追加のSEIメッセージが規定され、同じレイヤにおいて復号順で追加のSEIメッセージとDRAP指示SEIメッセージの両方に関連付けされたDRAPピクチャに続き、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャを、インター予測のために参照することを許可するかどうかを示す指示を、追加のSEIメッセージ構文に追加する。一例において、この指示は1ビットのフラグである。
一例において、フラグがXに等しく設定され(Xは1または0である)、同じレイヤにおいて復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照することが許可されることを示す。一例において、さらに、フラグが1-Xに等しく設定され(Xは1または0である)、同じレイヤにおいて復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャに先行するピクチャを、インター予測のために参照しないことを示す。一例において、この指示は、マルチビット指標である。一例において、制約は、同じレイヤにおいて復号順でDRAPピクチャに続く任意のピクチャが、同じレイヤにおいて復号順でDRAPピクチャに先行する任意のピクチャに、出力順で続くことを要求する。
例5
一例において、タイプ2のDRAP指示SEIメッセージ構文に指示が追加される。この指示は、同じレイヤにおいて復号順でタイプ2のDRAPピクチャに後続し、出力順でタイプ2のDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でタイプ2のDRAPピクチャよりも前にあるピクチャを、インター予測のために参照することが許可されるかどうかを示す。一例において、この指示は1ビットのフラグである。一例において、フラグがXに等しく設定され(Xは1または0である)、同じレイヤにおいて復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャよりも前にあるピクチャをインター予測のために参照することが許可されることを示す。一例において、さらに、フラグが1-Xに等しく設定され(Xは1または0である)、同じレイヤにおいて復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、同じレイヤにおいて復号順でDRAPピクチャに先行するピクチャを、インター予測のために参照しないことを示す。一例において、フラグは、タイプ2DRAP指示SEIメッセージ構文のt2drap_reserved_zero_13bitsフィールドから1ビットを再利用することによって追加される。一例において、表示はマルチビット指標である。一例において、制約は、同じレイヤにおいて復号順でDRAPピクチャに続く任意のピクチャが、同じレイヤにおいて復号順でDRAPピクチャに先行する任意のピクチャに、出力順で続くことを要求する。
例6
別の例において、指示は、DRAPまたはタイプ2のDRAPピクチャに関連付けられる。一例において、この指示は、各DRAPまたはタイプ2のDRAPに対して信号通知されてもよい。
例7
一例において、追加のサンプルグループは、ISOBMFFファイルにおけるCRR(例えば、タイプ2のDRAPピクチャを含むサンプル)に信号通知するように規定される。
例8
一例において、DRAPサンプルグループは、ISOBMFFファイルにおいてCRR(例えば、タイプ2のDRAPピクチャを含むサンプル)を、例えば、グループボックス(例えば、SampleToGroupBoxまたはCompactSampleToGroupBox)にサンプルのバージョンフィールドを使用するか、またはサンプルのgrouping_type_parameterフィールド(またはその一部)をグループボックスに使用することによって、信号通知するように拡張される。
例9
一例において、DRAPサンプルエントリは、DRAPサンプルグループのメンバーからのランダムアクセスに必要とされるランダムアクセスポイント(RAP)サンプルの数を示すフィールドを含む。必要とされるRAPサンプルは、初期サンプルまたはDRAPサンプルのいずれかである。一例において、DRAPサンプルエントリは、DRAPサンプルグループのメンバーのRAP識別子を示すフィールドをさらに含む。一例において、RAP識別子を示すフィールドは、16ビットを用いてコーディングされる。一例において、RAP識別子を示すフィールドは、32ビットを用いてコーディングされる。一例において、DRAPサンプルエントリは、DRAPサンプルグループのメンバーのRAP識別子を示すフィールドを含まない。RAP識別子は、サブサンプル情報ボックス、サンプル補助情報サイズボックス、および/または別のボックスに信号通知されてもよい。一例において、DRAPサンプルエントリは、DRAPサンプルグループのメンバーのRAP識別子を示すフィールドを含まない。一例において、RAP識別子は、サンプル番号である。一例において、DRAPサンプルエントリは、DRAPサンプルグループのメンバーからのランダムアクセスに求められる、必要とされるRAPサンプルのRAP識別子を示すいくつかのフィールドをさらに含む。一例において、必要とされるRAPサンプルのRAP識別子を示す各フィールドは、16ビットを用いてコーディングされる。一例において、必要とされるRAPサンプルのRAP識別子を示す各フィールドは、32ビットを用いてコーディングされる。一例において、必要とされるRAPサンプルのRAP識別子を示す各フィールドは、必要とされるRAPサンプルのRAP識別子を直接表す。一例において、必要とされるRAPサンプルのRAP識別子を示すフィールドは、それぞれ、2つのRAPサンプルのRAP識別子の差を表す。一例において、必要とされるRAPサンプルのRAP識別子を示すフィールドのi番目のフィールド(iは0に等しい)は、現在のサンプル(例えば、現在のDRAPサンプルグループのサンプル)のRAP識別子と第1の必要とされるRAPサンプルのi番目のRAP識別子との間の差を表す。一例において、必要とされるRAPサンプルのRAP識別子を示すフィールドのi番目のフィールド(iが0より大きい)は、(i-1)番目の必要とされるRAPサンプルのRAP識別子とi番目の必要とされるRAPサンプルのRAP識別子との差を表す。一例において、必要とされるRAPサンプルのRAP識別子を示すフィールドのi番目のフィールド(iが0より大きい)は、i番目の必要とされるRAPサンプルのRAP識別子と、(i-1)番目の必要とされるRAPサンプルのRAP識別子との差を表す。
例10
一例において、従属ランダムアクセスポイント(DRAP)サンプルとは、DRAPサンプルに先行する最も近い初期サンプルが参照可能である場合に、復号順および出力順の両方ですべてのサンプルを正しく復号することができるサンプルである。
例11
一例において、タイプ2のDRAP SEIメッセージ構文は、t2drap_rap_id_in_clvs構文要素以外のSEIメッセージにおけるすべての他の構文要素が、t2drap_rap_id_in_clvsが0より大きい場合にのみ信号通知されるように変更される。
例12
一例において、タイプ2のDRAP SEIメッセージ構文は、t2drap_rap_id_in_clvs構文要素をt2drap_rap_id_in_clvs_minus1に置き換え、セマンティクスが以下のように変更されるように、変更される。t2drap_rap_id_in_clvs_minus1+1は、CRRピクチャのRapPicIdと表記されるRAPピクチャ識別子を規定する。
例13
一例において、タイプ2のDRAP SEIメッセージセマンティクスが変更され、各IRAPまたはDRAPピクチャがRapPicIdに関連付けられ、IRAPピクチャに関連付けられた任意の2つのCRRピクチャのRapPicId値が異なり、CRRピクチャのRapPicId値が0よりも大きく、1つのIRAPピクチャのRapPicId値が0に等しいと推測される。
上述した態様の一部の例示的な実施例を以下に示す。既に追加または修正された関連部分には下線の太字を、削除された部分には太字のイタリック体を表す。
実装例において、タイプ2のDRAP指示SEIメッセージのための構文は、以下のように修正される。
Figure 2024501685000006
さらに、タイプ2のDRAP指示SEIメッセージのセマンティクスは、次のように修正される。タイプ2のDRAP指示SEIメッセージに関連するピクチャは、タイプ2のDRAPピクチャと呼ばれる。タイプ1のDRAPピクチャ(DRAP指示SEIメッセージに関連する)およびタイプ2のDRAPピクチャをまとめてDRAPピクチャと呼ぶ。タイプ2のDRAP指示SEIメッセージの存在は、この従属節に規定されるピクチャの順番およびピクチャの参照に関する制約が適用されることを示す。これらの制約により、デコーダは、ピクチャのリストreferenceablePicturesを除き、同じレイヤにある他のピクチャを復号する必要はなく、タイプ2のDRAPピクチャ、および同じレイヤにあり、かつ復号順および出力順の両方でそれに続くピクチャを適切に復号することができ、リストは、同じCLVS内にあり、かつ、t2drap_ref_rap_id[i]構文要素によって識別される、復号順にてIRAPまたはDRAPピクチャのリストからなる。
タイプ2のDRAP指示SEIメッセージが存在することによって示される制約は、すべて適用されるべきであり、以下のとおりである。タイプ2のDRAPピクチャはトレーリングピクチャである。タイプ2のDRAPピクチャは、0に等しい時間的サブレイヤ識別子を有する。タイプ2のDRAPピクチャは、referenceablePicturesを除き、その参照ピクチャリストのアクティブエントリにおける同じレイヤのピクチャを含まない。同じレイヤにあり、かつ、復号順および出力順の両方でタイプ2のDRAPピクチャに後続する任意のピクチャは、その参照ピクチャリストのアクティブエントリにおいて、referenceablePicturesを除き、同じレイヤにあり、かつ、復号順または出力順でタイプ2のDRAPピクチャに先行するピクチャを含まない。
Figure 2024501685000007
リストreferenceablePicturesにおける任意のピクチャは、その参照ピクチャリストのアクティブエントリにおいて、同じレイヤにあり、かつ、リストreferenceablePicturesにおいてより前の位置にあるピクチャでないピクチャを含まない。注-その結果、referenceablePicturesにおける第1のピクチャは、IRAPピクチャではなくDRAPピクチャである場合でも、その参照ピクチャリストのアクティブエントリ中の同じレイヤからのピクチャを含まない。
t2drap_rap_id_in_clvsは、RapPicIdと表記される、タイプ2のDRAPピクチャのRAPピクチャ識別子を規定する。各IRAPまたはDRAPピクチャは、RapPicIdに関連付けられる。IRAPピクチャに対するRapPicIdの値は0に等しいと推測される。RapPicIdの値は、CLVS内の任意の2つのIRAPまたはDRAPピクチャに対して異なるものとする。t2drap_reserved_zero_13bitsは、本明細書のこのバージョンに準拠するビットストリームにおいて0に等しいものとする。t2drap_reserved_zero_13bitsの他の値は、ITU-T|ISO/IECが将来使用するために予約されている。デコーダは、t2drap_reserved_zero_13bitsの値を無視するものとする。t2drap_num_ref_rap_pics_minus1+1は、タイプ2のDRAPピクチャと同じCLVS内にあり、タイプ2のDRAPピクチャの参照ピクチャリストのアクティブエントリに含まれ得るIRAPまたはDRAPピクチャの数を示す。t2drap_ref_rap_id[i]は、タイプ2のDRAPピクチャと同じCLVS内にあり、タイプ2のDRAPピクチャの参照ピクチャリストのアクティブエントリに含まれ得る、i番目のIRAPまたはDRAPピクチャのRapPicIdを示す。
Figure 2024501685000008
Figure 2024501685000009
Figure 2024501685000010
Figure 2024501685000011
Figure 2024501685000012
Figure 2024501685000013
Figure 2024501685000014
さらに、各DRAPサンプルのためのRAP_idフィールドは、サブサンプル情報ボックス、サンプル補助情報サイズボックス、または追加ボックスに信号通知される。
Figure 2024501685000015
Figure 2024501685000016
別の実装例において、RAPサンプルのRAPサンプル識別子は、RAPサンプルのサンプル番号に等しく設定なるように規定され、現在のサンプルのRAP_Idは、現在のサンプルのサンプル番号であり、変数RefRapId[i]は、i番目のRAPサンプルのサンプル番号を表す。
別の実装例において、サンプルグループの記述に存在する場合のRAP_idフィールド、およびref_RAP_id[i]フィールドは、32ビットを用いてコーディングされる。
Figure 2024501685000017
Figure 2024501685000018
Figure 2024501685000019
Figure 2024501685000020
Figure 2024501685000021
Figure 2024501685000022
Figure 2024501685000023
図1は、IRAPピクチャを用いてビットストリームを復号する場合のランダムアクセスのための例示的なメカニズムを示す模式図である。具体的には、図1は、IRAPピクチャ101および非IRAPピクチャ103を含むビットストリーム100を示す。IRAPピクチャ101は、イントラ予測に従ってコーディングされ、かつ、ビットストリーム100へのアクセスポイントとして使用可能なピクチャである。イントラ予測は、同じピクチャ内の他のブロックを参照することにより、ピクチャのブロックをコーディングする処理である。イントラ予測に従ってコーディングされたピクチャは、他のピクチャを参照することなく復号することができる。一方、非IRAPピクチャ103は、アクセスポイントとして使用することができず、関連するIRAPピクチャ101を復号した後に復号することができるピクチャである。例えば、非IRAPピクチャ103は、通常、インター予測に従ってコーディングされる。インター予測は、参照ピクチャとして指定される他のピクチャのブロックを参照することにより、ピクチャのブロックをコーディングする処理である。インター予測に基づいてコーディングされたピクチャは、そのピクチャのすべての参照ピクチャも復号されている場合にのみ、正しく復号することができる。IRAPピクチャ101および非IRAPピクチャ103の両方は、他の非IRAPピクチャ103の参照ピクチャとして指定されてもよい。
コーディング技術によっては、様々なタイプのIRAPピクチャ101を使用することができる。本例において、IRAPピクチャ101は、IDRピクチャおよびCRAピクチャを含む。IDRピクチャは、コーディングされた映像シーケンスの第1のピクチャとして使用可能なイントラコーディングされるピクチャである。CRAピクチャは、関連付けられた先頭ピクチャを使用できるようにするイントラコーディングされたピクチャである。先頭ピクチャは、出力順で関連するIRAPピクチャ101に先行するが、復号順でIRAPピクチャ101に後続するピクチャである。デコーダは、ビットストリーム100の開始時に復号を開始することができる。しかしながら、ユーザは、ビットストリームの特定の点にジャンプして、選択した点から視聴を開始したいことがしばしばある。ユーザが復号の開始点として選択できる点は、ランダムアクセスポイントと呼ばれる。
一般的に、任意のIRAPピクチャ101をランダムアクセスポイントとして使用することができる。IRAPピクチャ101がランダムアクセスポイントとして選択されると、関連付けされたすべての非IRAPピクチャ103(例えば、選択されたIRAPピクチャ101に後続する)も復号することができる。この例では、ユーザがCRA4をランダムアクセスのために選択した場合を示している。デコーダは、CRA4より前のピクチャを復号することなく、CRA4から復号を開始することができる。これは、IRAPピクチャに後続するピクチャは、一般的に、IRAPピクチャよりも前を参照することを妨げられるためである。したがって、CRA4がランダムアクセスポイントとして選択されると、デコーダは、表示のためにCRA4を復号し、その後、CRA4に基づいてCRA4に後続する非IRAPピクチャ103を復号することができる。これにより、デコーダは、ランダムアクセスポイントより前のピクチャを復号せずに、ランダムアクセスポイント(例えば、CRA4)からのビットストリームの提示を開始することができる。
図2は、DRAPピクチャを用いてビットストリームを復号する場合のランダムアクセスのための例示的なメカニズムを示す模式図である。具体的には、図2は、IRAPピクチャ201、非IRAPピクチャ203、およびDRAPピクチャ205を含むビットストリーム200を示す。IRAPピクチャ201および非IRAPピクチャ203は、それぞれ、IRAPピクチャ101および非IRAPピクチャ103に実質的に類似してもよい。本例において、IRAPピクチャ201としてIDRピクチャを用いる。
DRAPピクチャ205も含まれる。DRAPピクチャ205は、インター予測に従ってコーディングされ、ビットストリーム200へのアクセスポイントとして使用可能なピクチャである。例えば、各DRAPピクチャ205は、IRAPピクチャ201を参照することでコーディングされることができる。図2は、関連する参照ピクチャからの、インター予測に従ってコーディングされるピクチャを示す矢印を含む。図に示すように、各DRAPピクチャ205は、IDR0を参照してコーディングされる。このように、任意のDRAPピクチャ205は、デコーダが関連するIRAPピクチャ201を復号することができる限り、ランダムアクセスポイントとして使用することができる。図示の例では、ランダムアクセスポイントとしてDRAP4が選択されている。デコーダは、ビットストリーム200においてDRAPピクチャ205が使用されていることを認識し、例えば信号通知によって、DRAPピクチャ205の参照ピクチャとして使用されるIRAPピクチャ201を認識するようにするべきである。デコーダは、次に、ランダムアクセスにおいて使用するためにIDR0を復号し、IDR0に基づいてDRAP4を復号することができる。デコーダは、次に、DRAP4に基づいて、DRAP4に後続する非IRAPピクチャ203を復号することができる。デコーダは、DRAP4において、復号された映像の提示を開始することができる。
インター予測でコーディングされたピクチャは、イントラ予測でコーディングされたピクチャよりも圧縮されている。したがって、DRAPピクチャ205は、ビットストリーム100におけるIRAPピクチャ101よりも圧縮されている。したがって、DRAPピクチャ205を使用することにより、より複雑な信号通知メカニズムおよび復号処理のコストにおいて、ビットストリーム100に対してビットストリーム200に信号通知されるデータの数を時間とともに減らす(例えば、ビットレート)。
図3は、CRRピクチャを使用してビットストリームを復号するときのランダムアクセスの例示的なメカニズムの模式図である。具体的には、図3は、IRAPピクチャ301、非IRAPピクチャ303、およびCRRピクチャ305を含むビットストリーム300を示す。IRAPピクチャ301および非IRAPピクチャ303は、それぞれ、IRAPピクチャ101および非IRAPピクチャ103に実質的に類似してもよい。CRRピクチャ305は、インター予測にしたがってコーディングされ、ビットストリーム300へのアクセスポイントとして使用可能なピクチャである。CRRピクチャ305は、DRAPピクチャの一種と見なされてもよい。DRAPピクチャはIRAPピクチャを参照してコーディングされる間、CRRピクチャ305はIRAPピクチャ301および他の任意のCRRピクチャ305の両方を参照してコーディングされることができる。CRRピクチャ305はDRAPピクチャの一種であるため、CRRピクチャ305は、EDRAPピクチャおよび/またはタイプ2のDRAPピクチャとしても知られており、これらの用語は互換的に使用することができる。図3は、関連する参照ピクチャからの、インター予測に従ってコーディングされるピクチャを示す矢印を含む。
図示されている例において、すべてのCRRピクチャ305は、IDR0として示されているIRAPピクチャ301を参照することによってコーディングされる。また、CRR3、CRR4、CRR5もCRR2を参照してコーディングされる。したがって、デコーダは、関連するIRAPピクチャ301および参照ピクチャとして使用される関連するCRRピクチャ305を復号することができる限り、任意のCRRピクチャ305をランダムアクセスポイントとして使用することができる。図示の例では、ランダムアクセスポイントとしてCRR4が選択されている。デコーダは、ビットストリーム300においてCRRピクチャ305が使用されていることを認識し、かつ、例えば、信号通知によって、他のCRRピクチャ305の参照ピクチャとして使用されるIRAPピクチャ301およびCRRピクチャ305を認識できる必要がある。デコーダは、次に、ランダムアクセスにおいて使用するためにIDR0およびCRR2を復号し、IDR0およびCRR2に基づいてCRR4を復号することができる。そして、デコーダは、CRR4に基づいて、CRR4に後続する非IRAPピクチャ303を復号することができる。デコーダは、CRR4において復号された映像の提示を開始することができる。
インター予測は、ピクチャ内のブロックと参照ピクチャ内の類似した参照ブロックとをマッチングすることによって動作する。そして、エンコーダは、現在のブロックを符号化する代わりに、参照ブロックを指す動きベクトルを符号化してもよい。現在のブロックと参照ブロックとの間のいかなる差も、残差として符号化される。現在のブロックと参照ブロックが密接に合致するほど、符号化される残差は少なくなる。このように、現在のブロックと参照ブロックとをよりよくマッチングすることにより、コーディングされるデータが少なくなり、圧縮がより優れたものとなる。DRAPに対するCRRの利点は、より多くのピクチャを使用することができ、その結果、より良好なマッチングおよびより良好な圧縮が得られることである。DRAPに対してCRRは、信号通知および復号のコストが高くなる。
図4は、CRRに基づくランダムアクセスを支援するために、外部ビットストリーム401に信号通知するための例示的なメカニズムを示す模式図である。上述したように、CRRのための参照ピクチャの管理は、DRAPのための参照ピクチャの管理よりも複雑である。図4は、デコーダによって復号される符号化映像を含むメインビットストリーム400を示す。メインビットストリーム400は、ビットストリーム300と実質的に同様であるが、説明を簡単にするために符号を省略する。外部ビットストリーム401は、ランダムアクセスを支援するために用いられる。具体的には、外部ビットストリーム401は、各CRRピクチャに対応する参照ピクチャの集合を含む。ランダムアクセスが発生した場合、エンコーダおよび/または映像サーバは、アクセスポイントおよび外部ビットストリーム401のうちアクセスポイントに対応する部分から始まるメインビットストリーム400を送信することができる。例えば、ユーザは、ランダムアクセスのためにCRR3を選択することができる。デコーダは、次に、CRR3で始まるメインビットストリーム400を要求することができる。エンコーダ/映像サーバは、次に、CRR3において、メインビットストリーム400の送信を開始することができる。エンコーダ/映像サーバは、外部ビットストリーム401のうちランダムアクセスポイントに対応する部分を送信することもできる。この例において、エンコーダ/映像サーバは、IDR0およびCRR2を送信する。このようにして、デコーダは、ランダムアクセスポイントにおけるCRRピクチャと、そのCRRピクチャを復号するのに必要なすべての参照ピクチャとを受信する。そして、デコーダは、CRR3を復号し、その時点から映像の表示を開始することができる。データ伝送を低減するために、エンコーダ/映像サーバは、ランダムアクセスポイントの復号に必要な外部ビットストリーム401の部分のみを送信し、再びランダムアクセスが発生しない限り、および/または後続のCRRピクチャが現在のランダムアクセスポイントに提供されていない参照ピクチャを使用しない限り、更なるデータを送信しないようにしてもよい。
図5は、ピクチャが復号順でDRAPおよび/またはCRRピクチャに続き、かつ、出力順でDRAPおよび/またはCRRピクチャに先行する場合の潜在的な復号の誤りを示すダイヤグラム500である。前の図と同様に、矢印は、インター予測されるピクチャへ向かう矢印と関連の参照ピクチャから離れる矢印によって、インター予測を表している。
エンコーダは、ピクチャを再順序付けして圧縮を向上させることができる。このように、ユーザに写真を提示するべき順番は、出力順として知られている。ピクチャをビットストリームにコーディングする順序は、復号順として知られている。ピクチャは、ピクチャオーダカウントによって識別され得る。ピクチャオーダカウントは、ピクチャを一意に識別する昇順の任意の値であってもよい。ダイヤグラム500において、ピクチャは、復号順に示される。一方、ピクチャは、ピクチャオーダカウントに基づいて番号付けされ、出力順に増加する。ピクチャオーダカウントから分かるように、ピクチャ8は出力順から外れ、ランダムアクセスポイントであるピクチャ10に続いている。よって、ピクチャ8は、出力順でランダムアクセスポイントに先行し、かつ、復号順でランダムアクセスポイントに続く、インター予測されるピクチャ503である。本例において、ピクチャ10は、DRAP/CRRピクチャ505であり、このピクチャは、例によっては、DRAPピクチャまたはCRR/EDRAP/タイプ2のDRAPピクチャのいずれかである。本例において、インター予測されるピクチャ503は、参照507によりピクチャ6にインター予測を介してコーディングされる。したがって、ピクチャ6は、インター予測されるピクチャ503の参照ピクチャ502となる。
ダイヤグラム500は、インター予測されるピクチャ503がインター予測を介して参照ピクチャ502を参照507するため、潜在的なコーディングエラーを示す。具体的には、インター予測されるピクチャ503は、復号順でDRAP/CRRピクチャ505に続き、出力順でDRAP/CRRピクチャ505に先行し、復号順でDRAP/CRRピクチャ505に先行する位置にある参照ピクチャ502を参照507する。タイプIDRのIRAPピクチャであるピクチャ4からビットストリームを復号する場合、参照ピクチャ502は、復号され、参照ピクチャバッファに保存され、それにより、インター予測されるピクチャ503は正しく復号することができる。しかしながら、DRAP/CRRピクチャ505がランダムアクセスのために使用される場合、参照ピクチャ502はスキップされ、復号されない。従って、インター予測されるピクチャ503が参照ピクチャ502を参照している場合、インター予測されるピクチャ503を正しく復号することができない。エンコーダは、参照507を許可しない選択肢を有する。例えば、エンコーダは、すべてのインター予測されるピクチャ503に対して、関連するランダムアクセスポイントのピクチャおよび関連するアクセスポイントに続くピクチャのみを復号順に参照するように制限してよい。参照507が許可されていない場合、インター予測されるピクチャ503はDRAP/CRRピクチャ505の前のピクチャを参照することが許可されていないので、インター予測されるピクチャ503を常に復号することができる。しかし、参照507が許可されている場合、エンコーダが参照507によって参照ピクチャ502にインター予測されるピクチャ503を符号化することを決定した場合、インター予測されるピクチャ503を直接復号することはできない。なお、参照507を使用することをエンコーダは要求されていないため、参照507を許可することは、必ずしもエラーを引き起こさない。しかし、参照507が許可されている場合、参照507が選択され、その後、DRAP/CRRピクチャ505がランダムアクセスに使用されるときに、エラーが発生する。これは、ユーザの観点から見ると、一見したところランダムな誤差をもたらし、ユーザの体験を低下させる可能性がある。
本開示は、この問題に対処するためのいくつかのメカニズムを含む。例えば、エンコーダは、参照507が許可されているかどうかをデコーダに信号通知することができる。参照507が許可されている場合、(エンコーダが参照507を使用することを選択するかどうかに依存して)インター予測されるピクチャ503は復号される場合もあればそうでない場合もあるため、デコーダは、DRAP/CRRピクチャ505がランダムアクセスに使用された際に、出力順でDRAP/CRRピクチャ505に先行し、復号順でDRAP/CRRピクチャ505に続くインター予測されるピクチャ503を表示すべきではない。参照507が許可されていない場合、デコーダは、DRAP/CRRピクチャ505がランダムアクセスに使用される際に、DRAP/CRRピクチャ505に関連するインター予測されるピクチャ503を表示するべきである。さらに、DRAPおよびCRR信号通知メカニズムは、完全には特定されていない。したがって、本開示は、デコーダによるランダムアクセスの後、DRAP/CRRピクチャ505および/または関連するピクチャをより効率的に復号するために、メディアファイルにおけるDRAPおよびCRRの使用の説明を信号通知するメカニズムを含む。
別の例において、コーディングプロセスは、参照507が発生しないように制約され得る。例えば、ピクチャをレイヤに分けてよく、各レイヤは異なるフレームレートに関連付けられてよい。これにより、デコーダは、デコーダがサポートできるフレームレートを有するレイヤを選択することができる。デコーダは、次に、選択されたレイヤのすべてのピクチャおよび選択されたレイヤの下のレイヤのすべてのピクチャを表示し、所望のフレームレートを達成する。ダイヤグラム500に示すエラーは、エンコーダがDRAP/CRRピクチャ505と同じレイヤにあるピクチャ(例えば、インター予測されるピクチャ503)で、かつ、復号順でDRAP/CRRピクチャ505に続くピクチャが、同じレイヤにあり、かつ復号順でDRAP/CRRピクチャ505に先行するピクチャに出力順で後続することを求める場合に、妨げることができる。
図6は、ISOBMFFに記憶されたメディアファイル600を示す模式図である。例えば、メディアファイル600は、ISOBMFFに記憶され、DASH表現として使用されてもよい。ISOBMFFメディアファイル600は、メディアコンテンツまたはメディアプレゼンテーションに関連付けられたオブジェクトおよび/またはデータを搬送する複数のボックスに記憶される。例えば、メディアファイル600は、ファイルタイプボックス(例えば、ftyp)630と、ムービーボックス(例えば、moov)610と、メディアデータボックス(例えば、mdat)620と、を備えてもよい。
ファイルタイプボックス630は、ファイル全体を記述するデータを搬送することができるので、ファイルレベルのデータを搬送することができる。したがって、ファイルレベルボックスは、メディアファイル600全体に関連するデータを含む任意のボックスである。例えば、ファイルタイプボックス630は、メディアファイル600のISO規格および/または互換性情報のバージョン番号を示すファイルタイプを含むことができる。ムービーボックス610は、メディアファイルに含まれる映画を記述するデータを搬送してよく、したがって、映画レベルのデータを搬送してよい。動きレベルボックスは、メディアファイル600に含まれる映画全体を記述するデータを含む任意のボックスである。ムービーボックス610は、様々な用途のためのデータを含むように使用される幅広いサブボックスを含むことができる。例えば、ムービーボックス610は、メディアプレゼンテーションのトラックを記述するメタデータを搬送するトラックボックス(trak)を含む。なお、トラックを、関連するサンプルの時限シーケンスと呼ぶことができる。例えば、メディアトラックは、一連のピクチャまたはサンプリングされたオーディオを含んでよく、メタデータトラックは、これらのピクチャおよび/またはオーディオに対応する一連のメタデータを含んでよい。トラックを記述するデータはトラックレベルのデータであり、したがって、トラックを記述する任意のボックスはトラックレベルのボックスである。
メディアデータボックス620は、メディアプレゼンテーションのインターリーブされた時間順のメディアデータ(例えば、コーディングされる映像ピクチャおよび/またはオーディオ)で構成される。例えば、メディアデータボックス620は、VVC、AVC、HEVC等に基づいてコーディングされた映像データのビットストリームを含んでもよい。メディアデータボックス620は、ユーザに表示するための映像、オーディオ、テキストまたは他のメディアデータを含んでもよい。ISOBMFFでは、ピクチャ、オーディオ、テキストをまとめてサンプルと呼ぶ。これは、符号化/復号される画素をサンプルとする映像コーディング規格で使用される用語とは対照的である。このように、用語サンプルは、コンテキストに依存して、ピクチャ全体(ファイルフォーマットレベル)またはピクセルのグループ(ビットストリームレベル)を指すことができる。
上述したように、本開示は、ファイルフォーマットレベルでDRAPおよび/またはCRRの使用を通知するための追加のメカニズムを提供する。これにより、デコーダは、mdatボックス620に含まれるサンプルのビットストリームを実際に復号する前に、moovボックス610にパラメータをロードすることで、DRAPおよび/またはCRRの使用を認識することができる。例えば、moovボックス610は、DRAPサンプルグループボックス625および/またはEDRAPサンプルグループボックス621を含むことができる。サンプルグループボックスは、どのサンプルがサンプルグループボックスに対応するタイプであるかを記述することができる。一例において、DRAPとCRRは両方ともに、例えば、CRRをDRAPのサブタイプとして取り扱うことによって、DRAPサンプルグループボックス625に記載される。別の例において、CRRサンプルは、EDRAPサンプルグループボックス621によって記述され、DRAPサンプルは、DRAPサンプルグループボックス625によってそれぞれ記述される。一例において、DRAPサンプルグループ625は、DRAPサンプルエントリ627を含み得る。各DRAPサンプルエントリ627は、次に、DRAPに従ってコーディングされた関連するサンプルを記述することができる。一例において、EDRAPサンプルグループ621は、EDRAPサンプルエントリ623を含むことができる。各EDRAPサンプルエントリ623は、次に、CRR/EDRAP/タイプ2のDRAPに基づいてコーディングされた関連するサンプルを記述することができる。各DRAP/CRRサンプルの記述は、ピクチャのサンプル識別子、関連する参照ピクチャを含むサンプルの識別子、ピクチャからのランダムアクセスを実行するのに必要なサンプル数および/またはRAPサンプル数の指示、および/またはDRAP/CRRピクチャにおいてランダムアクセスを選択し実行するときにデコーダに役立つ追加情報を含むことができる。
moovボックス610はまた、幅広い範囲の他のボックス629を含んでもよい。いくつかの例において、DRAP/CRRサンプルの記述は、他のボックス629のうちの1つ以上に含まれてもよい。例えば、他のボックス629は、グループボックスのサンプル(SampleToGroupBox)を含んでもよく、DRAPおよび/またはCRRサンプルは、SampleToGroupBoxに記載されてもよい。別の例において、他のボックス629は、グループボックスのコンパクトサンプル(CompactSampleToGroupBox)を含んでもよく、DRAPおよび/またはCRRサンプルは、CompactSampleToGroupBoxに記載されてもよい。具体的な例として、DRAPおよび/またはCRRサンプルは、SampleToGroupBoxおよび/またはCompactSampleToGroupBoxにおけるグループタイプパラメータ(group_type_parameter)フィールドに記述されてもよい。別の例において、他のボックス629は、サブサンプル情報ボックスを含んでもよく、DRAPおよび/またはCRRサンプルは、サブサンプル情報ボックスに記載されてもよい。別の例において、他のボックス629は、サンプル補助情報サイズボックスを含んでもよく、DRAPおよび/またはCRRサンプルは、サンプル補助情報サイズボックスに記載されてもよい。さらに、本明細書で説明される任意の他のボックスは、他のボックス629に含まれてもよく、DRAPおよび/またはCRRサンプルの説明を含んでもよい。
図7は、符号化された映像メディアデータを含むビットストリーム700のブロック図である。ビットストリーム700は、デコーダで復号/展開するために、エンコーダでコーディングされた/圧縮されたメディアデータを含む。例えば、ビットストリーム700は、ISOBMFFメディアファイル600のメディアデータボックス620に含まれてもよい。さらに、ビットストリーム700は、DASHにおける表現に含まれ得る。ビットストリーム700は、VVC、AVC、EVC、HEVC等の様々なコーディングフォーマットに基づいてコーディングされうる。いくつかのコーディングフォーマットにおいて、ビットストリーム700は、一連のNALユニットとして表現される。NALユニットは、データパケット内に位置するようにサイズ設定されたデータユニットである。例えば、VVCは、多くのタイプのNALユニットを含む。ビットストリーム700は、映像データを含む映像コーディングレイヤ(VCL)NALユニットと、VCL NALユニットを記述し、使用されるコーディングツールを記述し、コーディング制約を記述するデータを含む非VCL NALユニットとを含むことができる。一例において、ビットストリーム700は、VCL NALユニットにおいてコーディングされるピクチャ710を含むことができる。ピクチャ710は、IRAPピクチャ、インター予測されるピクチャ、DRAPピクチャ、CRRピクチャ等であることができる。非VCL NALユニットは、ピクチャ710をコーディングするために使用されるメカニズムを記述する様々なメッセージおよびパラメータセットを含んでよい。多くのVCL NALユニットがVVCに含まれているが、本開示はSEI NALユニットに焦点を当てている。例えば、SEI NALユニットは、SEIメッセージを含むことができる。SEI NALメッセージは、復号、表示、または他の目的に関連する処理を支援するデータを含むが、復号処理において復号されるピクチャのサンプル値を決定するために必要とされない。一例において、SEIメッセージは、DRAP指示SEIメッセージ716および/またはタイプ2のDRAP指示SEIメッセージ717を含むことができる。DRAP指示SEIメッセージ716は、DRAPピクチャの使用を記述するデータを含むSEIメッセージである。タイプ2のDRAP指示SEIメッセージ717は、CRR/EDRAP/タイプ2のDRAPピクチャの使用を記述するデータを含むSEIメッセージである。DRAP指示SEIメッセージ716および/またはタイプ2のDRAP指示SEIメッセージ717は、DRAPおよび/またはCRR/EDRAP/タイプ2のDRAPピクチャに関連付けられてもよく、復号中にこのようなピクチャをどのように扱うべきかを示してもよい。
一例において、DRAP指示SEIメッセージ716は、復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、復号順でDRAPピクチャより前に位置する参照ピクチャをインター予測のために参照することを許可されているかどうかについての指示を含むことができる。一例において、DRAP指示SEIメッセージ716は、復号順でCRR/EDRAP/タイプ2のDRAPピクチャの後に続き、かつ、出力順でDRAPピクチャに先行するピクチャが、復号順でDRAPピクチャより前に位置する参照ピクチャをインター予測のために参照することを許可されているかどうかについての指示を含むことができる。一例において、タイプ2のDRAP指示SEIメッセージ717は、復号順でCRR/EDRAP/タイプ2のDRAPピクチャの後に続き、かつ、出力順でDRAPピクチャに先行するピクチャが、復号順でDRAPピクチャより前に位置する参照ピクチャをインター予測のために参照することを許可されているかどうかの指示を含むことができる。したがって、デコーダは、本例に基づいて、DRAP指示SEIメッセージ716および/またはタイプ2のDRAP指示SEIメッセージ717を読み取り、DRAP/CRRピクチャをランダムアクセスポイントとして使用する場合、復号順でDRAP/CRRピクチャに続き、出力順でDRAP/CRRピクチャに先行するピクチャを提示すべきかを決定することができる。
具体的な例において、DRAP指示SEIメッセージ716はDRAPピクチャに関連付けられ、タイプ2のDRAP指示SEIメッセージ717はCRR/EDRAP/タイプ2のDRAPピクチャに関連付けられることができる。さらなる例において、タイプ2のDRAP指示SEIメッセージ717は、T2drap_reserved_zero_13bitsフィールド701を含むことができ、T2drap_reserved_zero_13bitsフィールド701からのビットは、復号順でCRR/EDRAP/タイプ2DRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するピクチャが、復号順でDRAPピクチャより前に位置する参照ピクチャをインター予測のために参照することが許可されているのかを示すために使用することができる。別の例において、DRAP指示SEIメッセージ716におけるフィールドは、DRAPピクチャのための類似した指示を含むことができる。他の例において、DRAP指示SEIメッセージ716および/またはタイプ2のDRAP指示SEIメッセージ717におけるマルチビットインジケータが、この目的のために使用されることができる。
具体的な例において、DRAP指示SEIメッセージ716は、t2drap_rap_id_in_clvs_minus1フィールド703を含んでもよい。t2drap_rap_id_in_clvs_minus1フィールド703は、関連するCRRピクチャを識別するRapPicIdを含む。t2drap_rapid_in_clvs_minus1フィールド703に含まれるRapPicIdは、0でない正の値である。さらに、RapPicIdは、共通のIRAPピクチャを参照するCRRピクチャごとに異なる。これにより、各CRRピクチャを一意に識別することができる。ただし、RapPicIdsは、異なるIRAPピクチャを参照する映像の異なる期間間で再利用することができる。
図8は、本明細書で開示される様々な技術が実装され得る例示的な映像処理システム800を示すブロック図である。様々な実装形態は、システム800のコンポーネントの一部または全部を含んでもよい。システム800は、映像コンテンツを受信するための入力802を含んでもよい。映像コンテンツは、未加工または非圧縮フォーマット、例えば、8または10ビットのマルチコンポーネント画素値で受信されてもよく、または圧縮または符号化されたフォーマットで受信されてもよい。入力802は、ネットワークインタフェース、周辺バスインタフェース、または記憶インタフェースを表してもよい。ネットワークインタフェースの例は、イーサネット(登録商標)、パッシブ光ネットワーク(PON)等の有線インタフェース、およびWi-Fi(登録商標)またはセルラーインタフェース等の無線インターフェースを含む。
システム800は、本明細書に記載される様々なコーディングまたは符号化方法を実装することができるコーディングコンポーネント804を含んでもよい。コーディングコンポーネント804は、入力802からの映像の平均ビットレートをコーディングコンポーネント804の出力に低減し、映像のコーディングされた表現を生成してもよい。従って、このコーディング技術は、映像圧縮または映像トランスコーディング技術と呼ばれることがある。コーディングコンポーネント804の出力は、コンポーネント806によって表されるように、記憶されてもよいし、接続された通信を経由して送信されてもよい。入力802において受信される映像の記憶または通信されたビットストリーム(またはコーディングされた)表現は、コンポーネント808によって使用されて、表示インタフェース810に送信される画素値、または表示可能な映像を生成してもよい。ビットストリーム表現からユーザが見ることができる映像を生成する処理は、映像展開と呼ばれることがある。さらに、特定の映像処理動作を「コーディング」動作またはツールと呼ぶが、コーディングツールまたは動作は、エンコーダで使用され、コーディングの結果を逆にする対応する復号ツールまたは動作は、デコーダによって行われることが理解されよう。
周辺バスインタフェースまたは表示インタフェースの例は、ユニバーサルシリアルバス(USB)または高精細度マルチメディアインタフェース(HDMI)(登録商標)またはディスプレイポート等を含んでもよい。ストレージインタフェースの例は、シリアルアドバンスドテクノロジーアタッチメント(SATA)、PCI、IDEインタフェース等を含む。本明細書に記載される技術は、携帯電話、ノートパソコン、スマートフォン、またはデジタルデータ処理および/または映像表示を行うことができる他のデバイス等の様々な電子デバイスにおいて実施されてもよい。
図9は、映像処理装置900の例を示すブロック図である。装置900は、本明細書に記載の1または複数の方法を実装するために使用してもよい。装置900は、スマートフォン、タブレット、コンピュータ、モノのインターネット(IoT)受信機等により実施されてもよい。装置900は、1または複数のプロセッサ902と、1または複数のメモリ904と、映像処理ハードウェア906と、を含んでもよい。プロセッサ(複数のプロセッサ)902は、本明細書に記載される1または複数の方法を実装するように構成されてもよい。メモリ(複数のメモリ)904は、本明細書で説明される方法および技術を実装するために使用されるデータおよびコードを記憶するために使用してもよい。映像処理ハードウェア906は、本明細書に記載される技術をハードウェア回路にて実装するために使用してもよい。いくつかの実施形態において、映像処理ハードウェア906は、処理装置902、例えばグラフィックコプロセッサに少なくとも部分的に含まれてもよい。
図10は、映像処理の方法1000の一例を示すフローチャートである。方法1000は、ステップ1002において、1つ以上のCRRピクチャに対する1つ以上のRAPピクチャ識別子を決定すること(例えば、信号通知すること)を含む。ステップ1004において、RAPピクチャ識別子に基づいて、ビジュアルメディアデータとビットストリームとの間の変換を行う。RAPピクチャ識別子は、t2drap_rap_id_in_clvs_minus1フィールドにそれぞれコーディングされてもよく、例えば、タイプ2のDRAP SEIメッセージ等のSEIメッセージにコーディングされてもよい。一例において、各RAPピクチャ識別子は、t2drap_rap_id_in_clvs_minus1フィールドの値に1を加えた値によって規定されてもよい。各CRRピクチャのRAPピクチャ識別子は、0より大きい値に設定され得る。各CRRピクチャは、IRAPピクチャに関連付けられる。IRAPピクチャは、0のRAPピクチャ識別子に関連付けられてもよい。一例において、IRAPピクチャのRAPピクチャ識別子は、0であると推論することができ、信号通知されない場合がある。RAPピクチャ識別子は、同じIRAPピクチャに関連付けられたCRRピクチャごとに異なる。これにより、RAPピクチャ識別子はCRRピクチャを一意に識別することができ、かつ異なるIRAPピクチャを採用する同一映像の異なる期間でRAPピクチャ識別子を再利用することができる。RAPピクチャ識別子は、RapPicIdと表すことができる。RapPicIdは、特定のCRRピクチャを示すために使用され得る。例えば、RapPicIdは、どのCRRピクチャがSEIメッセージに関連付けられているかを示すことができる。また、RapPicIdは、どのCRRピクチャが現在のCRRピクチャの参照ピクチャとして使用されるかを示すことができる。
いくつかの例において、タイプ2のDRAP SEIメッセージにおける他の構文要素は、タイプ2のDRAP SEIメッセージにおけるRAPピクチャ識別子が0よりも大きい場合にのみ信号通知される。加えて、いくつかの例において、CRRピクチャは、タイプ2のDRAPピクチャおよび/またはEDRAPピクチャとして表されてもよい。また、本発明の実施例において、タイプ2のDRAP SEIメッセージは、復号順で、CRRピクチャに続き、かつ、出力順でCRRピクチャに先行するピクチャが、復号順でCRRピクチャより前に位置する参照ピクチャをインター予測のために参照することを許可されているかどうかについての指示を含む。この指示は、さらに、参照ピクチャがピクチャと同じレイヤにある場合、ピクチャが参照ピクチャを参照することを許可されているかどうかを示す。いくつかの例において、この指示は、t2drap_reserved_zero_13bitsフィールドにおけるビットなどの、1つのビットフラグである。いくつかの例において、ビットストリームは、CRRピクチャと同じレイヤにあり、かつ復号順にCRRピクチャに後続するピクチャは、CRRピクチャと同じレイヤにあり、かつ復号順にCRRピクチャに先行するピクチャに出力順に後続するように制約される。
図11は、本開示の技法を利用し得る例示的な映像コーディングシステム1100を示すブロック図である。図11に示すように、映像コーディングシステム1100は、送信元デバイス1110と、送信先デバイス1120と、を備えてもよい。送信元デバイス1110は、映像符号化デバイスとも称され得る符号化された映像データを生成する。送信先デバイス1120は、送信元装置1110によって生成される符号化された映像データを復号してよく、映像復号デバイスと呼ばれ得る。
送信元デバイス1110は、映像ソース1112、映像エンコーダ1114、および入出力(I/O)インタフェース1116、を含んでよい。映像ソース1112は、映像キャプチャデバイスなどのソース、映像コンテンツプロバイダからの映像データを受信するためのインタフェース、および/または映像データを生成するためのコンピュータグラフィックスシステム、またはこれらのソースの組み合わせを含んでよい。映像データは、1または複数のピクチャを含んでもよい。映像エンコーダ1114は、映像ソース1112からの映像データを符号化し、ビットストリームを生成する。ビットストリームは、映像データのコーディングされた表現を形成するビットのシーケンスを含んでもよい。ビットストリームは、コーディングされたピクチャおよび関連付けられたデータを含んでもよい。コーディングされたピクチャは、ピクチャのコーディングされた表現である。関連付けられたデータは、シーケンスパラメータセット、ピクチャパラメータセット、および他の構文構造を含んでもよい。I/Oインタフェース1116は、変復調器(モデム)および/または送信機を含んでもよい。符号化された映像データは、ネットワーク1130を介して、I/Oインタフェース1116を経由して送信先デバイス1120に直接送信されてよい。符号化された映像データはまた、送信先デバイス1120がアクセスするために、記憶媒体/サーバ1140に記憶してもよい。
送信先デバイス1120は、I/Oインタフェース1126、映像デコーダ1124、および表示装置1122を含んでもよい。I/Oインタフェース1126は、受信機および/またはモデムを含んでもよい。I/Oインタフェース1126は、送信元デバイス1110または記憶媒体/サーバ1140から符号化された映像データを取得してもよい。映像デコーダ1124は、符号化された映像データを復号してもよい。表示装置1122は、復号された映像データをユーザに表示してもよい。表示装置1122は、送信先デバイス1120と一体化されてもよく、または外部表示装置とインタフェースで接続するように構成することができる送信先デバイス1120の外部にあってもよい。
映像エンコーダ1114および映像デコーダ1124は、高効率映像コーディング(HEVC)規格、汎用映像コーディング(VVC)規格、および他の現在のおよび/または更なる規格等の映像圧縮規格に従って動作してもよい。
図12は、映像エンコーダ1200の一例を示すブロック図であり、この映像エンコーダ1200は、図11に示されるシステム1100における映像エンコーダ1114であってもよい。映像エンコーダ1200は、本開示の技術のいずれかまたは全部を行うように構成されてもよい。図12の例において、映像エンコーダ1200は、複数の機能コンポーネントを備える。本開示で説明される技術は、映像エンコーダ1200の様々なコンポーネント間で共有されてもよい。いくつかの例では、プロセッサは、本開示で説明される技術のいずれかまたはすべてを行うように構成してもよい。
映像エンコーダ1200の機能性コンポーネントは、分割ユニット1201、予測ユニット1202を含んでもよく、予測ユニット1202は、モード選択ユニット1203、動き推定ユニット1204、動き補償ユニット1205、イントラ予測ユニット1206、残差生成ユニット1207、変換処理ユニット1208、量子化ユニット1209、逆量子化ユニット1210、逆変換ユニット1211、再構成ユニット1212、バッファ1213、およびエントロピー符号化ユニット1214を含んでもよい。
他の例において、映像エンコーダ1200は、より多くの、より少ない、または異なる機能コンポーネントを含んでもよい。一例において、予測ユニット1202は、イントラブロックコピー(IBC)ユニットを含んでもよい。IBCユニットは、少なくとも1つの参照ピクチャが現在の映像ブロックが位置するピクチャであるIBCモードにおいて予測を行ってよい。
さらに、動き推定ユニット1204および動き補償ユニット1205などのいくつかのコンポーネントは、高度に統合されてもよいが、説明のために、図12の例においては別々に表されている。
分割ユニット1201は、ピクチャを1つ以上の映像ブロックに分割してもよい。映像エンコーダ1200および映像デコーダ1300は、様々な映像ブロックサイズをサポートしてもよい。
モード選択ユニット1203は、例えば、誤り結果に基づいて、イントラまたはインターコーディングモードのうちの1つを選択し、得られたイントラまたはインターコーディングされたブロックを残差生成ユニット1207に供給し、残差ブロックデータを生成して再構成ユニット1212に供給し、符号化されたブロックを参照ピクチャとして使用するために再構成してもよい。いくつかの例において、モード選択ユニット1203は、予測がインター予測信号およびイントラ予測信号に基づくイントラ予測とインター予測との組み合わせ(CIIP)モードの組み合わせを選択してもよい。モード選択ユニット1203は、インター予測の場合、ブロックのために動きベクトルの解像度(例えば、サブピクセルまたは整数ピクセル精度)を選択してもよい。
現在の映像ブロックに対してインター予測を実行するために、動き推定ユニット1204は、バッファ1213からの1つ以上の参照フレームと現在の映像ブロックとを比較することにより、現在の映像ブロックのために動き情報を生成してもよい。動き補償ユニット1205は、現在の映像ブロックに関連付けられたピクチャ以外のバッファ1213からのピクチャの動き情報および復号されたサンプルに基づいて、現在の映像ブロックに対する予測される映像ブロックを判定してもよい。
動き推定ユニット1204および動き補償ユニット1205は、例えば、現在の映像ブロックがIスライスであるか、Pスライスであるか、またはBスライスであるかによって、現在の映像ブロックに対して異なる動作を行ってもよい。
いくつかの例において、動き推定ユニット1204は、現在の映像ブロックに対して単方向予測を行い、動き推定ユニット1204は、現在の映像ブロックに対して、参照映像ブロック用のリスト0またはリスト1の参照ピクチャを検索してもよい。動き推定ユニット1204は、参照映像ブロックを含むリスト0またはリスト1の参照ピクチャを示す参照インデックスと、現在の映像ブロックと参照映像ブロックとの間の空間的変位を示す動きベクトルとを生成してもよい。動き推定ユニット1204は、参照インデックス、予測方向インジケータ、および動きベクトルを、現在の映像ブロックの動き情報として出力してもよい。動き補償ユニット1205は、現在の映像ブロックの動き情報が示す参照映像ブロックに基づいて、現在のブロックの予測された映像ブロックを生成してもよい。
他の例において、動き推定ユニット1204は、現在の映像ブロックのために双方向予測を行ってもよく、動き推定ユニット1204は、現在の映像ブロックのための参照映像ブロックに対してリスト0の参照ピクチャを検索してもよく、また、現在の映像ブロックのための別の参照映像ブロックに対してリスト1の参照ピクチャを検索してもよい。動き推定ユニット1204は、参照映像ブロックを含むリスト0およびリスト1における参照ピクチャを示す参照インデックスと、参照映像ブロックと現在の映像ブロックとの間の空間的変位を示す動きベクトルとを生成してもよい。動き推定ユニット1204は、現在の映像ブロックの参照インデックスおよび動きベクトルを、現在の映像ブロックの動き情報として出力してもよい。動き補償ユニット1205は、現在の映像ブロックの動き情報が示す参照映像ブロックに基づいて、現在の映像ブロックの予測された映像ブロックを生成してもよい。
いくつかの例において、動き推定ユニット1204は、デコーダの復号処理のために、動き情報のフルセットを出力してもよい。いくつかの例では、動き推定ユニット1204は、現在の映像に対する動き情報のフルセットを出力しなくてもよい。むしろ、動き推定ユニット1204は、別の映像ブロックの動き情報を参照して、現在の映像ブロックの動き情報を信号通知してもよい。例えば、動き推定ユニット1204は、現在の映像ブロックの動き情報が近隣の映像ブロックの動き情報に十分に類似していることを判定してもよい。
一例において、動き推定ユニット1204は、現在の映像ブロックに関連付けられた構文構造において、現在の映像ブロックが別の映像ブロックと同じ動き情報を有することを図13の映像デコーダ1300に示す値を示してもよい。
他の例において、動き推定ユニット1204は、現在の映像ブロックに関連付けられた構文構造において、別の映像ブロックと、動きベクトル差分(MVD)とを識別してもよい。動きベクトル差分は、現在の映像ブロックの動きベクトルと、指示された映像ブロックの動きベクトルとの差分を示す。映像デコーダ1300は、示された映像ブロックの動きベクトルと動きベクトル差分とを使用して、現在の映像ブロックの動きベクトルを決定してもよい。
上述したように、映像エンコーダ1200は、動きベクトルを予測的に信号通知してもよい。映像エンコーダ1200によって実装され得る予測信号通知技法の2つの例は、高度動きベクトル予測(AMVP)およびマージモード信号通知を含む。
イントラ予測ユニット1206は、現在の映像ブロックに対してイントラ予測を行ってもよい。イントラ予測ユニット1206が現在の映像ブロックをイントラ予測行う場合、イントラ予測ユニット1206は、同じピクチャにおける他の映像ブロックの復号されたサンプルに基づいて、現在の映像ブロックのための予測データを生成してもよい。現在の映像ブロックに対する予測データは、予測された映像ブロックおよび様々な構文要素を含んでもよい。
残差生成ユニット1207は、現在の映像ブロックから現在の映像ブロックの予測された映像ブロックを減算することによって、現在の映像ブロックに対する残差データを生成してもよい。現在の映像ブロックの残差データは、現在の映像ブロックにおけるサンプルの異なるサンプル成分に対応する残差映像ブロックを含んでもよい。
他の例において、例えば、スキップモードにおいて、現在の映像ブロックのための現在の映像ブロックに対する残差データはなくてもよく、残差生成ユニット1207は、減算動作を行わなくてもよい。
変換処理ユニット1208は、現在の映像ブロックに関連付けられた残差映像ブロックに1つ以上の変換を適用することによって、現在の映像ブロックに対する1つ以上の変換係数映像ブロックを生成してもよい。
変換処理ユニット1208が現在の映像ブロックに関連付けられた変換係数映像ブロックを生成した後、量子化ユニット1209は、現在の映像ブロックに関連付けられた1つ以上の量子化パラメータ(QP)値に基づいて、現在の映像ブロックに関連付けられた変換係数映像ブロックを量子化してもよい。
逆量子化ユニット1210および逆変換ユニット1211は、変換係数映像ブロックに逆量子化および逆変換をそれぞれ適用し、変換係数映像ブロックから残差映像ブロックを再構成してもよい。再構成ユニット1212は、予測ユニット1202によって生成された1つ以上の予測された映像ブロックから対応するサンプルに再構成された残差映像ブロックを追加して、バッファ1213に格納するための現在のブロックに関連付けられた再構成された映像ブロックを生成してもよい。
再構成ユニット1212が映像ブロックを再構成した後、映像ブロックにおける映像ブロッキングアーティファクトを縮小するために、ループフィルタリング動作が行われてもよい。
エントロピー符号化ユニット1214は、映像エンコーダ1200の他の機能コンポーネントからデータを受信してもよい。エントロピー符号化ユニット1214がデータを受信すると、エントロピー符号化ユニット1214は、1つ以上のエントロピー符号化動作を行い、エントロピー符号化されたデータを生成し、エントロピー符号化されたデータを含むビットストリームを出力してもよい。
図13は、映像デコーダ1300の一例を示すブロック図であり、この映像デコーダ1300は、図11に示されるシステム1100における映像デコーダ1124であってもよい。
映像デコーダ1300は、本開示の技術のいずれかまたは全てを行うように構成されてもよい。図13の実施例において、映像デコーダ1300は、複数の機能モジュールを備える。本開示で説明される技法は、映像デコーダ1300の様々なコンポーネント間で共有されてもよい。いくつかの例では、プロセッサは、本開示で説明される技術のいずれかまたはすべてを行うように構成してもよい。
図13の例において、映像デコーダ1300は、エントロピー復号ユニット1301、動き補償ユニット1302、イントラ予測ユニット1303、逆量子化ユニット1304、逆変換ユニット1305、再構成ユニット1306、およびバッファ1307を備える。映像デコーダ1300は、いくつかの例では、映像エンコーダ1200(図12)に関して説明した符号化パスとほぼ逆の復号パスを行ってもよい。
エントロピー復号ユニット1301は、符号化されたビットストリームを取り出してよい。符号化されたビットストリームは、エントロピーコーディングされた映像データ(例えば、映像データの符号化されたブロック)を含んでもよい。エントロピー復号ユニット1301は、エントロピーコーディングされた映像データを復号し、エントロピー復号された映像データから、動き補償ユニット1302は、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス、および他の動き情報を含む動き情報を決定してもよい。動き補償ユニット1302は、例えば、AMVPおよびマージモードを行うことにより、このような情報を決定してもよい。
動き補償ユニット1302は、動き補償されたブロックを生成してもよく、場合によっては、補間フィルタに基づいて補間を行う。サブピクセルの精度で使用される補間フィルタのための識別子が、構文要素に含まれてもよい。
動き補償ユニット1302は、映像ブロックの符号化中に映像エンコーダ1200によって使用されるような補間フィルタを使用して、参照ブロックのサブ整数ピクセルのための補間値を計算してもよい。動き補償ユニット1302は、受信した構文情報に従って映像エンコーダ1200が使用する補間フィルタを決定し、補間フィルタを使用して予測ブロックを生成してもよい。
動き補償ユニット1302は、符号化された映像シーケンスのフレームおよび/またはスライスを符号化するために使用されるブロックのサイズを判定するための構文情報、符号化された映像シーケンスのピクチャの各マクロブロックがどのように分割されるかを記述する分割情報、各分割がどのように符号化されるかを示すモード、各インターコーディングされたブロックごとの1つ以上の参照フレーム(および参照フレームリスト)、および符号化された映像シーケンスを復号するための他の情報のうちのいくつかを使用してもよい。
イントラ予測ユニット1303は、例えば、ビットストリームにおいて受信したイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成してもよい。逆量子化ユニット1304は、ビットストリームに提供され、エントロピー復号ユニット1301によって復号された量子化された映像ブロック係数を逆量子化、すなわち、量子化解除する。逆変換ユニット1305は、逆変換を適用する。
再構成ユニット1306は、残差ブロックと、動き補償ユニット1302またはイントラ予測ユニット1303によって生成された対応する予測ブロックとを合計し、復号されたブロックを形成してもよい。所望であれば、ブロックノイズアーティファクトを除去するために、復号されたブロックをフィルタリングするためにブロック解除フィルタを適用してもよい。復号された映像ブロックは、バッファ1307に記憶され、バッファ1307は、後続の動き補償/イントラ予測のために参照ブロックを提供し、表示装置に表示するために復号された復号された映像を生成する。
図14は、例示的なエンコーダ1400の回路図である。エンコーダ1400は、VVCの技法を実装するのに適している。エンコーダ1400は、3つのインループフィルタ、すなわち、ブロック解除フィルタ(DF)1402、サンプル適応オフセット(SAO)1404、適応ループフィルタ(ALF)1406を含む。予め定義されたフィルタを使用するDF1402とは異なり、SAO1404およびALF1406は、現在のピクチャの元のサンプルを利用して、オフセットおよびフィルタ係数を信号通知するコーディングされたサイド情報とともに、オフセットを追加し、また、有限インパルス応答(FIR)フィルタを適用することで、元のサンプルと再構成サンプルとの間の平均二乗誤差をそれぞれ低減する。ALF1406は、各ピクチャの最後の処理段階に位置し、前の段階で生成されたアーティファクトを捕捉し、修正しようとするツールと見なすことができる。
エンコーダ1400は、入力映像を受信するように構成されたイントラ予測コンポーネント1408、および、動き推定/動き補償(ME/MC)コンポーネント1410をさらに含む。イントラ予測コンポーネント1408は、イントラ予測を実行するように構成され、ME/MCコンポーネント1410は、参照ピクチャバッファ1412から取得した参照ピクチャを利用してインター予測を実行するように構成される。インター予測またはイントラ予測からの残差ブロックは、変換(T)コンポーネント1414および量子化(Q)コンポーネント1416に供給され、量子化された残差変換係数を生成し、これらの残差ブロックは、エントロピーコーディングコンポーネント1418に供給される。エントロピーコーディングコンポーネント1418は、予測結果および量子化変換係数をエントロピーコーディングし、映像デコーダ(図示せず)に向けて送信する。量子化コンポーネント1416から出力された量子化成分は、逆量子化(IQ)コンポーネント1420、逆変換コンポーネント1422、および再構成(REC)コンポーネント1424に供給されてもよい。RECコンポーネント1424は、DF1402、SAO1404、およびALF1406にピクチャを出力することができ、参照ピクチャバッファ1412に記憶される前に、これらのピクチャをフィルタリングすることができる。
次に、いくつかの例により好適な解決策を列挙する。
以下の解決策は、本明細書で検討される技術の例を示す。
1. ビジュアルメディア処理方法(例えば、図10に示す方法1000)は、ピクチャを含む映像と、映像のビットストリームとの間で変換を実行すること(1004)を含み、ピクチャが従属ランダムアクセスポイント(DRAP)ピクチャとしてビットストリームでコーディングされ、ビットストリームは、フォーマット規則に準拠し、フォーマット規則は、復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するDRAPピクチャと同じレイヤの1以上のピクチャが、インター予測のために同じレイヤのピクチャを参照するか否かを示す構文要素が付加拡張情報(SEI)メッセージに含まれるか否かを規定し、ピクチャは、復号順でDRAPより前にある。
2. SEIメッセージは、DRAP指示SEIメッセージである、解決策1に記載の方法。
3. SEIメッセージは、ビットストリームに含まれるDRAP指示SEIメッセージとは異なる、解決策1に記載の方法。
4. フォーマット規則は、SEIメッセージの存在が、復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するDRAPピクチャと同じレイヤの1以上のピクチャがインター予測のために同じレイヤのピクチャを参照することを許可することを示すことを規定し、ピクチャは、復号順でDRAPピクチャよりも前にある、解決策2から3のいずれかに記載の方法。
5. フォーマット規則は、SEIメッセージの存在が、復号順でDRAPピクチャに続き、かつ、出力順でDRAPピクチャに先行するDRAPピクチャと同じレイヤの1以上のピクチャがインター予測のために同じレイヤのピクチャを参照することを許可されないことを示すことを規定し、ピクチャは、復号順でDRAPピクチャよりも前にある、解決策2から3のいずれかに記載の方法。
6. 構文要素は、1ビットのフラグを含む、解決策1から5のいずれか1つに記載の方法。
以下の解決策は、前章で論じた技術の例示的な実施形態を示す。
7. 映像処理の方法は、1以上のピクチャを含む映像と、映像のビットストリームとの間で変換を実行することを有し、ビットストリームは、タイプ2の従属ランダムアクセスポイント(DRAP)ピクチャを含み、ビットストリームはフォーマット規則に準拠し、フォーマット規則は、ビットストリームに、復号順でタイプ2のDRAPピクチャに続き、出力順でタイプ2のDRAPピクチャに先行する、レイヤにおけるピクチャが、復号順でタイプ2のDRAPピクチャよりも前にある、レイヤにおけるピクチャをインター予測のために参照することが許可されるかを指示するための特定のタイプの従属ランダムアクセスポイント(DRAP)指示構文メッセージを含むことを規定する。
8. DRAP指示構文メッセージの特定のタイプは、タイプ2のDRAP指示構文メッセージに対応する、解決策7に記載の方法。
9. DRAP指示構文メッセージの特定のタイプは、DRAP指示構文メッセージに対応する、解決策7に記載の方法。
10. 構文要素は、1ビットのフラグを含む、解決策7から9のいずれか1つに記載の方法。
以下の解決策は、前章で論じた技術の例示的な実施形態を示す。
11. 映像処理の方法は、映像と、映像のビットストリームとの間で変換を実行することを有し、ビットストリームは、ビットストリームを記憶するファイルフォーマットでクロスランダムアクセスポイント参照(CRR)を信号通知するかどうか、およびどのように信号通知するかを規定するフォーマット規則に準拠する。
12. フォーマット規則は、CRRを示すサンプルグループを定義する、解決策11に記載の方法。
13. フォーマット規則は、従属ランダムアクセスポイント(DRAP)サンプルグループがCRRを含むことを定義する、解決策11に記載の方法。
14. CRRを信号通知するDRAPサンプルグループは、CRRを信号通知するためのバージョンフィールドまたはgrouping_type_parameterフィールドを含む、解決策13に記載の方法。
以下の解決策は、前章で論じた技術の例示的な実施形態を示す。
15. 映像処理の方法は、映像と、映像のビットストリームとの間で変換を実行することを有し、ビットストリームは、ビットストリームが従属ランダムアクセスポイント(DRAP)ピクチャを含む場合、フィールドが、DRAPサンプルグループのメンバーからのランダムアクセスに要求されるランダムアクセスポイント(RAP)サンプルの数を示すDRAPサンプルエントリフィールドに含められることを規定するフォーマット規則に準拠する。
16. フォーマット規則は、DRAPサンプルグループのメンバーのRAP識別子を示す別のフィールドを含むようにさらに規定する、解決策15に記載の方法。
以下の解決策は、前章で論じた技術の例示的な実施形態を示す。
17. 従属ランダムアクセスポイント(DRAP)サンプルは、DRAPサンプルに先行する最も近い初期サンプルを参照に使用することができる場合に、復号順と出力順の両方ですべてのサンプルが正しく復号できるようになるサンプルである、解決策1から16のいずれか1つに記載の方法。
18. ビットストリームをファイルフォーマットに準拠したファイルに記憶することをさらに含む、解決策1から17のいずれか1つに記載の方法。
19. ビットストリームは、ファイルフォーマットに準拠したファイルから読み出される、解決策1から17のいずれか1つに記載の方法。
20. ファイルフォーマットは、国際標準化機構ベースメディアファイルフォーマット(ISOBMFF)である、解決策18から19のいずれか1つに記載の方法。
21. 解決策1から20の1つまたは複数に記載の方法を実装するように構成されたプロセッサを備える、映像復号装置。
22. 解決策1から20の1つまたは複数に記載の方法を実装するように構成されたプロセッサを備える、映像符号化装置。
23. コンピュータコードが記憶されたコンピュータプログラム製品であって、コードは、プロセッサにより実行された際に、プロセッサに、解決策1から20のいずれかに記載の方法を実装させるコンピュータプログラム製品。
24. 解決策1から20のいずれかに従って生成されたビットストリームフォーマットに準拠したビットストリームを実行するコンピュータ可読媒体。
25. 解決策1から20のいずれか1つに記載の方法に従ってビットストリームを生成し、ビットストリームをコンピュータ可読媒体に書き込むことを含む方法。
26. 本明細書に記載の方法、装置またはシステム。
本明細書に記載の解決策において、エンコーダは、フォーマット規則に従ってコーディングされた表現を生成することで、フォーマット規則に準拠することができる。本明細書に記載の解決策において、デコーダは、フォーマット規則を使用して、フォーマット規則に従って、構文要素の有無の知識でコーディングされた表現内の構文要素を解析し、復号された映像を生成してよい。
本明細書では、「映像処理」という用語は、映像符号化、映像復号、映像圧縮、または映像展開を指してよい。例えば、映像圧縮アルゴリズムは、映像の画素表現から対応するビットストリーム表現への変換、またはその逆の変換中に適用されてもよい。現在の映像ブロックのビットストリーム表現は、例えば、構文によって規定されるように、ビットストリーム内の同じ場所または異なる場所に拡散されるビットに対応していてもよい。例えば、1つのマクロブロックは、変換およびコーディングされた誤り残差値の観点から符号化され、ビットストリームにおけるヘッダおよび他のフィールドにおけるビットを使用して符号化されてもよい。さらに、変換中、デコーダは、上記解決策で説明されているように、判定に基づいて、いくつかのフィールドが存在しても存在しなくてもよいという知識を持って、ビットストリームを構文解析してもよい。同様に、エンコーダは、特定の構文フィールドが含まれるべきであるか、または含まれないべきであるかを判定し、構文フィールドをコーディングされた表現に含めるか、またはコーディングされた表現から除外することによって、それに応じてコーディングされた表現を生成してもよい。
本明細書に開示された、およびその他の解決策、例、実施形態、モジュール、および機能動作の実装形態は、本明細書に開示された構造およびその構造的均等物を含めて、デジタル電子回路、またはコンピュータソフトウェア、ファームウェア、もしくはハードウェアで実施してもよく、またはそれらの1つ以上の組み合わせで実施してもよい。開示された、およびその他の実施形態は、1または複数のコンピュータプログラム製品、すなわち、データ処理装置によって実装されるため、またはデータ処理装置の動作を制御するために、コンピュータ可読媒体上に符号化されたコンピュータプログラム命令の1または複数のモジュールとして実施することができる。このコンピュータ可読媒体は、機械可読記憶デバイス、機械可読記憶基板、メモリデバイス、機械可読伝播信号をもたらす物質の組成物、またはこれらの1または複数の組み合わせであってもよい。「データ処理装置」という用語は、例えば、プログラム可能プロセッサ、コンピュータ、または複数のプロセッサ、若しくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を含む。この装置は、ハードウェアの他に、当該コンピュータプログラムの実行環境を作るコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはこれらの1または複数の組み合わせを構成するコードを含むことができる。伝播信号は、人工的に生成した信号、例えば、機械で生成した電気、光、または電磁信号であり、適切な受信装置に送信するための情報を符号化するために生成される。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも呼ばれる)は、コンパイルされた言語または解釈された言語を含む任意の形式のプログラミング言語で記述することができ、また、それは、スタンドアロンプログラムとして、またはコンピューティング環境で使用するのに適したモジュール、コンポーネント、サブルーチン、または他のユニットとして含む任意の形式で展開することができる。コンピュータプログラムは、必ずしもファイルシステムにおけるファイルに対応するとは限らない。プログラムは、他のプログラムまたはデータを保持するファイルの一部(例えば、マークアップ言語文書に格納された1または複数のスクリプト)に記録されていてもよいし、当該プログラム専用の単一のファイルに記憶されていてもよいし、複数の調整ファイル(例えば、1または複数のモジュール、サブプログラム、またはコードの一部を格納するファイル)に記憶されていてもよい。コンピュータプログラムを、1つのコンピュータで実行するように展開することができ、あるいは、1つのサイトに位置する、または複数のサイトにわたって分散され通信ネットワークによって相互接続される複数のコンピュータで実行するように展開することができる。
本明細書に記載された処理およびロジックフローは、入力データ上で動作し、出力を生成することによって機能を実行するための1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能プロセッサによって行うことができる。プロセスおよびロジックフローはまた、特定用途のロジック回路、例えば、FPGA(Field Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)によって行うことができ、装置はまた、特別目的のロジック回路として実装することができる。
コンピュータプログラムの実行に適したプロセッサは、例えば、汎用および専用目的マイクロプロセッサの両方、並びに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサを含む。一般的に、処理装置は、リードオンリーメモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの本質的な要素は、命令を行うための処理装置と、命令およびデータを記憶するための1つ以上の記憶装置とである。一般的に、コンピュータは、データを記憶するための1または複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクを含んでもよく、またはこれらの大容量記憶デバイスからデータを受信するか、またはこれらにデータを転送するように動作可能に結合されてもよい。しかしながら、コンピュータは、このようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、あらゆる形式の不揮発性メモリ、媒体、およびメモリデバイスを含み、例えば、消去可能プログラム可能読み取り専用メモリ(EPROM)、電気的消去可能プログラム可能読み取り専用メモリ(EEPROM)、フラッシュ記憶装置、磁気ディスク、例えば内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、およびコンパクトディスク読み取り専用メモリ(CD-ROM)およびデジタル多用途ディスク読み取り専用メモリ(DVD-ROM)ディスク等の半導体記憶装置を含む。プロセッサおよびメモリは、特定用途のロジック回路によって補完されてもよく、または特定用途のロジック回路に組み込まれてもよい。
本特許明細書は多くの特徴を含むが、これらは、任意の主題の範囲または特許請求の範囲を限定するものと解釈されるべきではなく、むしろ、特定の技術の特定の実施形態に特有であり得る特徴の説明と解釈されるべきである。本特許文献において別個の実施形態のコンテキストで説明されている特定の特徴は、1つの例において組み合わせて実装してもよい。逆に、1つの例のコンテキストで説明された様々な特徴は、複数の実施形態において別個にまたは任意の適切なサブコンビネーションで実装してもよい。さらに、特徴は、特定の組み合わせで作用するものとして上記に記載され、最初にそのように主張されていてもよいが、主張された組み合わせからの1つ以上の特徴は、場合によっては、組み合わせから抜粋されることができ、主張された組み合わせは、サブコンビネーションまたはサブコンビネーションのバリエーションに向けられてもよい。
同様に、動作は図面において特定の順番で示されているが、これは、所望の結果を達成するために、このような動作が示された特定の順番でまたは連続した順番で行われること、または示された全ての動作が行われることを必要とするものと理解されるべきではない。また、本特許明細書に記載されている実施形態における様々なシステムの構成要素の分離は、全ての実施形態においてこのような分離を必要とするものと理解されるべきではない。
いくつかの実装形態および実施例のみが記載されており、この特許明細書に記載され図示されているコンテンツに基づいて、他の実施形態、拡張および変形が可能である。
第1のコンポーネントは、第1のコンポーネントと第2のコンポーネントとの間にライン、トレース、または別の媒体を除き、介在するコンポーネントがない場合、第2のコンポーネントに直接結合される。第1のモジュールは、第1のモジュールと第2のモジュールとの間にライン、トレース、または他の媒体以外の介在モジュールがある場合、第2のモジュールに間接的に結合される。「結合された」という用語およびその変形は、直接結合および間接結合の両方を含む。「約」という用語の使用は、特に断りのない限り、後続の数字の±10%を含む範囲を意味する。
本開示においていくつかの実施例が提供されたが、開示されたシステムおよび方法は、本開示の思想または範囲から逸脱することなく、他の多くの特定の形式で実施されてもよいと理解されるべきである。本実施例は、例示と見なされるべきであり、制限と見なされるべきではなく、本発明は、本明細書に示される詳細に限定されるべきではない。例えば、様々な要素またはコンポーネントは、別のシステムにおいて組み合わせまたは統合されてもよく、または特定の特徴が省略されてもよく、または実施されなくてもよい。
加えて、本開示の範囲から逸脱することなく、様々な実施例で離接的または離接的に説明および図示された技法、システム、サブシステム、および方法を、他のシステム、モジュール、技法、または方法と組み合わせまたは統合してもよい。結合されたものとして図示または説明された他のアイテムは、直接接続されてもよく、または間接的に結合されてもよく、または何らかのインタフェース、装置、若しくは中間モジュールを介して、電気的、機械的若しくはその他の方法で通信してもよい。変更、置き換え、および変更の他の例は、当業者によって確定され得、本明細書に開示される思想および範囲から逸脱することなくなされ得る。
関連出願の相互参照
本願は、Ye-Kui Wangらによって2021年1月6日に出願され、タイトルが「Signalling Of Cross Random Access Point Referencing In Video Bitstreams And Media Files」である、国際出願第PCT/CN2021/070400号の利益に対する優先権を主張する、2021年12月28日に提出された国際出願第PCT/CN2021/141942号の国内段階である。前述のすべての特許出願は、その全体が参照により本明細書に援用される。

Claims (22)

  1. 映像データを処理するための方法であって、
    1つ以上のクロスRAP参照(CRR)ピクチャに対する1つ以上のランダムアクセスポイント(RAP)ピクチャ識別子を決定することと、
    前記1つ以上のRAPピクチャ識別子に基づいてビジュアルメディアデータとビットストリームとの間の変換を行うことと、
    を有する方法。
  2. 前記1つ以上のRAPピクチャ識別子は、それぞれ、コーディングされたレイヤ映像シーケンスマイナス1(t2drap_rap_id_in_clvs_minus1)フィールドでコーディングされる、請求項1に記載の方法。
  3. 前記1つ以上のRAPピクチャ識別子は、それぞれ、タイプ2の従属ランダムアクセスポイント(DRAP)付加拡張情報(SEI)メッセージに含まれる、請求項1または2に記載の方法。
  4. 前記1つ以上のRAPピクチャ識別子は、それぞれ、前記t2drap_rap_id_in_clvs_minus1フィールドの値に1を加えた値で規定される、請求項1から3のいずれか一項に記載の方法。
  5. 前記CRRピクチャのそれぞれに対する前記1つ以上のRAPピクチャ識別子が0よりも大きい値に設定される、請求項1から4のいずれか一項に記載の方法。
  6. 前記CRRピクチャのそれぞれは、1つのイントラランダムアクセスポイント(IRAP)ピクチャに関連付けられ、前記IRAPピクチャが0のRAPピクチャ識別子に関連付けられる、請求項1から5のいずれか一項に記載の方法。
  7. 前記IRAPピクチャのRAPピクチャ識別子が0であると推測され、信号通知されない、請求項1から6のいずれか一項に記載の方法。
  8. 前記1つ以上のRAPピクチャ識別子は、同じIRAPピクチャに関連付けられた前記CRRピクチャごとに異なる、請求項1から7のいずれか一項に記載の方法。
  9. 前記1つ以上のRAPピクチャ識別子がRapPicIdとして表される、請求項1から8のいずれか一項に記載の方法。
  10. タイプ2のDRAP SEIメッセージにおける他の構文要素は、前記タイプ2のDRAP SEIメッセージにおけるRAPピクチャ識別子が0よりも大きい場合にのみ信号通知される、請求項1から9のいずれか一項に記載の方法。
  11. 前記CRRピクチャは、タイプ2のDRAPピクチャとして表される、請求項1から10のいずれか一項に記載の方法。
  12. 前記CRRピクチャは、拡張従属ランダムアクセスポイント(EDRAP)ピクチャとして表される、請求項1から10のいずれか一項に記載の方法。
  13. 前記1つ以上のRAPピクチャ識別子は、それぞれ、付加拡張情報(SEI)メッセージに含まれる、請求項1から12のいずれか一項に記載の方法。
  14. 前記ビットストリームは、CRRピクチャと同じレイヤで、かつ、復号順で前記CRRピクチャに後続する任意のピクチャが、前記同じレイヤで、かつ、復号順で前記CRRピクチャに先行する任意のピクチャに出力順で後続するように制約される、請求項1から13のいずれか一項に記載の方法。
  15. 前記タイプ2 DRAP SEIメッセージが、復号順でCRRピクチャに後続し、かつ、出力順で前記CRRピクチャに先行するピクチャが、インター予測のために、復号順で前記CRRピクチャの前に位置する参照ピクチャを参照することが許可されているかどうかの指示を含む、請求項1から14のいずれか一項に記載の方法。
  16. 前記指示は、前記参照ピクチャが前記ピクチャと同じレイヤにある場合に、前記ピクチャが前記参照ピクチャを参照することが許可されるかどうかをさらに指示する、請求項1から15のいずれか一項に記載の方法。
  17. 前記指示は、1つのビットフラグである、請求項1から16のいずれか一項に記載の方法。
  18. 前記指示は、t2drap_reserved_zero_13bits fieldにおけるビットである、請求項1から17のいずれか一項に記載の方法。
  19. 前記変換は、前記ビジュアルメディアデータに従って前記ビットストリームを生成することを含む、請求項1から18のいずれか一項に記載の方法。
  20. 前記変換は、前記ビットストリームを構文解析して前記ビジュアルメディアデータを取得することを含む、請求項1から18のいずれか一項に記載の方法。
  21. プロセッサと、命令を有する非一時的メモリとを有する、映像データを処理するための装置であって、
    前記命令は、前記プロセッサによって実行された際に、前記プロセッサに、請求項1から20のいずれか一項の方法を実行させる、装置。
  22. 映像コーディング装置によって用いられるコンピュータプログラムプロダクトを有する非一時的コンピュータ可読媒体であって、
    前記コンピュータプログラムプロダクトは、プロセッサによって実行された際に、前記映像コーディング装置に、請求項1から20のいずれか一項の方法を実行させる、前記非一時的コンピュータ可読媒体に格納されたコンピュータ実行可能な命令を有する、非一時的コンピュータ可読媒体。
JP2023539841A 2021-01-06 2021-12-28 クロスランダムアクセスポイント信号通知拡張 Pending JP2024501685A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/070400 2021-01-06
CN2021070400 2021-01-06
PCT/CN2021/141942 WO2022148269A1 (en) 2021-01-06 2021-12-28 Cross random access point signaling enhancements

Publications (1)

Publication Number Publication Date
JP2024501685A true JP2024501685A (ja) 2024-01-15

Family

ID=82357570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023539841A Pending JP2024501685A (ja) 2021-01-06 2021-12-28 クロスランダムアクセスポイント信号通知拡張

Country Status (6)

Country Link
US (1) US20230353748A1 (ja)
EP (1) EP4256783A4 (ja)
JP (1) JP2024501685A (ja)
KR (1) KR20230129008A (ja)
CN (1) CN116830573A (ja)
WO (1) WO2022148269A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11962936B2 (en) 2020-09-29 2024-04-16 Lemon Inc. Syntax for dependent random access point indication in video bitstreams
EP4252425A4 (en) * 2020-12-28 2024-05-15 Beijing Bytedance Network Technology Co., Ltd. CROSS DIRECT ACCESS POINT SIGNALIZATION IN VIDEO CODING
WO2024053954A1 (ko) * 2022-09-05 2024-03-14 엘지전자 주식회사 종속 랜덤 액세스 포인트 픽처에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림 전송 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10063861B2 (en) * 2015-10-07 2018-08-28 Qualcomm Incorporated Methods and systems of performing predictive random access using a background picture
US11962936B2 (en) * 2020-09-29 2024-04-16 Lemon Inc. Syntax for dependent random access point indication in video bitstreams
EP4252425A4 (en) * 2020-12-28 2024-05-15 Beijing Bytedance Network Technology Co., Ltd. CROSS DIRECT ACCESS POINT SIGNALIZATION IN VIDEO CODING

Also Published As

Publication number Publication date
KR20230129008A (ko) 2023-09-05
EP4256783A4 (en) 2024-07-10
CN116830573A (zh) 2023-09-29
US20230353748A1 (en) 2023-11-02
WO2022148269A1 (en) 2022-07-14
EP4256783A1 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
JP7433280B2 (ja) ビデオストリームにおける従属ランダムアクセスポイント指示
JP7223088B2 (ja) バーサタイルビデオコーディングのトラック符号化
JP2024501685A (ja) クロスランダムアクセスポイント信号通知拡張
CN115299053A (zh) 可缩放视频编解码中的随机访问点访问单元
JP7414882B2 (ja) 共通メディアアプリケーションフォーマットでの復号化能力情報
JP7307777B2 (ja) ビデオコーディングにおける適応パラメータセットの格納
US20230345007A1 (en) Cross random access point sample group
JP7413433B2 (ja) サブピクチャトラックのレベル情報
CN114760476B (zh) 视频解码器初始化信息信令

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230721