JP2023512749A - ビデオコーディングにおけるサブピクチャ信号伝達 - Google Patents

ビデオコーディングにおけるサブピクチャ信号伝達 Download PDF

Info

Publication number
JP2023512749A
JP2023512749A JP2022535593A JP2022535593A JP2023512749A JP 2023512749 A JP2023512749 A JP 2023512749A JP 2022535593 A JP2022535593 A JP 2022535593A JP 2022535593 A JP2022535593 A JP 2022535593A JP 2023512749 A JP2023512749 A JP 2023512749A
Authority
JP
Japan
Prior art keywords
video
field
picture
unit
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022535593A
Other languages
English (en)
Inventor
ピン ウー,
Original Assignee
ゼットティーイー(ユーケー)リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゼットティーイー(ユーケー)リミテッド filed Critical ゼットティーイー(ユーケー)リミテッド
Publication of JP2023512749A publication Critical patent/JP2023512749A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ビデオビットストリーム生成および解析のための方法、装置、およびシステムが、説明される。ビデオビットストリーム処理の一例示的方法は、第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析し、ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示すことと、ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、ヘッダ内の第2のフィールドを解析し、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示すことと、第1のフィールドおよび第2のフィールドに基づいて、ビデオビットストリームをデコーディングし、ビデオを生成することとを含む。

Description

(関連出願の相互参照)
本特許文書は、2019年12月10日に出願された米国特許出願第16/709,907号の優先権の利益を請求する。前述の特許出願の内容全体は、本願の開示の一部として、参照することによって組み込まれる。
(技術分野)
本特許文書は、概して、ビデオおよび画像エンコーディングおよびデコーディングを対象とする。
過去三十年において、いくつかの異なるビデオコーディング規格が、デジタルビデオ内のある視覚的冗長性および情報を除去することによって、デジタルビデオを圧縮されたフォーマットに表すために公開されている。この期間中、エンコーディングされたビデオコンテンツのピクセル分解能は、MPEG-1ビデオ規格における初期のソース入力フォーマット(SIF)分解能から現在検討されている4Kまたは8Kビデオに、絶え間なく、上昇している。故に、より新しいビデオコーディング規格は、より効率的かつフレキシブルなコーディング技法を採用し、ビデオの増加した分解能に適応している。
本特許文書は、とりわけ、エンコーディングされたビデオビットストリーム内のサブピクチャの信号伝達のために、および、対応して、エンコーディングされたビデオビットストリームをエンコーディングされていないビデオにデコーディングするため使用され得る技法を使用して、デジタルビデオをエンコーディングおよびデコーディングする技法を説明する。
一例示的側面において、ビットストリーム処理の方法が、開示される。方法は、第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析し、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示すことと、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内の第2のフィールドを解析し、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示すことと、第1のフィールドおよび第2のフィールドに基づいて、ビデオビットストリームをデコーディングし、ビデオを生成することとを含む。
別の例示的側面において、ビデオビットストリームを解析する方法が、開示される。方法は、1つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、ビデオピクチャを構成する1つ以上のネットワーク抽象化層(NAL)ユニットについてのタイプ情報と、ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することと、解析に基づいて、1つ以上のサブピクチャを再構築することとを含む。
別の例示的側面において、ビデオをエンコーディングする方法が、開示される。方法は、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示す第1のフィールドを含むことと、ビデオユニットが、複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内に、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す第2のフィールドをさらに含むことと、ビデオをエンコーディングし、ビデオビットストリームを生成することとを含む。
さらに別の例示的側面において、プロセッサを備えているビデオ処理装置が、開示される。プロセッサは、本明細書に説明されるエンコーディングまたはデコーディング方法を実装するように構成される。
さらに別の例示的側面において、コンピュータプログラム記憶媒体が、開示される。
コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、説明される方法をプロセッサに実装させる。
これらおよび他の側面が、本書に説明される。
図1は、複数のサブピクチャに区画化されたビデオピクチャの例を示す。
図2A-2Bは、複数のサブピクチャを備えているビデオピクチャをエンコーディングまたはデコーディングするときの例示的処理順序を示す。 図2A-2Bは、複数のサブピクチャを備えているビデオピクチャをエンコーディングまたはデコーディングするときの例示的処理順序を示す。
図3Aは、コーディングツリーユニット(CTU)、タイル、スライス、およびサブピクチャに区画化されたビデオピクチャの例を示す。
図3Bは、24個のサブピクチャおよび24個のスライスを有するビデオピクチャを示す。
図4は、例示的ビデオエンコーダのブロック図を示す。
図5は、例示的ビデオデコーダのブロック図を示す。
図6は、ビデオシステムの例を示す。
図7は、ビデオ処理ハードウェアプラットフォームの例を示す。
図8は、ビデオ処理の例示的方法のためのフローチャートである。
図9は、ビデオ処理の例示的方法のためのフローチャートである。
図10は、ビットストリームを解析する例示的方法のためのフローチャートである。
図11は、ビデオエンコーディングの例示的方法のためのフローチャートである。
節の見出しは、読み取りやすさを改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、H.264/AVC(高度ビデオコーディング)、H.265/HEVC(高効率ビデオコーディング)およびH.266多用途ビデオコーディング(VVC)規格の例を使用して説明される。しかしながら、開示される技法の適応性は、H.264/AVCまたはH.265/HEVCまたはH.266/VVCシステムのみに限定されない。
本開示は、ビデオ処理および通信に関し、特に、デジタルビデオまたはピクチャをエンコーディングし、ビットストリームを生成する方法および装置、ビットストリームをデコーディングし、デジタルビデオまたはピクチャを再構築する方法および装置、ビットストリームを抽出し、サブビットストリームを形成する方法および装置に関する。
(簡単な議論)
デジタルビデオおよびピクチャを圧縮するための技法は、ピクセルサンプル間の相関特性を利用して、ビデオおよびピクチャ内の冗長性を除去する。エンコーダは、ピクチャを、いくつかのユニットを含む1つ以上の領域に区画化し得る。そのような領域は、ピクチャ内の予測依存性を破り、同じピクチャ内の別の領域のデータを参照することなく、領域が、デコーディングされ得るか、または、少なくともこの領域に対応する構文要素が正しく解析され得る。ビデオコーディング規格において導入されるそのような領域は、データ損失後の再同期、並列処理、着目コーディングおよびストリーミングの領域、パケット化された伝送、ビューポート依存ストリーミング等を促進する。例えば、H.264/AVC規格では、そのような領域の例は、スライスおよびスライスグループであり得る。H.265/HEVC規格では、そのような領域の例は、スライスおよびタイルであり得る。
次世代ビデオコーディング規格の開発では、MPEG(動画専門家集団)は、次世代ビデオコーデックが、圧縮されたビットストリームからの所望のビューポートの効率的抽出を有効にすべきであることを義務付けている。加えて、4K、8K、およびさらにより高い分解能ビデオを伴う用途では、視認者は、端末デバイス上にレンダリングするためのビューポートを選択することを可能にされ得、したがって、オリジナル分解能に対応するビットストリームからのサブビットストリームの効率的抽出を有効にすることが有用である。
H.265/HEVC規格は、現在公開されているビデオコーディング規格の中で最高コーディング効率を提供するので、H.265/HEVCが、現在の段階では、上で説明されるビデオサービスを展開することにおけるコーデックとして選定される。H.265/HEVC規格は、スライスおよびタイルを定義する。ピクチャは、1つ以上のタイルおよびスライスに区画化されることができる。H.265規格によると、準拠要件は、以下の条件の一方または両方が各スライスおよびタイルに関して満たされることである。
-スライス内の全てのCTUが、同じタイルに属する。
-タイル内の全てのCTUが、同じスライスに属する。
タイル境界におけるループフィルタリング動作を制限することによって(例えば、PPS内で0に設定されるloop_filter_across_tiles_enabled_flag)、ピクチャ内のタイルは、タイルの外側のピクチャの他の領域を参照せずに、独立して、デコーディングされることができる。同じタイル区画化が、CVS(コーディングされたビデオシーケンス)内の全てのピクチャに適用されると仮定する。さらに、エンコーダが、1つ以上のタイルから成る領域の検索範囲をインター予測コーディングのための1つ以上の基準ピクチャ内のタイルの併置された領域として制限する場合、デコーダは、その領域を含む現在のデコーディングピクチャにおいて空間的に、基準ピクチャにおいて時間的に、領域の外側の任意の他の部分を参照せずに、領域をデコーディングするであろう。そのような領域は、運動制約タイルセット(MCTS)と称され得る。
HEVC規格および多用途ビデオコーディング(VVC)規格(VVCバージョン1規格化プロセスは、2020年7月に完成されるであろうことに留意されたい)では、タイルおよびスライスの概念に加え、サブピクチャと呼ばれる別のピクチャ区画も、含まれる。一般に、サブピクチャ、タイル、およびスライスは、非重複領域の中にビデオピクチャ区画を形成し、それらは、完全ピクチャを網羅するであろう。サブピクチャ、タイル、およびスライスは、むしろ独立した概念であるので、それらの3つの間の重複が、起こり得る。例えば、サブピクチャは、複数の矩形スライスによって形成され得、タイルも、複数の矩形スライスを含み得、さらに、スライスは、複数のタイルを含み得る等となる。
VVC規格は、仮想現実(VR)用途をサポートするために要求されるので、したがって、ある大型サイズの360度ビデオが、サポートおよびコーディングされる必要があり得る。そのような大型サイズのビデオに関して、360ビデオピクチャ内で区画を使用することが、ビデオコーディングにおいて予期される。使用すべき1つの潜在的技法は、「サブピクチャ」区画である。全て単一ピクチャに属する種々のサブピクチャは、異なるNALユニットタイプにコーディングされることができる。さらに、サブピクチャは、一緒にグループ化され、種々のランダムアクセス動作をサポートすることができる。
(1.一例示的実施形態)
現在の多用途ビデオコーディング(VVC)仕様(スペック)であるJVET-P2001vD(2019年11月14日)は、通常ビデオピクチャ区画におけるサブピクチャ、スライス、およびタイルの概念をサポートする。第6.3.1節「サブピクチャ、スライス、およびタイルへのピクチャの区画化」では、「サブピクチャは、ピクチャの矩形領域を集合的に網羅する1つ以上のスライスを含む」と述べられている。
現在のVVC仕様では、サブピクチャの構造は、以下のように、シーケンスパラメータセット(SPS)に説明される。
Figure 2023512749000002
Figure 2023512749000003
上記のSPSにおけるイタリック付きテキストは、サブピクチャが定義される方法をマークしたものであり、一般に、全ての区画は、CTU(基本ユニット)に基づき、左上X、Y場所+サブピクチャ幅および高さ情報を規定することによって、サブピクチャは、効率的に定義されることができる。
現在のサブピクチャ設計では、図1におけるサブピクチャの区画(各着色ブロックは、サブピクチャに関連付けられる)が、サポートされることができる。図1における全てのサブピクチャの処理順序は、いくつかの方法があり得るが、重要な点は、サブピクチャが、エンコーディングされると、このサブピクチャの全体の左境界と上部境界とが、利用可能であるはずである(例えば、または、その境界ピクセルは、すでに処理された(デコーディングされた)他のサブピクチャに属するか、または、その境界は、ピクチャ境界である)ということである。
これらの10個のサブピクチャのための可能な2つの処理順序は、図2Aおよび2Bに与えられる。
(2.一例示的実施形態)
現在のVVC仕様では、サブピクチャ構造は、シーケンスパラメータセット(SPS)に定義されることができる。標準的テキストVVC草案7(2019年11月)では、また、1つ以上のスライスは、各サブピクチャの内側に置かれ得ることが明確に述べられている。スライス毎に、そのビットストリームは、NALユニットを形成し、NALユニットタイプ(名称および値)を搬送するであろう。VVC規格を用いて、ランダムアクセス機能をより良好にサポートするために、「mixed_irap_nalu_types_in_pic_flag」と呼ばれる、新しい構文要素が、以下のように、ピクチャパラメータセット(PPS)内に追加されることができる(表2では、強調のためにイタリック付きである)。
Figure 2023512749000004
また、意味論は、以下であろう:
1に等しいmixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが2つ以上のVCL NALユニットを有し、VCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIRAP(イントラランダムアクセスピクチャ)ではないことを規定する。0に等しいmixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが1つ以上のVCL NALユニットを有し、PPSを参照する各ピクチャのVCL NALユニットが同じnal_unit_type値を有することを規定する。
上記のテキスト(VVC草案7JVET-P2001)は、不変である。しかし、以下を追加する:
1に等しいmixed_irap_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが2つ以上のVCL NALユニットを有し、VCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIDR_W_RADL~CRA_NUT(それらの値を包む)の範囲内の混合nal_unit_typeを伴うことを規定する。0に等しいmixed_irap_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが、1つ以上のVCL NALユニットを有し、PPSを参照する各ピクチャのVCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIRAPピクチャではないことを規定する。
このフラグをPPS内に追加することの重要な点は、ある用途におけるピクチャ内の混合Irap nalu_typesを可能にする方法をサポートすることである。さらなる標準的テキストをVVC仕様におけるビットストリーム制約として追加することによって、それがピクチャ内の混合Irap nalu_typesをサポートするという類似目標を達成することもできることを理解されたい。
本書に説明される技法は、ビデオをエンコーディングする動作、またはビデオをデコーディングする動作の性能を大きく改良するために、ビデオエンコーダ装置またはビデオデコーダ装置内に組み込まれ得ることを理解されたい。例えば、仮想現実体験またはゲーム等のいくつかのビデオ用途は、満足の行くユーザ体験を提供するために、ビデオのリアルタイム(またはリアルタイムより高速の)エンコーディングまたはデコーディングを要求する。開示される技法は、本明細書に説明されるようなピクチャ領域ベースのコーディングまたはデコーディング技法を使用することによって、そのような用途の性能を改良する。例えば、ユーザの視点に基づくビデオフレームの全より小さい部分のコーディングまたはデコーディングは、ユーザによって視認されるであろうビデオのみを選択的にコーディングことを可能にする。さらに、矩形ビデオフレーム内にピクチャ領域を作成するためのピクチャブロックの再編成は、運動検索、変換、および数値化等の標準的矩形フレームベースのビデオコーディングツールの使用を可能にする。
図3Aは、CTU、タイル、およびサブピクチャまたはスライスを伴うビデオピクチャの例を示す。描写されるピクチャでは、18個のタイル、24個のサブピクチャ、および24個のスライス(20×12=240個のCTU)が存在する。
(3.現在のVVC技術を使用した実施形態を例証するための追加の情報)
表1および表2の前述の構文例に加え、以下のテキストが、いくつかの実施形態を実装するために、VVCコーデックの現在のバージョンに追加され得る。
JVET-P2001(VVC草案7)では、ビデオピクチャに関する混合NALユニットタイプを示す設計が存在し、それは、ピクチャパラメータセット(PPS)内で「mixed_nalu_types_in_pic_flag」と命名された構文要素に依存する。本寄稿において、別の構文要素を「mixed_irap_nalu_types_in_pic_flag」として追加し、混合irap naluタイプおよびirap naluのみタイプをビデオピクチャ内に示すことが提案される。追加された指示は、特に、サブピクチャ区画用途を伴うより広い範囲の用途をサポートするであろう。追加される構文要素は、ビデオピクチャ内のむしろ独立してコーディングされたサブピクチャに関するフレキシブルなランダムアクセスポイント指示のための目的を果たすであろう。
(4.導入および問題提起)
(4.1VVC仕様JVET-P2001におけるNALユニットタイプのための関連既存設計)
下記の情報は、JVET-P2001,[1],から抽出され、重要な情報は、下線でハイライトされている。
Figure 2023512749000005
Figure 2023512749000006
ランダムアクセス条件に関連して、いくつかの重要な用語が、VVC仕様に定義されている。JVET-P2001specでは、3「定義」下に、以下がある:
クリーンランダムアクセス(CRA)ピクチャ:それに関して各VCL NALユニットが、CRA_NUTに等しいnal_unit_typeを有するIRAPピクチャ。
注記-CRAピクチャは、そのデコーディングプロセスにおけるインター予測のために、それ自体以外の任意のピクチャを参照せず、デコーディング順序におけるビットストリーム内の第1のピクチャであり得るか、または、ビットストリーム内で後に現れ得る。CRAピクチャは、関連付けられるRADLまたはRASLピクチャを有し得る。CRAピクチャが1に等しいNoIncorrectPicOutputFlagを有するとき、関連付けられるRASLピクチャは、それらが、ビットストリーム内に存在しないピクチャの参照を含み得ることから、デコーディング可能でないこともあるので、デコーダによって出力されない。
3.54段階的デコーディングリフレッシュ(GDR)ピクチャ:各VCL NALユニットがGDR_NUTに等しいnal_unit_typeを有するピクチャ。
瞬間デコーディングリフレッシュ(IDR)ピクチャ:各VCL NALユニットがIDR_W_RADLまたはIDR_N_LPに等しいnal_unit_typeを有するIRAPピクチャ。
注記-IDRピクチャは、そのデコーディングプロセスにおけるインター予測のために、それ自体以外の任意のピクチャを参照せず、デコーディング順序におけるビットストリーム内の第1のピクチャであり得るか、または、ビットストリーム内で後に現れ得る。各IDRピクチャは、デコーディング順序におけるCVSの第1のピクチャである。IDRピクチャは、それに関して各VCL NALユニットが、IDR_W_RADLに等しいnal_unit_typeを有するとき、関連付けられるRADLピクチャを有し得る。IDRピクチャは、それに関して各VCL NALユニットが、IDR_N_LPに等しいnal_unit_typeを有するとき、任意の関連付けられる先行ピクチャを有していない。IDRピクチャは、関連付けられるRASLピクチャを有していない。
イントラランダムアクセスポイント(IRAP)ピクチャ:全てのVCL NALユニットが、IDR_W_RADL~CRA_NUT(それらの値を包む)の範囲内の同じnal_unit_type値を有するコーディングされたピクチャ。
注記1-IRAPピクチャは、そのデコーディングプロセスにおけるインター予測のために、それ自体以外の任意のピクチャを参照せず、CRAピクチャまたはIDRピクチャであり得る。デコーディング順序におけるビットストリーム内の第1のピクチャは、IRAPまたはGDRピクチャでなければならない。提供される必要なパラメータセットは、それらが参照される必要があるときに利用可能であり、デコーディング順序におけるCVS内のIRAPピクチャおよび全ての後続非RASLピクチャは、デコーディング順序におけるIRAPピクチャに先行する任意のピクチャのデコーディングプロセスを実施せずに、正しくデコーディングされることができる。
注記2-IRAPピクチャに関するmixed_nalu_types_in_pic_flagの値は、0に等しい。mixed_nalu_types_in_pic_flagがピクチャに関して0に等しく、ピクチャの任意のスライスがIDR_W_RADL~CRA_NUT(それらの値を包む)の範囲内のnal_unit_typeを有するとき、ピクチャの全ての他のスライスが、同じnal_unit_type値を有し、ピクチャは、IRAPピクチャであることが既知である。
ピクチャのためのNALユニットの混合タイプタイプの指示に関して、フラグ(構文要素)「mixed_nalu_types_in_pic_flag」は、表4に示されるように、PPS(ピクチャパラメータセット)内に位置する。
Figure 2023512749000007
VVC仕様では、7.4.3.4意味論下に、以下がある:
1に等しいmixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが2つ以上のVCL NALユニットを有し、VCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIRAPピクチャではないことを規定する。0に等しいmixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが1つ以上のVCL NALユニットを有し、PPSを参照する各ピクチャのVCL NALユニットが同じnal_unit_type値を有することを規定する。
no_mixed_nalu_types_in_pic_constraint_flagが1に等しいとき、mixed_nalu_types_in_pic_flagの値は、0に等しいものとする。
nal_unit_typeの別の値を伴う1つ以上のスライスも含むpicAピクチャ内のIDR_W_RADL~CRA_NUT(それらの値を包む)の範囲内のnal_unit_type値nalUnitTypeA(すなわち、ピクチャpicAに関するmixed_nalu_types_in_pic_flagの値は、1に等しい)を伴うスライスに関して、以下が、適用される:
-スライスは、対応するsubpic_treated_as_pic_flag[i]の値が、1に等しいサブピクチャsubpicAに属するものとする。
-スライスは、nalUnitTypeAと等しくないnal_unit_typeを伴うVCL NALユニットを含む、picAのサブピクチャに属しないものとする。
-デコーディング順序におけるCLVS内の全ての以下のPUに関して、subpicA内のスライスのRefPicList[0]またはRefPicList[1]のいずれも、アクティブエントリ内のデコーディング順序における任意のピクチャ先行picAを含まないものとする。
フラグ「no_mixed_nalu_types_in_pic_constraint_flag」は、以下のように、general_constraint_info()の内側に位置する。
Figure 2023512749000008
関連意味論は、以下である:
1に等しいno_mixed_nalu_types_in_pic_constraint_flagは、mixed_nalu_types_in_pic_flagが0に等しいものとすることがビットストリーム準拠の要件であることを規定する。0に等しいno_mixed_nalu_types_in_pic_constraint_flagは、そのような制約を課さない。
VVC仕様では、7.4.2.2「NALユニットヘッダ意味論」下に、以下が述べられている:。
任意の特定のピクチャのVCL NALユニットに関して、以下が、適用される:
-mixed_nalu_types_in_pic_flagが0に等しい場合、nal_unit_typeの値は、ピクチャの全てのコーディングされたスライスNALユニットに関して、同じであるものとする。ピクチャまたはPUは、ピクチャまたはPUのコーディングされたスライスNALユニットと同じNALユニットタイプを有すると称される。
-そうでなければ(1に等しいmixed_nalu_types_in_pic_flag)、VCL NALユニットのうちの1つ以上のものの全ては、IDR_W_RADL~CRA_NUT(それらの値を包む)の範囲内のnal_unit_typeの特定の値を有するものとし、他のVCL NALユニットの全ては、TRAIL_NUT~RSV_VCL_6(それらの値を包む)の範囲内またはGRA_NUTに等しいnal_unit_typeの特定の値を有するものとする。
上記の段落には、誤植が存在することに留意されたい。例えば、単語「GRA_NUT」は、正しくない。上記の表5では、「GRA_NUT」に関するエントリが存在しない。修正が、現在のVVC仕様に関するJVET-Q004に提供されており、GRA_NUTとGDR_NUTが置換されている。誤植は、太字下線でハイライトされている。
(4.2VVC仕様JVET-P2001を用いたサブピクチャのハンドリング)
図3Bに示される例示的ビデオピクチャでは、18個のタイル、24個のサブピクチャ、および24個のスライス(20×12=240個のCTU)が存在する。
上記の「図7」における区画を使用して、ピクチャ毎にコーディングした1つの潜在的ユースケースでは、最初に、サブピクチャ5、6、9、10(矩形領域)のみを表示するように選定する。時系列に沿った1つのランダムアクセスポイントでは、場面変化(カット)を行い、元の5、6、9、10の代わりに、サブピクチャ6、7、10、11を表示することを欲する。現在のVVC仕様(JVET-P2001)における正確な制約に従う場合、そのランダムアクセスポイントにおいて、全てのサブピクチャは、上記の図で1~24にマークされ、正確に同じIRAP NALユニットタイプ(例えば、全ての24個のサブピクチャのためのIDR_N_LPまたは全ての24個のサブピクチャのためのCRA_NUT)を有するであろう。混合NALユニットタイプケースを有することを欲する場合、IRAPサブピクチャ/ピクチャのみを有することが保証されることができない。
(5.提案される解決策)
表2に示されるように、さらに1つのフラグ「mixed_irap_nalu_types_in_pic_flag」をPPS内に追加することが提案される。
不変の意味論は、以下の通りである:
1に等しいmixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが2つ以上のVCL NALユニットを有し、VCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIRAPピクチャではないことを規定する。0に等しいmixed_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが1つ以上のVCL NALユニットを有し、PPSを参照する各ピクチャのVCL NALユニットが同じnal_unit_type値を有することを規定する。
新しい意味論が、以下のように、追加される:
1に等しいmixed_irap_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが2つ以上のVCL NALユニットを有し、VCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIDR_W_RADL~CRA_NUT(それらの値を包む)の範囲内の混合nal_unit_typeを伴うことを規定する。0に等しいmixed_irap_nalu_types_in_pic_flagは、PPSを参照する各ピクチャが1つ以上のVCL NALユニットを有し、PPSを参照する各ピクチャのVCL NALユニットが同じnal_unit_type値を有しておらず、ピクチャがIRAPピクチャではないことを規定する。
「mixed_irap_nalu_types_in_pic_flag」が追加されると、VVC仕様は、改良されたサポートを混合ランダムアクセスNALユニットタイプ指示に提供することができる。
DVB規格のような適用規格に関して、追加されるフラグは、ランダムアクセス指示サポートのためのよりフレキシブルな指示機構を提供するであろう。
図4は、少なくとも例示的例ビデオエンコーダまたはピクチャエンコーダを含む、第1の例示的デバイスを図示する略図である。
入手ユニット1001は、ビデオおよびピクチャを捕捉する。入手ユニット1001は、自然場面のビデオまたはピクチャを撮影するために、1つ以上のカメラを装備し得る。随意に、入手ユニット1001は、深度ビデオまたは深度ピクチャを得るためのカメラを用いて実装され得る。随意に、入手ユニット1001は、赤外線カメラのコンポーネントを含み得る。随意に、入手ユニット1001は、遠隔感知カメラで構成され得る。入手ユニット1001は、放射線を使用してオブジェクトを走査することによってビデオまたはピクチャを生成する装置またはデバイスでもあり得る。
随意に、入手ユニット1001は、前処理(例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等)をビデオまたはピクチャに実施し得る。
入手ユニット1001は、ビデオまたはピクチャを別のデバイスまたは処理ユニットからも受信し得る。例えば、入手ユニット1001は、トランスコーダ内のコンポーネントユニットであることができる。トランスコーダは、1つ以上のデコーディングされた(または部分的にデコーディングされた)ピクチャを入手ユニット1001にフィードする。別の例は、入手ユニット1001は、そのデバイスへのデータリンクを介して、ビデオまたはピクチャを別のデバイスから得ることである。
入手ユニット1001は、ビデオおよびピクチャに加え、他のメディア情報、例えば、オーディオ信号を捕捉するために使用され得ることに留意されたい。入手ユニット1001は、人工情報、例えば、キャラクタ、テキスト、コンピュータ生成ビデオまたはピクチャ等も受信し得る。
エンコーダ1002は、例示的エンコーダの実装である。エンコーダ1002の入力は、入手ユニット1001によって出力されたビデオまたはピクチャである。エンコーダ1002は、ビデオまたはピクチャをエンコーディングし、生成されたビデオまたはピクチャビットストリームを出力する。
記憶装置/送信ユニット1003は、ビデオまたはピクチャビットストリームをエンコーダ1002から受信し、システム層処理をビットストリームに実施する。例えば、記憶装置/送信ユニット1003は、トランスポート規格およびメディアファイルフォーマット、例えば、例えば、MPEG-2 TS、ISOBMFF、DASH、MMT等に従って、ビットストリームをカプセル化する。記憶装置/送信ユニット1003は、第1の例示的デバイスのメモリまたはディスク内へのカプセル化後に取得されるトランスポートストリームまたはメディアファイルを記憶するか、または、有線または無線ネットワークを介して、トランスポートストリームまたはメディアファイルを送信する。
エンコーダ1002からのビデオまたはピクチャビットストリームに加え、記憶装置/送信ユニット1003の入力がオーディオ、テキスト、画像、グラフィック等を含み得ることにも留意されたい。記憶装置/送信ユニット1003は、そのような異なるタイプのメディアビットストリームをカプセル化することによって、トランスポートまたはメディアファイルを生成する。
本実施形態に説明される第1の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視カメラ、ビデオ会議デバイス等内でビデオ(またはピクチャ)ビットストリームを生成または処理することが可能なデバイスであることができる。
図5は、少なくとも例示的ビデオデコーダまたはピクチャデコーダを含む第2の例示的デバイスを図示する略図である。
受信ユニット1101は、ビットストリームを有線または無線ネットワークから取得することによって、電子デバイス内のメモリまたはディスクを読み取ることによって、またはデータリンクを介して他のデバイスからのデータをフェッチすることによって、ビデオまたはピクチャビットストリームを受信する。
受信ユニット1101の入力は、ビデオまたはピクチャビットストリームを含むトランスポートストリームまたはメディアファイルも含み得る。受信ユニット1101は、トランスポートまたはメディアファイルフォーマットの仕様に従って、ビデオまたはピクチャビットストリームをトランスポートストリームまたはメディアファイルから抽出する。
受信ユニット1101は、ビデオまたはピクチャビットストリームを出力し、デコーダ1102に渡す。ビデオまたはピクチャビットストリームに加え、受信ユニット1101の出力がオーディオビットストリーム、キャラクタ、テキスト、画像、グラフィック等を含み得ることにも留意されたい。受信ユニット1101は、出力を第2の例示的デバイス内の対応する処理ユニットに渡す。例えば、受信ユニット1101は、出力オーディオビットストリームを本デバイス内のオーディオデコーダに渡す。
デコーダ1102は、例示的デコーダの実装である。エンコーダ1102の入力は、受信ユニット1101によって出力されたビデオまたはピクチャビットストリームである。デコーダ1102は、ビデオまたはピクチャビットストリームをデコーディングし、デコーディングされたビデオまたはピクチャを出力する。
レンダリングユニット1103は、デコーディングされたビデオまたはピクチャをデコーダ1102から受信する。レンダリングユニット1103は、デコーディングされたビデオまたはピクチャを視認者に提示する。レンダリングユニット1103は、第2の例示的デバイスのコンポーネント、例えば、画面であり得る。レンダリングユニット1103は、第2の例示的デバイス、例えば、プロジェクタ、モニタ、TVセット等へのデータリンクを伴う第2の例示的デバイスと別個のデバイスでもあり得る。随意に、レンダリングユニット1103は、それを視認者に提示する前、後処理(例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等)をデコーディングされたビデオまたはピクチャに実施する。
デコーディングされたビデオまたはピクチャに加え、レンダリングユニット1103の入力は、第2の例示的デバイスの1つ以上のユニットからの他のメディアデータ、例えば、オーディオ、キャラクタ、テキスト、画像、グラフィック等であることができることに留意されたい。レンダリングユニット1103の入力は、人工データ、例えば、遠隔教育アプリケーションにおいて注意を引くためにスライド上にローカル教師によって描かれる、ラインおよびマークも含み得る。レンダリングユニット1103は、異なるタイプのメディアを一緒に構成し、次いで、構成物を視認者に提示する。
本実施形態に説明される第2の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、セットトップボックス、TVセット、HMD、モニタ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視ビデオ会議デバイス等内でビデオ(またはピクチャ)ビットストリームをデコーディングまたは処理することが可能なデバイスであることができる。
図6は、図5における第1の例示的デバイスと、図4における第2の例示的デバイスとを含む電子システムを図示する略図である。
サービスデバイス1201は、図4における第1の例示的デバイスである。
記憶媒体/トランスポートネットワーク1202は、デバイスまたは電子システムの内部メモリリソース、データリンクを介してアクセス可能な外部メモリリソース、有線および/または無線ネットワークから成るデータ伝送ネットワークを含み得る。記憶媒体/トランスポートネットワーク1202は、サービスデバイス1201内の記憶/送信ユニット1203のための記憶リソースまたはデータ伝送ネットワークを提供する。
宛先デバイス1203は、図5における第2の例示的デバイスである。宛先デバイス1203内の受信ユニット1201は、ビデオまたはピクチャビットストリーム、ビデオまたはピクチャビットストリームを含むトランスポートストリーム、またはビデオまたはピクチャビットストリームを含むメディアファイルを記憶媒体/トランスポートネットワーク1202から受信する。
本実施形態に説明される電子システムは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、IPTVシステム、OTTシステム、インターネット上のマルチメディアシステム、デジタルTVブロードキャストシステム、ビデオ監視システム、ポータブルモバイル端末、デジタルカメラ、ビデオ会議システム等内でビデオ(またはピクチャ)ビットストリームを生成、記憶またはトランスポート、およびデコーディングすることが可能なデバイスまたはシステムであることができる。
図7は、本書に説明されるエンコーダ側またはデコーダ側技法を実装するために使用され得る例示的装置1400を示す。装置1400は、エンコーダ側またはデコーダ側技法または両方を実施するように構成され得るプロセッサ1402を含む。装置1400は、メモリ(図示せず)も含み得、メモリは、プロセッサ実行可能命令を記憶し、ビデオビットストリームおよび/またはディスプレイデータを記憶する。装置1400は、変換回路、算術コーディング/デコーディング回路、ルックアップ表ベースのデータコーディング技法等、ビデオ処理回路網(図示せず)を含み得る。ビデオ処理回路網は、部分的に、プロセッサ内に含まれ得、および/または、部分的に、グラフィックプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)等の他の専用回路網内に含まれ得る。
図8は、ビデオビットストリーム処理のための例示的方法800のためのフローチャートである。方法800は、本書に説明されるビデオデコーダによって実装され得る。方法800(および次に説明される900)は、図7を参照して説明されるようなハードウェアプラットフォームを使用して実装され得る。
方法800は、第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析すること(802)を含み、第1のフィールドは、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示す。いくつかの実施形態では、ビデオユニットは、ビデオピクチャであり得る(例えば、図3に示されるように)。
方法800は、ビデオユニットが、複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内の第2のフィールドをさらに解析すること(804)を含み、第2のフィールドは、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す。
方法800は、第1のフィールドおよび第2のフィールドに基づいて、ビデオビットストリームをデコーディングし、ビデオを生成すること(806)を含む。
いくつかの実施形態では、第1および第2のフィールドの両方は、単一ビットフィールドであり得る。そのような実施形態の1つの利点は、第2のビットによって通信される追加の情報を導入することにおいて最小量のオーバーヘッド(単一ビット)を導入しながら、旧来の規格との下位互換性を維持することである。
いくつかの実施形態では、第1のビットおよび第2のビットは、ヘッダ内の異なる位置内に含まれ得る。代替として、いくつかの実施形態では、2つのビットが、互いに連続し得る。ある場合、第2のフィールドが、ヘッダ内に含まれるかどうかは、第1のフィールドの値に依存し得る。例えば、第1のフィールド内のゼロ値は、第2のフィールドが含まれないことを示し得る。
図9は、ビデオビットストリーム解析の別の例示的方法900のためのフローチャートを示す。
方法900は、902において、1つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、ビデオピクチャを構成する1つ以上のネットワーク抽象化層(NAL)ユニットについてのタイプ情報と、ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することとを含む。
方法900は、904において、解析に基づいて、1つ以上のサブピクチャを再構築することを含む。
いくつかの実施形態では、構文構造は、1つ以上のNALユニットが複数のNALユニットを備えているかどうかを示す第1のフィールドを含む。
いくつかの実施形態では、構文構造は、第1のフィールドと、その存在が第1のフィールドの値に依存する随意の第2のフィールドとを含み得、第1のフィールドは、NALユニットの混合タイプが1つ以上のNALユニット内に存在するかどうかを示す。例えば、前で説明されるように、第1および第2のフィールドは、ビットストリーム内に連続して位置付けられる単一ビットフィールドであり得る。
図10は、ビデオピクチャ内のサブピクチャの存在を信号伝達または推測するために使用され得る例示的フローチャート1000を示す。そのようなサブピクチャは、例えば、3Dピクチャ情報を伝達するために使用され得る。
1002では、第1のフラグの値についてのチェックが、行われる。この値は、特定の値、例えば、0に設定され、ピクチャが、同じスライスタイプを有する全てのNALスライスを含むことを示し得る(1004)。例えば、このフラグは、現在のピクチャが、独立してデコーディング可能なサブピクチャが含まれない、「従来的」ピクチャであることを示すために使用され得る。全てのNALスライスが同じタイプを有することの決定(1004)時、ヘッダが、追加の情報のために、さらに解析され得る(1006)。
1002におけるチェックが、第1のフラグが第2の値(例えば、1)を有することを明らかにする場合、複数のNALユニットが、存在し、これらのNALユニットが、おそらく異なる値を有し得ることが推測される。チェックが、1010において、第2のフラグの値に関して実施され得る。値が特定の値(例えば、0)である場合、全てのNALユニットが同じ値を有することが決定される(1012)。決定後、ヘッダは、さらなる情報のために、解析され得る(1006)。1010におけるチェックが、第2のフラグが別の特定の値を有することを明らかにする場合、NALユニットが異なるタイプを有するが、ピクチャがイントラランダムアクセスピクチャでないことが推測される(1014)。
図10に描写される論理フローから、単一ビットをピクチャヘッダの既存の構文構造に導入することは、ビデオピクチャ内のサブピクチャの存在の信号伝達を有効にすることを理解されたい。信号伝達は、スライスおよび/またはタイルおよび/またはCTUの現在の既存の信号伝達と互換性がある。
いくつかの実施形態では、ビデオをエンコーディングする方法(例えば、図11に描写される方法1100)は、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示す第1のフィールドを含むこと(1102)と、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内に、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す第2のフィールドを選択的にさらに含むこと(1104)と、ビデオをエンコーディングし、ビデオビットストリームを生成すること(1106)とを含む。エンコーディングすることは、例えば、種々のイントラ、インター、および他の技法を使用して、ビデオデータをビットストリーム内に表し得る。
いくつかの実施形態では、ビデオユニットは、ビデオピクチャである。
既に記載されるように、いくつかの実施形態では、第1のフィールドおよび第2のフィールドは、1ビットフィールドである。しかしながら、これらのフィールドの他の長さも、本書全体を通して可能である。
第2のフィールドは、ビデオビットストリーム内の第1のフィールドの直後に位置付けられ得る。
いくつかの実施形態では、エンコーディングすること1106は、複数のサブピクチャをビデオユニットにエンコーディングすることを含み、各サブピクチャは、独立ネットワーク抽象化層ユニットタイプを有する。
いくつかの実施形態では、ビデオエンコーディング方法は、1つ以上のサブピクチャを備えているビデオピクチャをエンコーディングするために、構文構造を生成し、ビデオピクチャを構成する1つ以上のネットワーク抽象化層(NAL)ユニットについてのタイプ情報と、ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを含むことと、構文構造に基づいて、1つ以上のサブピクチャをエンコーディングすることとを含み得る。
上記に開示されるエンコーディング方法では、いくつかの実施形態では、構文構造は、1つ以上のNALユニットが複数のNALユニットを含み得るかどうかを示す第1のフィールドを含み得る。
いくつかの実施形態では、構文構造は、第1のフィールドと、その存在が第1のフィールドの値に依存する随意の第2のフィールドとを含み、第1のフィールドは、NALユニットの混合タイプが1つ以上のNALユニット内に存在するかどうかを示す。
いくつかの実施形態では、第1のフィールドおよび第2のフィールドは、ビデオビットストリーム内で隣同士に位置付けられる単一ビットフラグである。
いくつかの実施形態では、例えば、図7に描写されるようなビデオエンコーダが、上で説明されるエンコーディング方法を実装し得る。いくつかの実施形態では、例えば、図7に描写されるようなビデオデコーダが、本明細書に説明されるビデオビットストリーム解析方法を実装し得る。ビデオデコーダは、例えば、ビデオを1ビットストリーム表現から別のビットストリーム表現に変更するトランスコーダであり得る。
いくつかの実施形態では、コンピュータプログラム製品は、本明細書および請求項に説明される方法を実装するためのプロセッサ実行可能コードを含むコンピュータ読み取り可能な媒体を含み得る。
(6.産業上の利用可能性)
上記の説明から、必ずしも、3Dピクチャのための異なるビューデータを含むサブピクチャ等イントラランダムアクセスポイントではないサブピクチャの信号伝達を有効にする技法が、開示されることが分かり得る。開示される技法を使用して、ビデオエンコーダまたはビデオデコーダのいくつかの実施形態は、少なくとも数ビットが構文構造に追加され、サブピクチャの搬送をサポートすることが可能である一方、同時に、スライス、CTU等の信号伝達との下位互換性を保つピクチャヘッダを使用することが可能である。
本書に説明される、開示されるおよび他の実施形態、モジュール、および機能動作が、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含むコンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの1つ以上のものの組み合わせで、実装されることができる。開示されるおよび他の実施形態は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ読み取り可能な媒体上でエンコードされるコンピュータプログラム命令の1つ以上のモジュールとして、実装されることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な記憶デバイス、機械読み取り可能な記憶基板、メモリデバイス、機械読み取り可能な伝搬信号を生じさせる組成物、または1つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生される信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生される、機械で発生される電気、光学、または電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である)が、コンパイラ型またはインタープリタ型言語を含む任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル(例えば、マークアップ言語文書内に記憶された1つ以上のスクリプト)の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル)内に記憶されることができる。コンピュータプログラムは、1つのコンピュータ上で、または1つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。
本書に説明されるプロセスおよび論理フローは、入力データに基づいて動作し、出力を発生させることによって機能を実施するように1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって、実施されることができる。プロセスおよび論理フローは、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって、実施されることもでき、装置も、それとして実装されることができる。
コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか1つ以上のプロセッサを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つ以上のメモリデバイスである。概して、コンピュータは、データを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気、磁気光学ディスク、または光ディスクを含むか、または、それらからデータを受信すること、それらにデータを転送すること、または両方を行うようにそれらに動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ読み取り可能な媒体は、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびCD-ROMおよびDVD-ROMディスクを含むあらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。
本特許文書は、多くの詳細を含むが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴も、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴も、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではい。
いくつかの実装および例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。
これらおよび他の側面が、本書に説明される。
本発明はさらに、例えば、以下を提供する。
(項目1)
ビデオビットストリーム処理の方法であって、前記方法は、
第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第1のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第2のフィールドを解析することであって、前記第2のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記第1のフィールドおよび前記第2のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
を含む、方法。
(項目2)
前記ビデオユニットは、ビデオピクチャである、項目1に記載の方法。
(項目3)
前記第1のフィールドおよび前記第2のフィールドは、1ビットフィールドである、項目1または2に記載の方法。
(項目4)
前記第2のフィールドは、前記ビデオビットストリーム内の前記第1のフィールドの直後に位置付けられている、項目1-3のいずれか一項に記載の方法。
(項目5)
前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、項目1-4のいずれか一項に記載の方法。
(項目6)
ビデオをエンコーディングする方法であって、前記方法は、
ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に第1のフィールドを含むことであって、前記第1のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内に第2のフィールドをさらに含むことであって、前記第2のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記ビデオをエンコーディングし、前記ビデオビットストリームを生成することと
を含む、方法。
(項目7)
前記ビデオユニットは、ビデオピクチャである、項目6に記載の方法。
(項目8)
前記第1のフィールドおよび前記第2のフィールドは、1ビットフィールドである、項目6または7に記載の方法。
(項目9)
前記第2のフィールドは、前記ビデオビットストリーム内の前記第1のフィールドの直後に位置付けられている、項目6-8のいずれか一項に記載の方法。
(項目10)
前記エンコーディングすることは、複数のサブピクチャを前記ビデオユニットにエンコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、項目6-9のいずれか一項に記載の方法。
(項目11)
プロセッサを備えているビデオデコーディング装置であって、前記プロセッサは、ビデオビットストリームを処理する方法を実施するように構成され、前記方法は、
1つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、前記ビデオピクチャを構成する1つ以上のネットワーク抽象層(NAL)ユニットについてのタイプ情報と、前記ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することと、
前記解析に基づいて、前記1つ以上のサブピクチャを再構築することと
を含む、装置。
(項目12)
前記構文構造は、前記1つ以上のNALユニットが複数のNALユニットを備えているかどうかを示す第1のフィールドを備えている、項目11に記載の装置。
(項目13)
前記構文構造は、第1のフィールドと、その存在が前記第1のフィールドの値に依存する随意の第2のフィールドとを含み、前記第1のフィールドは、NALユニットの混合タイプが前記1つ以上のNALユニット内に存在するかどうかを示す、項目11または12に記載の装置。
(項目14)
前記第1のフィールドおよび前記第2のフィールドは、前記ビデオビットストリーム内で隣同士に位置付けられた単一ビットフラグである、項目13に記載の装置。
(項目15)
コードを記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、前記コードは、プロセッサによって実行されると、ビデオ解析の方法を前記プロセッサに実装させ、前記方法は、
第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第1のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第2のフィールドを解析することであって、前記第2のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記第1のフィールドおよび前記第2のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
を含む、コンピュータプログラム製品。
(項目16)
前記ビデオユニットは、ビデオピクチャである、項目15に記載のコンピュータプログラム製品。
(項目17)
前記第1のフィールドおよび前記第2のフィールドは、1ビットフィールドである、項目15または16に記載のコンピュータプログラム製品。
(項目18)
前記第2のフィールドは、前記ビデオビットストリーム内の前記第1のフィールドの直後に位置付けられている、項目15-17のいずれか一項に記載のコンピュータプログラム製品。
(項目19)
前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、項目15-18のいずれか一項に記載のコンピュータプログラム製品。

Claims (19)

  1. ビデオビットストリーム処理の方法であって、前記方法は、
    第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第1のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
    前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第2のフィールドを解析することであって、前記第2のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
    前記第1のフィールドおよび前記第2のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
    を含む、方法。
  2. 前記ビデオユニットは、ビデオピクチャである、請求項1に記載の方法。
  3. 前記第1のフィールドおよび前記第2のフィールドは、1ビットフィールドである、請求項1または2に記載の方法。
  4. 前記第2のフィールドは、前記ビデオビットストリーム内の前記第1のフィールドの直後に位置付けられている、請求項1-3のいずれか一項に記載の方法。
  5. 前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、請求項1-4のいずれか一項に記載の方法。
  6. ビデオをエンコーディングする方法であって、前記方法は、
    ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に第1のフィールドを含むことであって、前記第1のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
    前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内に第2のフィールドをさらに含むことであって、前記第2のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
    前記ビデオをエンコーディングし、前記ビデオビットストリームを生成することと
    を含む、方法。
  7. 前記ビデオユニットは、ビデオピクチャである、請求項6に記載の方法。
  8. 前記第1のフィールドおよび前記第2のフィールドは、1ビットフィールドである、請求項6または7に記載の方法。
  9. 前記第2のフィールドは、前記ビデオビットストリーム内の前記第1のフィールドの直後に位置付けられている、請求項6-8のいずれか一項に記載の方法。
  10. 前記エンコーディングすることは、複数のサブピクチャを前記ビデオユニットにエンコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、請求項6-9のいずれか一項に記載の方法。
  11. プロセッサを備えているビデオデコーディング装置であって、前記プロセッサは、ビデオビットストリームを処理する方法を実施するように構成され、前記方法は、
    1つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、前記ビデオピクチャを構成する1つ以上のネットワーク抽象層(NAL)ユニットについてのタイプ情報と、前記ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することと、
    前記解析に基づいて、前記1つ以上のサブピクチャを再構築することと
    を含む、装置。
  12. 前記構文構造は、前記1つ以上のNALユニットが複数のNALユニットを備えているかどうかを示す第1のフィールドを備えている、請求項11に記載の装置。
  13. 前記構文構造は、第1のフィールドと、その存在が前記第1のフィールドの値に依存する随意の第2のフィールドとを含み、前記第1のフィールドは、NALユニットの混合タイプが前記1つ以上のNALユニット内に存在するかどうかを示す、請求項11または12に記載の装置。
  14. 前記第1のフィールドおよび前記第2のフィールドは、前記ビデオビットストリーム内で隣同士に位置付けられた単一ビットフラグである、請求項13に記載の装置。
  15. コードを記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、前記コードは、プロセッサによって実行されると、ビデオ解析の方法を前記プロセッサに実装させ、前記方法は、
    第1のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第1のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
    前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第2のフィールドを解析することであって、前記第2のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
    前記第1のフィールドおよび前記第2のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
    を含む、コンピュータプログラム製品。
  16. 前記ビデオユニットは、ビデオピクチャである、請求項15に記載のコンピュータプログラム製品。
  17. 前記第1のフィールドおよび前記第2のフィールドは、1ビットフィールドである、請求項15または16に記載のコンピュータプログラム製品。
  18. 前記第2のフィールドは、前記ビデオビットストリーム内の前記第1のフィールドの直後に位置付けられている、請求項15-17のいずれか一項に記載のコンピュータプログラム製品。
  19. 前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、請求項15-18のいずれか一項に記載のコンピュータプログラム製品。
JP2022535593A 2019-12-10 2020-12-09 ビデオコーディングにおけるサブピクチャ信号伝達 Pending JP2023512749A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/709,907 2019-12-10
US16/709,907 US11375232B2 (en) 2019-12-10 2019-12-10 Sub picture signaling in video coding
PCT/EP2020/085238 WO2021116157A1 (en) 2019-12-10 2020-12-09 Subpicture signaling in video coding

Publications (1)

Publication Number Publication Date
JP2023512749A true JP2023512749A (ja) 2023-03-29

Family

ID=73835566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022535593A Pending JP2023512749A (ja) 2019-12-10 2020-12-09 ビデオコーディングにおけるサブピクチャ信号伝達

Country Status (6)

Country Link
US (1) US11375232B2 (ja)
EP (1) EP4074051A1 (ja)
JP (1) JP2023512749A (ja)
KR (1) KR20230125722A (ja)
CN (1) CN114846800A (ja)
WO (1) WO2021116157A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453329B2 (ja) 2019-07-08 2024-03-19 華為技術有限公司 ビデオ・コーディングにおける混合nalユニット・ピクチャ制約

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2021011021A (es) * 2019-03-11 2021-11-12 Huawei Tech Co Ltd Imágenes con tipos de unidad nal mezclados.
CN115136604A (zh) * 2019-12-23 2022-09-30 Lg电子株式会社 基于nal单元类型的图像或视频编码
KR20220156831A (ko) * 2020-03-20 2022-11-28 바이트댄스 아이엔씨 서브픽처의 레퍼런스 픽처 목록에 대한 제약
US11451811B2 (en) * 2020-04-05 2022-09-20 Tencent America LLC Method and apparatus for video coding
KR20230002395A (ko) 2020-04-20 2023-01-05 바이트댄스 아이엔씨 레퍼런스 픽처 목록에 대한 제약

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9756355B2 (en) 2014-06-20 2017-09-05 Qualcomm Incorporated Value ranges for syntax elements in video coding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453329B2 (ja) 2019-07-08 2024-03-19 華為技術有限公司 ビデオ・コーディングにおける混合nalユニット・ピクチャ制約

Also Published As

Publication number Publication date
US11375232B2 (en) 2022-06-28
KR20230125722A (ko) 2023-08-29
CN114846800A (zh) 2022-08-02
WO2021116157A1 (en) 2021-06-17
US20210176491A1 (en) 2021-06-10
EP4074051A1 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
US11943480B2 (en) Constraints and unit types to simplify video random access
JP2023512749A (ja) ビデオコーディングにおけるサブピクチャ信号伝達
JP7472285B2 (ja) ビデオコーディングにおけるサブピクチャ信号伝達
CN110809758B (zh) 容器文件及视频位流中关注区域的增强信令发射
US11477450B2 (en) Indication of video slice height in video subpictures
CN109587478B (zh) 一种媒体信息的处理方法及装置
CN114205625B (zh) 媒体文件中图像过渡的过渡期
US20210400295A1 (en) Null tile coding in video coding
WO2024072732A1 (en) Enhanced signalling of extended dependent random access sample point samples in a media file
WO2024072753A1 (en) Enhanced signalling of picture-in-picture in media files
KR20220123280A (ko) 3차원 콘텐츠 프로세싱 방법들 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230828

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240304