JP2023512749A

JP2023512749A - ビデオコーディングにおけるサブピクチャ信号伝達

Info

Publication number: JP2023512749A
Application number: JP2022535593A
Authority: JP
Inventors: ピンウー，
Original assignee: ゼットティーイー（ユーケー）リミテッド
Priority date: 2019-12-10
Filing date: 2020-12-09
Publication date: 2023-03-29
Also published as: US11375232B2; KR20230125722A; CN114846800A; WO2021116157A1; US20210176491A1; EP4074051A1

Abstract

ビデオビットストリーム生成および解析のための方法、装置、およびシステムが、説明される。ビデオビットストリーム処理の一例示的方法は、第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析し、ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示すことと、ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、ヘッダ内の第２のフィールドを解析し、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示すことと、第１のフィールドおよび第２のフィールドに基づいて、ビデオビットストリームをデコーディングし、ビデオを生成することとを含む。

Description

（関連出願の相互参照）
本特許文書は、２０１９年１２月１０日に出願された米国特許出願第１６／７０９，９０７号の優先権の利益を請求する。前述の特許出願の内容全体は、本願の開示の一部として、参照することによって組み込まれる。
（技術分野）

本特許文書は、概して、ビデオおよび画像エンコーディングおよびデコーディングを対象とする。

過去三十年において、いくつかの異なるビデオコーディング規格が、デジタルビデオ内のある視覚的冗長性および情報を除去することによって、デジタルビデオを圧縮されたフォーマットに表すために公開されている。この期間中、エンコーディングされたビデオコンテンツのピクセル分解能は、ＭＰＥＧ－１ビデオ規格における初期のソース入力フォーマット（ＳＩＦ）分解能から現在検討されている４Ｋまたは８Ｋビデオに、絶え間なく、上昇している。故に、より新しいビデオコーディング規格は、より効率的かつフレキシブルなコーディング技法を採用し、ビデオの増加した分解能に適応している。

本特許文書は、とりわけ、エンコーディングされたビデオビットストリーム内のサブピクチャの信号伝達のために、および、対応して、エンコーディングされたビデオビットストリームをエンコーディングされていないビデオにデコーディングするため使用され得る技法を使用して、デジタルビデオをエンコーディングおよびデコーディングする技法を説明する。

一例示的側面において、ビットストリーム処理の方法が、開示される。方法は、第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析し、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示すことと、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内の第２のフィールドを解析し、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示すことと、第１のフィールドおよび第２のフィールドに基づいて、ビデオビットストリームをデコーディングし、ビデオを生成することとを含む。

別の例示的側面において、ビデオビットストリームを解析する方法が、開示される。方法は、１つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、ビデオピクチャを構成する１つ以上のネットワーク抽象化層（ＮＡＬ）ユニットについてのタイプ情報と、ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することと、解析に基づいて、１つ以上のサブピクチャを再構築することとを含む。

別の例示的側面において、ビデオをエンコーディングする方法が、開示される。方法は、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示す第１のフィールドを含むことと、ビデオユニットが、複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内に、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す第２のフィールドをさらに含むことと、ビデオをエンコーディングし、ビデオビットストリームを生成することとを含む。

さらに別の例示的側面において、プロセッサを備えているビデオ処理装置が、開示される。プロセッサは、本明細書に説明されるエンコーディングまたはデコーディング方法を実装するように構成される。

さらに別の例示的側面において、コンピュータプログラム記憶媒体が、開示される。
コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、説明される方法をプロセッサに実装させる。

これらおよび他の側面が、本書に説明される。

図１は、複数のサブピクチャに区画化されたビデオピクチャの例を示す。

図２Ａ－２Ｂは、複数のサブピクチャを備えているビデオピクチャをエンコーディングまたはデコーディングするときの例示的処理順序を示す。図２Ａ－２Ｂは、複数のサブピクチャを備えているビデオピクチャをエンコーディングまたはデコーディングするときの例示的処理順序を示す。

図３Ａは、コーディングツリーユニット（ＣＴＵ）、タイル、スライス、およびサブピクチャに区画化されたビデオピクチャの例を示す。

図３Ｂは、２４個のサブピクチャおよび２４個のスライスを有するビデオピクチャを示す。

図４は、例示的ビデオエンコーダのブロック図を示す。

図５は、例示的ビデオデコーダのブロック図を示す。

図６は、ビデオシステムの例を示す。

図７は、ビデオ処理ハードウェアプラットフォームの例を示す。

図８は、ビデオ処理の例示的方法のためのフローチャートである。

図９は、ビデオ処理の例示的方法のためのフローチャートである。

図１０は、ビットストリームを解析する例示的方法のためのフローチャートである。

図１１は、ビデオエンコーディングの例示的方法のためのフローチャートである。

節の見出しは、読み取りやすさを改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、Ｈ．２６４／ＡＶＣ（高度ビデオコーディング）、Ｈ．２６５／ＨＥＶＣ（高効率ビデオコーディング）およびＨ．２６６多用途ビデオコーディング（ＶＶＣ）規格の例を使用して説明される。しかしながら、開示される技法の適応性は、Ｈ．２６４／ＡＶＣまたはＨ．２６５／ＨＥＶＣまたはＨ．２６６／ＶＶＣシステムのみに限定されない。

本開示は、ビデオ処理および通信に関し、特に、デジタルビデオまたはピクチャをエンコーディングし、ビットストリームを生成する方法および装置、ビットストリームをデコーディングし、デジタルビデオまたはピクチャを再構築する方法および装置、ビットストリームを抽出し、サブビットストリームを形成する方法および装置に関する。

（簡単な議論）

デジタルビデオおよびピクチャを圧縮するための技法は、ピクセルサンプル間の相関特性を利用して、ビデオおよびピクチャ内の冗長性を除去する。エンコーダは、ピクチャを、いくつかのユニットを含む１つ以上の領域に区画化し得る。そのような領域は、ピクチャ内の予測依存性を破り、同じピクチャ内の別の領域のデータを参照することなく、領域が、デコーディングされ得るか、または、少なくともこの領域に対応する構文要素が正しく解析され得る。ビデオコーディング規格において導入されるそのような領域は、データ損失後の再同期、並列処理、着目コーディングおよびストリーミングの領域、パケット化された伝送、ビューポート依存ストリーミング等を促進する。例えば、Ｈ．２６４／ＡＶＣ規格では、そのような領域の例は、スライスおよびスライスグループであり得る。Ｈ．２６５／ＨＥＶＣ規格では、そのような領域の例は、スライスおよびタイルであり得る。

次世代ビデオコーディング規格の開発では、ＭＰＥＧ（動画専門家集団）は、次世代ビデオコーデックが、圧縮されたビットストリームからの所望のビューポートの効率的抽出を有効にすべきであることを義務付けている。加えて、４Ｋ、８Ｋ、およびさらにより高い分解能ビデオを伴う用途では、視認者は、端末デバイス上にレンダリングするためのビューポートを選択することを可能にされ得、したがって、オリジナル分解能に対応するビットストリームからのサブビットストリームの効率的抽出を有効にすることが有用である。

Ｈ．２６５／ＨＥＶＣ規格は、現在公開されているビデオコーディング規格の中で最高コーディング効率を提供するので、Ｈ．２６５／ＨＥＶＣが、現在の段階では、上で説明されるビデオサービスを展開することにおけるコーデックとして選定される。Ｈ．２６５／ＨＥＶＣ規格は、スライスおよびタイルを定義する。ピクチャは、１つ以上のタイルおよびスライスに区画化されることができる。Ｈ．２６５規格によると、準拠要件は、以下の条件の一方または両方が各スライスおよびタイルに関して満たされることである。

－スライス内の全てのＣＴＵが、同じタイルに属する。

－タイル内の全てのＣＴＵが、同じスライスに属する。

タイル境界におけるループフィルタリング動作を制限することによって（例えば、ＰＰＳ内で０に設定されるｌｏｏｐ＿ｆｉｌｔｅｒ＿ａｃｒｏｓｓ＿ｔｉｌｅｓ＿ｅｎａｂｌｅｄ＿ｆｌａｇ）、ピクチャ内のタイルは、タイルの外側のピクチャの他の領域を参照せずに、独立して、デコーディングされることができる。同じタイル区画化が、ＣＶＳ（コーディングされたビデオシーケンス）内の全てのピクチャに適用されると仮定する。さらに、エンコーダが、１つ以上のタイルから成る領域の検索範囲をインター予測コーディングのための１つ以上の基準ピクチャ内のタイルの併置された領域として制限する場合、デコーダは、その領域を含む現在のデコーディングピクチャにおいて空間的に、基準ピクチャにおいて時間的に、領域の外側の任意の他の部分を参照せずに、領域をデコーディングするであろう。そのような領域は、運動制約タイルセット（ＭＣＴＳ）と称され得る。

ＨＥＶＣ規格および多用途ビデオコーディング（ＶＶＣ）規格（ＶＶＣバージョン１規格化プロセスは、２０２０年７月に完成されるであろうことに留意されたい）では、タイルおよびスライスの概念に加え、サブピクチャと呼ばれる別のピクチャ区画も、含まれる。一般に、サブピクチャ、タイル、およびスライスは、非重複領域の中にビデオピクチャ区画を形成し、それらは、完全ピクチャを網羅するであろう。サブピクチャ、タイル、およびスライスは、むしろ独立した概念であるので、それらの３つの間の重複が、起こり得る。例えば、サブピクチャは、複数の矩形スライスによって形成され得、タイルも、複数の矩形スライスを含み得、さらに、スライスは、複数のタイルを含み得る等となる。

ＶＶＣ規格は、仮想現実（ＶＲ）用途をサポートするために要求されるので、したがって、ある大型サイズの３６０度ビデオが、サポートおよびコーディングされる必要があり得る。そのような大型サイズのビデオに関して、３６０ビデオピクチャ内で区画を使用することが、ビデオコーディングにおいて予期される。使用すべき１つの潜在的技法は、「サブピクチャ」区画である。全て単一ピクチャに属する種々のサブピクチャは、異なるＮＡＬユニットタイプにコーディングされることができる。さらに、サブピクチャは、一緒にグループ化され、種々のランダムアクセス動作をサポートすることができる。

（１．一例示的実施形態）

現在の多用途ビデオコーディング（ＶＶＣ）仕様（スペック）であるＪＶＥＴ－Ｐ２００１ｖＤ（２０１９年１１月１４日）は、通常ビデオピクチャ区画におけるサブピクチャ、スライス、およびタイルの概念をサポートする。第６．３．１節「サブピクチャ、スライス、およびタイルへのピクチャの区画化」では、「サブピクチャは、ピクチャの矩形領域を集合的に網羅する１つ以上のスライスを含む」と述べられている。

現在のＶＶＣ仕様では、サブピクチャの構造は、以下のように、シーケンスパラメータセット（ＳＰＳ）に説明される。

上記のＳＰＳにおけるイタリック付きテキストは、サブピクチャが定義される方法をマークしたものであり、一般に、全ての区画は、ＣＴＵ（基本ユニット）に基づき、左上Ｘ、Ｙ場所＋サブピクチャ幅および高さ情報を規定することによって、サブピクチャは、効率的に定義されることができる。

現在のサブピクチャ設計では、図１におけるサブピクチャの区画（各着色ブロックは、サブピクチャに関連付けられる）が、サポートされることができる。図１における全てのサブピクチャの処理順序は、いくつかの方法があり得るが、重要な点は、サブピクチャが、エンコーディングされると、このサブピクチャの全体の左境界と上部境界とが、利用可能であるはずである（例えば、または、その境界ピクセルは、すでに処理された（デコーディングされた）他のサブピクチャに属するか、または、その境界は、ピクチャ境界である）ということである。

これらの１０個のサブピクチャのための可能な２つの処理順序は、図２Ａおよび２Ｂに与えられる。

（２．一例示的実施形態）

現在のＶＶＣ仕様では、サブピクチャ構造は、シーケンスパラメータセット（ＳＰＳ）に定義されることができる。標準的テキストＶＶＣ草案７（２０１９年１１月）では、また、１つ以上のスライスは、各サブピクチャの内側に置かれ得ることが明確に述べられている。スライス毎に、そのビットストリームは、ＮＡＬユニットを形成し、ＮＡＬユニットタイプ（名称および値）を搬送するであろう。ＶＶＣ規格を用いて、ランダムアクセス機能をより良好にサポートするために、「ｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ」と呼ばれる、新しい構文要素が、以下のように、ピクチャパラメータセット（ＰＰＳ）内に追加されることができる（表２では、強調のためにイタリック付きである）。

また、意味論は、以下であろう：

１に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが２つ以上のＶＣＬＮＡＬユニットを有し、ＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有しておらず、ピクチャがＩＲＡＰ（イントラランダムアクセスピクチャ）ではないことを規定する。０に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが１つ以上のＶＣＬＮＡＬユニットを有し、ＰＰＳを参照する各ピクチャのＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有することを規定する。

上記のテキスト（ＶＶＣ草案７ＪＶＥＴ－Ｐ２００１）は、不変である。しかし、以下を追加する：

１に等しいｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが２つ以上のＶＣＬＮＡＬユニットを有し、ＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有しておらず、ピクチャがＩＤＲ＿Ｗ＿ＲＡＤＬ～ＣＲＡ＿ＮＵＴ（それらの値を包む）の範囲内の混合ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを伴うことを規定する。０に等しいｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが、１つ以上のＶＣＬＮＡＬユニットを有し、ＰＰＳを参照する各ピクチャのＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有しておらず、ピクチャがＩＲＡＰピクチャではないことを規定する。

このフラグをＰＰＳ内に追加することの重要な点は、ある用途におけるピクチャ内の混合Ｉｒａｐｎａｌｕ＿ｔｙｐｅｓを可能にする方法をサポートすることである。さらなる標準的テキストをＶＶＣ仕様におけるビットストリーム制約として追加することによって、それがピクチャ内の混合Ｉｒａｐｎａｌｕ＿ｔｙｐｅｓをサポートするという類似目標を達成することもできることを理解されたい。

本書に説明される技法は、ビデオをエンコーディングする動作、またはビデオをデコーディングする動作の性能を大きく改良するために、ビデオエンコーダ装置またはビデオデコーダ装置内に組み込まれ得ることを理解されたい。例えば、仮想現実体験またはゲーム等のいくつかのビデオ用途は、満足の行くユーザ体験を提供するために、ビデオのリアルタイム（またはリアルタイムより高速の）エンコーディングまたはデコーディングを要求する。開示される技法は、本明細書に説明されるようなピクチャ領域ベースのコーディングまたはデコーディング技法を使用することによって、そのような用途の性能を改良する。例えば、ユーザの視点に基づくビデオフレームの全より小さい部分のコーディングまたはデコーディングは、ユーザによって視認されるであろうビデオのみを選択的にコーディングことを可能にする。さらに、矩形ビデオフレーム内にピクチャ領域を作成するためのピクチャブロックの再編成は、運動検索、変換、および数値化等の標準的矩形フレームベースのビデオコーディングツールの使用を可能にする。

図３Ａは、ＣＴＵ、タイル、およびサブピクチャまたはスライスを伴うビデオピクチャの例を示す。描写されるピクチャでは、１８個のタイル、２４個のサブピクチャ、および２４個のスライス（２０×１２＝２４０個のＣＴＵ）が存在する。

（３．現在のＶＶＣ技術を使用した実施形態を例証するための追加の情報）

表１および表２の前述の構文例に加え、以下のテキストが、いくつかの実施形態を実装するために、ＶＶＣコーデックの現在のバージョンに追加され得る。

ＪＶＥＴ－Ｐ２００１（ＶＶＣ草案７）では、ビデオピクチャに関する混合ＮＡＬユニットタイプを示す設計が存在し、それは、ピクチャパラメータセット（ＰＰＳ）内で「ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ」と命名された構文要素に依存する。本寄稿において、別の構文要素を「ｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ」として追加し、混合ｉｒａｐｎａｌｕタイプおよびｉｒａｐｎａｌｕのみタイプをビデオピクチャ内に示すことが提案される。追加された指示は、特に、サブピクチャ区画用途を伴うより広い範囲の用途をサポートするであろう。追加される構文要素は、ビデオピクチャ内のむしろ独立してコーディングされたサブピクチャに関するフレキシブルなランダムアクセスポイント指示のための目的を果たすであろう。

（４．導入および問題提起）

（４．１ＶＶＣ仕様ＪＶＥＴ－Ｐ２００１におけるＮＡＬユニットタイプのための関連既存設計）

下記の情報は、ＪＶＥＴ－Ｐ２００１,［１］，から抽出され、重要な情報は、下線でハイライトされている。

ランダムアクセス条件に関連して、いくつかの重要な用語が、ＶＶＣ仕様に定義されている。ＪＶＥＴ－Ｐ２００１ｓｐｅｃでは、３「定義」下に、以下がある：

クリーンランダムアクセス（ＣＲＡ）ピクチャ：それに関して各ＶＣＬＮＡＬユニットが、ＣＲＡ＿ＮＵＴに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＩＲＡＰピクチャ。

注記－ＣＲＡピクチャは、そのデコーディングプロセスにおけるインター予測のために、それ自体以外の任意のピクチャを参照せず、デコーディング順序におけるビットストリーム内の第１のピクチャであり得るか、または、ビットストリーム内で後に現れ得る。ＣＲＡピクチャは、関連付けられるＲＡＤＬまたはＲＡＳＬピクチャを有し得る。ＣＲＡピクチャが１に等しいＮｏＩｎｃｏｒｒｅｃｔＰｉｃＯｕｔｐｕｔＦｌａｇを有するとき、関連付けられるＲＡＳＬピクチャは、それらが、ビットストリーム内に存在しないピクチャの参照を含み得ることから、デコーディング可能でないこともあるので、デコーダによって出力されない。

３．５４段階的デコーディングリフレッシュ（ＧＤＲ）ピクチャ：各ＶＣＬＮＡＬユニットがＧＤＲ＿ＮＵＴに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するピクチャ。

瞬間デコーディングリフレッシュ（ＩＤＲ）ピクチャ：各ＶＣＬＮＡＬユニットがＩＤＲ＿Ｗ＿ＲＡＤＬまたはＩＤＲ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＩＲＡＰピクチャ。

注記－ＩＤＲピクチャは、そのデコーディングプロセスにおけるインター予測のために、それ自体以外の任意のピクチャを参照せず、デコーディング順序におけるビットストリーム内の第１のピクチャであり得るか、または、ビットストリーム内で後に現れ得る。各ＩＤＲピクチャは、デコーディング順序におけるＣＶＳの第１のピクチャである。ＩＤＲピクチャは、それに関して各ＶＣＬＮＡＬユニットが、ＩＤＲ＿Ｗ＿ＲＡＤＬに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するとき、関連付けられるＲＡＤＬピクチャを有し得る。ＩＤＲピクチャは、それに関して各ＶＣＬＮＡＬユニットが、ＩＤＲ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するとき、任意の関連付けられる先行ピクチャを有していない。ＩＤＲピクチャは、関連付けられるＲＡＳＬピクチャを有していない。

イントラランダムアクセスポイント（ＩＲＡＰ）ピクチャ：全てのＶＣＬＮＡＬユニットが、ＩＤＲ＿Ｗ＿ＲＡＤＬ～ＣＲＡ＿ＮＵＴ（それらの値を包む）の範囲内の同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有するコーディングされたピクチャ。

注記１－ＩＲＡＰピクチャは、そのデコーディングプロセスにおけるインター予測のために、それ自体以外の任意のピクチャを参照せず、ＣＲＡピクチャまたはＩＤＲピクチャであり得る。デコーディング順序におけるビットストリーム内の第１のピクチャは、ＩＲＡＰまたはＧＤＲピクチャでなければならない。提供される必要なパラメータセットは、それらが参照される必要があるときに利用可能であり、デコーディング順序におけるＣＶＳ内のＩＲＡＰピクチャおよび全ての後続非ＲＡＳＬピクチャは、デコーディング順序におけるＩＲＡＰピクチャに先行する任意のピクチャのデコーディングプロセスを実施せずに、正しくデコーディングされることができる。

注記２－ＩＲＡＰピクチャに関するｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇの値は、０に等しい。ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇがピクチャに関して０に等しく、ピクチャの任意のスライスがＩＤＲ＿Ｗ＿ＲＡＤＬ～ＣＲＡ＿ＮＵＴ（それらの値を包む）の範囲内のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するとき、ピクチャの全ての他のスライスが、同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有し、ピクチャは、ＩＲＡＰピクチャであることが既知である。

ピクチャのためのＮＡＬユニットの混合タイプタイプの指示に関して、フラグ（構文要素）「ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ」は、表４に示されるように、ＰＰＳ（ピクチャパラメータセット）内に位置する。

ＶＶＣ仕様では、７．４．３．４意味論下に、以下がある:

１に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが２つ以上のＶＣＬＮＡＬユニットを有し、ＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有しておらず、ピクチャがＩＲＡＰピクチャではないことを規定する。０に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが１つ以上のＶＣＬＮＡＬユニットを有し、ＰＰＳを参照する各ピクチャのＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有することを規定する。

ｎｏ＿ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇが１に等しいとき、ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇの値は、０に等しいものとする。

ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅの別の値を伴う１つ以上のスライスも含むｐｉｃＡピクチャ内のＩＤＲ＿Ｗ＿ＲＡＤＬ～ＣＲＡ＿ＮＵＴ（それらの値を包む）の範囲内のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値ｎａｌＵｎｉｔＴｙｐｅＡ（すなわち、ピクチャｐｉｃＡに関するｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇの値は、１に等しい）を伴うスライスに関して、以下が、適用される：

－スライスは、対応するｓｕｂｐｉｃ＿ｔｒｅａｔｅｄ＿ａｓ＿ｐｉｃ＿ｆｌａｇ［ｉ］の値が、１に等しいサブピクチャｓｕｂｐｉｃＡに属するものとする。

－スライスは、ｎａｌＵｎｉｔＴｙｐｅＡと等しくないｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを伴うＶＣＬＮＡＬユニットを含む、ｐｉｃＡのサブピクチャに属しないものとする。

－デコーディング順序におけるＣＬＶＳ内の全ての以下のＰＵに関して、ｓｕｂｐｉｃＡ内のスライスのＲｅｆＰｉｃＬｉｓｔ［０］またはＲｅｆＰｉｃＬｉｓｔ［１］のいずれも、アクティブエントリ内のデコーディング順序における任意のピクチャ先行ｐｉｃＡを含まないものとする。

フラグ「ｎｏ＿ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ」は、以下のように、ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏ（）の内側に位置する。

関連意味論は、以下である：

１に等しいｎｏ＿ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇが０に等しいものとすることがビットストリーム準拠の要件であることを規定する。０に等しいｎｏ＿ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、そのような制約を課さない。

ＶＶＣ仕様では、７．４．２．２「ＮＡＬユニットヘッダ意味論」下に、以下が述べられている：。

任意の特定のピクチャのＶＣＬＮＡＬユニットに関して、以下が、適用される：

－ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇが０に等しい場合、ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅの値は、ピクチャの全てのコーディングされたスライスＮＡＬユニットに関して、同じであるものとする。ピクチャまたはＰＵは、ピクチャまたはＰＵのコーディングされたスライスＮＡＬユニットと同じＮＡＬユニットタイプを有すると称される。

－そうでなければ（１に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ）、ＶＣＬＮＡＬユニットのうちの１つ以上のものの全ては、ＩＤＲ＿Ｗ＿ＲＡＤＬ～ＣＲＡ＿ＮＵＴ（それらの値を包む）の範囲内のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅの特定の値を有するものとし、他のＶＣＬＮＡＬユニットの全ては、ＴＲＡＩＬ＿ＮＵＴ～ＲＳＶ＿ＶＣＬ＿６（それらの値を包む）の範囲内またはＧＲＡ＿ＮＵＴに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅの特定の値を有するものとする。

上記の段落には、誤植が存在することに留意されたい。例えば、単語「ＧＲＡ＿ＮＵＴ」は、正しくない。上記の表５では、「ＧＲＡ＿ＮＵＴ」に関するエントリが存在しない。修正が、現在のＶＶＣ仕様に関するＪＶＥＴ－Ｑ００４に提供されており、ＧＲＡ＿ＮＵＴとＧＤＲ＿ＮＵＴが置換されている。誤植は、太字下線でハイライトされている。

（４．２ＶＶＣ仕様ＪＶＥＴ－Ｐ２００１を用いたサブピクチャのハンドリング）

図３Ｂに示される例示的ビデオピクチャでは、１８個のタイル、２４個のサブピクチャ、および２４個のスライス（２０×１２＝２４０個のＣＴＵ）が存在する。

上記の「図７」における区画を使用して、ピクチャ毎にコーディングした１つの潜在的ユースケースでは、最初に、サブピクチャ５、６、９、１０（矩形領域）のみを表示するように選定する。時系列に沿った１つのランダムアクセスポイントでは、場面変化（カット）を行い、元の５、６、９、１０の代わりに、サブピクチャ６、７、１０、１１を表示することを欲する。現在のＶＶＣ仕様（ＪＶＥＴ－Ｐ２００１）における正確な制約に従う場合、そのランダムアクセスポイントにおいて、全てのサブピクチャは、上記の図で１～２４にマークされ、正確に同じＩＲＡＰＮＡＬユニットタイプ（例えば、全ての２４個のサブピクチャのためのＩＤＲ＿Ｎ＿ＬＰまたは全ての２４個のサブピクチャのためのＣＲＡ＿ＮＵＴ）を有するであろう。混合ＮＡＬユニットタイプケースを有することを欲する場合、ＩＲＡＰサブピクチャ／ピクチャのみを有することが保証されることができない。

（５．提案される解決策）

表２に示されるように、さらに１つのフラグ「ｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ」をＰＰＳ内に追加することが提案される。

不変の意味論は、以下の通りである：

新しい意味論が、以下のように、追加される：

１に等しいｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが２つ以上のＶＣＬＮＡＬユニットを有し、ＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有しておらず、ピクチャがＩＤＲ＿Ｗ＿ＲＡＤＬ～ＣＲＡ＿ＮＵＴ（それらの値を包む）の範囲内の混合ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを伴うことを規定する。０に等しいｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが１つ以上のＶＣＬＮＡＬユニットを有し、ＰＰＳを参照する各ピクチャのＶＣＬＮＡＬユニットが同じｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値を有しておらず、ピクチャがＩＲＡＰピクチャではないことを規定する。

「ｍｉｘｅｄ＿ｉｒａｐ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ」が追加されると、ＶＶＣ仕様は、改良されたサポートを混合ランダムアクセスＮＡＬユニットタイプ指示に提供することができる。

ＤＶＢ規格のような適用規格に関して、追加されるフラグは、ランダムアクセス指示サポートのためのよりフレキシブルな指示機構を提供するであろう。

図４は、少なくとも例示的例ビデオエンコーダまたはピクチャエンコーダを含む、第１の例示的デバイスを図示する略図である。

入手ユニット１００１は、ビデオおよびピクチャを捕捉する。入手ユニット１００１は、自然場面のビデオまたはピクチャを撮影するために、１つ以上のカメラを装備し得る。随意に、入手ユニット１００１は、深度ビデオまたは深度ピクチャを得るためのカメラを用いて実装され得る。随意に、入手ユニット１００１は、赤外線カメラのコンポーネントを含み得る。随意に、入手ユニット１００１は、遠隔感知カメラで構成され得る。入手ユニット１００１は、放射線を使用してオブジェクトを走査することによってビデオまたはピクチャを生成する装置またはデバイスでもあり得る。

随意に、入手ユニット１００１は、前処理（例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング／ダウンサンプリング、フレームレート変換、仮想ビュー合成等）をビデオまたはピクチャに実施し得る。

入手ユニット１００１は、ビデオまたはピクチャを別のデバイスまたは処理ユニットからも受信し得る。例えば、入手ユニット１００１は、トランスコーダ内のコンポーネントユニットであることができる。トランスコーダは、１つ以上のデコーディングされた（または部分的にデコーディングされた）ピクチャを入手ユニット１００１にフィードする。別の例は、入手ユニット１００１は、そのデバイスへのデータリンクを介して、ビデオまたはピクチャを別のデバイスから得ることである。

入手ユニット１００１は、ビデオおよびピクチャに加え、他のメディア情報、例えば、オーディオ信号を捕捉するために使用され得ることに留意されたい。入手ユニット１００１は、人工情報、例えば、キャラクタ、テキスト、コンピュータ生成ビデオまたはピクチャ等も受信し得る。

エンコーダ１００２は、例示的エンコーダの実装である。エンコーダ１００２の入力は、入手ユニット１００１によって出力されたビデオまたはピクチャである。エンコーダ１００２は、ビデオまたはピクチャをエンコーディングし、生成されたビデオまたはピクチャビットストリームを出力する。

記憶装置／送信ユニット１００３は、ビデオまたはピクチャビットストリームをエンコーダ１００２から受信し、システム層処理をビットストリームに実施する。例えば、記憶装置／送信ユニット１００３は、トランスポート規格およびメディアファイルフォーマット、例えば、例えば、ＭＰＥＧ－２ＴＳ、ＩＳＯＢＭＦＦ、ＤＡＳＨ、ＭＭＴ等に従って、ビットストリームをカプセル化する。記憶装置／送信ユニット１００３は、第１の例示的デバイスのメモリまたはディスク内へのカプセル化後に取得されるトランスポートストリームまたはメディアファイルを記憶するか、または、有線または無線ネットワークを介して、トランスポートストリームまたはメディアファイルを送信する。

エンコーダ１００２からのビデオまたはピクチャビットストリームに加え、記憶装置／送信ユニット１００３の入力がオーディオ、テキスト、画像、グラフィック等を含み得ることにも留意されたい。記憶装置／送信ユニット１００３は、そのような異なるタイプのメディアビットストリームをカプセル化することによって、トランスポートまたはメディアファイルを生成する。

本実施形態に説明される第１の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、ＣＤＮ（コンテンツ配信ネットワーク）デバイス、監視カメラ、ビデオ会議デバイス等内でビデオ（またはピクチャ）ビットストリームを生成または処理することが可能なデバイスであることができる。

図５は、少なくとも例示的ビデオデコーダまたはピクチャデコーダを含む第２の例示的デバイスを図示する略図である。

受信ユニット１１０１は、ビットストリームを有線または無線ネットワークから取得することによって、電子デバイス内のメモリまたはディスクを読み取ることによって、またはデータリンクを介して他のデバイスからのデータをフェッチすることによって、ビデオまたはピクチャビットストリームを受信する。

受信ユニット１１０１の入力は、ビデオまたはピクチャビットストリームを含むトランスポートストリームまたはメディアファイルも含み得る。受信ユニット１１０１は、トランスポートまたはメディアファイルフォーマットの仕様に従って、ビデオまたはピクチャビットストリームをトランスポートストリームまたはメディアファイルから抽出する。

受信ユニット１１０１は、ビデオまたはピクチャビットストリームを出力し、デコーダ１１０２に渡す。ビデオまたはピクチャビットストリームに加え、受信ユニット１１０１の出力がオーディオビットストリーム、キャラクタ、テキスト、画像、グラフィック等を含み得ることにも留意されたい。受信ユニット１１０１は、出力を第２の例示的デバイス内の対応する処理ユニットに渡す。例えば、受信ユニット１１０１は、出力オーディオビットストリームを本デバイス内のオーディオデコーダに渡す。

デコーダ１１０２は、例示的デコーダの実装である。エンコーダ１１０２の入力は、受信ユニット１１０１によって出力されたビデオまたはピクチャビットストリームである。デコーダ１１０２は、ビデオまたはピクチャビットストリームをデコーディングし、デコーディングされたビデオまたはピクチャを出力する。

レンダリングユニット１１０３は、デコーディングされたビデオまたはピクチャをデコーダ１１０２から受信する。レンダリングユニット１１０３は、デコーディングされたビデオまたはピクチャを視認者に提示する。レンダリングユニット１１０３は、第２の例示的デバイスのコンポーネント、例えば、画面であり得る。レンダリングユニット１１０３は、第２の例示的デバイス、例えば、プロジェクタ、モニタ、ＴＶセット等へのデータリンクを伴う第２の例示的デバイスと別個のデバイスでもあり得る。随意に、レンダリングユニット１１０３は、それを視認者に提示する前、後処理（例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング／ダウンサンプリング、フレームレート変換、仮想ビュー合成等）をデコーディングされたビデオまたはピクチャに実施する。

デコーディングされたビデオまたはピクチャに加え、レンダリングユニット１１０３の入力は、第２の例示的デバイスの１つ以上のユニットからの他のメディアデータ、例えば、オーディオ、キャラクタ、テキスト、画像、グラフィック等であることができることに留意されたい。レンダリングユニット１１０３の入力は、人工データ、例えば、遠隔教育アプリケーションにおいて注意を引くためにスライド上にローカル教師によって描かれる、ラインおよびマークも含み得る。レンダリングユニット１１０３は、異なるタイプのメディアを一緒に構成し、次いで、構成物を視認者に提示する。

本実施形態に説明される第２の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、セットトップボックス、ＴＶセット、ＨＭＤ、モニタ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、ＣＤＮ（コンテンツ配信ネットワーク）デバイス、監視ビデオ会議デバイス等内でビデオ（またはピクチャ）ビットストリームをデコーディングまたは処理することが可能なデバイスであることができる。

図６は、図５における第１の例示的デバイスと、図４における第２の例示的デバイスとを含む電子システムを図示する略図である。

サービスデバイス１２０１は、図４における第１の例示的デバイスである。

記憶媒体／トランスポートネットワーク１２０２は、デバイスまたは電子システムの内部メモリリソース、データリンクを介してアクセス可能な外部メモリリソース、有線および／または無線ネットワークから成るデータ伝送ネットワークを含み得る。記憶媒体／トランスポートネットワーク１２０２は、サービスデバイス１２０１内の記憶／送信ユニット１２０３のための記憶リソースまたはデータ伝送ネットワークを提供する。

宛先デバイス１２０３は、図５における第２の例示的デバイスである。宛先デバイス１２０３内の受信ユニット１２０１は、ビデオまたはピクチャビットストリーム、ビデオまたはピクチャビットストリームを含むトランスポートストリーム、またはビデオまたはピクチャビットストリームを含むメディアファイルを記憶媒体／トランスポートネットワーク１２０２から受信する。

本実施形態に説明される電子システムは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、ＩＰＴＶシステム、ＯＴＴシステム、インターネット上のマルチメディアシステム、デジタルＴＶブロードキャストシステム、ビデオ監視システム、ポータブルモバイル端末、デジタルカメラ、ビデオ会議システム等内でビデオ（またはピクチャ）ビットストリームを生成、記憶またはトランスポート、およびデコーディングすることが可能なデバイスまたはシステムであることができる。

図７は、本書に説明されるエンコーダ側またはデコーダ側技法を実装するために使用され得る例示的装置１４００を示す。装置１４００は、エンコーダ側またはデコーダ側技法または両方を実施するように構成され得るプロセッサ１４０２を含む。装置１４００は、メモリ（図示せず）も含み得、メモリは、プロセッサ実行可能命令を記憶し、ビデオビットストリームおよび／またはディスプレイデータを記憶する。装置１４００は、変換回路、算術コーディング／デコーディング回路、ルックアップ表ベースのデータコーディング技法等、ビデオ処理回路網（図示せず）を含み得る。ビデオ処理回路網は、部分的に、プロセッサ内に含まれ得、および／または、部分的に、グラフィックプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等の他の専用回路網内に含まれ得る。

図８は、ビデオビットストリーム処理のための例示的方法８００のためのフローチャートである。方法８００は、本書に説明されるビデオデコーダによって実装され得る。方法８００（および次に説明される９００）は、図７を参照して説明されるようなハードウェアプラットフォームを使用して実装され得る。

方法８００は、第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析すること（８０２）を含み、第１のフィールドは、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示す。いくつかの実施形態では、ビデオユニットは、ビデオピクチャであり得る（例えば、図３に示されるように）。

方法８００は、ビデオユニットが、複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内の第２のフィールドをさらに解析すること（８０４）を含み、第２のフィールドは、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す。

方法８００は、第１のフィールドおよび第２のフィールドに基づいて、ビデオビットストリームをデコーディングし、ビデオを生成すること（８０６）を含む。

いくつかの実施形態では、第１および第２のフィールドの両方は、単一ビットフィールドであり得る。そのような実施形態の１つの利点は、第２のビットによって通信される追加の情報を導入することにおいて最小量のオーバーヘッド（単一ビット）を導入しながら、旧来の規格との下位互換性を維持することである。

いくつかの実施形態では、第１のビットおよび第２のビットは、ヘッダ内の異なる位置内に含まれ得る。代替として、いくつかの実施形態では、２つのビットが、互いに連続し得る。ある場合、第２のフィールドが、ヘッダ内に含まれるかどうかは、第１のフィールドの値に依存し得る。例えば、第１のフィールド内のゼロ値は、第２のフィールドが含まれないことを示し得る。

図９は、ビデオビットストリーム解析の別の例示的方法９００のためのフローチャートを示す。

方法９００は、９０２において、１つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、ビデオピクチャを構成する１つ以上のネットワーク抽象化層（ＮＡＬ）ユニットについてのタイプ情報と、ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することとを含む。

方法９００は、９０４において、解析に基づいて、１つ以上のサブピクチャを再構築することを含む。

いくつかの実施形態では、構文構造は、１つ以上のＮＡＬユニットが複数のＮＡＬユニットを備えているかどうかを示す第１のフィールドを含む。

いくつかの実施形態では、構文構造は、第１のフィールドと、その存在が第１のフィールドの値に依存する随意の第２のフィールドとを含み得、第１のフィールドは、ＮＡＬユニットの混合タイプが１つ以上のＮＡＬユニット内に存在するかどうかを示す。例えば、前で説明されるように、第１および第２のフィールドは、ビットストリーム内に連続して位置付けられる単一ビットフィールドであり得る。

図１０は、ビデオピクチャ内のサブピクチャの存在を信号伝達または推測するために使用され得る例示的フローチャート１０００を示す。そのようなサブピクチャは、例えば、３Ｄピクチャ情報を伝達するために使用され得る。

１００２では、第１のフラグの値についてのチェックが、行われる。この値は、特定の値、例えば、０に設定され、ピクチャが、同じスライスタイプを有する全てのＮＡＬスライスを含むことを示し得る（１００４）。例えば、このフラグは、現在のピクチャが、独立してデコーディング可能なサブピクチャが含まれない、「従来的」ピクチャであることを示すために使用され得る。全てのＮＡＬスライスが同じタイプを有することの決定（１００４）時、ヘッダが、追加の情報のために、さらに解析され得る（１００６）。

１００２におけるチェックが、第１のフラグが第２の値（例えば、１）を有することを明らかにする場合、複数のＮＡＬユニットが、存在し、これらのＮＡＬユニットが、おそらく異なる値を有し得ることが推測される。チェックが、１０１０において、第２のフラグの値に関して実施され得る。値が特定の値（例えば、０）である場合、全てのＮＡＬユニットが同じ値を有することが決定される（１０１２）。決定後、ヘッダは、さらなる情報のために、解析され得る（１００６）。１０１０におけるチェックが、第２のフラグが別の特定の値を有することを明らかにする場合、ＮＡＬユニットが異なるタイプを有するが、ピクチャがイントラランダムアクセスピクチャでないことが推測される（１０１４）。

図１０に描写される論理フローから、単一ビットをピクチャヘッダの既存の構文構造に導入することは、ビデオピクチャ内のサブピクチャの存在の信号伝達を有効にすることを理解されたい。信号伝達は、スライスおよび／またはタイルおよび／またはＣＴＵの現在の既存の信号伝達と互換性がある。

いくつかの実施形態では、ビデオをエンコーディングする方法（例えば、図１１に描写される方法１１００）は、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むかどうかを示す第１のフィールドを含むこと（１１０２）と、ビデオユニットが複数のタイプを有する複数のネットワーク抽象化層ビットユニットを含むことを決定することに起因して、ヘッダ内に、ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す第２のフィールドを選択的にさらに含むこと（１１０４）と、ビデオをエンコーディングし、ビデオビットストリームを生成すること（１１０６）とを含む。エンコーディングすることは、例えば、種々のイントラ、インター、および他の技法を使用して、ビデオデータをビットストリーム内に表し得る。

いくつかの実施形態では、ビデオユニットは、ビデオピクチャである。

既に記載されるように、いくつかの実施形態では、第１のフィールドおよび第２のフィールドは、１ビットフィールドである。しかしながら、これらのフィールドの他の長さも、本書全体を通して可能である。

第２のフィールドは、ビデオビットストリーム内の第１のフィールドの直後に位置付けられ得る。

いくつかの実施形態では、エンコーディングすること１１０６は、複数のサブピクチャをビデオユニットにエンコーディングすることを含み、各サブピクチャは、独立ネットワーク抽象化層ユニットタイプを有する。

いくつかの実施形態では、ビデオエンコーディング方法は、１つ以上のサブピクチャを備えているビデオピクチャをエンコーディングするために、構文構造を生成し、ビデオピクチャを構成する１つ以上のネットワーク抽象化層（ＮＡＬ）ユニットについてのタイプ情報と、ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを含むことと、構文構造に基づいて、１つ以上のサブピクチャをエンコーディングすることとを含み得る。

上記に開示されるエンコーディング方法では、いくつかの実施形態では、構文構造は、１つ以上のＮＡＬユニットが複数のＮＡＬユニットを含み得るかどうかを示す第１のフィールドを含み得る。

いくつかの実施形態では、構文構造は、第１のフィールドと、その存在が第１のフィールドの値に依存する随意の第２のフィールドとを含み、第１のフィールドは、ＮＡＬユニットの混合タイプが１つ以上のＮＡＬユニット内に存在するかどうかを示す。

いくつかの実施形態では、第１のフィールドおよび第２のフィールドは、ビデオビットストリーム内で隣同士に位置付けられる単一ビットフラグである。

いくつかの実施形態では、例えば、図７に描写されるようなビデオエンコーダが、上で説明されるエンコーディング方法を実装し得る。いくつかの実施形態では、例えば、図７に描写されるようなビデオデコーダが、本明細書に説明されるビデオビットストリーム解析方法を実装し得る。ビデオデコーダは、例えば、ビデオを１ビットストリーム表現から別のビットストリーム表現に変更するトランスコーダであり得る。

いくつかの実施形態では、コンピュータプログラム製品は、本明細書および請求項に説明される方法を実装するためのプロセッサ実行可能コードを含むコンピュータ読み取り可能な媒体を含み得る。

（６．産業上の利用可能性）

上記の説明から、必ずしも、３Ｄピクチャのための異なるビューデータを含むサブピクチャ等イントラランダムアクセスポイントではないサブピクチャの信号伝達を有効にする技法が、開示されることが分かり得る。開示される技法を使用して、ビデオエンコーダまたはビデオデコーダのいくつかの実施形態は、少なくとも数ビットが構文構造に追加され、サブピクチャの搬送をサポートすることが可能である一方、同時に、スライス、ＣＴＵ等の信号伝達との下位互換性を保つピクチャヘッダを使用することが可能である。

本書に説明される、開示されるおよび他の実施形態、モジュール、および機能動作が、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含むコンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの１つ以上のものの組み合わせで、実装されることができる。開示されるおよび他の実施形態は、１つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ読み取り可能な媒体上でエンコードされるコンピュータプログラム命令の１つ以上のモジュールとして、実装されることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な記憶デバイス、機械読み取り可能な記憶基板、メモリデバイス、機械読み取り可能な伝搬信号を生じさせる組成物、または１つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの１つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生される信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生される、機械で発生される電気、光学、または電磁信号である。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である）が、コンパイラ型またはインタープリタ型言語を含む任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル（例えば、マークアップ言語文書内に記憶された１つ以上のスクリプト）の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル）内に記憶されることができる。コンピュータプログラムは、１つのコンピュータ上で、または１つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。

本書に説明されるプロセスおよび論理フローは、入力データに基づいて動作し、出力を発生させることによって機能を実施するように１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルプロセッサによって、実施されることができる。プロセスおよび論理フローは、特殊用途論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって、実施されることもでき、装置も、それとして実装されることができる。

コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか１つ以上のプロセッサを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための１つ以上のメモリデバイスである。概して、コンピュータは、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気、磁気光学ディスク、または光ディスクを含むか、または、それらからデータを受信すること、それらにデータを転送すること、または両方を行うようにそれらに動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ読み取り可能な媒体は、一例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含むあらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。

本特許文書は、多くの詳細を含むが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴も、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴も、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。

同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではい。

いくつかの実装および例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。

これらおよび他の側面が、本書に説明される。
本発明はさらに、例えば、以下を提供する。
（項目１）
ビデオビットストリーム処理の方法であって、前記方法は、
第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第１のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第２のフィールドを解析することであって、前記第２のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記第１のフィールドおよび前記第２のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
を含む、方法。
（項目２）
前記ビデオユニットは、ビデオピクチャである、項目１に記載の方法。
（項目３）
前記第１のフィールドおよび前記第２のフィールドは、１ビットフィールドである、項目１または２に記載の方法。
（項目４）
前記第２のフィールドは、前記ビデオビットストリーム内の前記第１のフィールドの直後に位置付けられている、項目１－３のいずれか一項に記載の方法。
（項目５）
前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、項目１－４のいずれか一項に記載の方法。
（項目６）
ビデオをエンコーディングする方法であって、前記方法は、
ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に第１のフィールドを含むことであって、前記第１のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内に第２のフィールドをさらに含むことであって、前記第２のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記ビデオをエンコーディングし、前記ビデオビットストリームを生成することと
を含む、方法。
（項目７）
前記ビデオユニットは、ビデオピクチャである、項目６に記載の方法。
（項目８）
前記第１のフィールドおよび前記第２のフィールドは、１ビットフィールドである、項目６または７に記載の方法。
（項目９）
前記第２のフィールドは、前記ビデオビットストリーム内の前記第１のフィールドの直後に位置付けられている、項目６－８のいずれか一項に記載の方法。
（項目１０）
前記エンコーディングすることは、複数のサブピクチャを前記ビデオユニットにエンコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、項目６－９のいずれか一項に記載の方法。
（項目１１）
プロセッサを備えているビデオデコーディング装置であって、前記プロセッサは、ビデオビットストリームを処理する方法を実施するように構成され、前記方法は、
１つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、前記ビデオピクチャを構成する１つ以上のネットワーク抽象層（ＮＡＬ）ユニットについてのタイプ情報と、前記ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することと、
前記解析に基づいて、前記１つ以上のサブピクチャを再構築することと
を含む、装置。
（項目１２）
前記構文構造は、前記１つ以上のＮＡＬユニットが複数のＮＡＬユニットを備えているかどうかを示す第１のフィールドを備えている、項目１１に記載の装置。
（項目１３）
前記構文構造は、第１のフィールドと、その存在が前記第１のフィールドの値に依存する随意の第２のフィールドとを含み、前記第１のフィールドは、ＮＡＬユニットの混合タイプが前記１つ以上のＮＡＬユニット内に存在するかどうかを示す、項目１１または１２に記載の装置。
（項目１４）
前記第１のフィールドおよび前記第２のフィールドは、前記ビデオビットストリーム内で隣同士に位置付けられた単一ビットフラグである、項目１３に記載の装置。
（項目１５）
コードを記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、前記コードは、プロセッサによって実行されると、ビデオ解析の方法を前記プロセッサに実装させ、前記方法は、
第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第１のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第２のフィールドを解析することであって、前記第２のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記第１のフィールドおよび前記第２のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
を含む、コンピュータプログラム製品。
（項目１６）
前記ビデオユニットは、ビデオピクチャである、項目１５に記載のコンピュータプログラム製品。
（項目１７）
前記第１のフィールドおよび前記第２のフィールドは、１ビットフィールドである、項目１５または１６に記載のコンピュータプログラム製品。
（項目１８）
前記第２のフィールドは、前記ビデオビットストリーム内の前記第１のフィールドの直後に位置付けられている、項目１５－１７のいずれか一項に記載のコンピュータプログラム製品。
（項目１９）
前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、項目１５－１８のいずれか一項に記載のコンピュータプログラム製品。

Claims

ビデオビットストリーム処理の方法であって、前記方法は、
第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第１のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第２のフィールドを解析することであって、前記第２のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記第１のフィールドおよび前記第２のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
を含む、方法。
前記ビデオユニットは、ビデオピクチャである、請求項１に記載の方法。
前記第１のフィールドおよび前記第２のフィールドは、１ビットフィールドである、請求項１または２に記載の方法。
前記第２のフィールドは、前記ビデオビットストリーム内の前記第１のフィールドの直後に位置付けられている、請求項１－３のいずれか一項に記載の方法。
前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、請求項１－４のいずれか一項に記載の方法。
ビデオをエンコーディングする方法であって、前記方法は、
ビデオビットストリーム内のビデオユニットレベルにおけるヘッダ内に第１のフィールドを含むことであって、前記第１のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内に第２のフィールドをさらに含むことであって、前記第２のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記ビデオをエンコーディングし、前記ビデオビットストリームを生成することと
を含む、方法。
前記ビデオユニットは、ビデオピクチャである、請求項６に記載の方法。
前記第１のフィールドおよび前記第２のフィールドは、１ビットフィールドである、請求項６または７に記載の方法。
前記第２のフィールドは、前記ビデオビットストリーム内の前記第１のフィールドの直後に位置付けられている、請求項６－８のいずれか一項に記載の方法。
前記エンコーディングすることは、複数のサブピクチャを前記ビデオユニットにエンコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、請求項６－９のいずれか一項に記載の方法。
プロセッサを備えているビデオデコーディング装置であって、前記プロセッサは、ビデオビットストリームを処理する方法を実施するように構成され、前記方法は、
１つ以上のサブピクチャを備えているビデオピクチャをデコーディングするために、構文構造を解析し、前記ビデオピクチャを構成する１つ以上のネットワーク抽象層（ＮＡＬ）ユニットについてのタイプ情報と、前記ビデオピクチャがイントラランダムアクセスピクチャであるかどうかとを取得することと、
前記解析に基づいて、前記１つ以上のサブピクチャを再構築することと
を含む、装置。
前記構文構造は、前記１つ以上のＮＡＬユニットが複数のＮＡＬユニットを備えているかどうかを示す第１のフィールドを備えている、請求項１１に記載の装置。
前記構文構造は、第１のフィールドと、その存在が前記第１のフィールドの値に依存する随意の第２のフィールドとを含み、前記第１のフィールドは、ＮＡＬユニットの混合タイプが前記１つ以上のＮＡＬユニット内に存在するかどうかを示す、請求項１１または１２に記載の装置。
前記第１のフィールドおよび前記第２のフィールドは、前記ビデオビットストリーム内で隣同士に位置付けられた単一ビットフラグである、請求項１３に記載の装置。
コードを記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、前記コードは、プロセッサによって実行されると、ビデオ解析の方法を前記プロセッサに実装させ、前記方法は、
第１のフィールドに関して、ビデオビットストリーム内のビデオユニットレベルにおけるヘッダを解析することであって、前記第１のフィールドは、前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むかどうかを示す、ことと、
前記ビデオユニットが複数のタイプを有する複数のネットワーク抽象層ビットユニットを含むことを決定することに起因して、前記ヘッダ内の第２のフィールドを解析することであって、前記第２のフィールドは、前記ビデオユニットがイントラランダムアクセスポイントを備えているかどうかを示す、ことと、
前記第１のフィールドおよび前記第２のフィールドに基づいて、前記ビデオビットストリームをデコーディングし、ビデオを生成することと
を含む、コンピュータプログラム製品。
前記ビデオユニットは、ビデオピクチャである、請求項１５に記載のコンピュータプログラム製品。
前記第１のフィールドおよび前記第２のフィールドは、１ビットフィールドである、請求項１５または１６に記載のコンピュータプログラム製品。
前記第２のフィールドは、前記ビデオビットストリーム内の前記第１のフィールドの直後に位置付けられている、請求項１５－１７のいずれか一項に記載のコンピュータプログラム製品。
前記ビデオビットストリームをデコーディングすることは、前記ビデオユニット内に含まれる複数のサブピクチャをデコーディングすることを含み、各サブピクチャは、独立したネットワーク抽象層ユニットタイプを有する、請求項１５－１８のいずれか一項に記載のコンピュータプログラム製品。