JP7016428B2

JP7016428B2 - 帯域外エンドオブストリームｎａｌユニットを復号化に使用する方法、装置、及びコンピュータプログラム

Info

Publication number: JP7016428B2
Application number: JP2020551303A
Authority: JP
Inventors: ウェンジャー，ステファン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2018-09-13
Filing date: 2019-08-28
Publication date: 2022-02-04
Anticipated expiration: 2039-08-28
Also published as: EP3850844A4; US20200092570A1; CN112292859A; EP3850844A1; US20220264152A1; US20200195972A1; US20200366939A1; CN110896486B; US11589076B2; CN112292859B; US20230086585A1; KR20200128146A; US10904574B2; US20200092585A1; US20200092586A1; US11356704B2; WO2020055589A1; US10595048B1; CN116614645A; JP2021517408A

Description

本出願は、２０１８年９月１３日にて提出された、出願番号が６２／７３０，８８５である米国仮出願、及び２０１８年１２月２６日にて提出された、出願番号が１６／２３２，６７７である米国仮出願に基づく優先権を主張し、その全内容を参照により本出願に援用する。

実施例と一致する方法及び装置は、ビデオの符号化及び復号化に関し、より具体的に、高水準構文アーキテクチャを使用して符号化及び復号化を行い、帯域外で受信されるエンドオブストリームＮＡＬユニットを使用して復号化する方法及び装置に関する。

現在、動き補償を伴うインターピクチャ予測を使用してビデオの符号化及び復号化を実行している。非圧縮のデジタルビデオは一連のピクチャを含んでもよく、各ピクチャの空間次元は、例えば１９２０×１０８０の輝度サンプル及び関連するクロミナンスサンプルである。当該一連のピクチャは、例えば、１秒あたり６０のピクチャ又は６０Ｈｚの固定又は可変のピクチャレート（非正式にはフレームレートとも呼ばれる）を有してもよい。非圧縮のビデオは、高いビットレート要件を有する。例えば、サンプルあたりの８ビットの１０８０ｐ６０４：２：０ビデオ（６０Ｈｚのフレームレートで、１９２０×１０８０の輝度サンプル解像度）は、１．５Ｇｂｉｔ／ｓに近い帯域幅が必要である。このような１時間のビデオは、６００ＧＢを超えるストレージスペースが必要である。

ビデオ符号化及び復号化は、圧縮によって入力ビデオ信号の冗長性を減少させることを１つの目的とする。圧縮は、上記の帯域幅又はストレージスペースの要件を、場合によって２桁以上削減することに寄与する。可逆圧縮、非可逆圧縮、及びそれらの組み合わせを利用し得る。可逆圧縮は、圧縮された元の信号から元の信号の正確なコピーを再構築する技術を指す。非可逆圧縮を利用する場合、再構築された信号は元の信号と異なるかもしれないが、元の信号と再構築された信号との間の歪みは十分に小さいから、再構築された信号は意図された用途に役立つ。ビデオの場合、非可逆圧縮は広く応用される。許容される歪み量はアプリケーションに依存し、例えば、特定のコンシューマストリームアプリケーションのユーザーは、テレビ投稿アプリケーションのユーザーよりも高い歪みを許容できる。実現可能な圧縮比は、許可／許容可能な歪みが高いほど、圧縮比が高くなることを反映することができる。

ビデオ符号器及び復号器は、動き補償、変換、量子化、エントロピー符号化などを含むいくつかの幅広いカテゴリの技術を利用することができる。これらの技術の一部を以下に紹介する。

Ｈ．２６４より前の一部のビデオコーデック（例えばＭＰＥＧ－２Ｖｉｓｕａｌ）は、一時的ヘッダーの階層構造を使用し、当該一時的ヘッダーは、シーケンスヘッダー、ピクチャグループ（ＧＯＰ）ヘッダー、ピクチャヘッダー、スライスヘッダーを含む。各ヘッダーに含まれる構文要素は、全ての下位レベルの構文構造に関する。例えば、シーケンスヘッダーの構文要素は、シーケンスに含まれるの全てのＧＯＰ、これらのＧＯＰに含まれる全てのピクチャ、及びこれらのピクチャに含まれる全てのスライスに関す。ＧＯＰヘッダーの構文要素は、ＧＯＰに含まれる全てのピクチャ、及びこれらのピクチャにおける全てのスライスに関する。このような階層構造は効率的な符号化につながることができるが、最適でない誤り耐性を有する。例えば、シーケンスヘッダーの重要な情報が伝送中に失われた場合、シーケンスのＧＯＰ、ピクチャ、又はスライスを復号化することができない。

２００３年以降、一部のＩＴＵ及びＭＰＥＧビデオコーデック、即ち、Ｈ．２６４及びＨ．２６５は、スライスヘッダーの上に一時的ヘッダーを使用せず、パラメータセットに依存する。例えば、シーケンスレベル又はピクチャレベルなどの各構文レベルにおいて、復号器又は外部の装置によりビットストリームから１つ又は複数のパラメータセットを受信することができる。これらの（場合によって多数の）同じタイプのパラメータセットのどれを使用して所定のシーケンス又はピクチャを復号化するかは、例えばスライスヘッダー（ピクチャパラメータセットＰＰＳの場合）又はＰＰＳ（シーケンスパラメータセットＳＰＳの場合）に符号化される参照に依存する。このアーキテクチャは以下の利点を有することができる：ビットストリーム自体が非可逆チャネルを介して送信されても、関連するパラメータセットを確実に送信できる。又は、可能性としては初めてパラメータセットを使用するよりも十分前に、冗長コピーを送信することでパラメータセットが受信される可能性を高めることができる。一つの欠点は以下のものである：パラメータセットの送信は、ＭＰＥＧ－２タイプのヘッダーの送信よりも、同じ数とタイプの構文要素に必要なビット数の点が多くなる可能性がある。また、ピクチャの間で頻繁に変化するが所定のピクチャ内では一定のままであるある種の構文要素が、このアーキテクチャでは、各スライスヘッダーに複数の冗長コピーの形で含まれる可能性がある。そうすることで、（少なくとも解析の依存性とエントロピー復号化の観点から）スライスを独立して復号化可能にすることができるが、より多いビットを占有することがある。

Ｈ．２６４の設計中は、スライスの独立した復号化可能性は、誤り耐性特性の理由から、主要な設計目標と考えられた。しかしながら、２００３年以降、失われたスライスの隠蔽効果がますます弱くなるにつれて、符号化されたビデオを伝送するネットワークアーキテクチャの改善と予測メカニズムの進歩により、スライスの独立した復号化可能性の魅力は著しく低減した。

要求されるものがスライスの独立した復号化可能性ではなくなった結果、少なくとも所定のピクチャの損失が復号器で合理的に隠蔽できるとの仮定のもとで良好な誤り耐性特性を維持するとともに、符号化効率の点でＭＰＥＧ－２タイプのヘッダー構造の利点を利用する、新しい高レベル構文アーキテクチャが必要である。本発明のいくつかの実施例は、良好な誤り耐性特性及び符号化効率を維持するこのような高レベル構文アーキテクチャを提供する。

本出願で開示された一態様によれば、少なくとも１つのビデオストリームを復号化するための方法であって、当該少なくとも１つのビデオストリームのそれぞれは、それぞれの復号器パラメータセットに関連付けられる。当該方法は、復号器が少なくとも１つのビデオストリームにおける第１のビデオストリームの復号器パラメータセットをアクティブ化することを含むことができる。当該方法は、復号器が第１のビデオストリームの外部の復号器で利用可能なエンドオブストリームＮＡＬユニットを処理することをさらに含むことができる。当該方法は、復号器がエンドオブストリームＮＡＬユニットを処理することに応答して、第１のビデオストリームの復号器パラメータセットを非アクティブ化することをさらに含むことができる。

本出願で開示された他の態様によれば、少なくとも１つのビデオストリームを復号化するための装置を提供し、当該少なくとも１つのビデオストリームのそれぞれは、それぞれの復号器パラメータセットに関連付けられる。当該装置は復号器を含むことができ、当該復号器は、少なくとも１つのビデオストリームにおける第１のビデオストリームの復号器パラメータセットをアクティブ化するために用いられる。当該復号器は、さらに、第１のビデオストリームの外部の復号器で利用可能なエンドオブストリームＮＡＬユニットを処理するために用いられることができる。当該復号器は、さらに、エンドオブストリームＮＡＬユニットを処理することに応答して、第１のビデオストリームの復号器パラメータセットを非アクティブ化するために用いられることができる。
本出願で開示されるさらに他の態様によれば、命令を記憶する非一時的コンピュータ可読媒体を使用することができる。当該命令は１つ又は複数の命令を含み、デバイスの１つ又は複数のプロセッサによって実行される場合に、当該１つ又は複数の命令は、当該１つ又は複数のプロセッサに、少なくとも１つのビデオストリームを復号化させ、当該少なくとも１つのビデオストリームのそれぞれは、それぞれの復号器パラメータセットに関連付けられており、前記１つ又は複数のプロセッサは、少なくとも１つのビデオストリームにおける第１のビデオストリームの復号器パラメータセットをアクティブ化し、第１のビデオストリームの外部の復号器で利用可能なエンドオブストリームＮＡＬユニットを処理し、エンドオブストリームＮＡＬユニットを処理することに応答して、第１のビデオストリームの復号器パラメータセットを非アクティブ化するという動作により、少なくとも１つのビデオストリームを復号化する。

開示された主題の他の特徴、性質及び様々な利点は以下の詳しい記載及び図面から、より明確になる。図面において、

一実施例による通信システムの簡略化ブロック図の模式図である。

一実施例によるストリーミングシステムの簡略化ブロック図の模式図である。

一実施例によるビデオ復号器及びディスプレイの簡略化ブロック図の模式図である。

一実施例によるビデオ符号器及びビデオソースの簡略化ブロック図の模式図である。

一実施例による高レベル構文アーキテクチャにおける構文階層の模式図である。

一実施例によるピクチャヘッダー及びピクチャパラメータセットの模式図である。

一実施例による帯域外でエンドオブストリームを受信する場合に復号器パラメータセットを変更するフローの模式図である。

一実施例によるコンピュータシステムの模式図である。

図１は、本出願の一実施例における通信システム（１００）の簡略化ブロック図を示す。通信システム（１００）は、ネットワーク（１５０）を介して相互接続された少なくとも２つの端末（１１０、１２０）を含み得る。データの一方向伝送の場合、第１の端末（１１０）は、ローカル位置でビデオデータを符号化して、ネットワーク（１５０）を介して他の端末（１２０）に伝送することができる。第２の端末（１２０）は、ネットワーク（１５０）から他の端末の符号化されたビデオデータを受信し、符号化されたデータを復号化し、復元されたビデオデータを表示することができる。データの一方向伝送は、メディアサービスアプリケーションなどでは一般的である。

図１は、例えば、ビデオ会議中に発生する可能性がある符号化されたビデオの双方向伝送をサポートするために提供される第２対の端末（１３０、１４０）を示す。データの双方向伝送の場合、各端末（１３０、１４０）は、ローカル位置でキャプチャされたビデオデータを符号化して、ネットワーク（１５０）を介して他方の端末に伝送することができる。各端末（１３０、１４０）は、また、他方の端末によって伝送された符号化されたビデオデータを受信し、符号化されたデータを復号化し、復元されたビデオデータをローカル表示デバイスに表示してもよい。

図１において、端末（１１０～１４０）は、例えば、サーバ、パーソナルコンピュータ、スマートフォン、及び／又は他のタイプの端末であってもよい。例えば、端末（１１０～１４０）は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤー及び／又は専用のビデオ会議機器であってもよい。ネットワーク（１５０）は端末（１１０～１４０）の間で符号化されたビデオデータを伝送する任意の数のネットワークを示し、例えば、有線（ワイヤード）及び／又は無線通信ネットワークを含む。通信ネットワーク（１５０）は、回線交換及び／又はパケット交換チャネルにおいてデータを交換することができる。当該ネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットを含むことができる。本出願の検討の目的のために、ネットワーク（１５０）のアーキテクチャとトポロジーは、以下に本明細書で説明されない限り、本出願で開示される動作にとって重要ではないかもしれない。

本出願で開示された主題の一実施例として、図２は、ストリーミング環境におけるビデオ符号器と復号器の配置形態を示し、本出願で開示された主題は、等価的に、例えば、ビデオ会議、デジタルＴＶを含む、ビデオをサポートする他のアプリケーションに適用され、ＣＤ、ＤＶＤ、メモリースティックなどを含むデジタルメデイアに圧縮ビデオなどを記憶してもよい。

図２に示すように、ストリーミングシステム（２００）は、キャプチャサブシステム（２１３）を含むことができ、当該キャプチャサブシステムは、ビデオソース（２０１）と符号器（２０３）を含む。当該ストリーミングシステム（２００）は、少なくとも１つのストリーミングサーバ（２０５）と少なくとも１つのストリーミングクライアント（２０６）を含んでもよい。

ビデオソース（２０１）は、例えば、非圧縮のビデオサンプルストリーム（２０２）を作成することができる。ビデオソース（２０１）は例えばデジタル撮影装置であってもよい。サンプリングストリーム（２０２）は、ビデオカメラ（２０１）に連結された符号器（２０３）によって処理されることができ、符号化されたビデオビットストリームと比較して多いデータ量を強調するために太線として描かれる。符号器（２０３）は、以下でより詳細に説明する本出願で開示された主題の各態様を実現又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。符号器（２０３）は、符号化されたビデオビットストリーム（２０４）をさらに生成することができる。ビデオビットストリーム（２０４）は、将来の使用のために、ストリーミングサーバ（２０５）に記憶され得、非圧縮のサンプルストリーム（２０２）と比較して少ないデータ量を強調するために細い線として描かれる。１つ以上のストリーミングクライアント（２０６）は、ストリーミングサーバ（２０５）にアクセスして、ビデオビットストリーム（２０９）を検索することができ、当該ビデオビットストリーム（２０９）は符号化されたビデオビットストリーム（２０４）のコピーであってもよい。

スクリーミングクライアント（２０６）は、ビデオ復号器（２１０）とディスプレイ（２１２）を含むことができる。ビデオ復号器（２１０）は、例えば、ビデオビットストリーム（２０９）を復号化することができ、当該ビデオビットストリームは符号化されたビデオビットストリーム（２０４）の入力コピーであり、さらに、ビデオ復号器（２１０）はディスプレイ（２１２）又は他のレンダリングデバイス（図示せず）でレンダリングできる出力ビデオサンプルストリーム（２１１）を作成することができる。一部のストリーミングシステムでは、ビデオビットストリーム（２０４、２０９）を、特定のビデオ符号化／圧縮規格に従って符号化できる。これらの規格の例には、ＩＴＵ－ＴＨ．２６５勧告書を含むがそれに限定されない。非公式に多用途ビデオ符号化（ＶＶＣ）と呼ばれるビデオ符号化規格が開発中である。本出願で開示された主題は、ＶＶＣの環境で使用することができる。

図３は、本出願の一実施例によるディスプレイ（２１２）に接続されたビデオ復号器（２１０）の例示的な機能ブロック図を示す。

ビデオ復号器（２１０）は、チャネル（３１２）、受信機（３１０）、バッファメモリ（３１５）、エントロピー復号器／パーサ（３２０）、スケーラ／逆変換ユニット（３５１）、イントラ予測ユニット（３５２）、動き補償予測ユニット（３５３）、アグリゲータ（３５５）、ループフィルタユニット（３５６）、参照ピクチャメモリ（３５７）、及び現在ピクチャメモリ（３５８）を含むことができる。少なくとも１つの実施例において、ビデオ復号器（２１０）は、集積回路、一連の集積回路、及び／又は他の電子回路を含み得る。ビデオ復号器（２１０）は、また、関連するメモリを備えた１つ以上のＣＰＵ上で実行されるソフトウェアとして部分的又は全体的に実現され得る。

本実施例及び他の実施例において、受信機（３１０）は、復号器（２１０）によって復号化される１つ以上の符号化されたビデオシーケンスを１つずつ受信することができ、各符号化されたビデオシーケンスの復号化は他の符号化されたビデオシーケンスから独立している。チャネル（３１２）から符号化されたビデオシーケンスを受信することができ、当該チャネルは、当該符号化されたビデオデータを記憶するストレージデバイスに接続されたハードウェア／ソフトウェアリンクであってもよい。受信機（３１０）は、符号化されたビデオデータ及び他のデータ、例えば、それぞれの使用エンティティ（図示せず）に転送され得る符号化されたオーディオデータ及び／又は補助データストリームを受信してもよい。受信機（３１０）は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ（３１５）は、受信機（３１０）とエントロピー復号器／パーサ（３２０）（以降、「パーサ」と呼ばれる）との間に結合され得る。受信機（３１０）が十分な帯域幅と制御性を有する記憶／転送デバイス、又は等時性リアルタイムネットワークからデータを受信する場合に、バッファメモリ（３１５）を必要としない場合があり、又は、小さい容量のバッファメモリ（３１５）を使用してもよい。例えばインターネットのベストパケットネットワークで使用するために、バッファメモリ（３１５）が必要となる場合があり、当該バッファメモリは、比較的大きくすることができ、自己適応サイズを有することができる。

ビデオ復号器（２１０）は、エントロピー符号化されたビデオシーケンスに基づきシンボル（３２１）を再構成するために、パーサ（３２０）を含み得る。これらのシンボルのカテゴリは、例えば、復号器（２１０）の動作を管理するための情報を含み、例えば、ディスプレイ（２１２）のレンダリングデバイスを制御するための情報を含む可能性があり、当該レンダリングデバイスが図２に示す復号器に結合され得る。１つ以上のレンダリングデバイスのための制御情報は、補助拡張情報（ＳＥＩメッセージ）又はビデオユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形であってよい。パーサ（３２０）は、受信された符号化されたビデオシーケンスを解析／エントロピー復号化することができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術又は規格に準拠することができ、当業者に周知の原理に従うこともでき、可変長符号化、ハフマン符号化（Ｈｕｆｆｍａｎｃｏｄｉｎｇ）、文脈依存の有無にかかわらず算術符号化などを含む。パーサ（３２０）は、グループに対応する少なくとも１つのパラメータに基づいて、符号化されたビデオシーケンスから、ビデオ復号器における少なくとも１つの画素のサブグループのサブグループパラメータセットを抽出することができる。サブグループは、ピクチャのグループ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）などを含んでもよい。パーサ（３２０）は、また、符号化されたビデオシーケンス情報から、例えば、変換係数、量子化器パラメータ値、動きベクトルなどの情報を抽出してもよい。

パーサ（３２０）はバッファメモリ（３１５）から受信したビデオシーケンスに対してエントロピー復号化／解析操作を実行することで、シンボル（３２１）を作成することができる。

シンボル（３２１）の再構築は、符号化されたビデオピクチャ又はその一部（例えば、インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロック）のタイプ、及びその他の要因に依存し、複数の異なるユニットに関することができる。関与するユニット及び関与形態について、パーサ（３２０）によって符号化されたビデオシーケンスから解析されたサブグループ制御情報によって制御されることができる。簡潔のために、ここで、パーサ（３２０）と以下で説明する複数のユニットとの間のサブグループ制御情報の流れは説明されない。

既に言及された機能ブロック以外、ビデオ復号器（２１０）は概念的に、後述する若干の機能ユニットに細分することができる。商業制約の下で実行する実際の実現方式において、これらのユニットにおける複数のユニットは互いに密接にインタラクトするとともに、少なくとも部分的に互いに集積されてもよい。しかしながら、開示された主題を説明するという目的のために、概念的に以下の機能ユニットに細分されることは適切である。

一つのユニットはスケーラ／逆変換ユニット（３５１）であってもよい。スケーラ／逆変換ユニット（３５１）は、パーサ（３２０）から（１つ以上の）シンボル（３２１）としての量子化変換係数及び制御情報を受信し、使用する変換方法、ブロックサイズ、量子化係数、量子化スケーリングマトリックスなどを含む。スケーラ／逆変換ユニット（３５１）は、サンプル値を含むブロックを出力することができ、当該ブロックはアグリゲータ（３５５）に入力することができる。

いくつかの場合に、スケーラ／逆変換ユニット（３５１）の出力サンプルは、イントラ符号化ブロック、即ち、以前に再構築されたピクチャからの予測情報を使用しないが、現在のピクチャの以前に再構築された部分からの予測情報を使用するブロックに関してもよい。これらの予測情報は、イントラピクチャ予測ユニット（３５２）によって提供することができる。いくつかの場合に、イントラピクチャ予測ユニット（３５２）は、現在の（部分的に再構築された）ピクチャ（３５６）から抽出された、周囲が既に再構築された情報を使用して、再構築中のブロックと同じサイズ及び形状のブロックを生成する。いくつかの場合に、アグリゲータ（３５５）は、各サンプルに基づいて、イントラ予測ユニット（３５２）によって生成される予測情報を、スケーラ／逆変換ユニット（３５１）から提供される出力サンプル情報に追加する。

他の場合には、スケーラ／逆変換ユニット（３５１）の出力サンプルは、インター符号化ブロックに関することができ、当該ブロックは動き補償が行われた可能性がある。このような場合に、動き補償予測ユニット（３５３）は、参照ピクチャメモリ（３５７）にアクセスして、予測のためのサンプルを抽出してもよい。当該ブロックに関するシンボル（３２１）に基づき、抽出されたサンプルに対して動き補償を行った後に、アグリゲータ（３５５）は、これらのサンプルをスケーラ／逆変換ユニットの出力（この場合に、残差サンプル又は残差信号と呼ばれる）に追加することで、出力サンプル情報を生成することができる。動き補償ユニット（３５３）は参照ピクチャメモリ（３５７）におけるアドレスから予測サンプルを取得し、当該アドレスは動きベクトルによって制御されることができる。動きベクトルはシンボル（３２１）の形で動き補償ユニットによって使用されることができ、当該シンボルは、例えば、Ｘ、Ｙ、及び参照ピクチャ成分を有してもよい。動き補償には、サブサンプルの正確な動きベクトルが使用されている際に参照ピクチャメモリ（３５７）から抽出されたサンプル値の補間、動きベクトル予測メカニズムなどを含んでもよい。

ループフィルタ（３５６）において、アグリゲータ（３５５）の出力サンプルに対して、様々なループフィルタリング技術を採用できる。ビデオ圧縮技術は、ループ内フィルタ技術を含んでもよく、ループ内フィルタ技術は、符号化されたビデオビットストリームに含まれ且つパーサ（３２０）からのシンボル（３２１）としてループフィルタユニット（３５６）に使用可能なパラメータによって制御され、しかしながら、ビデオ圧縮技術は、符号化されたピクチャ又は符号化されたビデオシーケンスの（復号化順序で）前の部分を復号化する期間に得られたメタ情報に応答してもよいし、以前に再構築されループフィルター処理されたサンプル値に応答してもよい。

ループフィルタ（３５６）の出力はサンプルストリームであってもよく、当該サンプルストリームは、将来のインターピクチャ予測で使用されるために、ディスプレイ（２１２）のレンダリングデバイスに出力され、参照ピクチャメモリ（３５６）に記憶されてもよい。

一部の符号化されたピクチャは、完全に再構成されると、将来の予測のために参照ピクチャとして使用されることができる。符号化されたピクチャは完全に再構成され、且つ（例えば、パーサ（３２０）によって）参照ピクチャとして識別されると、現在ピクチャメモリ（３５８）に記憶されている現在の参照ピクチャは参照ピクチャメモリ（３５７）の一部になることができ、そして、その後の符号化されたピクチャの再構築を開始する前に、新しい現在ピクチャメモリを再割り当てることができる。

ビデオ復号器（２１０）は、例えばＩＴＵ－ＴＨ．２６５勧告書の規格に記録されている所定のビデオ圧縮技術に従って、復号化動作を実行してもよい。符号化されたビデオシーケンスがビデオ圧縮技術又は規格の構文に準拠する場合、符号化されたビデオシーケンスは、使用されているビデオ圧縮技術又は規格によって指定される構文、例えば、ビデオ圧縮技術ドキュメント又は規格によって指定される構文、特にその中のプロファイルドキュメントによって指定される構文に準拠することができる。ビデオ圧縮技術又は規格に準拠するために、符号化されたビデオシーケンスの複雑さはビデオ圧縮技術又は規格のレベルで限定されている範囲内にあることができる。いくつかの場合に、レベルは、最大ピクチャのサイズ、最大フレームレート、最大再構成サンプルレート（例えば１秒あたりのメガサンプルを単位として測定する）、最大参照ピクチャサイズなどを制限する。いくつかの場合に、レベルによって設定される制限は、仮想参照復号器（ＨＲＤ）の仕様及び符号化されたビデオシーケンスにおいて信号で示されるＨＲＤバッファ管理のためのメタデータによってさらに制限されてもよい。

一実施例において、受信機（３１０）は、追加の（冗長な）データと符号化されたビデオビデオを受信してもよい。当該追加のデータは符号化されたビデオシーケンス一部として含まれてもよい。ビデオ復号器（２１０）は、当該追加のデータを使用してデータを正確に復号化する、及び／又は、元のビデオデータをより正確に再構築してもよい。追加のデータは、例えば、時間拡張層、空間拡張層、又はＳＮＲ拡張層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形であってもよい。

図４は、本出願の一実施例によるビデオソース（２０１）と関連するビデオ符号器（２０３）の例示的な機能ブロック図を示す。

ビデオ符号器（２０３）は、例えば、ソース符号器（４３０）である符号器、符号化エンジン（４３２）、（ローカル）復号器（４３３）、参照ピクチャメモリ（４３４）、予測器（４３５）、送信機（４４０）、エントロピー符号器（４４５）、コントローラ（４５０）及びチャネル（４６０）を含むことができる。

符号器（２０３）は、ビデオソース（２０１）（符号器の一部ではない）からビデオサンプルを受信してもよく、当該ビデオソースは符号器（２０３）によって符号化される（１つ以上の）ビデオ画像をキャプチャすることができる。

ビデオソース（２０１）は、符号器（２０３）によって符号化されるソースビデオシーケンスをデジタルビデオサンプルストリームの形で提供してもよく、当該デジタルビデオサンプルストリームは、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ…）及び任意の適切なサンプリング構成（例えば、ＹＣｒＣｂ４:２:０、ＹＣｒＣｂ４:４:４）を有してもよい。メディアサービスシステムでは、ビデオソース（２０１）は、以前に準備されたビデオを記憶するストレージデバイスであってもよい。ビデオ会議システムでは、ビデオソース（２０１）は、ローカルイメージ情報をビデオシーケンスとしてキャプチャする撮影装置であってもよい。ビデオデータは、順番に見る際に動きが形成される複数の個別のピクチャとして提供されてもよい。これらのピクチャ自体は空間画素アレイとして構成されてもよく、なお、各画素は、使用されるサンプリング構成、色空間などによって、１つ以上のサンプルを含んでもよい。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明では、サンプルを中心に説明する。

一実施例において、符号器（２０３）は、リアルタイムで、又はアプリケーションによって要求される他の任意の時間制約の下で、ソースビデオシーケンスのピクチャを符号化して圧縮することで、符号化されたビデオシーケンスを得ることができる。コントローラ（４５０）は、適切な符号化速度を強制的に採用する機能を有することができる。コントローラ（４５０）は、以下に説明する他の機能ユニットを制御し、これらのユニットに機能的に結合されてもよい。簡略化のために、当該結合は描かれていない。コントローラ（４５０）によって設置されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のλ値…）、ピクチャサイズ、ピクチャグループ（ＧＯＰ）レイアウト、最大動きベクトル検索範囲などを含んでもよい。コントローラ（４５０）の他の機能は、特定のシステム設計に対して最適化されたビデオ符号器（２０３）に属する可能性があるため、当業者は、これらの機能を容易に認識することができる。

一部のビデオ符号器は、当業者が「符号化ループ」として容易に認識する形態で実行される。非常に簡略化した説明として、符号化ループは、ソース符号器（４３０）の符号化部分（符号化される入力ピクチャ及び（１つ以上の）参照ピクチャに基づいてシンボルを作成することを担当する）、符号器（２０３）に埋め込まれる（ローカルの）復号器（４３３）を含んでもよい。一部のビデオ圧縮技術におけるシンボルと符号化されたビデオビットストリームとの間は可逆圧縮である場合に、当該復号器はシンボルを再構築して（リモート）復号器によっても作成されたサンプルデータを作成する。当該再構築されたサンプルストリームは参照ピクチャメモリ（４３４）に入力されてもよい。シンボルストリームの復号化によって、復号器の位置（ローカル又はリモート）に関係がないビットが正確である結果が得られるため、参照ピクチャメモリ（４３４）のコンテンツもローカル符号器とリモート符号器との間においてビットで正確に対応する。つまり、符号器の予測部分が「見る」参照ピクチャサンプルと、復号器が復号化中に予測を使用する際に「見る」サンプル値とは全く同じである。参照ピクチャの同期性という基本的な原理（及び、例えば、チャネル誤差のため、同期性を維持できない場合に生じるドリフト）は、当業者に周知のものである。

「ローカル」復号器（４３３）の動作は、以上で図４に基づいて詳細に説明されたビデオ復号器（２１０）の「リモート」復号器と同じであってもよい。しかしながら、また、図３を簡単に参照し、シンボルが利用可能であり、且つ、エントロピー符号器（４４５）及びパーサ（３２０）が無損失でシンボルを、符号化されたビデオシーケンスに符号化／復号化できる場合に、チャネル（３１２）、受信機（３１０）、バッファメモリ（３１５）及びパーサ（３２０）を含むビデオ復号器（２１０）のエントロピー復号化部分はローカル復号器（４３３）で完全に実現されない場合がある。

この場合、復号器に存在する解析／エントロピー復号化に加えて、任意の復号器技術も、必然的に基本的に同じ機能形式で対応する符号器に存在することが観察される。そのため、本出願は復号器動作に焦点を合わせている。符号器技術と完全に説明された復号器技術とは相互に逆であるため、符号器技術の説明を簡略化できる。より詳しい説明は、特定の領域のみで必要であり、以下で提供される。

動作の一部として、ソース符号器（４３０）は動き補償予測符号化を実行してもよく、ビデオシーケンスからの「参照ピクチャ」として指定された１つ以上の以前に符号化されたピクチャを参照し、前記動き補償予測符号化は入力ピクチャを予測的に符号化する。このようにして、符号化エンジン（４３２）は入力ピクチャの画素ブロックと、前記入力フレームの予測参照として選択され得る参照ピクチャの画素ブロックとの間の差異を符号化してもよい。

ローカルビデオ復号器（４３３）は、ソース符号器（４３０）によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化されたビデオデータを復号化してもよい。符号化エンジン（４３２）の動作は、非可逆処理であり得る。符号化されたビデオデータがビデオ復号器（図４、図示せず）で復号化され得る場合、再構築されたビデオシーケンスは、通常、多少の誤差を有するソースビデオシーケンスのコピーであり得る。ローカルビデオ復号器（４３３）は、参照フレームに対してビデオ復号器によって実行され得る復号化処理を複製し、再構成された参照フレームを参照ピクチャバッファ（４３４）に記憶してもよい。このようにして、ビデオ符号器（２０３）は、再構成された参照フレームのコピーをローカルに記憶することができ、当該コピーは、リモートビデオ復号器によって得られる再構成された参照フレームと共通のコンテンツを有する（伝送誤差がない）。

予測器（４３５）は、符号化エンジン（４３２）に対して予測検索を実行することができる。つまり、符号化される新しいフレームについて、予測器（４３５）は、参照ピクチャメモリ（４３４）において、前記新しいピクチャの適切な予測参照として使用し得るサンプルデータ（候補参照画素ブロックとする）、又は例えば参照ピクチャの動きベクトル、ブロック形状などの特定のメタデータを検索してもよい。予測器（４３５）は、適切な予測参照を見つけるために、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合に、例えば、予測器（４３５）によって得られた検索結果に基づき、入力ピクチャが、参照ピクチャメモリ（４３４）に記憶された複数の参照ピクチャから取得された予測参照を有し得ると決定することができる。

コントローラ（４５０）は、例えば、ビデオデータを符号化するためのパラメータとサブグループパラメータの設置を含む、ビデオ符号器（４３０）の符号化動作を管理することができる。

エントロピー符号器（４４５）において、上記の全ての機能ユニットの出力に対してエントロピー符号化を行ってもよい。エントロピー符号器（４４５）は、例えばハフマン符号化、可変長符号化、算術符号化などの技術に従って、各機能ユニットによって生成されたシンボルに対して可逆圧縮を行うことにより、前記シンボルを、符号化されたビデオシーケンスに変換する。

送信機（４４０）は、通信チャネル（４６０）を介した伝送の準備をするように、エントロピー符号器（４４５）によって作成された符号化されたビデオシーケンスをバッファリングすることができ、前記通信チャネルは、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア／ソフトウェアリンクであってもよい。送信機（４４０）は、ソース符号器（４３０）からの符号化されたビデオデータを、伝送しようとする他のデータ、例えば、符号化されたオーディオデータ及び／又は補助データストリーム（ソースは図示せず）とともにマージしてもよい。

コントローラ（４５０）は、符号器（２０３）の動作を管理することができる。コントローラ（４５０）は、符号化中に、各符号化されたピクチャに特定の符号化されたピクチャタイプを割り当ることができ、しかしながら、これは、対応するピクチャに適用し得る符号化技術に影響を与える可能性がある。例えば、通常、ピクチャは、イントラピクチャ（Ｉピクチャ）、予測ピクチャ（Ｐピクチャ）、又は双方向予測ピクチャ（Ｂピクチャ）として割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、シーケンス内の任意の他のフレームを予測のソースとして使用せずに符号化及び復号化されるピクチャであってもよい。一部のビデオビデオコーデックは、例えば、独立復号器リフレッシュピクチャ（ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ、「ＩＤＲ」)を含む異なるタイプのイントラピクチャを許容する。当業者は、Ｉピクチャの変形及びその対応する用途と特徴を知っている

予測ピクチャ（Ｐピクチャ）は、イントラ予測又はインター予測を使用して符号化及び復号化を行うピクチャであってもよく、前記イントラ予測又はインター予測は多くとも１つの動きベクトル及び参照インデックスを使用して各ブロックのサンプル値を予測する。

双方向予測ピクチャ（Ｂピクチャ）は、イントラ予測又はインター予測を使用して符号化及び復号化を行うピクチャであってもよく、当該イントラ予測又はインター予測は多くとも２つの動きベクトルと参照インデックスを使用して各ブロックのサンプル値を予測する。同様に、複数の予測ピクチャは、２つを超える参照画像及び関連するメタデータを単一のブロックの再構成に使用できる。

ソースピクチャは一般的に、空間的に、複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８又は１６×１６サンプルのブロック）に細分化され、ブロックごとに符号化してもよい。これらのブロックは、他の（符号化された）ブロックを参照して予測的に符号化してもよく、ブロックに適用される対応するピクチャ符号化割り当てによって前記他のブロックを決定する。例えば、Ｉピクチャのブロックを非予測的に符号化してもよいし、前記ブロックは同じピクチャの符号化されたブロックを参照して予測的（空間的予測又はイントラ予測）に符号化してもよい。Ｐピクチャの画素ブロックは１つの以前に符号化された参照ピクチャを参照して空間的予測又は時間的予測を介して予測的に符号化してもよい。Ｂピクチャのブロックは１つ又は２つの以前に符号化された参照ピクチャを参照して、空間的予測又は時間的予測を介して予測的に符号化してもよい。

ビデオ符号器（２０３）は、例えばＩＴＵ－ＴＨ．２６５勧告書などの所定のビデオ符号化技術又は規格に基づき、符号化動作を実行することができる。ビデオ符号器（２０３）は、動作中に、ビデオ符号器（２０３）は、入力されたビデオシーケンスにおける時間的及び空間的冗長性による予測符号化動作を含む様々な圧縮動作を実行することができる。従って、符号化されたビデオデータは、使用されているビデオ符号化技術又は規格によって指定された構文に準拠し得る。

いくつかの実施例では、送信機（４４０）は、符号化されたビデオとともに追加のデータを送信することができる。ソース符号器（４３０）は、そのようなデータを符号化されたビデオシーケンスの一部としてもよい。追加のデータには、時間的／空間的／ＳＮＲ拡張層、冗長ピクチャ、スライスなどの他の形式の冗長データ、ＳＥメッセージ、ＶＵＩパラメータセットセグメントなどを含んでもよい。

以下、本出願で開示されたいくつかの実施例の態様を説明し、例えば、多用途ビデオ符号化（ＶＶＣ）などのビデオコーデック技術又は規格では実現される高レベル構文アーキテクチャを含む。

Ｈ．２６４のＮＡＬユニットの概念が有用であることが証明され、且つ少なくとも一部のシステム仕様（特定のファイルフォーマットを含む）が当該概念に依存するので、高レベル構文アーキテクチャはこの概念を含むことができる。

任意選択で、高レベル構文アーキテクチャは（独立した、通常の）スライスの概念を含まなくてもよい。２００３年（Ｈ．２６４バージョン１の発行日）以降、イントラ予測メカニズムの数及び効率がますます高まっているため、ビデオ符号化の進歩により、多くの場合、スライスによるエラー隠蔽は実際には不可能になる。同時に、符号化効率の観点から、これらの予測メカニズムは、場合によっては、スライスの使用が非常に多いリソースを占有してしまう。その結果、最近、スライスを使用して本来の目的（ＭＴＵサイズのマッチング）を実現することはほとんどない。しかしながら、基本的に、低遅延、誤り耐性を必要とするすべてのアプリケーションは、例えば、イントラリフレッシュ、オープンＧＯＰ、不均一なベースレイヤー保護を有するスケーラビリティなどの、ピクチャに基づく誤り耐性ツールに依存している。

スライスが削除される場合、エントロピーレベルで独立して復号化可能な（つまり、解析関連性がない）高レベルの構文アーキテクチャの最小のＶＣＬ構文ユニットは、例えば、タイル又は符号化されたピクチャであってもよい。

タイルの独立した復号化は、特定のアプリケーションシナリオに有用であり得る。例えば、立方体マップを考える。空間の特定の視点からは、不透明な立方体の３つの表面のみが同時に見える。したがって、所与の視点による表示のためには、立方体マップを構成するコードピクチャのおそらくは６つある正方形タイルのうち３つだけを復号化すればよい。そのため、少なくとも独立したタイルを必要とするアプリケーションについては、高レベル構文アーキテクチャでは、独立したタイルが基本的に、独立したスライスを置き換えることができる。つまり、Ｈ．２６３＋付属書Ｋにおけるいわゆる長方形スライスがスキャン順スライスを置き換える。動き制約タイルセットも、当該高レベル構文アーキテクチャの要件とすることもできる。

ピクチャ内予測分解メカニズムの一般的な概念は、仕様空間と実施空間の両方におけるパッチワークである。一実施例において、高レベル構文アーキテクチャは個別のフラグを含むことができる。各予測メカニズムについて１つのフラグがあり、当該フラグは所定のタイルに対するデータの予測インポートを管理し、タイルヘッダー又はパラメータセット内に置かれる。従って、当該実現方式は、より優れた、より簡潔で、より柔軟な解決策であり得る。

高レベル構文アーキテクチャを使用する一実施例においては、使用されるプロファイルに基づいてタイリングを可能にする。例えば、ストレートな並列化をサポートする非常に基本的なタイリングメカニズムは、全てのプロファイルの一部としてもよい。また、特定のプロファイルに対してのみ、より高レベルの技術を指定できる。例えば、立方体マップを使用する３６０°プロファイルは、当該アプリケーションのためにカスタマイズされた動き制約付きの独立したタイル、即ち、例えば、３×２配置やクロス状配置などの特定の方法で配置できる６つのタイルを使用することを許可することができる。他のプロファイルは、他の投影フォーマットに適用することができる。例えば、二十面体のタイプの投影はより多くのタイル、又は投影の形状に理想的に対応する他の類似する予測分解メカニズムを必要とする可能性がある。

特別な、アプリケーションによって引き起こされる上記の要件に加えて、符号化されたピクチャは予測を分解する最小ユニットとなる。符号化されたピクチャが予測を分解する最小ユニットである場合、全てのピクチャ内予測メカニズムは分解されず、ピクチャ間予測メカニズムのみが分解される。例えば、特定の古いビデオ符号化規格の特定のメタデータの動き補償及びピクチャ間予測は分解される可能性がある。スライス／タイルがない符号化されたピクチャを効率的にサポートするために、一実施例における高レベル構文アーキテクチャは、構文要素を担持するピクチャヘッダーを含むことができ、当該構文要素はＨ．２６４／Ｈ．２６５においてスライスヘッダーに配置されるが、ピクチャ全体に関連する。一つのそのような構文要素は、ピクチャパラメータセット（ＰＰＳ）への参照であってもよい。以前にスライスヘッダーで提供されたように、ピクチャヘッダーは、それに関するピクチャのみに関連し、その後のピクチャには関連しない。言い換えれば、ピクチャヘッダーのコンテンツは一時的なものであり、また、ピクチャヘッダー間には予測が存在しない（さもなければ、ピクチャに基づく誤り耐性であっても機能しない）。

誤り耐性の側面を無視し、ピクチャヘッダーは、ピクチャの最初の（又は、唯一の）タイルに含まれるか、又はそれ自体のＶＣＬのＮＡＬユニットに含まれることができる。前者はより効率的であり、後者は構造がより簡潔である。

一実施例において、高レベル構文アーキテクチャは、構文（個々のＮＡＬユニット）、及び機能と持続性の範囲の両方について従来のアーキテクチャで提供されるようなピクチャパラメータセット（ＰＰＳ）及びシーケンスパラメータセット（ＳＰＳ）を含んでもよい。

ＳＰＳの上に、高レベル構文アーキテクチャは、フラグ、サブプロファイルなどを含めるために、復号器パラメータセット（ＤＰＳ）を含むことができる。エンドオブストリームＮＡＬユニットが受信されるまで、ビデオストリームの存続期間中、ＤＰＳのコンテンツが一定であることが確保されることができる。

高レベル構文アーキテクチャを使用する一実施例において、エンドオブストリームＮＡＬユニットが外部に含まれることを許可する必要があり得る。例えば、ＳＩＰのｒｅ－ｉｎｖｉｔｅがストリームの基本パラメータを変更した（そして復号システムによって確認された）場合、異なるＤＰＳが現れることを復号システムの復号器に通知する必要がある。当該情報を復号器に提供する唯一の方法が、それをビットストリームに入れることであると、スタートコードのエミュレーション防止などによって、欠陥を引き起こす。また、特定のタイムアウトシナリオにおいては、ビットストリームに当該情報を入れても実際には機能しない。

多くの場合、パケットネットワーク上で符号化されたピクチャを伝送する場合に、符号化されたピクチャは、最大伝送ユニット（ＭＴＵ）のサイズよりも大きい。不必要な予測分解〔ブレーク〕を導入すると符号化効率が低下するため（なにしろ、完全にスライスをなくしたのはまさに符号化効率のためであった）、タイルに依存しないことが好ましい。タイルに依存することが好ましくないまたの理由は、タイルが、並列化及びアプリケーション固有のタイリングという２つの潜在的に矛盾する機能を有するためである。仕様空間のビデオコーデックの内部にフラグメンテーションメカニズムが必要かどうかは、どちらの側面でも正当化できる。ビデオコーデック内にフラグメンテーションメカニズムが必要な場合、高レベル構文アーキテクチャのある実施例は、例えば、まさにそのものであるＨ．２６５の「依存スライス」を使用すればよい。又は、高レベル構文アーキテクチャにおける上位層でフラグメンテーションを提供してもよい。なお、Ｈ．２６ｘビデオの多くのＲＴＰペイロードフォーマットは、符号器によるＭＴＵサイズマッチング（ゲートウェイがコード変換を行わないゲートウェイシナリオで使用される）のためのスライスへの依存に加えて、ある形式のフラグメンテーションが確実に含まれる。

図５を参照して、以上の説明を考慮して、一実施例において、高レベル構文アーキテクチャの構文階層（５０１）は、基本的に次のようになる。

構文階層は、セッションの存続期間中に不変のままである復号器パラメータセット（ＤＰＳ）（５０２）を含むことができる。

いくつかの実施例において、構文階層は、スケーラブルな層を連結するためのビデオパラメータセット（ＶＰＳ）（５０３）を含むことができ、当該ビデオパラメータセットは層の境界を横切るＩＤＲで中断する。

構文階層は、機能が実質的にＨ．２６５に類似しているシーケンスパラメータセット（ＳＰＳ）（５０４）を含むことができ、範囲は符号化されたビデオシーケンスである。

構文階層は、同じセマンティック層にあり且つ類似する範囲を有するピクチャパラメータセット（ＰＰＳ）（５０５）、及びピクチャヘッダー（ＰＨ）（５０６）を含むことができる。つまり、ピクチャパラメータセット（５０５）及びピクチャヘッダー（５０６）は全ての符号化されたピクチャをカバーしてもよいし、符号化されたピクチャの間で変化してもよい。機能の点で、ピクチャパラメータセット（５０５）はＨ．２６５に基本的に類似してもよく、その範囲は符号化されたピクチャである。ピクチャヘッダー（５０６）は、ピクチャの間で変化する可能性のあるピクチャ定数データを含んでもよく、さらに、ピクチャパラメータセット（５０５）への参照を含んでもよい。

いくつかの実施例において、タイルを必要とする適用シナリオの場合、構文階層はタイルヘッダー（５０７）を含むことができる。

いくつかの実施例において、構文階層は、例えば、依存スライスヘッダーであり得る断片化〔フラグメンテーション〕ユニットヘッダー（５０８）を含むことができる。

構文階層は、符号化ユニット（ＣＵ）データを含む符号化されたピクチャのＶＣＬデータ（５０９）を含むことができる。

上記の様々な構文要素及び構文レベルのインタラクションの各態様について、より詳細に以下に説明する。

ピクチャヘッダー／ピクチャパラメータセットのインタラクション

図６を参照し、本出願の実施例に関連して、ピクチャヘッダー（ＰｉｃｔｕｒｅＨｅａｄｅｒ、ＰＨ）（６０１）及びピクチャパラメータセット（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ、ＰＰＳ）（６０２）のインタラクションを以下に説明する。ここで、ピクチャヘッダー（６０１）とピクチャパラメータセット（６０２）の両方は、シンタックスにおける同じ構文レベルにあり、例えば符号化されたピクチャのＶＣＬデータ（５０９）である。

図６を参照して、ＰＨ（６０１）及びＰＰＳ（６０２）の両方は、特定の名前付き構文要素を含むことができる。図６に示すように、一実施例において、ＰＨ（６０１）及びＰＰＳ（６０２）を含むことができ、その両方はいずれも４つの構文要素を含む。しかしながら、ＰＨ（６０１）及びＰＰＳ（６０２）は、例えば、任意のサイズを有し得、異なるサイズを有し得、任意の要素を含み得るなどと理解され得る。これらの構文要素の１つはＰＨ_ｐｐｓ_ｉｄ（６０３）であり、それがＰＨ（６０１）のうちＰＰＳ（６０２）への参照であってもよい。当該構文要素のセマンティックは、古いビデオ符号化規格のスライスヘッダーにおけるｐｐｓ_ｉｄのセマンティックに相当し、即ち、状況に応じて、ＰＰＳ、及び、例えばＳＰＳ、ＶＰＳ、ＤＰＳなどの任意のダウンストリームの上位層のパラメータセットをアクティブ化する。ＰＰＳ（６０２）において、ＰＰＳ_ｐｐｓ_ｉｄ（６０４）は、自己参照であってもよいし、受信するときにＰＰＳのＩＤ識別であってもよい。ピクチャパラメータセットの識別は構文要素の例であり、その中、いくつかの場合に、ＰＨ（６０１）及びＰＰＳ（６０２）の対応する構文要素の値は、適用する各ビットストリームについて同じでなければならない。

ある構文要素は、ＰＨ（６０１）のみに存在するがＰＰＳ（６０２）に存在しない場合がある。少なくともいくつかの場合、これらの構文要素は、ＰＨ（６０１）に当該構文要素が含まれるピクチャに属してもよく、これらの構文要素は、ピクチャの間で変化する可能性がある。基本的に、新しいピクチャを復号化するたびに、新しいＰＰＳ（６０２）をアクティブ化する必要があるので、これらの構文要素をパラメータセット、例えばＰＰＳ（６０２）に入れることで、効率が低下する可能性がある。これらの構文要素の一例は、現在に処理されているピクチャの識別情報、例えば、時間参照、ピクチャ順序番号などであってもよい。例えば、ＰＨ（６０１）はＰＯＣ（６０５）を含んでもよい。ＰＰＳ（６０２）における対応するエントリは、ピクチャタイプに使用されるｐｉｃ_ｔｙｐｅ（６０６）とマークされ、それはＰＰＳ（６０２）のみに存在するがＰＨ（６０１）に存在しない構文要素の例である。従って、ＰＰＳ（６０２）がアクティブ化されたピクチャのすべてについて、ｐｉｃ_ｔｙｐｅ（６０６）の値を使用する。

ある構文要素は、ＰＰＳ（６０２）のみに存在するが、ＰＨ（６０１）に存在しない場合がある。このようなカテゴリには、より大きい構文要素のほとんどがあり得、これらの構文要素は、複数の符号化されたピクチャに関連付けられるが符号化されたビデオシーケンスの全体に適用しない可能性があるか、可能性が高いことが理解される。このような構文要素はピクチャ間で変化する可能性が低いため、異なるＰＰＳ（６０２）をアクティブ化すると負担にならない場合、このような構文要素はＰＰＳ（６０２）に存在するがＰＨ（６０１）に存在しない場合もある。例えば、スケーリングマトリックスなどの、複雑で潜在的に大きなデータセットを考慮すると、当該データセットは、いくつかの（全部でもよい）変換係数が量子化パラメータを個別に選択することを許可することができる。そのようなデータは、所定のピクチャタイプ（例えばＩピクチャ、Ｐピクチャ及びＢピクチャ）内の典型的なピクチャグループ（ＧＯＰ）の過程で変化することはほとんどない。スケーリングリスト情報をＰＨに配置すると、ＰＨが本質的に一時的なものであるので、各符号化されたピクチャで同じスケーリングリストを繰り返して伝送する必要があるという欠点がある。

しかしながら、第３の種類の構文要素が存在し得る。このような構文要素は、例えばｐｐｓ_ｆｏｏ（６０８）及びｐｈ_ｆｏｏ（６０７）などの、類似する名前を有してもよく、且つ、ＰＰＳ（６０２）及びＰＨ（６０１）にはこのような構文要素が存在し得る。これらの構文要素の間の関係は、ビデオ技術又は規格では構文要素の性質によって定義されてもよいし、構文要素によって異なってもよい。

例えば、同一又は別の実施例では、いくつかの他の場合に、例えばｐｈ_ｆｏｏ（６０７）の値などのＰＨ（６０１）における構文要素の値は、ＰＰＳ（６０２）における、名前が類似し且つセマンティックが結合された構文要素の値、例えばｐｐｓ_ｆｏｏ（６０８）の値を上書きすることができる。

同一又は別の実施例では、いくつかの他の場合に、例えばｐｈ_ｂａｒ（６０９）などの、ＰＨ（６０１）における別の構文要素の値は、ＰＰＳ（６０２）における、名前（ここで、「ｂａｒ」）が類似し且つセマンティックが結合された構文要素、例えばｐｐｓ_ｂａｒ（６１０）を、ある形式の予測値として使用する。例えば、いくつかの場合に、ＰＨに基づく構文要素ｐｈ_ｂａｒ（６０９）を、ＰＰＳ（６０２）における名前が類似し且つセマンティックが結合された構文要素ｐｐｓ_ｂａｒ（６１０）に重畳することができ、前記ＰＰＳ（６０２）における名前が類似し且つセマンティックが結合された構文要素ｐｐｓ_ｂａｒ（６１０）からＰＨに基づく構文要素ｐｈ_ｂａｒ（６０９）などを減算することができる。

復号器パラメータセット及びビットストリーム終止

復号器パラメータセット（ＤＰＳ）（５０２）は、ＭＰＥＧ－２のシーケンスヘッダーに非常に類似するが、パラメータセットである。そのため、ＤＰＳ（５０２）は、ＭＰＥＧ－２シーケンスヘッダーと異なり、本質的に一時的なものではない。アクティブ化時間は、それぞれパラメータセット又はヘッダーの復号化時間と異なる場合があるため、あるアクティブ化ルールは、例えば、ＭＰＥＧ－２シーケンスヘッダーと異なるパラメータセットなどの、ヘッダーと異なるパラメータセットに適用されることができる。この重要な違いを考慮すると、ＳＰＳは、ＭＰＥＧ－２のＧＯＰヘッダーに類似し、ＤＰＳは、ＭＰＥＧ－２のシーケンスヘッダーに類似してもよい。

ＤＰＳ（５０２）の範囲は、Ｈ．２６５におけるいわゆるビデオビットストリームであってもよい。ビデオビットストリームは、多くの復号化されたビデオシーケンス（ＣＶＳ）を含んでもよい。Ｈ．２６４及びＨ．２６５には、範囲が所定のＣＶＳを超える特定の要素が存在し、その中に、最初にＨＲＤパラメータである。仕様空間において、Ｈ．２６４及びＨ．２６５は、ＣＶＳレベルを超えるパラメータをＳＰＳに配置し、各符号化されたビデオシーケンスにおいてアクティブ化されたＳＰＳ間で関連情報を一定に保つことを要求することにより、これらのパラメータを処理する。本出願の実施例のＤＰＳは、これらの構文要素を多くのＣＶＳに対して既知で一定であり得る構造に蓄積する。

これまで説明されない１つの態様は、所定の時点で異なるＤＰＳを必要とするパラメータセットを受信する準備ができていなければならないように復号器に信号で通知する方法である。当該パラメータセットは、例えば、定数パラメータを変更する必要のあるＤＰＳ又はＳＰＳであってもよい。

Ｈ．２６４とＨ．２６５の両方はエンドオブストリーム（ＥＯＳ）ＮＡＬユニットを含むが、ＮＡＬユニットは、少なくとも部分的には、後述する構造上の欠点のため、頻繁に使用されない可能性がある。

Ｈ．２６４及びＨ．２６５において、ＥＯＳは、パラメータセットなどの他のいくつかのＮＡＬユニットタイプと異なり、符号化されたビデオビットストリームで伝送される必要があり、その位置は、明確に限定される制約を有する。例えば、Ｈ．２６４又はＨ．２６５において、ＥＯＳは、符号化されたピクチャのＶＣＬのＮＡＬユニット内に配置されることができない。実際に、符号化されたビデオビットストリームにおける適切な位置にＥＯＳＮＡＬユニットを挿入するために、符号器の協力、又は（少なくとも）ビデオ符号化規格の高レベル構文制約を知る別のエンティティの協力が必要である。少なくともいくつかのシナリオにおいて、このような協力は不実用である。例えば、図１の通信システムを参照し、受信端末がネットワークカバーからドロップし、且つ当該端末が符号化されたピクチャに属するＮＡＬユニットを受信している最中であると仮定すると、符号器は、復号器に接続されていないため、復号器にＥＯＳＮＡＬユニットを提供できない。符号化されたピクチャのＮＡＬユニットを受信している際に接続が切断され、ＥＯＳＮＡＬユニットのステッチングも受信機で実行できないため、ＥＯＳを符号化されたピクチャのＮＡＬユニットの間に配置することができない。実際の応用では、受信端末は、その復号器を既知の新しい状態にリセットすることができるが、当該動作には数秒かかる場合がある。これは、提示されたシナリオにとって許容できるかもしれいが、復号器のより速くより明確な反応が必要になる可能性がある他のシナリオが存在する可能性がある。

本出願で開示された同一又は別の実施例では、ＥＯＳは、（例えば、Ｈ．２６４／Ｈ．２６５のように）ビデオストリームの一部として受信されるか、又は帯域外で受信されることができる。

図７を参照して、同一又は別の実施例では、ＥＯＳ（７０１）を帯域外で受信してＥＯＳを処理する場合に、復号器は、ビデオストリームのアクティブ化された復号器パラメータセットを非アクティブ化することができる。アクティブ化された復号器パラメータセット（ＤＰＳ）の非アクティブ化は、構文の競合なしに別の異なるＤＰＳをアクティブ化することができることを意味し、当該異なるＤＰＳの少なくとも１つの値は、以前にアクティブ化されたＤＰＳと異なる。

例えば、アクティブ化されたＤＰＳを非アクティブ化することは、復号器がすぐそのバッファ（７０２）をフラッシュして、再構築されるピクチャ（７０３）の出力を停止することを含むことができる。以前にアクティブ化されたＤＰＳを非アクティブ化した後に、復号器は、新しいビデオストリームを受信する準備をすることができ（７０４）、ここで、新しいビデオストリームは、以前のＤＰＳよりも異なるＤＰＳコンテンツを有してもよい。そして、復号器は、以前のＤＰＳ又は新しいＤＰＳをアクティブ化（任意選択で、復号化及びアクティブ化）することで、新しいビデオストリームの復号化を開始し（７０５）、新しいＤＰＳは以前のＤＰＳと異ってもよい。いつでも、帯域外でＥＯＳを受信する前でも、新しいＤＰＳを受信及び復号化することができる。例えば、パラメータセットの場合と同様に、パラメータセットがアクティブ化される際に存在する限り、パラメータセットを受信及び復号化する時間は、復号化のプロセスとは無関係である。次に、新しいＤＰＳに基づき新しいＣＶＳを復号化することを開始することができる（７０６）。

上記の技術はコンピュータ可読命令を使用してコンピュータソフトウェアとして実現され、１つ以上のコンピュータ可読媒体に物理的に記憶されてもよい。例えば、図８は、本出願で開示された主題のいくつかの実施例を実現するのに適したコンピュータシステム（８００）を示す。

コンピュータソフトウェアは、任意の適切なマシンコード又はコンピュータ言語によって符号化することができ、任意の適切なマシンコード又はコンピュータ言語に対して、アセンブル、コンパイル、リンクなどのメカニズムを実行することで、コンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって直接的に実行されるか、又は解釈、マイクロコードなどによって実行される命令を含むコードを作成することができる。

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機器、モノのインターネット機器などを含む、様々なタイプのコンピュータ又はそれらのコンポーネントで実行されることができる。

図８に示すコンピュータシステム（８００）のコンポーネントは、本質的に例示であり、本開示の実施形態を実現するためのコンピュータソフトウェアの使用範囲又は機能に制限を加えることを意図するものではない。コンポーネントの配置は、コンピュータシステム（８００）の例示的な実施形態に示めされたるコンポーネントのいずれか、又はそれらの組み合わせに関連する依存性又は要件を有するものとして解釈されるべきではない。

コンピュータシステム（８００）はいくつかのヒューマンマシンインターフェース入力機器を含んでもよい。このようなヒューマンマシンインターフェース入力機器は、例えば触覚入力（例えば：キーストローク、スライド、データグローブ移動）、オーディオ入力（例えば：声、手をたたく音）、視覚入力（例えば：姿勢）、嗅覚入力（図示せず）などの１つ又は複数の人間ユーザーによる入力に応答することができる。ヒューマンマシンインターフェース機器はさらに、例えば、オーディオ（例えば、音声、音楽、環境音）、画像（例えば、スキャンした画像、静的画像撮影装置から取得された写真画像）、ビデオ（例えば２次元ビデオ、ステレオビデオが含まれる３次元ビデオ）などの、人間の意識的な入力に必ずしも直接関連しない特定のメディアをキャプチャするために使用されることもできる。

入力ヒューマンマシンインターフェース機器は、キーボード（８０１）、マウス（８０２）、タッチパッド（８０３）、タッチパネル（８１０）、データグローブ（図示せず）、ジョイスティック（８０５）、マイク（８０６）、スキャナ（８０７）、撮影装置（８０８）のうちの１つ又は複数を含んでもよい（それぞれが１つのみ図示される）。

コンピュータシステム（８００）はさらにヒューマンマシンインターフェース出力機器を含んでもよい。このようなヒューマンマシンインターフェース出力機器は、例えば触覚出力、音、光及び匂い／味を介して１つ又は複数の人間ユーザーの感覚を刺激することができる。当該ヒューマンマシンインターフェース出力機器は、触覚出力機器（例えば、タッチパネル（８１０）、データグローブ（図示せず）又はジョイスティック（８０５）による触覚フィードバックを使用するが、入力機器として機能しない触覚フィードバック機器を使用してもよい）、オーディオ出力機器（例えば、スピーカー（８０９）、ヘッドフォン（図示せず））、視覚出力機器（例えば、スクリーン（８１０）、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含み、各スクリーンはタッチパネル入力能力、触覚フィードバック能力を有してもよく、有しなくてもよく、そのうちのいくつかは、立体画像出力のような手段で、２次元の視覚出力又は３次元以上の出力を出力し、バーチャルリアリティ眼鏡（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）がある）、プリンター（図示せず）を含む。

コンピュータシステム（８００）はさらに人間がアクセスし得る記憶機器及びその関連する媒体を含んでもよく、例えば、ＣＤ／ＤＶＤなどの媒体（８２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（８２０）などの光学媒体、サムドライブ（８２２）、取り外し可能なハードドライブ又はソリッドステートドライブ（８２３）、磁気テープとフロッピーディスク（図示せず）のような従来の磁気媒体、例えばドングル（図示せず）などの、専用ＲＯＭ／ＡＳＩＣ／ＰＬＤに基づく機器を含む。

当業者は、本出願で開示された主題に関連して使用される用語「コンピュータ可読媒体」には伝送媒体、搬送波又は他の瞬間信号が含まれないことを理解できる。

コンピュータシステム（８００）はさらに、１つ又は複数の通信ネットワークへのインターフェースを含んでもよい。ネットワークは、例えば無線、有線接続、光学的ネットワークであってもよい。ネットワークは、ローカルエリアネットワーク、広域ネットワーク、メトロポリタンネットワーク、車両工業ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワークの例は、イーサネットのようなローカルエリアネットワーク、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどが含まれるセルラーネットワーク、有線テレビ、衛星テレビ及び地上波テレビが含まれるテレビ有線又は無線広域デジタルネットワーク、ＣＡＮＢｕｓが含まれる車両工業ネットワークなどを含む。一部のネットワークは一般的に、ある汎用データポート又は周辺バス（８４９）（例えば、コンピュータシステム（８００）のＵＳＢポート）に接続される外部ネットワークインターフェースアダプタを必要とし、他のネットワークは一般的に、下記の形式でシステムバスに接続されて、コンピュータシステム（８００）のコアに集積される（例えば、イーサネットインターフェースを介してＰＣコンピュータシステムに集積されるか、又はセルラーネットワークインターフェースを介してスマートフォンコンピュータシステムに集積される）。コンピュータシステム（８００）は、これらのネットワークのいずれかを介して、他のエンティティと通信することができる。このような通信は、一方向受信のみ（例えば、放送テレビ）、一方向送信のみ（例えば、ＣＡＮバスからあるＣＡＮｂｕｓ機器へ)、又は双方向（例えば、ローカルエリア又は広域デジタルネットワークを介して他のコンピュータシステムへ）である。上記の各ネットワーク及びネットワークインターフェースに、特定のプロトコル及びプロトコルスタックを利用することができる。

上記のヒューマンマシンインターフェース機器、人間がアクセスし得る記憶機器及びネットワークインターフェースは、コンピュータシステム（８００）のコア（８４０）に接続されることができる。

コア（８４０）は、１つ又は複数の中央処理ユニット（ＣＰＵ）（８４１）、グラフィック処理ユニット（ＧＰＵ）（８４２）、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ）（８４３）という形式の専用のプログラム可能な処理ユニット、あるタスクのためのハードウェアアクセラレータ（８４４）などを含んでもよい。これらの機器は、読み取り専用メモリ（ＲＯＭ）（８４５）、ランダムアクセスメモリ（８４６）、内部のユーザーがアクセスできないハードディスクドライブ、ＳＳＤなどのような内部大容量記憶装置（８４７）とともに、システムバス（８４８）を介して接続されてもよい。あるコンピュータシステムにおいて、１つ又は複数の物理プラグという形式で、システムバス（８４８）にアクセスすることで、別のＣＰＵ、ＧＰＵなどによって拡張を実現することができる。周囲機器は直接的又は周辺バス（８４９）を介してコアのシステムバス（８４８）に接続される。周辺バスのアーキテクチャはＰＣＩ、ＵＳＢなどを含む。

ＣＰＵ（８４１）、ＧＰＵ（８４２）、ＦＰＧＡ（８４３）及びアクセラレータ（８４４）はいくつかの命令を実行することができ、これらの命令を組み合わせると、以上に言及されたコンピュータコードを構成することができる。当該コンピュータコードはＲＯＭ（８４５）又はＲＡＭ（８４６）に記憶される。一時的なデータはＲＡＭ（８４６）に記憶されてもよく、永久データは、例えば内部大容量記憶装置（８４７）に記憶されてもよい。キャッシュメモリを使用することによって、記憶装置のいずれかへの高速ストレージ及び検索が可能になり、当該キャッシュメモリは１つ又は複数のＣＰＵ（８４１）、ＧＰＵ（８４２）、大容量記憶装置（８４７）、ＲＯＭ（８４５）、ＲＡＭ（８４６）などに密接に関連することができる。

コンピュータ可読媒体は、コンピュータが実現する様々な操作を実行するためのコンピュータコードを有する。媒体とコンピュータコードは、本出願の開示の目的のために、特別に設計及び構築される媒体とコンピュータコードであってもよいし、又は、コンピュータソフトウェアの当業者にとって周知であり、使用可能なタイプのものであってもよい。

限定ではなく例示として、（１つ又は複数）プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形コンピュータ可読媒体に含まれるソフトウェアを実行することで、アーキテクチャ（８００）を有するコンピュータシステム、特にコア（８４０）は、機能を提供することができる。このようなコンピュータ可読媒体は、以上に紹介された、ユーザーがアクセスし得る大容量記憶装置に関連する媒体、及びコア内部大容量記憶装置（８４７）又はＲＯＭ（８４５）のような非一時的な性質であるコア（８４０）の特定の記憶装置であってもよい。本出願で開示された各実施例を実現するためのソフトウェアはこのような機器に記憶され、コア（８４０）によって実行される。特定のニーズに応じて、コンピュータ可読媒体には１つ又は複数の記憶機器又はチップが含まれてもよい。ソフトウェアはコア（８４０）、特にそのうちのプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどが含まれる）に、本明細書で説明される特定のプロセス又は特定のプロセスの特定部分を実行させ、ＲＡＭ（８４６）に記憶されるデータ構成を定義することと、ソフトウェアによって定義されるプロセスに基づき、このようなデータ構成を修正することとが含まれる。また或いは代わりとして、コンピュータシステムは、ロジックハードワイヤード又は他の形式で回路（例えば、アクセラレータ（８４４））に実装されることで機能を提供し、当該回路は、ソフトウェアの代わりとして、又はソフトウェアとともに動作することで、本明細書で説明される特定のプロセス又は特定のプロセスの特定部分を実行することができる。適切な場合、言及されたソフトウェアにはロジックが含まれ、逆に、言及されたロジックにはソフトウェアが含まれてもよい。適切な場合、言及されたコンピュータ可読媒体には、実行されるソフトウェアが記憶される回路（例えば、集積回路（ＩＣ））、実行されるロジックを含む回路、或いはその両方が含まれてもよい。本出願の開示にはハードウェアとソフトウェアの任意の適切な組み合わせが含まれる。

本出願は、いくつかの例示的な実施例を既に説明したが、本出願で開示された範囲内にある変更、置き換え及び様々代替の均等物が存在する。従って、当業者は、様々なシステム及び方法を思い付くことができ、これらのシステム及び方法は、本明細書では明示的に示されていないか又は記載されていないが、本出願で開示された原理を具体化したので、その精神及び範囲内にあることは理解できる。

Claims

少なくとも１つのビデオストリームを復号するための方法であって、前記少なくとも１つのビデオストリームにおける各ビデオストリームは、それぞれの復号器パラメータセットに関連付けられており、前記方法は、
復号器が、前記少なくとも１つのビデオストリームにおける第１のビデオストリームの復号器パラメータセットをアクティブ化するステップと、
前記復号器が、前記第１のビデオストリームの外部にあって前記復号器に利用可能なエンドオブストリームＮＡＬユニットを処理するステップと、
前記復号器が、前記エンドオブストリームＮＡＬユニットを処理することに応答して、前記復号器が、前記第１のビデオストリームの復号器パラメータセットを非アクティブ化するステップと、を含み、
前記第１のビデオストリームの復号器パラメータセットをアクティブ化する前記ステップは、
前記第１のビデオストリームの復号器パラメータセットのパラメータに基づき、前記第１のビデオストリームを復号化するステップ、を含み、
前記復号器は、前記第１のビデオストリームに関連付けられる少なくとも１つのピクチャパラメータセット（ＰＰＳ）及び少なくとも１つのピクチャヘッダーを使用して前記第１のビデオストリームを復号化し、前記少なくとも１つのピクチャヘッダー及び前記少なくとも１つのＰＰＳは、前記第１のビデオストリームの前記復号器パラメータセットよりも低い構文レベルにある、
方法。
前記第１のビデオストリームの復号器パラメータセットをアクティブ化した後、前記復号器が前記エンドオブストリームＮＡＬユニットを処理するまで、前記第１のビデオストリームの復号器パラメータセットはアクティブ化されたままである請求項１に記載の方法。
前記第１のビデオストリームの復号器パラメータセットを非アクティブ化した後に、前記復号器が前記少なくとも１つのビデオストリームにおける第２のビデオストリームの復号器パラメータセットをアクティブ化するステップ、をさらに含む請求項１または２に記載の方法。
前記第２のビデオストリームの復号器パラメータセットは、前記第１のビデオストリームの復号器パラメータセットと異なるコンテンツを有する請求項３に記載の方法。
前記復号器が前記エンドオブストリームＮＡＬユニットを処理する前に、前記復号器が前記第２のビデオストリームの復号器パラメータセットを受信するステップ、をさらに含む請求項３に記載の方法。
前記復号器が前記エンドオブストリームＮＡＬユニットを処理した後に、前記復号器が前記第２のビデオストリームの復号器パラメータセットを受信するステップ、をさらに含む請求項３に記載の方法。
前記第１のビデオストリームの前記復号器パラメータセットを非アクティブ化する前記ステップは、
前記復号器のバッファをフラッシュするステップと、
前記復号器によって復号化された前記第１のビデオストリームのピクチャの出力を停止するステップと、
を含む請求項１乃至６のうちいずれか１項に記載の方法。
前記少なくとも１つのピクチャヘッダー及び前記少なくとも１つのＰＰＳは、同じ構文レベルにある請求項１に記載の方法。
請求項１ないし８のうちいずれか一項に記載の方法を実行するように構成された復号装置。
請求項１乃至８のいずれか１項に記載の方法をコンピュータに実行させるコンピュータプログラム。