JP5993092B2

JP5993092B2 - 映像復号化方法及びそれを利用する装置

Info

Publication number: JP5993092B2
Application number: JP2015531013A
Authority: JP
Inventors: ヘンドリーヘンドリー; チュンヨンパク; チュルクンキム; ピョンムンチョン; チョンスンキム
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2012-09-09
Filing date: 2013-09-09
Publication date: 2016-09-14
Anticipated expiration: 2033-09-09
Also published as: CN104620585A; US20150288976A1; JP2015531556A; WO2014038906A1; EP2876882A1; EP2876882A4; KR20150054752A

Description

本発明は、ビデオ圧縮技術に関し、より具体的には、スケーラブルビデオコーディングを実行する方法及び装置に関する。

最近、高解像度、高品質の映像に対する要求が多様な応用分野で増加している。映像が高解像度で高品質になるほど該当映像に対する情報量も共に増加している。

情報量の増加によって多様な性能の装置と多様な環境のネットワークが登場している。多様な性能の装置と多様な環境のネットワークが登場するにつれて、同じコンテンツを多様な品質で利用可能になった。

具体的に、端末装置がサポートできる品質の映像が多様化し、構築されたネットワーク環境が多様化することによって、ある環境では一般的な品質の映像を利用するが、他の環境ではより高い品質の映像を利用可能になる。

例えば、携帯端末でビデオコンテンツを購買した消費者がホーム内の大画面のディスプレイを介して同じビデオコンテンツをより大きい画面とより高い解像度で鑑賞することができる。

最近、ＨＤ(ＨｉｇｈＤｅｆｉｎｉｔｉｏｎ)解像度を有する放送がサービスされながら、多くのユーザは、既に高解像度、高画質の映像に慣れており、サービス提供者とユーザは、ＨＤＴＶと共にＨＤＴＶの４倍以上の解像度を有するＵＨＤ(ＵｌｔｒａＨｉｇｈＤｅｆｉｎｉｔｉｏｎ)のサービスにも関心を向けている。

したがって、多様な環境でユーザが要求する映像サービスを品質によって多様に提供するために、高容量ビデオに対する高効率のエンコーディング/デコーディング方法に基づいて映像の品質、例えば、映像の画質、映像の解像度、映像の大きさ、ビデオのフレームレートなどにスケーラビリティを提供することが必要である。また、このようなスケーラビリティに伴われる多様な映像処理方法が論議されなければならない。

本発明は、ビットストリーム内のスケーラビリティ情報を記述する方法及び装置を提供することを目的とする。

また、本発明は、柔軟な方式により多様な種類のビットストリームのスケーラビリティ情報を表現する方法及び装置を提供することを目的とする。

また、本発明は、ビットストリーム内のスケーラビリティレイヤを識別する方法及びそれを利用する装置を提供することを目的とする。

本発明の一実施形態による複数のレイヤを含むビットストリームをデコーディングする映像のデコーディング方法は、レイヤのスケーラビリティを識別するディメンションタイプ及び前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤの長さに対する情報を含むビデオパラメータセットを受信するステップ、及び、前記ビデオパラメータセットをパーシングして前記ビットストリームに含まれているスケーラビリティの情報を誘導するステップを含む。

前記ディメンションタイプの個数、前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤ、レイヤＩＤのうち少なくとも一つをさらに受信するステップを含む。

前記ディメンションタイプと前記ディメンションＩＤは、既設定された表を参照して把握されることができる。

ｉ番目のレイヤに対する前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤの長さの和は、前記ｉ番目のレイヤに対する前記レイヤＩＤのビット数と同じである。

ｉ番目のレイヤに対する前記ディメンションＩＤの長さの和は、６である。

前記ディメンションタイプは、多視点スケーラビリティ(ｍｕｌｔｉｖｉｅｗｓｃａｌａｂｉｌｉｔｙ)、深さスケーラビリティ(ｄｅｐｔｈｓｃａｌａｂｉｌｉｔｙ)、空間的スケーラビリティ(ｓｐａｔｉａｌｓｃａｌａｂｉｌｉｔｙ)及び画質スケーラビリティ(ｑｕａｌｉｔｙｓｃａｌａｂｉｌｉｔｙ)のうち少なくとも一つを含む。

前記ディメンションタイプの個数が２の場合、前記ディメンションＩＤの長さに対する情報は、一つのみ受信される。

前記レイヤＩＤのビット数を分割して前記ディメンションＩＤを指示するかどうかを示すフラグ情報を受信するステップをさらに含み、前記ディメンションＩＤは、前記フラグ情報が０の値を有する場合に受信される。

本発明の他の実施形態による複数のレイヤを含むビットストリームをデコーディングする映像のデコーディング装置は、前記複数のレイヤのスケーラビリティを識別するディメンションタイプ及び前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤの長さに対する情報を含むビデオパラメータセットに対する情報をパーシングしてスケーラビリティ情報を把握する情報把握部、及び、前記スケーラビリティ情報を利用して上位レイヤの映像を復元する上位レイヤデコーディング部を含む。

本発明の一実施例によると、ビットストリーム内のスケーラビリティ情報を記述する方法及び装置が提供される。

また、本発明の一実施例によると、柔軟な方式により多様な種類のビットストリームのスケーラビリティ情報を表現する方法及び装置が提供される。

また、本発明の一実施例によると、ビットストリーム内のスケーラビリティレイヤを識別する方法及びそれを利用する装置が提供される。

本発明の一実施例によってスケーラビリティをサポートするビデオエンコーディング装置を概略的に示すブロック図である。本発明の一実施例によってスケーラビリティをサポートするビデオデコーディング装置を概略的に示すブロック図である。本発明が適用されることができる、複数レイヤを利用したスケーラブルビデオコーディング構造の一実施例を概略的に示す概念図である。多視点コーディングに対するフレームワークの一例を示す。深さマップを利用して３Ｄビデオのコーディングに対するフレームワークの一例を示す。空間的スケーラビリティコーディングに対するフレームワークの一例を示す。画質スケーラビリティコーディングに対するフレームワークの一例を示す。本発明の一実施例に係るビデオエンコーディング装置を示す制御ブロック図である。本発明の一実施例に係るビデオデコーディング装置を示す制御ブロック図である。本発明による映像情報のエンコーディング方法を説明した制御流れ図である。本発明による映像情報のデコーディング方法を説明するための制御流れ図である。

本発明は、多様な変更を加えることができ、多様な実施例を有することができ、特定の実施例を図面に例示して詳細に説明する。しかし、これは本発明を特定の実施形態に対して限定するものではない。本明細書で使用する用語は、単に特定の実施例を説明するために使われたものであり、本発明の技術的思想を限定するために使われたものではない。単数の表現は、文脈上明白に異なる意味ではない限り、複数の表現を含む。本明細書において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品またはこれらを組合せたものが存在することを指定するものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品またはこれらを組合せたものの存在または付加可能性を予め排除しないと理解しなければならない。

一方、本発明で説明される図面上の各構成は、ビデオエンコーディング装置/デコーディング装置で互いに異なる特徴的な機能に対する説明の便宜のために独立的に図示したものであり、各構成が互いに別個のハードウェアや別個のソフトウェアで具現されるということを意味しない。例えば、各構成のうち二つ以上の構成が統合されて一つの構成になることもでき、一つの構成が複数の構成に分けられることもできる。各構成が統合及び/または分離された実施例も本発明の本質から外れない限り本発明の権利範囲に含まれる。

以下、添付図面を参照して、本発明の好ましい実施例をさらに詳細に説明する。以下、図面上の同じ構成要素に対しては同じ参照符号を使用し、同じ構成要素に対する重複説明は省略する。

スケーラビリティをサポートするビデオコーディング方法(以下、「スケーラブルコーディング」という)では入力信号をレイヤ別に処理することができる。レイヤによって入力信号(入力映像)は、解像度(ｒｅｓｏｌｕｔｉｏｎ)、フレームレート(ｆｒａｍｅｒａｔｅ)、ビットデプス(ｂｉｔ−ｄｅｐｔｈ)、カラーフォーマット(ｃｏｌｏｒｆｏｒｍａｔ)、アスペクト率(ａｓｐｅｃｔｒａｔｉｏ)のうち少なくとも一つが異なる。

本明細書において、スケーラブルコーディングとは、スケーラブルエンコーディングとスケーラブルデコーディングを含む。

スケーラブルエンコーディング/デコーディングではレイヤ間の差を利用することによって、即ち、スケーラビリティに基づいてレイヤ間予測を実行することによって、情報の重複送信/処理を減らして圧縮効率を上げることができる。

図１は、本発明の一実施例によってスケーラビリティをサポートするビデオエンコーディング装置を概略的に示すブロック図である。

図１を参照すると、エンコーディング装置１００は、レイヤ１に対するエンコーディング部１０５とレイヤ０に対するエンコーディング部１３５を含む。

レイヤ０は、ベースレイヤ、参照レイヤまたは下位レイヤであり、レイヤ１は、エンハンスメントレイヤ、現在レイヤまたは上位レイヤである。

レイヤ１のエンコーディング部１０５は、予測部１１０、変換/量子化部１１５、フィルタリング部１２０、ＤＰＢ(ＤｅｃｏｄｅｄＰｉｃｔｕｒｅＢｕｆｆｅｒ)１２５、エントロピーコーディング部１３０、及びＭＵＸ(Ｍｕｌｔｉｐｌｅｘｅｒ)１６５を含む。

レイヤ０のエンコーディング部１３５は、予測部１４０、変換/量子化部１４５、フィルタリング部１５０、ＤＰＢ１５５及びエントロピーコーディング部１６０を含む。

予測部１１０、１４０は、入力された映像に対してインター予測とイントラ予測を実行することができる。予測部１１０、１４０は、所定の処理単位に予測を実行することができる。予測の実行単位は、コーディングユニット(ＣｏｄｉｎｇＵｎｉｔ：ＣＵ)であってもよく、予測ユニット(ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ：ＰＵ)であってもよく、変換ユニット(ＴｒａｎｓｆｏｒｍＵｎｉｔ：ＴＵ)であってもよい。

例えば、予測部１１０、１４０は、ＣＵ単位にインター予測を適用するか、またはイントラ予測を適用するかを決定し、ＰＵ単位に予測のモードを決定し、ＰＵ単位またはＴＵ単位に予測を実行することもできる。実行される予測は、予測ブロックの生成とレジデュアルブロック(レジデュアル信号)の生成を含む。

インター予測を介しては現在ピクチャの以前ピクチャ及び/または以後ピクチャのうち少なくとも一つのピクチャの情報に基づいて予測を実行して予測ブロックを生成することができる。イントラ予測を介しては現在ピクチャ内のピクセル情報に基づいて予測を実行して予測ブロックを生成することができる。

インター予測のモードまたは方法として、スキップ(ｓｋｉｐ)モード、マージ(ｍｅｒｇｅ)モード、ＭＶＰ(ＭｏｔｉｏｎＶｅｃｔｏｒＰｒｅｄｉｃｔｏｒ)モード方法などがある。インター予測では予測対象である現在ＰＵに対して参照ピクチャを選択し、参照ピクチャ内で現在ＰＵに対応する参照ブロックを選択することができる。予測部１１０、１４０は、参照ブロックに基づいて予測ブロックを生成することができる。

予測ブロックは、整数サンプル単位に生成されることもでき、整数以下ピクセル単位に生成されることもできる。このとき、動きベクトルも整数ピクセル単位または整数ピクセル以下の単位に表現されることができる。

インター予測において、動き情報、即ち、参照ピクチャのインデックス、動きベクトル、レジデュアル信号などの情報は、エントロピーエンコーディングされてデコーディング装置に伝達される。スキップモードが適用される場合は、レジデュアルを生成、変換、量子化、送信しない。

イントラ予測において、予測モードは、３３個の方向性予測モードと少なくとも二つ以上の非方向性モードを有することができる。非方向性モードは、ＤＣ予測モード及びプレーナモード(Ｐｌａｎａｒモード)を含むことができる。イントラ予測では、参照サンプルにフィルタを適用した後、予測ブロックを生成することもできる。

ＰＵは、多様なサイズ/形態のブロックであり、例えば、インター予測の場合、ＰＵは、２Ｎ×２Ｎブロック、２Ｎ×Ｎブロック、Ｎ×２Ｎブロック、またはＮ×Ｎブロック(Ｎは整数)などである。イントラ予測の場合、ＰＵは、２Ｎ×２ＮブロックまたはＮ×Ｎブロック(Ｎは整数)などである。このとき、Ｎ×Ｎブロック大きさのＰＵは、特定の場合にのみ適用するように設定することができる。例えば、最小大きさＣＵに対してのみＮ×Ｎブロック大きさのＰＵを利用するように定め、またはイントラ予測に対してのみ利用するように定めることもできる。また、前述した大きさのＰＵ外に、Ｎ×ｍＮブロック、ｍＮ×Ｎブロック、２Ｎ×ｍＮブロックまたはｍＮ×２Ｎブロック(ｍ<１)などのＰＵをより定義して使用することもできる。

また、予測部１１０は、レイヤ０の情報を利用してレイヤ１に対する予測を実行することができる。本明細書では、他のレイヤの情報を利用して現在レイヤの情報を予測する方法を、説明の便宜のために、インターレイヤ予測という。

他のレイヤの情報を利用して予測される(即ち、インターレイヤ予測により予測される)現在レイヤの情報として、テクスチャ、動き情報、ユニット情報、所定のパラメータ(例えば、フィルタリングパラメータ等)などがある。

また、現在レイヤに対する予測に利用される(即ち、インターレイヤ予測に利用される)他のレイヤの情報として、テクスチャ、動き情報、ユニット情報、所定のパラメータ(例えば、フィルタリングパラメータなど)がある。

インターレイヤ予測の一例として、インターレイヤ動き予測は、インターレイヤインター予測という。インターレイヤインター予測によると、レイヤ０(参照レイヤまたはベースレイヤ)の動き情報を利用してレイヤ１(現在レイヤまたはエンハンスメントレイヤ)の現在ブロックに対する予測を実行することができる。

インターレイヤインター予測を適用する場合は、参照レイヤの動き情報をスケーリングすることもできる。

インターレイヤ予測の他の例として、インターレイヤテクスチャ予測は、インターレイヤイントラ予測またはイントラＢＬ(ＢａｓｅＬａｙｅｒ)予測とも呼ばれる。インターレイヤテクスチャ予測は、参照レイヤ内の参照ブロックがイントラ予測により復元された場合に適用されることができる。

インターレイヤイントラ予測では、参照レイヤ内の参照ブロックのテクスチャをエンハンスメントレイヤの現在ブロックに対する予測値として使用することができる。このとき、参照ブロックのテクスチャは、アップサンプリングによりスケーリングされることができる。

インターレイヤ予測の他の例であるインターレイヤユニットパラメータ予測では、ベースレイヤのユニット(ＣＵ、ＰＵ及び/またはＴＵ)情報を誘導してエンハンスメントレイヤのユニット情報として使用し、またはベースレイヤのユニット情報に基づいてエンハンスメントレイヤのユニット情報を決定することができる。

また、ユニット情報は、各ユニットレベルでの情報を含むことができる。例えば、ＣＵ情報の場合、パーティション(ＣＵ、ＰＵ及び/またはＴＵ)に対する情報、変換に対する情報、予測に対する情報、コーディングに対する情報を含むことができる。ＰＵ情報の場合、ＰＵパーティションに対する情報、予測に対する情報(例えば、動き情報、予測モードに対する情報等)などを含むことができる。ＴＵに対する情報は、ＴＵパーティションに対する情報、変換に対する情報(変換係数、変換方法等)などを含むことができる。

また、ユニット情報は、処理単位(例えば、ＣＵ、ＰＵ、ＴＵ等)の分割情報のみを含むこともできる。

インターレイヤ予測の他の例であるインターレイヤパラメータ予測では、ベースレイヤで使用したパラメータを誘導してエンハンスメントレイヤで再使用するようにし、またはベースレイヤで使用したパラメータに基づいてエンハンスメントレイヤに対するパラメータを予測することができる。

ここでは、インターレイヤ予測の例として、インターレイヤテクスチャ予測、インターレイヤ動き予測、インターレイヤユニット情報予測、インターレイヤパラメータ予測を説明したが、本発明で適用できるインターレイヤ予測は、これに限定されるものではない。

例えば、予測部１１０は、インターレイヤ予測として、他のレイヤのレジデュアル情報を利用して現在レイヤのレジデュアルを予測し、これに基づいて現在レイヤ内の現在ブロックに対する予測を実行するインターレイヤレジデュアル予測を利用することもできる。

また、予測部１１０は、インターレイヤ予測として、現在レイヤの復元ピクチャと他のレイヤの復元ピクチャをアップサンプリングまたはダウンサンプリングした映像間の差分(差分映像)映像を利用して現在レイヤ内の現在ブロックに対する予測を実行するインターレイヤ差分予測を実行することもできる。

また、予測部１１０は、インターレイヤ予測として、他のレイヤのシンタックス情報を利用して現在ブロックのテクスチャを予測または生成するインターレイヤシンタックス予測を利用することもできる。このとき、現在ブロックの予測に利用する参照レイヤのシンタックス情報は、イントラ予測モードに対する情報、動き情報などである。

このとき、参照レイヤで、イントラ予測モードが適用されたブロック(ｉｎｔｒａ)からはイントラ予測モードを参照し、インター予測モードが適用されたブロック(ＭＶ)からは動き情報を参照することで、インターレイヤシンタックス予測を実行することができる。

例えば、参照レイヤがＰスライスやＢスライスであるが、スライス内の参照ブロックは、イントラ予測モードが適用されたブロックである。このような場合、インターレイヤシンタックス予測を適用すると、参照レイヤのシンタックス情報のうち参照ブロックのイントラ予測モードを利用して現在ブロックに対するテクスチャを生成/予測するインターレイヤ予測を実行することができる。

前述したインターレイヤを利用した多様な予測方法は、特定のブロックに対する予測時、複数個が利用されることもできる。例えば、現在ブロックを予測するためにレイヤ０の予測情報を利用しながら、対応されるレイヤ０または対応ブロックのユニット情報またはフィルタリングパラメータ情報などを追加的に利用することができる。このようなインターレイヤ予測方法の結合は、本明細書の以下で説明される予測にも適用されることができる。

変換/量子化部１１５、１４５は、変換ブロック単位にレジデュアルブロックに対する変換を実行して変換係数を生成し、変換係数を量子化することができる。

変換ブロックは、サンプルの方形ブロックであって、同じ変換が適用されるブロックである。変換ブロックは、変換ユニット(ＴＵ)であり、クワッドツリー(ｑｕａｄｔｒｅｅ)構造を有することができる。

変換/量子化部１１５、１４５は、レジデュアルブロックに適用された予測モードとブロックの大きさによって変換を実行して変換係数の２次元アレイを生成することができる。例えば、レジデュアルブロックにイントラ予測が適用され、ブロックが４×４のレジデュアル配列の場合、レジデュアルブロックをＤＳＴ(ＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ)を利用して変換し、その他の場合、レジデュアルブロックをＤＣＴ(ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ)を利用して変換することができる。

変換/量子化部１１５、１４５は、変換係数を量子化することで、量子化された変換係数を生成することができる。

変換/量子化部１１５、１４５は、量子化された変換係数をエントロピーコーディング部１３０、１６０に伝達することができる。このとき、変換/量子化部１４５は、量子化された変換係数の２次元アレイを所定のスキャン順序によって１次元アレイに再整列してエントロピーコーディング部１３０、１６０に伝達することもできる。また、変換/量子化部１１５、１４５は、インター予測のために、レジデュアルと予測ブロックに基づいて生成された復元ブロックを変換/量子化せずに、フィルタリング部１２０、１５０に伝達することができる。

一方、変換/量子化部１１５、１４５は、必要に応じて、変換を省略(ｓｋｉｐ)して量子化のみを実行し、または変換と量子化を両方とも省略することもできる。例えば、変換/量子化部１１５、１４５は、特定の予測方法が適用され、または特定の大きさを有するブロック、または特定の予測ブロックが適用された特定の大きさのブロックに対して変換を省略することもできる。

エントロピーコーディング部１３０、１６０は、量子化された変換係数に対するエントロピーエンコーディングを実行することができる。エントロピーエンコーディングには、例えば、指数ゴロム(ＥｘｐｏｎｅｎｔｉａｌＧｏｌｏｍｂ)、ＣＡＢＡＣ(Ｃｏｎｔｅｘｔ−ＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ)などのようなエンコーディング方法を使用することができる。

フィルタリング部１２０、１５０は、デブロッキングフィルタ、ＡＬＦ(ＡｄａｐｔｉｖｅＬｏｏｐＦｉｌｔｅｒ)、ＳＡＯ(ＳａｍｐｌｅＡｄａｐｔｉｖｅＯｆｆｓｅｔ)を復元されたピクチャに適用することができる。

デブロッキングフィルタは、復元されたピクチャでブロック間の境界に発生した歪曲を除去することができる。ＡＬＦ(ＡｄａｐｔｉｖｅＬｏｏｐＦｉｌｔｅｒ)は、デブロッキングフィルタを介してブロックがフィルタリングされた後、復元された映像と原映像を比較した値に基づいてフィルタリングを実行することができる。ＳＡＯは、デブロッキングフィルタが適用されたレジデュアルブロックに対し、ピクセル単位に原映像とのオフセット差を復元し、バンドオフセット(ＢａｎｄＯｆｆｓｅｔ)、エッジオフセット(ＥｄｇｅＯｆｆｓｅｔ)などの形態に適用される。

フィルタリング部１２０、１５０は、デブロッキングフィルタ、ＡＬＦ、ＳＡＯを全部適用せずに、デブロッキングフィルタのみを適用し、またはデブロッキングフィルタとＡＬＦのみを適用し、またはデブロッキングフィルタとＳＡＯのみを適用することもできる。

ＤＰＢ１２５、１５５は、フィルタリング部１２０、１５０から復元ブロックまたは復元ピクチャの伝達を受けて格納することができる。ＤＰＢ１２５、１５５は、復元ブロックまたはピクチャをインター予測を実行する予測部１１０、１４０に提供することができる。

レイヤ０のエントロピーコーディング部１６０で出力される情報とレイヤ１のエントロピーコーディング部１３０で出力される情報は、ＭＵＸ１６５でマルチプレキシングされてビットストリームで出力されることができる。

一方、ここでは説明の便宜のために、レイヤ１のエンコーディング部１０５がＭＵＸ１６５を含むと説明したが、ＭＵＸは、レイヤ１のエンコーディング部１０５及びレイヤ０のエンコーディング部１３５とは別途の装置またはモジュールであってもよい。

図１のエンコーディング装置は、カメラなどを含んで映像を撮像してエンコーディングすることができる電子装置等で具現されることができる。例えば、エンコーディング装置は、テレビ、コンピュータシステム、携帯電話またはタブレットＰＣのような個人端末機などで具現され、またはこれらの電子装置に含まれることができる。

図２は、本発明によってスケーラブルコーディングを実行するエンコーディング装置でのインターレイヤ予測に対する一例を説明するブロック図である。

図２を参照すると、デコーディング装置２００は、レイヤ１のデコーディング部２１０とレイヤ０のデコーディング部２５０を含む。

レイヤ１のデコーディング部２１０は、エントロピーデコーディング部２１５、再整列部２２０、逆量子化部２２５、逆変換部２３０、予測部２３５、フィルタリング部２４０、メモリを含むことができる。

レイヤ０のデコーディング部２５０は、エントロピーデコーディング部２５５、再整列部２６０、逆量子化部２６５、逆変換部２７０、予測部２７５、フィルタリング部２８０、メモリ２８５を含むことができる。

エンコーディング装置から映像情報を含むビットストリームが送信されると、ＤＥＭＵＸ２０５は、レイヤ別に情報をデマルチプレキシングして各レイヤ別デコーディング装置に伝達することができる。

エントロピーデコーディング部２１５、２５５は、エンコーディング装置で使用したエントロピーコーディング方式に対応してエントロピーデコーディングを実行することができる。例えば、エンコーディング装置でＣＡＢＡＣが使われた場合、エントロピーデコーディング部２１５、２５５もＣＡＢＡＣを利用してエントロピーデコーディングを実行することができる。

エントロピーデコーディング部２１５、２５５でデコーディングされた情報のうち予測ブロックを生成するための情報は、予測部２３５、２７５に提供され、エントロピーデコーディング部２１５、２５５でエントロピーデコーディングが実行されたレジデュアル値、即ち、量子化された変換係数は、再整列部２２０、２６０に入力されることができる。

再整列部２２０、２６０は、エントロピーデコーディング部２１５、２５５でエントロピーデコーディングされたビットストリームの情報、即ち、量子化された変換係数をエンコーディング装置で再整列した方法に基づいて再整列することができる。

例えば、再整列部２２０、２６０は、１次元アレイの量子化された変換係数を再び２次元アレイの係数に再整列することができる。再整列部２２０、２６０は、現在ブロック(変換ブロック)に適用された予測モード及び/または変換ブロックの大きさに基づいてスキャニングを実行して係数(量子化された変換係数)の２次元アレイを生成することができる。

逆量子化部２２５、２６５は、エンコーディング装置で提供された量子化パラメータと再整列されたブロックの係数値に基づいて逆量子化を実行して変換係数を生成することができる。

逆変換部２３０、２７０は、変換係数に対してエンコーディング装置の変換部が実行した変換に対する逆変換を実行することができる。逆変換部２３０、２７０は、エンコーディング装置で実行されたＤＣＴ(ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ)及びＤＳＴ(ＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ)に対して逆ＤＣＴ及び/または逆ＤＳＴを実行することができる。

エンコーディング装置において、ＤＣＴ及び/またはＤＳＴは、予測方法、現在ブロックの大きさ及び予測方向など、複数の情報によって選択的に実行されることができ、デコーディング装置の逆変換部２３０、２７０は、エンコーディング装置で実行された変換情報に基づいて逆変換を実行することができる。

例えば、逆変換部２３０、２７０は、予測モード/ブロック大きさによって逆ＤＣＴと逆ＤＳＴを適用することができる。例えば、逆変換部２３０、２７０は、イントラ予測が適用された４×４ルマブロックに対して逆ＤＳＴを適用することもできる。

また、逆変換部２３０、２７０は、予測モード/ブロック大きさに関係なく、特定の逆変換方法を固定的に使用することもできる。例えば、逆変換部２３０、２７０は、全ての変換ブロックに逆ＤＳＴのみを適用することができる。また、逆変換部２３０、２７０は、全ての変換ブロックに逆ＤＣＴのみを適用することもできる。

逆変換部２３０、２７０は、変換係数または変換係数のブロックを逆変換してレジデュアルまたはレジデュアルブロックを生成することができる。

逆変換部２３０、２７０は、また、必要に応じてまたはエンコーディング装置でエンコーディングされた方式によって、変換を省略(ｓｋｉｐ)することもできる。例えば、逆変換２３０、２７０は、特定の予測方法が適用され、または特定の大きさを有するブロック、または特定の予測ブロックが適用された特定の大きさのブロックに対して変換を省略することもできる。

予測部２３５、２７５は、エントロピーデコーディング部２１５、２５５から伝達された予測ブロック生成関連情報とメモリ２４５、２８５で提供された以前にデコーディングされたブロック及び/またはピクチャ情報に基づいて現在ブロックに対する予測ブロックを生成することができる。

現在ブロックに対する予測モードがイントラ予測(ｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ)モードの場合、予測部２３５、２７５は、現在ピクチャ内のピクセル情報に基づいて現在ブロックに対するイントラ予測を実行することができる。

現在ブロックに対する予測モードがインター予測(ｉｎｔｅｒｐｒｅｄｉｃｔｉｏｎ)モードの場合、予測部２３５、２７５は、現在ピクチャの以前ピクチャまたは以後ピクチャのうち少なくとも一つのピクチャに含まれている情報に基づいて現在ブロックに対するインター予測を実行することができる。インター予測に必要な動き情報の一部または全部は、エンコーディング装置から受信した情報を確認し、これに対応して誘導されることができる。

インター予測のモードとしてスキップモードが適用される場合は、エンコーディング装置からレジデュアルが送信されず、予測ブロックを復元ブロックにすることができる。

一方、レイヤ１の予測部２３５は、レイヤ１内の情報のみを利用してインター予測またはイントラ予測を実行することもでき、他のレイヤ(レイヤ０)の情報を利用してインターレイヤ予測を実行することもできる。

例えば、レイヤ１の予測部２３５は、レイヤ１の動き情報、レイヤ１のテクスチャ情報、レイヤ１のユニット情報、レイヤ１のパラメータ情報のうち一つを利用して現在ブロックに対する予測を実行することができる。

レイヤ１の予測部２３５は、レイヤ０の予測部２７５からレイヤ１の動き情報の伝達を受けて動き予測を実行することができる。インターレイヤ動き予測をインターレイヤインター予測ともいう。インターレイヤ動き予測により、参照レイヤ(ベースレイヤ)の動き情報を利用して現在レイヤ(エンハンスメントレイヤ)の現在ブロックに対する予測が実行されることができる。予測部２３５は、必要な場合、参照レイヤの動き情報をスケーリングして利用することもできる。

レイヤ１の予測部２３５は、レイヤ０の予測部２７５からレイヤ０のテクスチャ情報の伝達を受けてテクスチャ予測を実行することができる。テクスチャ予測は、インターレイヤイントラ予測またはイントラＢＬ(ＢａｓｅＬａｙｅｒ)予測とも呼ばれる。テクスチャ予測は、参照レイヤの参照ブロックがイントラ予測により復元された場合に適用されることができる。または、テクスチャ予測は、参照レイヤに参照インデックスを割り当てて参照することもできる。

レイヤ１の予測部２３５は、レイヤ０の予測部２７５からレイヤ０のユニットパラメータ情報の伝達を受けてユニットパラメータ予測を実行することができる。ユニットパラメータ予測により、ベースレイヤのユニット(ＣＵ、ＰＵ及び/またはＴＵ)情報がエンハンスメントレイヤのユニット情報として使われ、またはベースレイヤのユニット情報に基づいてエンハンスメントレイヤのユニット情報が決定されることができる。

レイヤ１の予測部２３５は、レイヤ０の予測部２７５からレイヤ０のフィルタリングに対するパラメータ情報の伝達を受けてパラメータ予測を実行することもできる。パラメータ予測により、ベースレイヤで使用したパラメータを誘導してエンハンスメントレイヤで再使用し、またはベースレイヤで使用したパラメータに基づいてエンハンスメントレイヤに対するパラメータを予測することができる。

加算器２９０、２９５は、予測部２３５、２７５で生成された予測ブロックと逆変換部２３０、２７０で生成されたレジデュアルブロックとを利用して復元ブロックを生成することができる。この場合、加算器２９０、２９５を、復元ブロックを生成する別途のユニット(復元ブロック生成部)と見ることができる。

加算器２９０、２９５で復元されたブロック及び/またはピクチャは、フィルタリング部２４０、２８０に提供されることができる。

図２の例を参照すると、レイヤ１のフィルタリング部２４０は、レイヤ１の予測部２３５及び/またはレイヤ０のフィルタリング部２８０から伝達されるパラメータ情報を利用して復元されたピクチャに対するフィルタリングを実行することもできる。例えば、レイヤ１のフィルタリング部２４０は、レイヤ０で適用されたフィルタリングのパラメータから予測されたパラメータを利用してレイヤ１に対するまたはレイヤ間のフィルタリングを適用することができる。

メモリ２４５、２８５は、復元されたピクチャまたはブロックを格納して参照ピクチャまたは参照ブロックとして使用可能にする。メモリ２４５、２８５は、格納された復元ピクチャを所定の出力部(図示せず)またはディスプレイ(図示せず)を介して出力することもできる。

図２の例では、再整列部、逆量子化部、逆変換部などに分けて説明したが、図１のエンコーディング装置のように、逆量子化/逆変換部の一モジュールで再整列、逆量子化、逆変換を順に実行するようにデコーディング装置を構成することもできる。

図１及び図２の例では、予測部と説明したが、発明に対する理解を容易にするために、レイヤ１の予測部は、他のレイヤ(レイヤ０)の情報を利用して予測を実行するインターレイヤ予測部と、他のレイヤ(レイヤ０)の情報を利用せずに予測を実行するインター/イントラ予測部とを含むとみることもできる。

図２のデコーディング装置は、映像を再生し、または再生して表示することができる多様な電子装置で具現されることができる。例えば、デコーディング装置は、セットトップボックス、テレビ、コンピュータシステム、携帯電話、タブレットＰＣのような個人端末機などで具現され、またはこれらの電子装置に含まれることができる。

ビットストリーム内の複数のレイヤをサポートするビデオの符号化及び復号化、即ち、スケーラブルコーディング(ｓｃａｌａｂｌｅｃｏｄｉｎｇ)の場合、複数のレイヤ間には強い連関性(ｃｏｒｒｅｌａｔｉｏｎ)が存在するため、このような連関性を利用して予測を実行すると、データの重複要素を除去することができ、映像の符号化性能を向上させることができる。以下、他のレイヤの情報を利用して予測の対象となる現在レイヤの予測を実行することをレイヤ間予測(ｉｎｔｅｒ−ｌａｙｅｒｐｒｅｄｉｃｔｉｏｎ)と表現する。スケーラブルビデオコーディングは、以下、符号化観点では、スケーラブルビデオ符号化と同じ意味を有し、復号化観点では、スケーラブルビデオ復号化と同じ意味を有する。

複数のレイヤは、解像度、フレームレート、カラーフォーマットのうち少なくとも一つが互いに異なり、レイヤ間予測時、解像度の調節のためにレイヤのアップサンプリングまたはダウンサンプリングが実行されることができる。

図３は、本発明が適用されることができる、複数レイヤを利用したスケーラブルビデオコーディング構造の一実施例を概略的に示す概念図である。図３において、ＧＯＰ(ＧｒｏｕｐｏｆＰｉｃｔｕｒｅ)は、ピクチャ群、即ち、ピクチャのグループを示す。

映像データを送信するためには送信媒体が必要であり、その性能は多様なネットワーク環境に応じて送信媒体別に異なる。このような多様な送信媒体またはネットワーク環境への適用のためにスケーラブルビデオコーディング方法が提供されることができる。

スケーラブルビデオコーディング方法は、レイヤ(ｌａｙｅｒ)間のテクスチャ情報、動き情報、残余信号などを活用してレイヤ間重複性を除去して符号化/復号化性能を高めるコーディング方法である。スケーラブルビデオコーディング方法は、送信ビット率、送信エラー率、システムリソースなどの周辺条件に応じて、空間的、時間的、画質的観点で多様なスケーラビリティを提供することができる。

スケーラブルビデオコーディングは、多様なネットワーク状況に適用可能なビットストリームを提供することができるように、複数レイヤ(ｍｕｌｔｉｐｌｅｌａｙｅｒｓ)構造を使用して実行されることができる。例えば、スケーラブルビデオコーディング構造は、一般的な映像符号化方法を利用して映像データを圧縮処理するベースレイヤを含むことができ、ベースレイヤの符号化情報及び一般的な映像符号化方法を共に使用して映像データを圧縮処理するエンハンスメントレイヤを含むことができる。

ここで、レイヤ(ｌａｙｅｒ)は、空間(ｓｐａｔｉａｌ、例えば、映像大きさ)、時間(ｔｅｍｐｏｒａｌ、例えば、符号化順序、映像出力順序、フレームレート)、画質、複雑度などを基準に区分される映像及びビットストリーム(ｂｉｔｓｔｒｅａｍ)の集合を意味する。また、ベースレイヤは、参照レイヤまたはＢａｓｅｌａｙｅｒを意味し、エンハンスメントレイヤは、Ｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒを意味する。また、複数のレイヤは、相互間に従属性を有することもできる。

図３を参照すると、例えば、ベースレイヤは、ＳＤ(ｓｔａｎｄａｒｄｄｅｆｉｎｉｔｉｏｎ)、１５Ｈｚのフレーム率、１Ｍｂｐｓビット率として定義されることができ、第１のエンハンスメントレイヤは、ＨＤ(ｈｉｇｈｄｅｆｉｎｉｔｉｏｎ)、３０Ｈｚのフレーム率、３.９Ｍｂｐｓビット率として定義されることができ、第２のエンハンスメントレイヤは、４Ｋ−ＵＨＥ(ｕｌｔｒａｈｉｇｈｄｅｆｉｎｉｔｉｏｎ)、６０Ｈｚのフレーム率、２７.２Ｍｂｐｓビット率として定義されることができる。前記フォーマット(ｆｏｒｍａｔ)、フレーム率、ビット率等は、一実施例に過ぎず、必要に応じて変更されることができる。また、使われるレイヤの数も本実施例に限定されるものではなく、状況に応じて変更されることができる。

例えば、送信帯域幅が４Ｍｂｐｓの場合、前記第１のエンハンスメントレイヤＨＤのフレームレートを減らして１５Ｈｚ以下に送信することができる。スケーラブルビデオコーディング方法は、前記図３の実施例で詳述した方法により、時間的、空間的、画質的スケーラビリティを提供することができる。

スケーラブルビデオコーディングは、以下、符号化観点ではスケーラブルビデオ符号化と同じ意味を有し、復号化観点ではスケーラブルビデオ復号化と同じ意味を有する。

一方、複数のレイヤを含むビットストリームは、パケットスイッチングネットワーク(ｐａｃｋｅｔ−ｓｗｉｔｃｈｉｎｇｎｅｔｗｏｒｋ)を介してビデオの適応的送信を容易にするＮＡＬ(ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ)ユニットで構成される。複数のレイヤと同様に、ビットストリーム内の複数の多視点映像を含むマルチビュービデオコーディング(ｍｕｌｔｉ−ｖｉｅｗｖｉｄｅｏｃｏｄｉｎｇ)で複数の視点間の関係は、複数のレイヤをサポートするビデオでの空間的レイヤ(ｓｐａｔｉａｌｌａｙｅｒ)間の関係と同様である。

コンテンツ伝達経路(ｃｏｎｔｅｎｔｄｅｌｉｖｅｒｙｐａｔｈ)での全てのノードでビットストリームを効果的且つ効率的に変換するためには、ビットストリームのスケーラビリティ情報が非常に重要である。現在単一レイヤに対するビデオコーディングに対する標準(ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｖｉｄｅｏｃｏｄｉｎｇ)ではＮＡＬユニットヘッダ(ｈｅａｄｅｒ)にレイヤ情報と関連したフィールドが２個存在する。

表１は、ＮＡＬユニットヘッダの一例を示す。

表１を参照すると、ｆｏｒｂｉｄｄｅｎ_ｚｅｒｏ_ｂｉｔは、１の値を有する。

ｎａｌ_ｕｎｉｔ_ｔｙｐｅは、該当ｎａｌユニットの種類を示す。

ｎｕｈ_ｒｅｓｅｒｖｅｄ_ｚｅｒｏ_６ｂｉｔｓは、以後の他のレイヤ、即ち、スケーラビリティに対する情報を示すための領域であり、該当レイヤを識別するレイヤＩＤに対する情報を含むことができる。

３ｂｉｔｓの長さを有するｔｅｍｐｏｒａｌ_ｉｄは、ビデオビットストリームの時間的レイヤ(ｔｅｍｐｏｒａｌｌａｙｅｒ)を示す。時間的レイヤは、ビデオコーディングレイヤ(ｖｉｄｅｏｃｏｄｉｎｇｌａｙｅｒ、ＶＣＬ)ＮＡＬユニットで構成された時間的にスケールされることができるビットストリームのレイヤを意味し、時間的レイヤは、特定のｔｅｍｐｏｒａｌ_ｉｄ値を有する。

複数のスケーラビリティ(例えば、多視点、３Ｄ拡張)をサポートするビットストリームのコーディングにも表１のようなＮＡＬユニットヘッダ構造を使用することができる。この場合、ＮＡＬユニットヘッダでスケーラビリティに対する情報、例えば、レイヤＩＤのような情報は、表１の６ビットのｎｕｈ_ｒｅｓｅｒｖｅｄ_ｚｅｒｏ_６ｂｉｔｓを介して伝達されることができる。

したがって、ＮＡＬユニットヘッダでシグナリングされるレイヤＩＤ情報と該当レイヤのスケーラビリティタイプ、即ち、レイヤにどのようなスケーラビリティが適用されるかをマッピングさせる情報のシグナリングが必要である。

スケーラビリティのタイプ、種類及びこれらをレイヤＩＤとマッピングさせる情報は、ビデオパラメータセット(ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔ)に含まれることができ、スケーラビリティをサポートするビットストリームに対するビデオパラメータセット拡張(ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔｅｘｔｅｎｓｉｏｎ)に含まれることができる。

本発明は、複数のレイヤをサポートするビットストリーム内で映像のレイヤ的情報(ｓｃａｌａｂｉｌｉｔｙｉｎｆｏｒｍａｔｉｏｎ)を効果的に記述し、これをシグナリングするための方法及びそれを具現する装置に関する。

表２は、現在ビデオパラメータセットに対する一例を示す。

表２を参照すると、ｖｉｄｅｏ_ｐａｒａｍｅｔｅｒ_ｓｅｔ_ｉｄは、他の構文要素により参照される該当ビデオパラメータセットを識別するための構文要素である。

ｖｐｓ_ｔｅｍｐｏｒａｌ_ｉｄ_ｎｅｓｔｉｎｇ_ｆｌａｇは、ｖｐｓ_ｍａｘ_ｓｕｂ_ｌａｙｅｒｓ_ｍｉｎｕｓ１が０より大きい場合、ビデオパラメータセットを参照するコーディングされたビデオシーケンスに対して追加的にインター予測が制限されるかどうかを示す。ｖｐｓ_ｍａｘ_ｓｕｂ_ｌａｙｅｒｓ_ｍｉｎｕｓ１が０の場合、ｖｐｓ_ｔｅｍｐｏｒａｌ_ｉｄ_ｎｅｓｔｉｎｇ_ｆｌａｇは１にならなければならない。ｖｐｓ_ｔｅｍｐｏｒａｌ_ｉｄ_ｎｅｓｔｉｎｇ_ｆｌａｇの構文要素は、時間的サブレイヤのアップサンプリング時に使われる。

ｒｅｓｅｒｖｅｄ_ｚｅｒｏ_２ｂｉｔｓは、ビットストリーム内で３になることができ、３でない他の値は、追加的に異なるように使われることができ、この場合、デコーディング部は、ｒｅｓｅｒｖｅｄ_ｚｅｒｏ_２ｂｉｔｓ値を無視することができる。

ｍａｘ_ｎｕｍ_ｌａｙｅｒｓ_ｍｉｎｕｓ１に１を加えた値は、ビデオパラメータセットを参照するコーディングされたビデオシーケンス内に存在するレイヤの最大数を示す。

ｖｐｓ_ｍａｘ_ｓｕｂ_ｌａｙｅｒｓ_ｍｉｎｕｓ１に１を加えた値は、コーディングされたビデオシーケンス内に存在できる時間的サブレイヤの最大数を示す。ｖｐｓ_ｍａｘ_ｓｕｂ_ｌａｙｅｒｓ_ｍｉｎｕｓ１は、０〜６の値を有することができる。

ｎｅｘｔ_ｅｓｓｅｎｔｉａｌ_ｉｎｆｏ_ｂｙｔｅ_ｏｆｆｓｅｔは、ＮＡＬユニットの始めからビデオパラメータセットＮＡＬユニット内の固定長さコーディング情報の次のセットに対するバイトオフセットを示す。

ベースレイヤまたはベース視点でないビデオパラメータセット情報は、固定された長さのコーディングされた情報であり、ビデオパラメータセットＮＡＬユニットの割り当てられたバイト位置から始まる。ｎｅｘｔ_ｅｓｓｅｎｔｉａｌ_ｉｎｆｏ_ｂｙｔｅ_ｏｆｆｓｅｔにより特定されるバイトオフセットは、エントロピーデコーディングをする必要なく、ビデオパラメータセットＮＡＬユニット内の必須な情報への接近を容易にすることができる。このようなｎｅｘｔ_ｅｓｓｅｎｔｉａｌ_ｉｎｆｏ_ｂｙｔｅ_ｏｆｆｓｅｔに対する情報は、セッション交渉及び/または容量交換のための必須な情報である。

ｖｐｓ_ｍａｘ_ｄｅｃ_ｐｉｃ_ｂｕｆｆｅｒｉｎｇ[ｉ]は、映像格納バッファの単位でコーディングされたビデオシーケンスのために要求されるデコーディングされたピクチャバッファの最大大きさを示す。

ｖｐｓ_ｍａｘ_ｎｕｍ_ｒｅｏｒｄｅｒ_ｐｉｃｓ[ｉ]は、コーディングされたビデオシーケンスの任意のピクチャよりデコーディング順序で先行することができ、出力順序で後行することができるピクチャの許容可能な最大数を示す。

ｖｐｓ_ｍａｘ_ｌａｔｅｎｃｙ_ｉｎｃｒｅａｓｅ[ｉ]は、０でない値を有し、最大遅延ピクチャの個数を演算するときに使われる値であり、コーディングされたビデオシーケンスの任意のピクチャよりデコーディング順序で先行することができ、出力順序で後行することができるピクチャの最大数を示す。

ｎｕｍ_ｈｒｄ_ｐａｒａｍｅｔｅｒｓは、ビデオパラメータセットに存在するｈｒｄ_ｐａｒａｍｅｔｅｒｓ()構文要素の個数を示し、ビットストリームでｎｕｍ_ｈｒｄ_ｐａｒａｍｅｔｅｒｓは、１より小さいまたは同じ値を有することができる。もし、この値が１より小さいまたは同じ値でない場合、デコーディング部は、ｎｕｍ_ｈｒｄ_ｐａｒａｍｅｔｅｒｓ値として構文要素で指示している１〜１０２４範囲の異なる値を許容することができる。

ｂｉｔ_ｅｑｕａｌ_ｔｏ_ｏｎｅは、１の値を有する。

ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｆｌａｇが０の場合、ビデオパラメータセット構文要素にｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｄａｔａ_ｆｌａｇ構文要素が存在しないことを意味し、ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｆｌａｇが１の場合、レイヤ拡張バージョンのためにｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｄａｔａ_ｆｌａｇ構文要素が存在することを意味する。

ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｄａｔａ_ｆｌａｇは、レイヤ拡張バージョンのためのデータが存在するかどうかを示す値であり、どんな値も有することができる。

もし、ビットストリームが複数のレイヤをサポートするレイヤ拡張バージョンである場合、ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｆｌａｇ及びｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｄａｔａ_ｆｌａｇは１であり、レイヤに対する多様な情報は、ビットストリーム内のビデオパラメータ、例えば、ビデオパラメータセット拡張(ｖｉｄｅｏｐａｒａｍｅｔｅｒｓｅｔｓｅｘｔｅｎｓｉｏｎ)に含まれてシグナリングされることができる。

ビデオパラメータセット拡張に含まれることができるレイヤの情報は、レイヤが有することができる全てのスケーラビリティ、即ち、ディメンションに対する情報を含むことができ、このようなディメンションに対する情報は、表を利用して設定されることもできる。

その他、レイヤに対してシグナリングされる情報には、レイヤのディメンションの個数、各レイヤの各ディメンションの能動的範囲、レイヤ識別に対する情報、直接的な参照レイヤに対するリストなどが含まれることができる。

各レイヤに対するディメンションを示すための全体ビット数は、表１のＮＡＬユニットヘッダでシグナリングされるレイヤＩＤをシグナリングするために割り当てられたビット数にマッチングされなければならない。もし、ＮＡＬユニットヘッダでシグナリングされるレイヤＩＤが６ビットの場合、各レイヤに適用されることができるディメンションを記述する全体ビット数は６になる。

以下の表３は、本発明の一実施例に係るビデオパラメータセットの拡張を示す。

表３を参照すると、ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｂｙｔｅ_ａｌｉｇｎｍｅｎｔ_ｒｅｓｅｒｖｅｄ_ｏｎｅ_ｂｉｔは、１になる。

ｎｕｍ_ｄｉｍｅｎｓｉｏｎｓ_ｍｉｎｕｓ１[ｉ]に１を加えた値は、各レイヤでシグナリングされるディメンションタイプとディメンションＩＤの個数を示す。

ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ[ｉ]は、以下の表４に示すように、ｉ番目のレイヤのｊ番目のスケーラビリティディメンションタイプを示す。

複数のスケーラビリティをサポートするビットストリームでディメンションタイプ(ｄｉｍｅｎｓｉｏｎｔｙｐｅ)とは、空間的スケーラビリティ、画質スケーラビリティのようなスケーラビリティのタイプを意味し、ディメンションＩＤ(ｄｉｍｅｎｓｉｏｎＩＤ)は、特定のディメンションタイプが有することができるレイヤに対するインデックス、特定のディメンションタイプが適用されるレイヤを識別する情報を意味する。

ディメンションタイプ(ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ)は、レイヤのスケーラビリティＩＤに該当するディメンションＩＤ(ｄｉｍｅｎｓｉｏｎ_ｉｄ)にマッピングされることができる。

表４を参照すると、スケーラビリティタイプには多視点スケーラビリティ(ｍｕｌｔｉｖｉｅｗｓｃａｌａｂｉｌｉｔｙ)、深さスケーラビリティ(ｄｅｐｔｈｓｃａｌａｂｉｌｉｔｙ)、空間的スケーラビリティ(ｓｐａｔｉａｌｓｃａｌａｂｉｌｉｔｙ)及び画質スケーラビリティ(ｑｕａｌｉｔｙｓｃａｌａｂｉｌｉｔｙ)が存在できる。

ｎｕｍ_ｄｉｍｅｎｓｉｏｎｓ_ｍｉｎｕｓ１[ｉ]がシグナリングされると、０から１ずつ増加しながら、ディメンション個数ほどｉ番目のレイヤに対するディメンションタイプ(ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ)に対する情報がシグナリングされる。

ｉ番目のレイヤに対してシグナリングされるｄｉｍｅｎｓｉｏｎ_ｔｙｐｅが０の場合、該当レイヤには多視点スケーラビリティが適用されることを示し、ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅが１の場合、該当レイヤには深さスケーラビリティが適用されることを示す。ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅが２の場合、該当レイヤには空間的スケーラビリティが適用され、ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅが３の場合、該当レイヤには画質スケーラビリティが適用される。表４によると、一つのレイヤは、最大４種類のスケーラビリティを有することができる。

表４に示すディメンションＩＤは、ビットストリームでサポートされることができるスケーラビリティに対する一例示に過ぎず、ディメンションＩＤは、さらに追加されることもでき、ビットストリームは、表４に記述されている４個のディメンションのうち一部のみをサポートすることもできる。ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅの４〜１５の値は、追加的なスケーラビリティのタイプを記述するときに使われることができる。

以下、具体的に各ディメンションタイプ及びディメンションＩＤに対して説明する。

ディメンションＩＤが多視点スケーラビリティ(ｍｕｌｔｉｖｉｅｗｓｃａｌａｂｉｌｉｔｙ)を識別することができるｖｉｅｗｏｒｄｅｒｉｄｘの場合、これはレイヤが多視点コーディング構造でコーディングされたことを意味する。

図４は、多視点コーディングに対するフレームワークの一例を示す。

図示されているように、多視点コーディングのために総５個のカメラで映像ストリームが生成されることができ、カメラ１により生成された映像のストリームは、ベース視点になる。残りのカメラ２〜５により生成された映像は、カメラ１を含む他の視点映像を参照してコーディングされることができる。

カメラ３で生成される映像ストリームは、ベース視点を参照して予測が実行され、コーディングされる他の視点(例えば、視点２)になることができる。

また、カメラ２で生成される映像ストリームは、ベース視点及び視点２を参照して予測が実行され、コーディングされる他の視点(例えば、視点３)になることができる。

そして、カメラ５で生成される映像ストリームは、ベース視点を参照して予測が実行され、コーディングされる他の視点(例えば、視点４)になることができる。

カメラ４で生成される映像ストリームは、ベース視点及び視点４を参照して予測が実行され、コーディングされる他の視点(例えば、視点５)になることができる。

ｖｉｅｗｏｒｄｅｒｉｄｘは、ビットストリーム内で多視点レイヤの順序(ｔｈｅｏｒｄｅｒｏｆｔｈｅｖｉｅｗｌａｙｅｒ)、即ち、複数の多視点レイヤのうちいずれのレイヤを示すかを識別する値である。ｖｉｅｗｏｒｄｅｒｉｄｘは、ＮＡＬユニットと関連したレイヤＩＤの一部を構成することができる。

ディメンションＩＤが深さスケーラビリティ(ｄｅｐｔｈｓｃａｌａｂｉｌｉｔｙ)を識別するｄｅｐｔｈｏｒｄｅｒｉｄｘの場合、これはレイヤが３Ｄビデオコーディング構造でコーディングされたことを意味する。３Ｄビデオコーディングには３Ｄピクチャを表現するために一つまたはそれ以上のコーディングされたフレームに深さマップ(ｄｅｐｔｈｍａｐ)が使われ、ｄｅｐｔｈｏｒｄｅｒｉｄｘは、コーディングされた３Ｄビデオビットストリームで深さマップのレイヤまたは深さ順序(ｔｈｅｏｒｄｅｒｏｆｔｈｅｄｅｐｔｈｌａｙｅｒ/ｏｒｄｅｒ)を識別する。

図５は、深さマップを利用して３Ｄビデオのコーディングに対するフレームワークの一例を示す。

図５に示すように、３Ｄ映像は、複数の深さマップを利用してコーディングされることができ、ベースレイヤは、深さ順序１及び深さ順序２で表現されることができる上位レイヤにより参照されることができる。深さ順序Ｎで表示されているレイヤは、Ｎより低い順序を有するレイヤに対する深さ依存性を有することができる。

ｄｅｐｔｈｏｒｄｅｒｉｄｘは、深さマップのレイヤまたは深さ順序、即ち、複数の深さマップレイヤのうちいずれのレイヤを示すかを識別する値である。ｄｅｐｔｈｏｒｄｅｒｉｄｘは、ＮＡＬユニットと関連したレイヤＩＤの一部を構成することができる。

ディメンションＩＤが空間的スケーラビリティ(ｓｐａｔｉａｌｓｃａｌａｂｉｌｉｔｙ)を識別することができるｄｅｐｅｎｄｅｎｃｙＩＤの場合、これは上位レイヤが下位レイヤのコーディングされた映像を参照して予測及び空間的スケーラビリティコーディングが実行されることを意味する。

図６は、空間的スケーラビリティコーディングに対するフレームワークの一例を示す。

空間的スケーラビリティが適用される映像において、各空間的スケーラビリティレイヤは、下位レイヤと、該当下位レイヤより大きい空間的解像度(例えば、ピクチャ幅またはピクチャ高さ)を有する上位レイヤで構成されている。

ｄｅｐｅｎｄｅｎｃｙＩＤがＮであるレイヤは、ベースレイヤになることができ、ｄｅｐｅｎｄｅｎｃｙＩＤがＮ＋１であるレイヤは、ｄｅｐｅｎｄｅｎｃｙＩＤがＮであるレイヤより大きい解像度を有する上位レイヤであり、ベースレイヤのコーディングされた映像情報を利用してコーディングされることができる。

ｄｅｐｅｎｄｅｎｃｙＩＤは、ビットストリーム内の空間的レイヤ順序を示し、ＮＡＬユニットと関連したレイヤＩＤの一部を構成することができる。

ディメンションＩＤが画質スケーラビリティ(ｑｕａｌｉｔｙｓｃａｌａｂｉｌｉｔｙ)を識別することができるｑｕａｌｉｔｙＩＤの場合、これは上位レイヤが下位レイヤのコーディングされた映像を参照して予測及び画質スケーラビリティコーディングが実行されることを意味する。

図７は、画質スケーラビリティコーディングに対するフレームワークの一例を示す。

画質スケーラビリティが適用される映像において、各画質スケーラビリティレイヤは、下位レイヤと、該当下位レイヤと同じ空間的解像度(例えば、ピクチャ幅またはピクチャ高さ)を有する一方で、視覚的に画質が優秀な上位レイヤで構成されている。

ｑｕａｌｉｔｙＩＤがＮであるレイヤは、ベースレイヤになることができ、ｑｕａｌｉｔｙＩＤがＮ＋１であるレイヤは、ｑｕａｌｉｔｙＩＤがＮであるレイヤより向上した画質を有する上位レイヤであり、ベースレイヤを利用してコーディングされることができる。

ｑｕａｌｉｔｙＩＤは、ビットストリーム内の画質スケーラビリティレイヤ順序を示し、ＮＡＬユニットと関連したレイヤＩＤの一部を構成することができる。

画質スケーラビリティは、空間的スケーラビリティと同じコデックス構造が適用されることができ、この場合、画質スケーラビリティと空間的スケーラビリティは、一つのＩＤで示すこともできる。

前述したように、ビットストリームは、多様なスケーラビリティをサポートするレイヤを含むことができ、スケーラビリティは、ディメンションタイプに対する情報とこれにマッピングされる該当ディメンションに対するレイヤを識別するためのディメンションＩＤに対する情報で表現されることができる。この場合、ディメンションタイプは、エンコーディング装置からデコーディング装置にシグナリングされることができ、ディメンションタイプとディメンションＩＤのマッピング関係は、既設定された表を介してエンコーディング装置及びデコーディング装置と事前に設定されることができる。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]は、ｉ番目のディメンションＩＤに対する長さ、即ち、ビット数を示し、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]の値は、１〜６範囲の値になることができ、ｉ番目のレイヤに対するｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]の和は、６にならなければならない。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]は、ｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎまたはｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎ_ｍｉｎｕｓ１などの構文要素でシグナリングされることもできる。この場合、ｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎまたはｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎ_ｍｉｎｕｓ１により特定される値の和は、６にならなければならない。

ｉ番目のレイヤのディメンションを示す情報は、該当レイヤを識別するためにＮＡＬユニットヘッダに含まれているレイヤＩＤとマッピングされなければならず、したがって、ディメンションを示すディメンションＩＤの長さ、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]の総和は、レイヤＩＤの長さと同じまたは小さいべきである。

レイヤを識別するレイヤＩＤの長さが６ビットの場合、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]は、１〜６の値を有することができ、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]の総和は、６ビットにならなければならない。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]は、依存性情報が適用されるｉ番目のレイヤのレイヤＩＤを示し、ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]の各ビットは、下記のように構成されることができる。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[０]＋ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[１]＋…＋ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｎｕｍ_ｄｉｍｅｎｓｉｏｎ_ｍｉｎｕｓ１]

ビデオパラメータセットに含まれているレイヤＩＤ情報は、ＮＡＬユニットヘッダで含まれているレイヤを識別する情報と同じである。

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[ｉ]は、ｉ番目のレイヤが直接的に参照するレイヤの個数を示す。

ｒｅｆ_ｌａｙｅｒ_ｉｄ[ｉ][ｊ]は、ｉ番目のレイヤが直接的に参照するｊ番目のレイヤを識別する情報である。

表３のビデオパラメータセットに含まれている構文要素によってスケーラビリティ情報を把握する一例を説明すると、下記の通りである。

まず、ビットストリームが空間及び画質スケーラビリティをサポートし、画質スケーラビリティに対応してベースレイヤとこれを参照する第１のエンハンスメントレイヤが存在し、空間的スケーラビリティに対応してベースレイヤと第１のエンハンスメントレイヤが、第２のエンハンスメントレイヤが存在すると仮定する。この場合、下記のようにシグナリングされることができる。

ｖｐｓ_ｍａｘ_ｌａｙｅｒｓ_ｍｉｎｕｓ１＝６

ｎｕｍ_ｄｉｍｅｎｓｉｏｎ_ｍｉｎｕｓ１＝１

ｖｐｓ_ｍａｘ_ｌａｙｅｒｓ_ｍｉｎｕｓ１＝６は、レイヤの最大個数は７個であることを示し、ｎｕｍ_ｄｉｍｅｎｓｉｏｎ_ｍｉｎｕｓ１＝１は、現在ビットストリームでサポートするディメンション、即ち、スケーラビリティは、２個であることを意味する。

ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ[０]＝２

ｄｉｍｅｎｓｉｏｎ_ｌｅｎｇｔｈ[０]＝３

１番目のｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ[０]が２であることは、表４を参照すると、ディメンションＩＤがｄｅｐｅｎｄｅｎｃｙＩＤであるため、空間的スケーラビリティがサポートされることであることを確認することができる。

また、ｄｉｍｅｎｓｉｏｎ_ｌｅｎｇｔｈ[０]＝３であることは、空間的スケーラビリティを示すディメンションＩＤの長さが３ビットであることを示す。

ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ[１]＝３

ｄｉｍｅｎｓｉｏｎ_ｌｅｎｇｔｈ[１]＝３

２番目のｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ[１]が３であることは、表４を参照すると、ディメンションＩＤがｑｕａｌｉｔｙＩＤであるため、画質スケーラビリティがサポートされることであることを確認することができる。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎｇｔｈ[１]＝３であることは、画質スケーラビリティを示すディメンションＩＤの長さが３ビットであることを示す。

したがって、ビットストリームで送信されるレイヤＩＤは、ｄｉｍｅｎｓｉｏｎ_ｌｅｎｇｔｈの和である６になり、ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]のビット数は、６になる。

最下位のレイヤ、即ち、ベースレイヤは、参照するレイヤがないため、ｖｐｓ_ｌａｙｅｒ_ｉｄがシグナリングされない。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[１]＝１(０００００１)

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[１]＝１

ｒｅｆ_ｌａｙｅｒ_ｉｄ[１][０]＝０

ｖｐｓ_ｌａｙｅｒ_ｉｄ[１]＝１は、１番目のレイヤのｖｐｓ_ｌａｙｅｒ_ｉｄ[１]が１であることを示し、これはビット列「０００００１」でシグナリングされる。「０００００１」のうち、前部の３ビット(０００)は、空間的ディメンションを示すｄｅｐｅｎｄｅｎｃｙＩＤを意味し、後部の３ビット(００１)は、画質ディメンションを示すｑｕａｌｉｔｙＩＤを意味する。

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[１]＝１は、１番目のレイヤが直接的に参照するレイヤの個数が１個であることを示し、ｒｅｆ_ｌａｙｅｒ_ｉｄ[１][０]＝０は、直接参照するレイヤのＩＤが０番目のレイヤであることを示す。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[２]＝１６(０１００００)

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[２]＝１

ｒｅｆ_ｌａｙｅｒ_ｉｄ[２][０]＝０

ｖｐｓ_ｌａｙｅｒ_ｉｄ[２]＝１６は、２番目のレイヤのｖｐｓ_ｌａｙｅｒ_ｉｄ[２]が１６であることを示し、これはビット列「００１０００」でシグナリングされる。「００１０００」のうち、前部の３ビット(００１)は、空間的ディメンションを示すｄｅｐｅｎｄｅｎｃｙＩＤを意味し、後部の３ビット(０００)は、画質ディメンションを示すｑｕａｌｉｔｙＩＤを意味する。

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[２]＝１は、２番目のレイヤが直接的に参照するレイヤの個数が１であることを意味し、ｒｅｆ_ｌａｙｅｒ_ｉｄ[２][０]＝０は、直接参照するレイヤのＩＤが０番目のレイヤであることを示す。

即ち、２番目のレイヤと１番目のレイヤは、同じ０番目のレイヤを直接的に参照する。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[３]＝１７(０１０００１)

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[３]＝１

ｒｅｆ_ｌａｙｅｒ_ｉｄ[３][０]＝２

ｖｐｓ_ｌａｙｅｒ_ｉｄ[３]＝１７は、３番目のレイヤのｖｐｓ_ｌａｙｅｒ_ｉｄ[３]が１７であることを示し、これはビット列「００１００１」でシグナリングされる。「００１００１」のうち、前部の３ビット(００１)は、空間的ディメンションを示すｄｅｐｅｎｄｅｎｃｙＩＤを意味し、後部の３ビット(００１)は、画質ディメンションを示すｑｕａｌｉｔｙＩＤを意味する。

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[３]＝１は、３番目のレイヤが直接的に参照するレイヤの個数が１個であることを示し、ｒｅｆ_ｌａｙｅｒ_ｉｄ[３][０]＝２は、直接参照するレイヤのＩＤが２番目のレイヤであることを示す。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[４]＝３２(１０００００)

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[４]＝１

ｒｅｆ_ｌａｙｅｒ_ｉｄ[４][０]＝２

ｖｐｓ_ｌａｙｅｒ_ｉｄ[４]＝３２は、４番目のレイヤのｖｐｓ_ｌａｙｅｒ_ｉｄ[４]が３２であることを示し、これはビット列「０１００００」でシグナリングされる。「０１００００」のうち、前部の３ビット(０１０)は、空間的ディメンションを示すｄｅｐｅｎｄｅｎｃｙＩＤを意味し、後部の３ビット(０００)は、画質ディメンションを示すｑｕａｌｉｔｙＩＤを意味する。

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[４]＝１は、４番目のレイヤが直接的に参照するレイヤの個数が１個であることを示し、ｒｅｆ_ｌａｙｅｒ_ｉｄ[４][０]＝２は、直接参照するレイヤのＩＤが２番目のレイヤであることを示す。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[５]＝３３(１００００１)

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[５]＝１

ｒｅｆ_ｌａｙｅｒ_ｉｄ[５][０]＝４

ｖｐｓ_ｌａｙｅｒ_ｉｄ[５]＝３３は、５番目のレイヤのｖｐｓ_ｌａｙｅｒ_ｉｄ[５]は３３であることを示し、これはビット列「０１０００１」でシグナリングされる。「０１０００１」のうち、前部の３ビット(０１０)は、空間的ディメンションを示すｄｅｐｅｎｄｅｎｃｙＩＤを意味し、後部の３ビット(００１)は、画質ディメンションを示すｑｕａｌｉｔｙＩＤを意味する。

ｎｕｍ_ｄｉｒｅｃｔ_ｒｅｆ_ｌａｙｅｒｓ[５]＝１は、５番目のレイヤが直接的に参照するレイヤの個数が１個であることを示し、ｒｅｆ_ｌａｙｅｒ_ｉｄ[５][０]＝４は、直接参照するレイヤのＩＤが４番目のレイヤであることを示す。

表５は、本発明の他の実施例に係るビデオパラメータセットの拡張を示す。

表５を参照すると、ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｂｙｔｅ_ａｌｉｇｎｍｅｎｔ_ｒｅｓｅｒｖｅｄ_ｏｎｅ_ｂｉｔは、１になる。

ｄｉｍｅｎｓｉｏｎ_ｔｙｐｅ[ｉ]は、表４に示すように、ｉ番目のレイヤのｊ番目のスケーラビリティディメンションタイプを示す。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]は、ｉ番目のレイヤのディメンションＩＤに対する長さ、即ち、ビット数を示し、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]の値は、１〜８の範囲の値になることができる。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]は、ｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎまたはｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎ_ｍｉｎｕｓ１などの構文要素でシグナリングされることもできる。

即ち、ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]のビット数は、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]またはｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎ_ｍｉｎｕｓ１に１を加えた値、即ち、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]またはｄｉｍｅｎｓｉｏｎ_ｉｄ_ｌｅｎ_ｍｉｎｕｓ１により特定される値の和のビット数を有することができる。

ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]を示すビット数が表３では６ビットに限定されているが、表５のｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]は、その長さが固定されたビットではない。ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]に対するディスクリプタは、ｕ(ｎ)であり、これは情報伝達のために整数のｎビットを利用することを意味し、ｎは、他のシンタックス値に依存して変更されることができる。本実施例による場合、レイヤを識別するレイヤＩＤ、ｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]のビット数は、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]の総和によって決定されることができる。

即ち、本実施例による場合、ｄｉｍｅｎｓｉｏｎ_ｌｅｎの和は制限されるものではなく、ただし、各ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]は、３ビットの値、即ち、最大８まで有することができることを意味する。

表６は、本発明の他の実施例に係るビデオパラメータセットの拡張を示す。

表６を参照すると、ｖｐｓ_ｅｘｔｅｎｓｉｏｎ_ｂｙｔｅ_ａｌｉｇｎｍｅｎｔ_ｒｅｓｅｒｖｅｄ_ｏｎｅ_ｂｉｔは、１になる。

本実施例による場合、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]に対するディスクリプタとしてｕｅ(ｖ)が割り当てられることができる。ｕｅ(ｖ)は、指数ゴロム方式に基づいて符号化されるシンタックス要素を示し、これは情報が固定長さ符号化でない適応的にビット長さを決定する符号化方式によってコーディングされることを示す。指数ゴロム符号化方式が適用される場合は、指数ゴロムコードによって可変的にビットの長さが決定されることができるため、ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]を示すために使われるビットの個数は可変的である。

ｄｉｍｅｎｓｉｏｎ_ｌｅｎ[ｉ]のビット数によってｖｐｓ_ｌａｙｅｒ_ｉｄ[ｉ]も可変的な値を有することができる。

図８は、本発明の一実施例に係るビデオエンコーディング装置を示す制御ブロック図である。

図８に示すように、本実施例に係るエンコーディング装置は、第１のエンコーディング部８１０、第２のエンコーディング部８２０及び情報生成部８３０を含む。

第１のエンコーディング部８１０は、図１のビデオエンコーディング装置において、レイヤ０のエンコーディングのためのエンコーディング部１３５に対応されることができ、第２のエンコーディング部８２０は、図１のビデオエンコーディング装置において、レイヤ１のエンコーディングのためのエンコーディング部１０５に対応されることができる。

第１のエンコーディング部８１０及び第２のエンコーディング部８２０では、各レイヤに対する映像に対する予測、変換及びエントロピーコーディングが行われ、このような内容は、図１を参照して説明されたエンコーディング装置の説明と同様であるため省略する。

エンコーディング装置は、二つのレイヤでない三つ以上のレイヤに対するエンコーディングを実行することができ、この場合、第３のエンコーディング部、第４のエンコーディング部をさらに含むことができる。

本実施例に係る情報生成部８３０は、各エンコーディング部８１０、８２０でレイヤがエンコーディングされる時、レイヤのスケーラビリティに対する情報を生成する。情報生成部８３０は、第１のエンコーディング部８１０に含まれている部分的な構成であってもよく、第２のエンコーディング部８２０に含まれることができる一構成であってもよい。または、情報生成部８３０は、各エンコーディング部８１０、８２０に含まれる構成で設計されることもできる。即ち、説明の便宜のために、情報生成部８３０は、図８に独立の構成で示したが、情報生成部８３０の物理的な構造及び位置は、図８に限定されるものではない。

情報生成部８３０は、ディメンションタイプの個数、スケーラビリティタイプを示すディメンションタイプ、ディメンションＩＤの長さを示す情報、ディメンションＩＤ、レイヤＩＤなどを生成することができる。ディメンションタイプとディメンションＩＤのマッピング関係は、所定の表に基づいて生成されることができる。

レイヤＩＤのビット数は、ディメンションＩＤの長さ、即ち、ディメンションＩＤのビット数を加えた値であり、例えば、レイヤＩＤが６ビットの場合、該当レイヤのディメンションＩＤの全体ビット数は、６ビットになる。

また、情報生成部８３０は、該当レイヤが直接的に参照するレイヤの個数及び参照レイヤを識別する参照レイヤＩＤに対する情報を生成することができる。

このような情報生成部８３０で生成された情報は、他の情報と同様にエンコーディング過程を介してビットストリーム形態でビデオデコーディング装置に送信される。

図９は、本発明の一実施例に係るビデオデコーディング装置を示す制御ブロック図である。

図９に示すように、本実施例に係るデコーディング装置は、情報把握部９１０、第１のデコーディング部９２０及び第２のデコーディング部９３０を含む。

本実施例に係る情報把握部９１０は、ビデオエンコーディング装置から受信されるビットストリームに基づいて各デコーディング部９２０、９３０でレイヤがデコーディングされる時、レイヤ間スケーラビリティ情報を把握する。情報把握部９１０は、ビットストリームをパーシングするパーシング部で具現されることができ、またはビットストリームをエントロピーデコーディングするエントロピーデコーディング部で具現されることもできる。

このような情報把握部９１０は、第１のデコーディング部９２０に含まれている部分的な構成であってもよく、第２のデコーディング部９３０に含まれることができる一構成であってもよい。または、情報把握部９１０は、各デコーディング部９２０、９３０に含まれる複数の構成要素で設計されることもできる。即ち、説明の便宜のために、情報把握部９１０は、図９に独立の構成で示したが、情報把握部９１０の物理的な構造及び位置は、図９に限定されるものではない。

エンコーディング装置から受信されて情報把握部９１０で把握される情報は、ディメンションタイプの個数、スケーラビリティタイプを示すディメンションタイプ、ディメンションＩＤの長さを示す情報、ディメンションＩＤ、レイヤＩＤなどを含むことができる。ディメンションタイプとディメンションＩＤのマッピング関係は、所定の表に基づいて把握されることができる。

また、情報把握部９１０は、該当レイヤが直接的に参照するレイヤの個数及び参照レイヤを識別する参照レイヤＩＤに対する情報も受信して把握することができる。

情報把握部９１０で把握されたレイヤ間スケーラビリティ情報は、デコーディング部９２０、９３０に伝達され、デコーディング部９２０、９３０は、スケーラビリティ情報に基づいてレイヤ間予測及び復元を実行することができる。

第１のデコーディング部９２０は、図２のビデオデコーディング装置において、レイヤ０のデコーディングのためのデコーディング部２５０に対応されることができ、第２のデコーディング部９３０は、図２のビデオデコーディング装置において、レイヤ１のデコーディングのためのデコーディング部２１０に対応されることができる。

第１のデコーディング部９２０及び第２のデコーディング部９３０では各レイヤの映像に対するエントロピーデコーディング、逆変換及び予測、復元が行われ、このような内容は、図２を参照して説明されたデコーディング装置の説明と同様であるため省略する。

デコーディング装置は、二つのレイヤでない三つ以上のレイヤに対するデコーディングを実行することができ、この場合、第３のデコーディング部、第４のデコーディング部をさらに含むことができる。

図１０は、本発明による映像情報のエンコーディング方法を説明した制御流れ図である。

図示されているように、エンコーディング装置は、複数のスケーラビリティに対する情報を含むビデオパラメータセットに対する情報をエンコーディングする(Ｓ１００１)。

ビデオパラメータセットに含まれている複数のスケーラビリティに対する情報は、ディメンションタイプの個数、スケーラビリティタイプを示すディメンションタイプ、ディメンションＩＤの長さを示す情報、ディメンションＩＤ、レイヤＩＤなどを含むことができる。ディメンションＩＤは、特定のディメンションタイプが有することができるレイヤに対するインデックスを意味する。

ディメンションタイプとディメンションＩＤのマッピング関係は、ルックアップテーブルのような表を介して設定されることができる。

また、ビデオパラメータセットには該当レイヤが直接的に参照するレイヤの個数及び参照レイヤを識別する参照レイヤＩＤに対する情報を含むことができる。

エンコーディング装置は、エンコーディングされたビデオパラメータセットに対する情報をビットストリームで送信する(Ｓ１００２)。

図１１は、本発明による映像情報のデコーディング方法を説明するための制御流れ図である。

図１１を参照すると、デコーディング装置は、複数のスケーラビリティに対する情報を含むビデオパラメータセット拡張に対する情報を受信する(Ｓ１１０１)。

その後、デコーディング装置は、ビデオパラメータセットをパーシングしてビットストリームに含まれているスケーラビリティの情報を把握、即ち、スケーラビリティ情報を誘導する(Ｓ１１０２)。映像情報に対するパーシングは、エントロピー復号化部または別途のパーシング部で実行されることができる。

ディメンションタイプとディメンションＩＤのマッピング関係は、表を介して設定されることができ、デコーディング装置は、このような表を利用してスケーラビリティを把握することができる。

複数のスケーラビリティをサポートするビットストリームでレイヤＩＤとスケーラビリティディメンションＩＤ(ｓｃａｌａｂｉｌｉｔｙｄｉｍｅｎｓｉｏｎＩＤ)との間の関係を指示する方法として、レイヤＩＤとスケーラビリティディメンションＩＤ(ｓｃａｌａｂｉｌｉｔｙｄｉｍｅｎｓｉｏｎＩＤ)との間のマッピング方法を知らせる第１の方法と、レイヤＩＤのビットを分割(ｐａｒｔｉｔｉｏｎｉｎｇまたはｓｐｌｉｃｉｎｇ)して割り当てられたビットにどのようなディメンションタイプが存在するかを知らせる第２の方法が存在できる。

レイヤＩＤとディメンションＩＤとの間の関係を指示する方法としてレイヤＩＤとディメンションＩＤとの間のマッピング方法を知らせる第１の方法が適用される場合、デコーディング装置は、ディメンションＩＤを受信することができる。この場合、デコーディング装置は、ディメンションＩＤの長さを示す情報を介して該当ディメンションに対する情報が全体レイヤＩＤのうち、何ビットに該当するかを把握し、該当ビット数に対応するディメンションＩＤを把握してレイヤＩＤとディメンションＩＤをマッピングさせることができる。

例えば、ｖｉｅｗＩＤの長さが３ビットであり、ｄｅｐｅｎｄｅｎｃｙＩＤの長さが２ビットである場合、多視点スケーラビリティを示すディメンションＩＤは、３ビットの情報でシグナリングされ、空間的スケーラビリティを示すディメンションＩＤは、２ビットの情報でシグナリングされることができる。

一方、レイヤＩＤのビット数を分割(ｓｐｌｉｃｉｎｇ)して割り当てられたビットにどのようなディメンションタイプが存在するかを知らせる第２の方法によりレイヤＩＤとディメンションＩＤをマッピングする場合、デコーディング装置は、レイヤＩＤを分割して直接的にディメンションＩＤをシグナリングすることもできる。この場合、ディメンションＩＤは、デコーディング装置にシグナリングされない。

例えば、レイヤＩＤが６ビットであり、多視点スケーラビリティと空間的スケーラビリティがサポートされると仮定する。多視点スケーラビリティと空間的スケーラビリティが各々３ビットずつ分割してレイヤＩＤを構成することができる。レイヤＩＤが「００１０１０」の場合、ｖｉｅｗＩＤは「００１」であり、ｄｅｐｅｎｄｅｎｃｙＩＤは「０１０」であると把握されることができる。

前記二つの方法は、レイヤＩＤのビット数を分割して使用するかどうかを示すフラグ情報を介して区分されることができる。第１の方法が適用される場合、レイヤＩＤのビット数を分割して使用するかどうかを示すフラグ情報は０であり、第２の方法が適用される場合、レイヤＩＤのビット数を分割して使用するかどうかを示すフラグ情報は１である。

前述したように、本発明によると、ビットストリーム内のスケーラビリティ情報を記述し、特に、ディメンション情報とレイヤ情報を互いにマッチングすることで、レイヤを識別することができる方法及びそれを利用する装置が提供される。

前述した例示的なシステムにおいて、方法は、一連のステップまたはブロックで流れ図に基づいて説明されているが、本発明は、ステップの順序に限定されるものではなく、あるステップは、前述と異なるステップと、異なる順序にまたは同時に発生できる。また、前述した実施例は、多様な態様の例示を含むことができるため、各実施例の組合せも本発明の一実施例として理解しなければならない。したがって、本発明は、特許請求の範囲内に属する全ての交替、修正及び変更を含む。

Claims

複数のレイヤを含むビットストリームをデコーディングする映像のデコーディング方法において、
レイヤのスケーラビリティを識別するディメンションタイプ及び前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤの長さに対する情報を含むビデオパラメータセットを受信するステップと、
前記ビデオパラメータセットをパーシングして前記ビットストリームに含まれているスケーラビリティの情報を誘導するステップと、
を含み、
前記ビデオパラメータセットは、前記ディメンションタイプの個数、前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤ、レイヤＩＤのうち少なくとも一つをさらに含み、
前記ビデオパラメータセットは、前記レイヤＩＤのビット数を分割して前記ディメンションＩＤを指示するかどうかを示すフラグ情報をさらに含み、前記ディメンションＩＤは、前記フラグ情報が０の値を有する場合に受信される、デコーディング方法。
前記ディメンションタイプと前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤは、既設定された表を参照して把握されることができる、請求項１に記載のデコーディング方法。
ｉ番目のレイヤに対する前記ディメンションＩＤの長さの和は、前記ｉ番目のレイヤに対する前記レイヤＩＤのビット数と同じである、請求項１に記載のデコーディング方法。
ｉ番目のレイヤに対する前記ディメンションＩＤの長さの和は、６である、請求項１に記載のデコーディング方法。
前記ディメンションタイプは、多視点スケーラビリティ、深さスケーラビリティ、空間的スケーラビリティ及び画質スケーラビリティのうち少なくとも一つである、請求項１に記載のデコーディング方法。
前記ディメンションタイプの個数が２の場合、前記ディメンションＩＤの長さに対する情報は、一つのみ受信される、請求項１に記載のデコーディング方法。
複数のレイヤを含むビットストリームをデコーディングする映像のデコーディング装置において、
レイヤのスケーラビリティを識別するディメンションタイプ及び前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤの長さに対する情報を含むビデオパラメータセットをパーシングしてスケーラビリティ情報を誘導する情報把握部と、
前記スケーラビリティ情報を利用して上位レイヤの映像を復元する上位レイヤデコーディング部と、
を含み、
前記ビデオパラメータセットは、前記ディメンションタイプの個数、前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤ、レイヤＩＤのうち少なくとも一つをさらに含み、
前記ビデオパラメータセットは、前記レイヤＩＤのビット数を分割して前記ディメンションＩＤを指示するかどうかを示すフラグ情報をさらに含み、前記ディメンションＩＤは、前記フラグ情報が０の値を有する場合に受信される、デコーディング装置。
前記ディメンションタイプと前記ディメンションタイプが適用されるレイヤを識別するディメンションＩＤは、既設定された表を参照して把握されることができる、請求項７に記載のデコーディング装置。
ｉ番目のレイヤに対する前記ディメンションＩＤの長さの和は、前記ｉ番目のレイヤに対する前記レイヤＩＤのビット数と同じである、請求項７に記載のデコーディング装置。
ｉ番目のレイヤに対する前記ディメンションＩＤの長さの和は、６である、請求項７に記載のデコーディング装置。
前記ディメンションタイプは、多視点スケーラビリティ、深さスケーラビリティ、空間的スケーラビリティ及び画質スケーラビリティのうち少なくとも一つを含む、請求項７に記載のデコーディング装置。
前記ディメンションタイプの個数が２の場合、前記ディメンションＩＤの長さに対する情報は、一つのみ受信される、請求項７に記載のデコーディング装置。