JP6050489B2

JP6050489B2 - 多階層ビデオ符号化方法及びその装置、並びに多階層ビデオ復号化方法及びその装置

Info

Publication number: JP6050489B2
Application number: JP2015520072A
Authority: JP
Inventors: チェー，ビョン−ドゥ; キム，ジェ−ヒョン; パク，ジョン−フン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-07-06
Filing date: 2013-07-08
Publication date: 2016-12-21
Anticipated expiration: 2033-07-08
Also published as: KR102180470B1; JP2015526018A; US10116947B2; US20150172679A1; EP2871567A1; EP2871567A4; IN2015MN00077A; WO2014007596A1; CN104620587B; CN104620587A; KR20140007292A

Description

本発明は、スケーラブルビデオ及び多視点ビデオのような多階層で構成されたビデオの符号化方法、復号化方法及びその装置に係り、具体的には、多階層ビデオのシグナリングのためのハイレベル・シンタックス（high level syntax）構造に関する。

一般的に、映像データは、所定のデータ圧縮標準、例えば、ＭＰＥＧ（Moving Picture Experts Group）標準によるコーデックによって符号化された後、ビットストリーム形態で情報記録媒体に保存されたり、あるいは通信チャネルを介して伝送されたりする。

多様な通信網と端末機とに対応し、情報の量を適切に調整して伝送するためのビデオ圧縮方式として、スケーラブル・ビデオコーディング（ＳＶＣ：scalable video coding）がある。スケーラブル・ビデオコーディングでは、１つのビデオストリームで、多様な伝送ネットワーク及び多様な受信端末に適応的にサービスが可能なビデオ符号化方法を提供する。

また、最近では、三次元マルチメディア機器及び三次元マルチメディア・コンテンツの普及により、三次元ビデオコーディングのための多視点ビデオコーディング（multiview video coding）技術が広く拡散している。

そのような従来のスケーラブル・ビデオコーディングや多視点ビデオコーディングでは、所定サイズのマクロブロックに基づいて制限された符号化方式によって、ビデオを符号化する。

本発明が解決しようとする技術的課題は、多視点ビデオ及びスケーラブルビデオのような多階層ビデオのスケーラブル拡張類型情報をシグナリングするためのＮＡＬ単位の構造を提供するものである。

本発明は、多階層ビデオに共通して適用される情報に係わるＶＰＳ（video parameter set）情報を含むＶＰＳＮＡＬ単位に、多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を付加するものである。

本発明の実施形態によれば、ＶＰＳＮＡＬ単位を利用して、多階層ビデオと係わるスケーラブル拡張類型情報をシグナリングすることができる。

一実施形態による、多階層ビデオの符号化装置の構成を示したブロック図である。一実施形態による多階層ビデオを示す図面である。一実施形態にる、多階層ビデオの符号化されたデータを含むＮＡＬ単位を示す図面である。一実施形態によるＮＡＬ単位のヘッダの一例を示した図面である。一実施形態によるＮＡＬ単位のヘッダの一例を示した図面である。一実施形態による、多階層ビデオのスケーラブル拡張類型情報（ＳＥＴ）を含むＶＰＳＮＡＬ単位を示した図面である。一実施形態によるスケーラブル拡張類型テーブルを示した図面である。他の実施形態による，多階層ビデオのスケーラブル拡張類型情報（ＳＥＴ）を含むＶＰＳＮＡＬ単位を示す図面である。他の実施形態による，ＶＰＳＮＡＬ単位を除いた他のＮＡＬ単位を示す図面である。本発明の他の実施形態による、スケーラブル拡張のためのＮＡＬ単位ヘッダを示した図面である。図８のＮＡＬ単位ヘッダのＳＥＴ８１による、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３及び第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４が示すスケーラブル拡張類型情報の一例を示した図面である。一実施形態による多階層ビデオ符号化方法のフローチャートである。一実施形態による多階層ビデオ復号化装置の構成を示したブロック図である。一実施形態による多階層ビデオ復号化方法を示したフローチャートである。本発明の一実施形態による、ツリー構造の符号化単位に基づいたビデオ符号化装置のブロック図である。本発明の一実施形態による、ツリー構造の符号化単位に基づいたビデオ復号化装置のブロック図である。本発明の一実施形態による符号化単位の概念を図示する図面である。本発明の一実施形態による、符号化単位に基づいた映像符号化部のブロック図である。本発明の一実施形態による、符号化単位に基づいた映像復号化部のブロック図である。本発明の一実施形態による、深度別符号化単位及びパーティションを図示する図面である。本発明の一実施形態による、符号化単位及び変換単位の関係を図示する図面である。本発明の一実施形態による深度別符号化情報を図示する図面である。本発明の一実施形態による深度別符号化単位を図示する図面である。本発明の一実施形態による、符号化単位、予測単位及び変換単位の関係を図示する図面である。本発明の一実施形態による、符号化単位、予測単位及び変換単位の関係を図示する図面である。本発明の一実施形態による、符号化単位、予測単位及び変換単位の関係を図示する図面である。表２の符号化モード情報による符号化単位、予測単位及び変換単位の関係を図示する図面である。

一実施形態による多階層ビデオ符号化方法は、前記多階層ビデオを符号化する段階と、前記符号化された多階層ビデオをデータ単位によって区分し、データ単位別ＮＡＬ（network adaptive layer）単位を生成する段階と、前記データ単位別伝送単位データのうち、前記多階層ビデオに共通して適用される情報に係わるＶＰＳ（video parameter set）情報を含むＶＰＳＮＡＬ単位に、前記多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を付加する段階と、を含むことを特徴とする。

一実施形態による多階層ビデオ符号化装置は、前記多階層ビデオを符号化するビデオ符号化部；及び前記符号化された多階層ビデオをデータ単位によって区分し、データ単位別ＮＡＬ単位を生成し、前記データ単位別伝送単位データのうち、前記多階層ビデオに共通して適用される情報に係わるＶＰＳ情報を含むＶＰＳＮＡＬ単位に、前記多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を付加する出力部；を含むことを特徴とする。

一実施形態による多階層ビデオ復号化方法は、符号化された多階層ビデオをデータ単位別に区分して生成されたＮＡＬ単位を受信する段階と、前記受信されたＮＡＬ単位のうち、前記多階層ビデオに共通して適用される情報に係わるＶＰＳ情報を含むＶＰＳＮＡＬ単位を獲得する段階と、前記ＶＰＳＮＡＬ単位から、前記多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を獲得する段階と、を含むことを特徴とする。

一実施形態による多階層ビデオ復号化装置は、符号化された多階層ビデオをデータ単位別に区分して生成されたＮＡＬ単位を受信し、前記受信されたＮＡＬ単位のうち、前記多階層ビデオに共通して適用される情報に係わるＶＰＳ情報を含むＶＰＳＮＡＬ単位を獲得し、前記ＶＰＳＮＡＬ単位から、前記多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を獲得する受信部；及び前記獲得されたスケーラブル拡張類型情報に基づいて、前記多階層ビデオに含まれた前記データ単位別に適用されたスケーラブル拡張類型を決定し、前記多階層ビデオを復号化するビデオ復号化部；を含むことを特徴とする。

以下、添付された図面を参照し、本発明の実施形態について具体的に説明する。以下、図１ないし図１２を参照し、一実施形態による、多階層ビデオの符号化符号化方法及び多階層ビデオ復号化方法について開示する。また、図１３ないし図２５を参照し、一実施形態による、ツリー構造の符号化単位に基づいたビデオの符号化方法及びビデオの復号化方法について開示する。

図１は、一実施形態による多階層ビデオの符号化装置の構成を示したブロック図である。図１を参照すれば、一実施形態による多階層ビデオ符号化装置１０は、ビデオ符号化部１１及び出力部１２を含む。

ビデオ符号化部１１は、多階層ビデオを入力されて符号化する。ビデオ符号化部１１は、入力されたビデオ符号化処理そのものを扱うビデオ符号化階層（video coding layer）に該当する。後述する図１３ないし図２５のように、ビデオ符号化部１１は、ツリー構造の符号化単位に基づいて、多階層ビデオに含まれた各ピクチャを符号化することができる。

出力部１２は、符号化された多階層ビデオデータ及び付加情報を、所定フォーマットによる伝送データ単位に付加して出力するネットワーク抽象階層（ＮＡＬ：network abstraction layer）に該当する。伝送データ単位は、ＮＡＬ単位でもある。出力部１２は、ＮＡＬ単位に、多階層ビデオデータ及び付加情報を含めてＮＡＬ単位を出力する。

図２は、一実施形態による多階層ビデオを示している。

多様なネットワーク環境及び多様な端末機で、最適のサービスを提供するために、多階層ビデオ符号化装置１０は、多様な空間的解像度（spatial resolution）、多様な画質（quality）、多様なフレーム率（frame-rate）、互いに異なる視点を有する多階層映像シーケンスを符号化し、スケーラブルなビットストリームを出力することができる。すなわち、多階層ビデオ符号化装置１０は、多様なスケーラブル拡張類型（ＳＥＴ：scalable extension type）によって入力映像を符号化し、スケーラブル・ビデオビット・ストリームを生成して出力することができる。スケーラブル拡張類型は、時間的、空間的、画質的、多視点的なスケーラビリティ（scalibility）、及びそのようなスケーラビリティの組み合わせを含む。

ビットストリームから、有効な（valid）サブストリームに分離される場合、ビットストリームは、スケーラブルであるとする。空間的にスケーラブルなビットストリームは、多様な解像度のサブストリームを含む。例えば、空間的にスケーラブルなビットストリームは、ＱＶＧＡ、ＶＧＡ、ＷＶＧＡのような互いに異なる解像度を有するサブストリームに分離される。時間的にスケーラブルなビットストリームは、多様なフレーム率を有するサブストリームを含む。例えば、時間的にスケーラブルなビットストリームは、７．５Ｈｚのフレーム率、１５Ｈｚのフレーム率、３０Ｈｚのフレーム率、６０Ｈｚのフレーム率を有するサブストリームに分離される。画質的にスケーラブルなビットストリームは、ＣＧＳ（coarse-grained scalability）方式、ＭＧＳ（medium-grained scalability）方式、ＦＧＳ（fine-grained scalability)方式によって、互いに異なる画質を有するサブストリームに分離される。

多視点スケーラブル・ビットストリームは、１つのビットストリーム内で、互いに異なる視点のサブストリームを含む。一例として、ステレオスコピック（stereoscopic）映像の場合、ビットストリームは、左側映像と右側映像とを含む。また、スケーラブル・ビットストリームは、多視点映像、及びデプスマップ（depth map）の符号化されたデータに係わるサブストリームを含んでもよい。

互いに異なるスケーラブル拡張類型は、互いに結合される。すなわち、スケーラブル・ビデオビット・ストリームは、時間的、空間的、画質的、多視点的なスケーラビリティのうち少なくとも一つが互いに異なる映像から構成された多階層の映像シーケンスを符号化したサブストリームを含んでもよい。

図２では、互いに異なるスケーラブル拡張類型を有する映像シーケンス２１，２２，２３を図示している。第１階層の映像シーケンス２１、第２階層の映像シーケンス２２及び第ｎ（ｎは整数）階層の映像シーケンス２３は、解像度、画質、視点のうち少なくとも一つが互いに異なる映像シーケンスでもある。また、第１階層の映像シーケンス２１、第２階層の映像シーケンス２２及び第ｎ（ｎは整数）階層の映像シーケンス２３のうち１つの階層の映像シーケンスは、基本階層の映像シーケンスであり、他の階層の映像シーケンスは、向上階層の映像シーケンスでもある。

一例として、第１階層の映像シーケンス２１は、第１視点の映像であり、第２階層の映像シーケンス２２は、第２視点の映像であり、第ｎ階層の映像シーケンス２３は、第ｎ視点の映像でもある。他の例として、第１階層の映像シーケンス２１は、基本階層の左視点映像であり、第２階層の映像シーケンス２２は、基本階層の右視点映像であり、第ｎ階層の映像シーケンス２３は、向上階層の右視点映像でもある。前述の例に限定されるものではなく、互いに異なるスケーラブル拡張類型を有する映像シーケンス２１，２２，２３は、それぞれ互いに異なる映像属性（attribute）を有する映像シーケンスでもある。

図３は、一実施形態による、多階層ビデオの符号化されたデータを含むＮＡＬ単位を示す。

前述のように、出力部１２は、符号化された多階層ビデオデータ及び付加情報を含むＮＡＬ単位を出力する。

ビデオパラメータセット（ＶＰＳ：video parameter set）は、多階層ビデオに含まれた多階層映像シーケンス３２，３３，３４に適用される情報を含む。ＶＰＳについての情報を含むＮＡＬ単位を、ＶＰＳＮＡＬ単位３１とする。

ＶＰＳＮＡＬ単位３１は、多階層映像シーケンス３２，３３，３４によって共有される共通したシンタックスエレメント（syntax element）、不要な情報の伝送を防ぐために、動作点（operation point）についての情報、プロファイル（profile）やレベルのように、セッション論議（session negotiation）段階で必要な動作点についての必須情報などを含む。特に、一実施形態によるＶＰＳＮＡＬ単位３１には、多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型（ＳＥＴ：scalable extension type）についての情報が含まれる。ＳＥＴは、多階層ビデオに含まれた多階層映像シーケンス３２，３３，３４に適用されたスケーラブル類型を決定するための情報である。

後述するように、ＳＥＴは、多階層ビデオに含まれた多階層映像シーケンス３２，３３，３４に適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスである。ＶＰＳＮＡＬ単位３１は、スケーラブル拡張類型テーブルインデックスが示すスケーラブル拡張類型テーブルに含まれたスケーラブル拡張類型の組み合わせのうち一つを示す階層インデックスをさらに含んでもよい。階層インデックス情報は、ＶＰＳＮＡＬ単位３１に含まれる代わりに、各階層のＳＰＳ（sequence parameter set）情報を含むＳＰＳＮＡＬ単位３２ａ，３３ａ，３４ａに含まれるか、あるいは各階層のＰＰＳ（picture parameter set）情報を含むＰＰＳＮＡＬ単位３２ｂ，３３ｂ，３４ｂに含まれてもよい。

ＳＰＳは、１つの階層の映像シーケンスに共通して適用される情報を含む。そのようなＳＰＳを含むＳＰＳＮＡＬ３２ａ，３３ａ，３４ａそれぞれは、映像シーケンス３２，３３，３４それぞれに共通して適用される情報を含む。

ＰＰＳは、１つの階層のピクチャに共通して適用される情報を含む。そのようなＰＰＳを含むＰＰＳＮＡＬ３２ｂ，３３ｂ，３４ｂそれぞれは、同一階層のピクチャに共通して適用される情報を含む。ＰＰＳは、ピクチャ全体の符号化モード、例えば、エントロピー符号化モード、ピクチャ単位の量子化パラメータ初期値などについての情報を含んでもよい。ＰＰＳは、全てのピクチャごとに生成される必要はない。すなわち、ＰＰＳがない場合には、以前に存在するＰＰＳを利用して、ＰＰＳに含まれた情報が更新される必要がある場合、新たにＰＰＳが設定され、設定されたＰＰＳについての情報を含むＰＰＳＮＡＬ単位が生成される。

スライスセグメントは、少なくとも１つの最大符号化単位の符号化データを含み、そのようなスライスセグメントは、スライスセグメントＮＡＬ３２ｃ，３３ｃ，３４ｃに含まれて伝送される。

図３に図示されているように、１つのビデオは、多階層の映像シーケンス３２，３３，３４を含む。シーケンスを識別するために、各階層のＳＰＳには、ＳＰＳ識別子（sequence＿parameter＿set＿ｉｄ）が含まれ、ＰＰＳにＳＰＳ識別子を指定することによって、ＰＰＳが含まれたシーケンスを識別することができる。また、ＰＰＳには、ＰＰＳ識別子（picture＿parameter＿set＿ｉｄ）が含まれ、スライスセグメントにＰＰＳ識別子を含めることによって、スライスセグメントがいかなるＰＰＳを利用するかということを識別することができる。また、スライスセグメントのＰＰＳ識別子が示すＰＰＳに含まれたＳＰＳ識別子を利用して、スライスセグメントに利用されるＳＰＳ及び階層情報を識別することができる。例えば、第１階層ＳＰＳＮＡＬ３２ａのＳＰＳ識別子（sequence＿parameter＿set＿ｉｄ）が０の値を有すると仮定する。その場合、第１階層映像シーケンス３２に含まれた第１階層ＰＰＳＮＡＬ３２ｂは、０の値を有するＳＰＳ識別子（sequence＿parameter＿set＿ｉｄ）を含む。また、第１階層ＰＰＳＮＡＬ３２ｂのＰＰＳ識別子（picture＿parameter＿set＿ｉｄ）が０の値を有すると仮定する。その場合、第１階層ＰＰＳＮＡＬ３２ｂを参照する第１階層スライスセグメントＮＡＬ３２ｃは、０の値を有するＰＰＳ識別子（picture＿parameter＿set＿ｉｄ）を有する。

図３では、１つのＶＰＳを構成する例を図示しているが、図３に図示されているような多階層ビデオの構成を、さらに複数個で構成することも可能である。そのような場合、複数個の多階層ビデオのうちＮＡＬ単位が含まれる多階層ビデオを識別するために、ＳＰＳＮＡＬ単位に、ＶＰＳ識別子（video＿parameter＿set＿ｉｄ）を含めることができる。例えば、ＶＰＳＮＡＬ３１のＶＰＳ識別子（video＿parameter＿set＿ｉｄ）が０の値を有する場合、１つの多階層ビデオに含まれるＳＰＳＮＡＬ３２ａ，３３ａ，３４ａには、０の値を有するＶＰＳ識別子（video＿parameter＿set＿ｉｄ）が含まれてもよい。

図４Ａ及び図４Ｂは、一実施形態によるＮＡＬ単位のヘッダの一例を示した図面である。図４Ａ及び図４Ｂを参照すれば、ＮＡＬ単位ヘッダは、総２バイトの長さを有する。図４Ｂにおいて、０〜７までの数字は、それぞれ２バイトに含まれた各ビットを意味する。ＮＡＬ単位ヘッダは、ＮＡＬ単位の識別のためのビットとして、０の値を有するforbidden＿zero＿bit（Ｆ）４１、ＮＡＬ単位の種類を示す識別子（ＮＵＴ：nal unit type）４２、将来使用のために予約された領域（reserved＿zero＿６bits）４３及び時間的識別子（temporal ＩＤ）４４を含む。識別子ＮＵＴ４２及び予約された領域（reserved area）４３は、それぞれ６ビットで構成され、時間的識別子（ＴＩＤ：temporal ＩＤ）４４は、３ビットで構成される。

図４Ａ及び図４Ｂに図示されたＮＡＬ単位に、多階層ビデオのスケーラブル拡張類型情報（ＳＥＴ）を付加するために、一実施形態による出力部１２は、ＶＰＳＮＡＬ単位ヘッダの領域において、将来使用のために予約された領域４３及び時間的識別子（temporal ＩＤ）４４の領域を利用することができる。

図５は、一実施形態による多階層ビデオのスケーラブル拡張類型情報（ＳＥＴ）を含むＶＰＳＮＡＬ単位を示した図面である。図５を参照すれば、一実施形態による多階層ビデオのスケーラブル拡張のためのＮＡＬ単位のヘッダは、ＮＡＬ単位の識別のためのビットとして、０の値を有するforbidden＿zero＿bit（Ｆ）、及びＮＡＬ単位の種類を示す識別子ＮＵＴ（nal unit type）以外に、Ｍ（Ｍは整数）ビットのスケーラブル拡張類型情報（ＳＥＴ）５１、及びスケーラブル拡張類型テーブルに含まれた複数個のスケーラブル拡張類型の組み合わせのうち、現在多階層ビデオに含まれた映像に適用されたスケーラブル拡張類型を示すＮ（Ｎは整数）ビットのレイヤインデックス情報（ＬＩＤ：layer ＩＤ）５２を含む。

ＮＵＴ（nal＿unit＿type）の値によって、当該ＮＡＬ単位が、ＩＤＲ（instantaneous decoding refresh）ピクチャ、ＣＲＡ（clean random access）ピクチャ、ＶＰＳ、ＳＰＳ、ＰＰＳ、ＳＥＩ（supplemental enhancement information）、適応的パラメータセット（ＡＰＳ：adaptation parameter set）、将来拡張のために使用されるものとして予約された（reserved）ＮＡＬ単位、未定義のＮＡＬ単位のうちいかなる情報を含むＮＡＬ単位であるかということを識別することができる。

表１は、一実施形態によるnal＿unit＿type（ＮＵＴ）によるＮＡＬ単位の類型を示した表である。

表１を参照すれば、ＶＰＳを含むＮＡＬ単位のnal＿unit＿typeは、３２に設定される。また、一実施形態による多階層ビデオのスケーラブル拡張類型情報は、将来使用のために予約されたＮＡＬ単位、すなわち、nal＿unit＿typeが４１ないし４７までの値を有するＮＡＬ単位に含まれる。しかし、それらに限定されるものではなく、nal＿unit＿typeによるＮＡＬ単位の類型は変更される。

スケーラブル拡張類型情報（ＳＥＴ）５１は、多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスに該当する。そして、レイヤインデックス情報（ＬＩＤ）５２は、スケーラブル拡張類型テーブルインデックスが示すスケーラブル拡張類型テーブルに含まれた前記スケーラブル拡張類型の組み合わせのうち一つを示す。

図６は、一実施形態によるスケーラブル拡張類型テーブルを示した図面である。図６を参照すれば、ＳＥＴ５１が特定値ｋ（ｋは整数）を有するとき、１つのスケーラブル拡張類型テーブルが定義される。ＳＥＴ５１が特定値ｋであるとき、図６に図示されているような１つのスケーラブル拡張類型テーブルが定義されると仮定する。ＬＩＤ５２の値がいくつであるかということによって、いかなるスケーラブル拡張類型の組み合わせを示すかということが決定される。例えば、ＳＥＴ５１がｋ、ＬＩＤ５２が３の値を有すると仮定すれば、現在多階層ビデオに含まれたＮＡＬ単位は、図面符号６１で表示されているように、Dependent flag＝１、Reference layer ＩＤ＝０、Dependency ＩＤ＝３、Quality ＩＤ＝０、View ＩＤ＝０、Temporal ＩＤ＝０であるスケーラブル拡張類型を有する階層に係わるデータ単位であるかということを示すことができる。

Dependent flagは、現在階層のデータが異なる階層のデータを参照する独立した階層であるか、それとも他の階層のデータを参照する従属的な階層であるかということを示す。Dependent flagが０であるならば、現在階層のデータは、独立した階層であるということを示す。Dependent flagが０である場合、多階層ビデオに含まれた各階層の映像は、互いに独立して符号化／復号化されるということを示す。Reference layer ＩＤは、現在階層のデータが参照する階層の識別子（layer ＩＤ）を示す。Dependency ＩＤは、現在階層のデータが依存する階層の識別子を示す。Quality ＩＤは、多階層ビデオに含まれた映像の画質を示す。View ＩＤは、多階層ビデオに含まれた映像の視点を示す。Temporal ＩＤは、多階層ビデオに含まれた映像の時間的スケーラビリティのための時間的識別子である。

図６では、ＳＥＴ５１が特定の値であるｋの値を有する場合のスケーラブル拡張類型テーブルを図示したが、図５のように、ＳＥＴ５１がＭ個のビットから構成された場合、ＳＥＴ５１は、最大２＾Ｍ個の値を有することができる。従って、ＳＥＴ５１の値によって、最大２＾Ｍ個のスケーラブル拡張類型テーブルがあらかじめ定義される。図６に図示されているようなスケーラブル拡張類型テーブルは、ビデオ符号化装置及びビデオ復号化装置に前もってすでに定義されており、ＳＰＳ、ＰＰＳ及びＳＥＩ（supplemental enhancement information）のメッセージを介して、ビデオ符号化装置からビデオ復号化装置に伝送される。ＳＥＩメッセージも、所定nal unit typeを有するＮＡＬ単位に含まれて伝送される。

図７Ａは、他の実施形態による、多階層ビデオのスケーラブル拡張類型情報（ＳＥＴ）を含むＶＰＳＮＡＬ単位を示している。図７Ｂは、他の実施形態による、ＶＰＳＮＡＬ単位を除いた他のＮＡＬ単位を示している。

図７Ａ及び図７Ｂを参照すれば、ＶＰＳＮＡＬ単位には、スケーラブル拡張類型テーブルを決定するためのスケーラブル拡張類型情報（ＳＥＴ）７１だけが含まれ、ＶＰＳＮＡＬ単位を除いた他のＮＡＬ単位には、スケーラブル拡張類型テーブルに含まれた複数個のスケーラブル拡張類型の組み合わせのうち、現在ＮＡＬ単位に含まれたデータに適用されたスケーラブル拡張類型を示すレイヤインデックス情報（ＬＩＤ）７２が含まれる。

前述の一実施形態のように、ＶＰＳＮＡＬ単位に含まれたスケーラブル拡張類型情報（ＳＥＴ）５１は、多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスに該当する。

レイヤインデックス情報（ＬＩＤ）は、ＶＰＳＮＡＬ単位３１に含まれる代わりに、各階層のＳＰＳ情報を含むＳＰＳＮＡＬ単位に含まれるか、あるいは各階層のＰＰＳ情報を含むＰＰＳＮＡＬ単位に含まれてもよい。ＳＰＳＮＡＬ単位に、レイヤインデックス情報（ＬＩＤ）が含まれた場合、シーケンスごとに互いに異なるスケーラブル拡張類型を適用することが可能である。ＰＰＳＮＡＬ単位に、レイヤインデックス情報（ＬＩＤ）が含まれた場合、ピクチャごとに互いに異なるスケーラブル拡張類型を適用することが可能である。

図８は、本発明の他の実施形態による、スケーラブル拡張のためのＮＡＬ単位ヘッダを示した図面である。

前述の図５のＮＡＬ単位ヘッダと同様に、他の実施形態によるＮＡＬ単位は、将来拡張のために使用されるものとして予約された（reserved）領域、及び時間的識別子（temporal ＩＤ）の領域を再定義し、スケーラブル拡張類型情報を含んでもよい。他の実施形態によるＮＡＬ単位は、ＶＰＳ以外に、シーケンス単位、ピクチャ単位、スライス単位で設定され、各データ単位別に適用されたスケーラブル類型が適用されたか否かということを示すスケーラブル拡張類型情報を含んでもよい。

図８を参照すれば、他の実施形態によるＮＡＬ単位ヘッダは、Ｍ個のビットで構成されたＳＥＴ８１、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３及び第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４を含む。ＳＥＴ８１は、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３及び第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４が、それぞれいかなるスケーラブル拡張類型を示すかということを決定するためのスケーラブルインデックス情報である。すなわち、ＳＥＴ８１は、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３及び第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４それぞれが、複数個のスケーラブル拡張類型情報のうちいずれにに該当するかということを決定するための情報でもある。

図９は、図８のＮＡＬ単位ヘッダのＳＥＴ８１によって、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３及び第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４が示すスケーラブル拡張類型情報の一例を示した図面である。

図９を参照すれば、ＳＥＴ８１の値によって、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３及び第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４が、それぞれいかなるスケーラブル拡張類型情報を示す値であるかということを示すことができる。例えば、ＳＥＴ８１が１の値を有する場合、第１サブレイヤインデックス（Ｓｕｂ−ＬＩＤ０）８２の値は、視点情報（view ＩＤ）を示し、第２サブレイヤインデックス（Ｓｕｂ−ＬＩＤ１）８３は、dependency ＩＤを示し、第３サブレイヤインデックス（Ｓｕｂ＿ＬＩＤ２）８４は、画質的スケーラビリティ情報（quality＿ｉｄ）を示している。

図９では、３個のサブレイヤインデックスが含まれた場合を例示したが、それに限定されるものではなく、サブレイヤインデックスは、利用可能なビット数の範囲内で、３個以上のスケーラブル拡張種類情報を示すように拡張されてもよい。また、ＳＥＴ８１によって、各サブレイヤインデックスが示すスケーラブル拡張類型情報も変更される。

図１０は、一実施形態による多階層ビデオ符号化方法のフローチャートである。

図１及び図１０を参照すれば、段階１０１０で、ビデオ符号化部１１は、多階層ビデオを符号化する。前述のように、多階層ビデオは、時間的、空間的、画質的、多視点的なスケーラビリティのうち少なくとも一つが互いに異なる映像から構成された多階層の映像シーケンスである。

段階１０２０で、出力部１２は、符号化された多階層ビデオを、データ単位によって区分し、データ単位別ＮＡＬ（network adaptive layer）単位を生成する。前述のように、出力部１２は、多階層ビデオに含まれたスライス単位別に、スライス単位の符号化された情報を含むスライスセグメントＮＡＬ単位を生成することができる。また、出力部１２は、多階層ビデオに含まれたピクチャに共通して適用されるＰＰＳについての情報を含むＰＰＳＮＡＬ単位を生成することができる。また、出力部１２は、多階層ビデオに含まれた所定階層の映像シーケンスに共通して適用されるＳＰＳについての情報を含むＳＰＳＮＡＬ単位を生成することができる。また、出力部１２は、多階層ビデオに共通して適用されるＶＰＳについての情報を含むＶＰＳＮＡＬ単位を生成することができる。

段階１０３０で、出力部１２は、ＶＰＳＮＡＬ単位に、多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を付加することができる。前述の一実施形態のように、出力部１２は、多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスに該当するＳＥＴ情報、及びスケーラブル拡張類型テーブルインデックスが示すスケーラブル拡張類型テーブルに含まれたスケーラブル拡張類型の組み合わせのうち一つを示すレイヤインデックス情報（ＬＩＤ）を、ＶＰＳＮＡＬ単位に含めることができる。

また、出力部１２は、ＶＰＳＮＡＬ単位には、ＳＥＴ情報のみを含め、各階層のＳＰＳ情報を含むＳＰＳＮＡＬ単位に、レイヤインデックス情報（ＬＩＤ）を含めるか、あるいは各階層のＰＰＳ情報を含むＰＰＳＮＡＬ単位に、レイヤインデックス情報（ＬＩＤ）に含めることができる。

図１１は、一実施形態による多階層ビデオ復号化装置の構成を示したブロック図である。図１１を参照すれば、多階層ビデオ復号化装置１１００は、受信部１１１０及びビデオ復号化部１１２０を含む。

受信部１１１０は、ネットワーク抽象階層のＮＡＬ単位を受信し、本発明の実施形態による、スケーラブル拡張類型情報を含むＶＰＳＮＡＬ単位を識別する。ＶＰＳＮＡＬ単位は、ＮＡＬ単位の種類を示す識別子であるnal＿unit＿type（ＮＵＴ）を利用して決定される。本発明の実施形態によるスケーラブル拡張類型情報は、ＶＰＳＮＡＬ単位の予約された領域に含まれてもよい。

一実施形態による受信部１１１０は、スケーラブル拡張類型情報を含むＶＰＳＮＡＬ単位をパージングし、現在多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスに該当するＳＥＴ情報、及びスケーラブル拡張類型テーブルインデックスが示すスケーラブル拡張類型テーブルに含まれたスケーラブル拡張類型の組み合わせのうち一つを示すレイヤインデックス情報（ＬＩＤ）を獲得することができる。

他の実施形態による受信部１１１０は、ＶＰＳＮＡＬ単位から、ＳＥＴ情報のみを獲得し、ＶＰＳＮＡＬ単位以外の他のＮＡＬ単位から、レイヤインデックス情報（ＬＩＤ）を獲得することができる。すなわち、受信部１１１０は、各階層のＳＰＳ情報を含むＳＰＳＮＡＬ単位から、現在シーケンスに含まれた映像に適用されたスケーラブル拡張類型を決定するためのレイヤインデックス情報（ＬＩＤ）を獲得するか、あるいはＰＰＳ情報を含むＰＰＳＮＡＬ単位から、ピクチャに適用されたスケーラブル拡張類型を決定するためのレイヤインデックス情報（ＬＩＤ）を獲得することができる。

ビデオ復号化部１１２０は、ＳＥＴ情報及びＬＩＤ情報に基づいて、多階層ビデオに含まれた映像に適用されたスケーラブル拡張類型を決定し、多階層ビデオを復号化する。ビデオ復号化部１１２０は、ツリー構造の符号化単位に基づいて、多階層ビデオを復号化することができる。ツリー構造の符号化単位に基づいた多階層ビデオの復号化過程については後述する。

図１２は、一実施形態による多階層ビデオ復号化方法を示したフローチャートである。

図１１及び図１２を参照すれば、段階１２１０で受信部１１１０は、符号化された多階層ビデオを、データ単位別に区分して生成されたＮＡＬ単位を受信する。

段階１２２０で、受信部１１１０は、受信されたＮＡＬ単位のうちＶＰＳ情報を含むＶＰＳＮＡＬ単位を獲得する。ＶＰＳＮＡＬ単位は、ＮＡＬ単位の種類を示す識別子であるnal＿unit＿type（ＮＵＴ）を利用して決定される。

段階１２３０で、受信部１１１０は、ＶＰＳＮＡＬ単位から、多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を獲得する。一実施形態による受信部１１１０は、スケーラブル拡張類型情報を含むＶＰＳＮＡＬ単位をパージングし、現在多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスに該当するＳＥＴ情報、及びスケーラブル拡張類型テーブルインデックスが示すスケーラブル拡張類型テーブルに含まれたスケーラブル拡張類型の組み合わせのうち一つを示すレイヤインデックス情報（ＬＩＤ）を獲得することができる。他の実施形態による受信部１１１０は、ＶＰＳＮＡＬ単位から、ＳＥＴ情報のみを獲得し、ＶＰＳＮＡＬ単位以外の他のＮＡＬ単位から、レイヤインデックス情報（ＬＩＤ）を獲得することができる。すなわち、受信部１１１０は、各階層のＳＰＳ情報を含むＳＰＳＮＡＬ単位から、現在シーケンスに含まれた映像に適用されたスケーラブル拡張類型を決定するためのレイヤインデックス情報（ＬＩＤ）を獲得するか、あるいはＰＰＳ情報を含むＰＰＳＮＡＬ単位から、ピクチャに適用されたスケーラブル拡張類型を決定するためのレイヤインデックス情報（ＬＩＤ）を獲得することができる。

ビデオ復号化部１１２０は、ＳＥＴ情報及びＬＩＤ情報に基づいて、多階層ビデオに含まれた映像に適用されたスケーラブル拡張類型を決定し、多階層ビデオを復号化する。

図１３ないし図２５を参照し、ツリー構造の符号化単位に基づいた、ビデオ符号化技法及びビデオ復号化技法について詳細に説明する。以下で説明するツリー構造の符号化単位に基づいた符号化技法及びビデオ復号化技法は、図１のビデオ符号化装置１０のビデオ符号化部１１、及び図１１のビデオ復号化装置１１００のビデオ復号化部１１２０で遂行される、多階層ビデオに含まれたピクチャを符号化／復号化する過程と係わる。

図１３は、本発明の一実施形態による、ツリー構造の符号化単位に基づいたビデオ符号化装置１００のブロック図を図示している。

一実施形態による、ツリー構造による符号化単位に基づいたビデオ予測を伴うビデオ符号化装置１００は、最大符号化単位分割部１１０、符号化単位決定部１２０及び出力部１３０を含む。以下、説明の便宜のために、一実施形態による、ツリー構造による符号化単位に基づいたビデオ予測を伴うビデオ符号化装置１００は、「ビデオ符号化装置１００」と縮称する。

最大符号化単位分割部１１０は、映像の現在ピクチャのための最大サイズの符号化単位である最大符号化単位に基づいて、現在ピクチャを区画することができる。現在ピクチャが最大符号化単位より大きければ、現在ピクチャの映像データは、少なくとも１つの最大符号化単位に分割される。一実施形態による最大符号化単位は、サイズ３２ｘ３２，６４ｘ６４，１２８ｘ１２８，２５６ｘ２５６のデータ単位であり、縦横サイズが２の累乗である正方形のデータ単位でもある。映像データは、少なくとも１つの最大符号化単位別に、符号化単位決定部１２０に出力される。

一実施形態による符号化単位は、最大サイズ及び最大深度で特徴つけられる。深度とは、最大符号化単位から、符号化単位が空間的に分割された回数を示し、深度が深くなるほど、深度別符号化単位は、最大符号化単位から最小符号化単位まで分割される。最大符号化単位の深度が最上位深度であり、最小符号化単位が最下位符号化単位と定義される。最大符号化単位は、深度が深くなるにつれ、深度別符号化単位の大きさが小さくなるので、上位深度の符号化単位は、複数個の下位深度の符号化単位を含む。

前述のように、符号化単位の最大サイズによって、現在ピクチャの映像データを最大符号化単位に分割し、それぞれの最大符号化単位は、深度別に分割される符号化単位を含む。一実施形態による最大符号化単位は、深度別に分割されるので、最大符号化単位に含まれた空間領域（spatial domain）の映像データが深度によって階層的に分類される。

最大符号化単位の高さ及び幅を階層的に分割することができる総回数を制限する最大深度及び符号化単位の最大サイズがあらかじめ設定されている。

符号化単位決定部１２０は、深度ごとに最大符号化単位の領域が分割された少なくとも１つの分割領域を符号化し、少なくとも１つの分割領域別に最終符号化結果が出力される深度を決定する。すなわち、符号化単位決定部１２０は、現在ピクチャの最大符号化単位ごとに、深度別符号化単位で映像データを符号化し、最小の符号化誤差が発生する深度を選択し、符号化深度として決定する。決定された符号化深度及び最大符号化単位別映像データは、出力部１３０に出力される。

最大符号化単位内の映像データは、最大深度以下の少なくとも１つの深度によって、深度別符号化単位に基づいて符号化され、それぞれの深度別符号化単位に基づいた符号化結果が比較される。深度別符号化単位の符号化誤差の比較結果、符号化誤差が最小である深度が選択される。それぞれの最大化符号化単位ごとに、少なくとも１つの符号化深度が決定される。

最大符号化単位の大きさは、深度が深くなるにつれて符号化単位が階層的に分割されて分割され、符号化単位の個数は増加する。また、１つの最大符号化単位に含まれる同一深度の符号化単位であるとしても、それぞれのデータに係わる符号化誤差を測定し、下位深度への分割いかんが決定される。従って、１つの最大符号化単位に含まれるデータであるとしても、位置によって深度別符号化誤差が異なるので、位置によって符号化深度が異なって決定される。従って、１つの最大符号化単位について符号化深度が一つ以上設定され、最大符号化単位のデータは、一つ以上の符号化深度の符号化単位によって区画されもする。

従って、一実施形態による符号化単位決定部１２０は、現在最大符号化単位に含まれるツリー構造による符号化単位を決定する。一実施形態による「ツリー構造による符号化単位」は、現在最大符号化単位に含まれる全ての深度別符号化単位において、符号化深度に決定された深度の符号化単位を含む。符号化深度の符号化単位は、最大符号化単位内で、同一領域では、深度によって階層的に決定され、他の領域については、独立して決定される。同様に、現在領域に係わる符号化深度は、他の領域に係わる符号化深度と独立して決定される。

一実施形態による最大深度は、最大符号化単位から最小符号化単位までの分割回数と係わる指標である。一実施形態による第１最大深度は、最大符号化単位から最小符号化単位までの全分割回数を示すことができる。一実施形態による第２最大深度は、最大符号化単位から最小符号化単位までの深度レベルの総個数を示すことができる。例えば、最大符号化単位の深度が０であるとするとき、最大符号化単位が１回分割された符号化単位の深度は、１に設定され、２回分割された符号化単位の深度は、２に設定される。その場合、最大符号化単位から４回分割された符号化単位が最小符号化単位であるならば、深度０，１，２，３及び４の深度レベルが存在するので、第１最大深度は、４に設定され、第２最大深度は、５に設定される。

最大符号化単位の予測符号化及び変換が行われる。予測符号化及び変換も同様に、最大符号化単位ごとに、最大深度以下の深度ごとに、深度別符号化単位を基に行われる。

最大符号化単位が深度別に分割されるたびに、深度別符号化単位の個数が増加するので、深度が深くなるにつれて生成される全ての深度別符号化単位について、予測符号化及び変換を含んだ符号化が行われなければならない。以下、説明の便宜のために、少なくとも１つの最大符号化単位のうち、現在深度の符号化単位を基に、予測符号化及び変換について説明する。

一実施形態によるビデオ符号化装置１００は、映像データの符号化のためのデータ単位の大きさまたは形態を多様に選択することができる。映像データの符号化のためには、予測符号化、変換、エントロピー符号化などの段階を経るが、全ての段階にわたって同一データ単位が使用され、段階別にデータ単位が変更されもする。

例えば、ビデオ符号化装置１００は、映像データの符号化のための符号化単位だけではなく、符号化単位の映像データの予測符号化を行うために、符号化単位と異なるデータ単位を選択することができる。

最大符号化単位の予測符号化のためには、一実施形態による符号化深度の符号化単位、すなわち、それ以上さらに分割されない符号化単位を基に、予測符号化が行われる。以下、予測符号化の基になる、それ以上さらに分割されない符号化単位を「予測単位」と呼ぶ。予測単位が分割されたパーティションは、予測単位、並びに予測単位の高さ及び幅のうち少なくとも一つが分割されたデータ単位を含んでもよい。パーティションは、符号化単位の予測単位が分割された形態のデータ単位であり、予測単位は、符号化単位と同一サイズのパーティションでもある。

例えば、サイズ２Ｎｘ２Ｎ（ただし、Ｎは正の整数）の符号化単位が、それ以上分割されない場合、サイズ２Ｎｘ２Ｎの予測単位になり、パーティションの大きさは、２Ｎｘ２Ｎ、２ＮｘＮ、Ｎｘ２Ｎ、ＮｘＮでもある。一実施形態によるパーティションタイプは、予測単位の高さまたは幅が対称的な比率に分割された対称的パーティションだけではなく、１：ｎまたはｎ：１のように、非対称的な比率に分割されたパーティション、幾何学的な形態に分割されたパーティション、任意的形態のパーティションなどを選択的に含んでもよい。

予測単位の予測モードは、イントラモード、インターモード及びスキップモードのうち少なくとも一つである。例えば、イントラモード及びインターモードは、２Ｎｘ２Ｎ，２ＮｘＮ，Ｎｘ２Ｎ，ＮｘＮサイズのパーティションについて行われる。また、スキップモードは、２Ｎｘ２Ｎサイズのパーティションについてのみ行われる。符号化単位以内の１つの予測単位ごとに、独立して符号化が行われ、符号化誤差が最小である予測モードが選択される。

また、一実施形態によるビデオ符号化装置１００は、映像データの符号化のための符号化単位だけではなく、符号化単位と異なるデータ単位を基に、符号化単位の映像データの変換を行うことができる。符号化単位の変換のためには、符号化単位より小さいか、あるいはそれと同じ大きさの変換単位を基に変換が行われる。例えば、変換単位は、イントラモードのための変換単位、及びインターモードのための変換単位を含んでもよい。

一実施形態によるツリー構造による符号化単位と類似した方式で、符号化単位内の変換単位も再帰的にさらに小サイズの変換単位に分割されながら、符号化単位のレジデュアルデータが変換深度によって、ツリー構造による変換単位によって区画される。

一実施形態による変換単位についても、符号化単位の高さ及び幅が分割され、変換単位に至るまでの分割回数を示す変換深度が設定される。例えば、サイズ２Ｎｘ２Ｎの現在符号化単位の変換単位の大きさが２Ｎｘ２Ｎであるならば、変換深度０に設定され、変換単位の大きさがＮｘＮであるならば、変換深度１に設定され、変換単位の大きさがＮ／２ｘＮ／２であるならば、変換深度２に設定される。すなわち、変換単位についても、変換深度によって、ツリー構造による変換単位が設定される。

符号化深度別符号化情報は、符号化深度だけではなく、予測関連情報及び変換関連情報が必要である。従って、符号化単位決定部１２０は、最小符号化誤差を発生させた符号化深度だけではなく、予測単位をパーティションに分割したパーティションタイプ、予測単位別予測モード、変換のための変換単位の大きさなどを決定することができる。

一実施形態による最大符号化単位のツリー構造による符号化単位及び予測単位／パーティション、並びに変換単位の決定方式については、図１５ないし図２５を参照して詳細に説明する。

符号化単位決定部１２０は、深度別符号化単位の符号化誤差を、ラグランジュ乗数（Lagrangian multiplier）基盤の率・歪曲最適化技法（rate-distortion optimization）を利用して測定することができる。

出力部１３０は、符号化単位決定部１２０で決定された少なくとも１つの符号化深度に基づいて符号化された最大符号化単位の映像データ及び深度別符号化モードについての情報をビットストリーム形態で出力する。

符号化された映像データは、映像のレジデュアルデータの符号化結果でもある。

深度別符号化モードについての情報は、符号化深度情報、予測単位のパーティションタイプ情報、予測モード情報、変換単位のサイズ情報などを含んでもよい。

符号化深度情報は、現在深度で符号化せず、下位深度の符号化単位で符号化するか否かということを示す深度別分割情報を利用して定義される。現在符号化単位の現在深度が符号化深度であるならば、現在符号化単位は、現在深度の符号化単位で符号化されるので、現在深度の分割情報は、それ以上下位深度に分割されないように定義される。反対に、現在符号化単位の現在深度が符号化深度ではないならば、下位深度の符号化単位を利用した符号化を試みなければならないので、現在深度の分割情報は、下位深度の符号化単位に分割されるように定義される。

現在深度が符号化深度ではないならば、下位深度の符号化単位に分割された符号化単位について符号化が行われる。現在深度の符号化単位内に、下位深度の符号化単位が一つ以上存在するので、それぞれの下位深度の符号化単位ごとに、反復的に符号化が行われ、同一深度の符号化単位ごとに、再帰的（recursive）符号化が行われる。

１つの最大符号化単位内に、ツリー構造の符号化単位が決定され、符号化深度の符号化単位ごとに、少なくとも１つの符号化モードについての情報が決定されなければならないので、１つの最大符号化単位については、少なくとも１つの符号化モードについての情報が決定される。また、最大符号化単位のデータは、深度によって階層的に区画され、位置別に符号化深度が異なるので、データについて、符号化深度及び符号化モードについての情報が設定される。

従って、一実施形態による出力部１３０は、最大符号化単位に含まれている符号化単位、予測単位及び最小単位のうち少なくとも一つに対して、当該符号化深度及び符号化モードに係わる符号化情報を割り当てられる。

一実施形態による最小単位は、最下位符号化深度である最小符号化単位が４分割された大きさの正方形のデータ単位である。一実施形態による最小単位は、最大符号化単位に含まれる全ての符号化単位、予測単位、パーティション単位及び変換単位内に含まれる最大サイズの正方形データ単位でもある。

例えば、出力部１３０を介して出力される符号化情報は、深度別符号化単位別符号化情報と、予測単位別符号化情報とに分類される。深度別符号化単位別符号化情報は、予測モード情報、パーティションサイズ情報を含んでもよい。予測単位別に伝送される符号化情報は、インターモードの推定方向についての情報、インターモードの参照映像インデックスについての情報、動きベクトルについての情報、イントラモードのクロマ成分についての情報、イントラモードの補間方式についての情報などを含んでもよい。

ピクチャ別、スライス別またはＧＯＰ（group of picture）別に定義される符号化単位の最大サイズについての情報、及び最大深度についての情報は、ビットストリームのヘッダ、シーケンスパラメーターセットまたはピクチャパラメーターセットなどに挿入される。

また、現在ビデオに対して許容される変換単位の最大サイズについての情報、及び変換単位の最小サイズについての情報も、ビットストリームのヘッダ、シーケンスパラメーターセットまたはピクチャパラメーターセットなどを介して出力される。

ビデオ符号化装置１００の最も簡単な形態の実施形態によれば、深度別符号化単位は、１階層上位深度の符号化単位の高さ及び幅を半分にした大きさの符号化単位である。すなわち、現在深度の符号化単位の大きさが２Ｎｘ２Ｎであるならば、下位深度の符号化単位の大きさは、ＮｘＮである。また、２Ｎｘ２Ｎサイズの現在符号化単位は、ＮｘＮサイズの下位深度符号化単位を最大４個含んでもよい。

従って、ビデオ符号化装置１００は、現在ピクチャの特性を考慮して決定された最大符号化単位の大きさ及び最大深度を基に、それぞれの最大符号化単位ごとに、最適の形態及び大きさの符号化単位を決定し、ツリー構造による符号化単位を構成することができる。また、それぞれの最大符号化単位ごとに、多様な予測モード、変換方式などで符号化することができるので、多様な映像サイズの符号化単位の映像特性を考慮し、最適の符号化モードが決定される。

従って、映像の解像度が非常に高いか、あるいはデータ量が非常に多い映像を既存マクロブロック単位で符号化するならば、ピクチャ当たりマクロブロックの数が過度に多くなる。それによって、マクロブロックごとに生成される圧縮情報も多くなるので、圧縮情報の伝送負担が大きくなり、データ圧縮効率が低下する傾向がある。従って、一実施形態によるビデオ符号化装置は、映像の大きさを考慮し、符号化単位の最大サイズを増大させながら、映像特性を考慮して符号化単位を調節することができるので、映像圧縮効率が上昇する。

図１４は、本発明の一実施形態による、ツリー構造の符号化単位に基づいたビデオ復号化装置のブロック図を図示している。

一実施形態による、ツリー構造による符号化単位に基づいたビデオ予測を伴うビデオ復号化装置２００は、受信部２１０、映像データ及び符号化情報抽出部２２０、並びに映像データ復号化部２３０を含む。以下、説明の便宜のために、一実施形態による、ツリー構造による符号化単位に基づいたビデオ予測を伴うビデオ復号化装置２００は、「ビデオ復号化装置２００」と縮称する。

一実施形態によるビデオ復号化装置２００の復号化動作のための符号化単位、深度、予測単位、変換単位、各種符号化モードについての情報など各種用語の定義は、図１のビデオ符号化装置１００を参照して説明したところと同一である。

受信部２１０は、符号化されたビデオに係わるビットストリームを受信してパージングする。映像データ及び符号化情報抽出部２２０は、パージングされたビットストリームから、最大符号化単位別に、ツリー構造による符号化単位によって、符号化単位ごとに符号化された映像データを抽出し、映像データ復号化部２３０に出力する。映像データ及び符号化情報抽出部２２０は、現在ピクチャに係わるヘッダ、シーケンスパラメーターセットまたはピクチャパラメーターセットから、現在ピクチャの符号化単位の最大サイズについての情報を抽出することができる。

また、映像データ及び符号化情報抽出部２２０は、パージングされたビットストリームから、最大符号化単位別に、ツリー構造による符号化単位に係わる符号化深度及び符号化モードについての情報を抽出する。抽出された符号化深度及び符号化モードについての情報は、映像データ復号化部２３０に出力される。すなわち、ビット列の映像データを最大符号化単位に分割し、映像データ復号化部２３０が最大符号化単位ごとに映像データを復号化する。

最大符号化単位別符号化深度及び符号化モードについての情報は、一つ以上の符号化深度情報について設定され、符号化深度別符号化モードについての情報は、当該符号化単位のパーティションタイプ情報、予測モード情報及び変換単位のサイズ情報などを含んでもよい。また、符号化深度情報として、深度別分割情報が抽出されもする。

映像データ及び符号化情報抽出部２２０が抽出した最大符号化単位別符号化深度及び符号化モードについての情報は、一実施形態によるビデオ符号化装置１００のように、符号化端で、最大符号化単位別深度別符号化単位ごとに反復的に符号化を行い、最小符号化誤差を発生させることによって決定された符号化深度及び符号化モードについての情報である。従って、ビデオ復号化装置２００は、最小符号化誤差を発生させる符号化方式によって、データを復号化して映像を復元することができる。

一実施形態による符号化深度及び符号化モードに係わる符号化情報は、当該符号化単位、予測単位及び最小単位のうち所定データ単位について割り当てられているので、映像データ及び符号化情報抽出部２２０は、所定データ単位別に、符号化深度及び符号化モードについての情報を抽出することができる。所定データ単位別に、当該最大符号化単位の符号化深度及び符号化モードについての情報が記録されているならば、同一の符号化深度及び符号化モードについての情報を有している所定データ単位は、同一最大符号化単位に含まれるデータ単位と類推される。

映像データ復号化部２３０は、最大符号化単位別符号化深度及び符号化モードについての情報に基づいて、それぞれの最大符号化単位の映像データを復号化し、現在ピクチャを復元する。すなわち、映像データ復号化部２３０は、最大符号化単位に含まれる、ツリー構造による符号化単位のうちそれぞれの符号化単位ごとに、判読されたパーティションタイプ、予測モード、変換単位に基づいて符号化された映像データを復号化することができる。復号化過程は、イントラ予測及び動き補償を含む予測過程、及び逆変換過程を含んでもよい。

映像データ復号化部２３０は、符号化深度別符号化単位の予測単位のパーティションタイプ情報及び予測モード情報に基づいて、符号化単位ごとに、それぞれのパーティション及び予測モードによって、イントラ予測または動き補償を行うことができる。

また、映像データ復号化部２３０は、最大符号化単位別逆変換のために、符号化単位別に、ツリー構造による変換単位情報を判読し、符号化単位ごとに、変換単位に基づいた逆変換を行うことができる。逆変換を介して、符号化単位の空間領域の画素値が復元される。

映像データ復号化部２３０は、深度別分割情報を利用して、現在最大符号化単位の符号化深度を決定することができる。もし分割情報が現在深度でそれ以上分割されないということを示しているならば、現在深度が符号化深度である。従って、映像データ復号化部２３０は、現在最大符号化単位の映像データについて、現在深度の符号化単位を、予測単位のパーティションタイプ、予測モード及び変換単位サイズ情報を利用して、復号化することができる。

すなわち、符号化単位、予測単位及び最小単位のうち、所定データ単位について設定されている符号化情報を観察し、同一分割情報を含んだ符号化情報を保有しているデータ単位が集まり、映像データ復号化部２３０によって、同一符号化モードで復号化する１つのデータ単位と見なされる。そのように決定された符号化単位ごとに、符号化モードに係わる情報を獲得し、現在符号化単位の復号化が行われる。

結局、ビデオ復号化装置２００は、符号化過程において、最大符号化単位ごとに、再帰的に符号化を行い、最小符号化誤差を発生させた符号化単位に係わる情報を獲得し、現在ピクチャに係わる復号化に利用することができる。すなわち、最大符号化単位ごとに、最適符号化単位で決定された、ツリー構造による符号化単位の符号化された映像データの復号化が可能になる。

従って、高い解像度の映像、またはデータ量が過度に多い映像でも、符号化端から伝送された最適符号化モードについての情報を利用して、映像の特性に適応的に決定された符号化単位の大きさ及び符号化モードによって、効率的に映像データを復号化して復元することができる。

図１５は、本発明の一実施形態による符号化単位の概念を図示している。

符号化単位の例は、符号化単位の大きさは、幅ｘ高さで表現され、サイズ６４ｘ６４である符号化単位から、サイズ３２ｘ３２，１６ｘ１６，８ｘ８を含んでもよい。サイズ６４ｘ６４の符号化単位は、サイズ６４ｘ６４，６４ｘ３２，３２ｘ６４，３２ｘ３２のパーティションに分割され、サイズ３２ｘ３２の符号化単位は、サイズ３２ｘ３２，３２ｘ１６，１６ｘ３２，１６ｘ１６のパーティションに分割され、サイズ１６ｘ１６の符号化単位は、サイズ１６ｘ１６，１６ｘ８，８ｘ１６，８ｘ８のパーティションに分割され、サイズ８ｘ８の符号化単位は、サイズ８ｘ８，８ｘ４，４ｘ８，４ｘ４のパーティションに分割される。

ビデオデータ３１０については、解像度が１９２０ｘ１０８０、符号化単位の最大サイズが６４、最大深度が２に設定されている。ビデオデータ３２０については、解像度が１９２０ｘ１０８０、符号化単位の最大サイズが６４、最大深度が３に設定されている。ビデオデータ３３０については、解像度が３５２ｘ２８８、符号化単位の最大サイズが１６、最大深度が１に設定されている。図１５に図示された最大深度は、最大符号化単位から最小符号化単位までの全分割回数を示している。

解像度が高いか、あるいはデータ量が多い場合、符号化効率の向上だけではなく、映像特性を正確に反映するために、符号化サイズの最大サイズが相対的に大きいことが望ましい。従って、ビデオデータ３３０に比べ、解像度が高いビデオデータ３１０，３２０は、符号化サイズの最大サイズが６４に選択される。

ビデオデータ３１０の最大深度が２であるので、ビデオデータ３１０の符号化単位３１５は、長軸サイズが６４である最大符号化単位から、２回分割されて深度が２階層深くなり、長軸サイズが３２，１６である符号化単位まで含んでもよい。一方、ビデオデータ３３０の最大深度が１であるので、ビデオデータ３３０の符号化単位３３５は、長軸サイズが１６である符号化単位から、１回分割されて深度が１階層深くなり、長軸サイズが８である符号化単位まで含んでもよい。

ビデオデータ３２０の最大深度が３であるので、ビデオデータ３２０の符号化単位３２５は、長軸サイズが６４である最大符号化単位から、３回分割されて深度が３階層深くなり、長軸サイズが３２，１６，８である符号化単位まで含んでもよい。深度が深くなるほど、細部情報の表現能が向上するのである。

図１６は、本発明の一実施形態による、符号化単位に基づいた映像符号化部のブロック図を図示している。

一実施形態による映像符号化部４００は、ビデオ符号化装置１００の符号化単位決定部１２０で、映像データを符号化するのに経る作業を含む。すなわち、イントラ予測部４１０は、現在フレーム４０５において、イントラモードの符号化単位についてイントラ予測を行い、動き推定部４２０及び動き補償部４２５は、インターモードの現在フレーム４０５及び参照フレーム４９５を利用して、インター推定及び動き補償を行う。

イントラ予測部４１０、動き推定部４２０及び動き補償部４２５から出力されたデータは、変換部４３０及び量子化部４４０を経て、量子化された変換係数として出力される。量子化された変換係数は、逆量子化部４６０、逆変換部４７０を介して、空間領域のデータに復元され、復元された空間領域のデータは、デブロッキング部４８０及びオフセット調整部４９０を経て後処理され、参照フレーム４９５として出力される。量子化された変換係数は、エントロピー符号化部４５０を経て、ビットストリーム４５５として出力される。

一実施形態によるビデオ符号化装置１００に適用されるためには、映像符号化部４００の構成要素である、イントラ予測部４１０、動き推定部４２０、動き補償部４２５、変換部４３０、量子化部４４０、エントロピー符号化部４５０、逆量子化部４６０、逆変換部４７０、デブロッキング部４８０及びオフセット調整部４９０が、いずれも最大符号化単位ごとに、最大深度を考慮し、ツリー構造による符号化単位のうちそれぞれの符号化単位に基づいた作業を遂行しなければならない。

特に、イントラ予測部４１０、動き推定部４２０及び動き補償部４２５は、現在最大符号化単位の最大サイズ及び最大深度を考慮し、ツリー構造による符号化単位のうち、それぞれの符号化単位のパーティション及び予測モードを決定し、変換部４３０は、ツリー構造による符号化単位のうち、それぞれの符号化単位内の変換単位の大きさを決定しなければならない。

図１７は、本発明の一実施形態による、符号化単位に基づいた映像復号化部のブロック図を図示している。

ビットストリーム５０５がパージング部５１０を経て、復号化対象である符号化された映像データ、及び復号化のために必要な符号化についての情報がパージングされる。符号化された映像データは、エントロピー復号化部５２０及び逆量子化部５３０を経て、逆量子化されたデータとして出力され、逆変換部５４０を経て、空間領域の映像データが復元される。

空間領域の映像データに対して、イントラ予測部５５０は、イントラモードの符号化単位についてイントラ予測を行い、動き補償部５６０は、参照フレーム５８５を共に利用して、インターモードの符号化単位について動き補償を行う。

イントラ予測部５５０及び動き補償部５６０を経た空間領域のデータは、デブロッキング部５７０及びオフセット調整部５８０を経て後処理され、復元フレーム５９５として出力される。また、デブロッキング部５７０及びオフセット調整部５８０を経て後処理されたデータは、参照フレーム５８５として出力される。

ビデオ復号化装置２００の映像データ復号化部２３０において、映像データを復号化するために、一実施形態による映像復号化部５００のパージング部５１０以後の段階別作業が遂行される。

一実施形態によるビデオ復号化装置２００に適用されるためには、映像復号化部５００の構成要素である、パージング部５１０、エントロピー復号化部５２０、逆量子化部５３０、逆変換部５４０、イントラ予測部５５０、動き補償部５６０、デブロッキング部５７０及びオフセット調整部５８０が、いずれも最大符号化単位ごとに、ツリー構造による符号化単位に基づいて作業を遂行しなければならない。

特に、イントラ予測部５５０、動き補償部５６０は、ツリー構造による符号化単位ごとに、それぞれパーティション及び予測モードを決定し、逆変換部５４０は、符号化単位ごと、に変換単位の大きさを決定しなければならない。

図１８は、本発明の一実施形態による、深度別符号化単位及びパーティションを図示している。

一実施形態によるビデオ符号化装置１００、及び一実施形態によるビデオ復号化装置２００は、映像特性を考慮するために、階層的な符号化単位を使用する。符号化単位の最大高及び最大幅、最大深度は、映像の特性によって、適応的に決定され、ユーザの要求によって、多様に設定されもする。あらかじめ設定された符号化単位の最大サイズによって、深度別符号化単位の大きさが決定される。

一実施形態による符号化単位の階層構造６００は、符号化単位の最大高及び最大幅が６４であり、最大深度が３である場合を図示している。そのとき、最大深度は、最大符号化単位から最小符号化単位までの全分割回数を示す。一実施形態による符号化単位の階層構造６００の縦軸にそって、深度が深くなるので、深度別符号化単位の高さ及び幅がそれぞれ分割される。また、符号化単位の階層構造６００の横軸に沿って、それぞれの深度別符号化単位の予測符号化の基になる予測単位及びパーティションが図示されている。

すなわち、符号化単位６１０は、符号化単位の階層構造６００において、最大符号化単位であって深度が０であり、符号化単位の大きさ、すなわち、高さ及び幅が６４ｘ６４である。縦軸に沿って深度が深くなり、サイズ３２ｘ３２である深度１の符号化単位６２０、サイズ１６ｘ１６である深度２の符号化単位６３０、サイズ８ｘ８である深度３の符号化単位６４０が存在する。サイズ８ｘ８である深度３の符号化単位６４０は、最小符号化単位である。

それぞれの深度別に横軸に沿って、符号化単位の予測単位及びパーティションが配列される。すなわち、深度０のサイズ６４ｘ６４の符号化単位６１０が予測単位であるならば、予測単位は、サイズ６４ｘ６４の符号化単位６１０に含まれるサイズ６４ｘ６４のパーティション６１０、サイズ６４ｘ３２のパーティション６１２、サイズ３２ｘ６４のパーティション６１４、サイズ３２ｘ３２のパーティション６１６に分割される。

同様に、深度１のサイズ３２ｘ３２の符号化単位６２０の予測単位は、サイズ３２ｘ３２の符号化単位６２０に含まれるサイズ３２ｘ３２のパーティション６２０、サイズ３２ｘ１６のパーティション６２２、サイズ１６ｘ３２のパーティション６２４、サイズ１６ｘ１６のパーティション６２６に分割される。

同様に、深度２のサイズ１６ｘ１６の符号化単位６３０の予測単位は、サイズ１６ｘ１６の符号化単位６３０に含まれるサイズ１６ｘ１６のパーティション６３０、サイズ１６ｘ８のパーティション６３２、サイズ８ｘ１６のパーティション６３４、サイズ８ｘ８のパーティション６３６に分割される。

同様に、深度３のサイズ８ｘ８の符号化単位６４０の予測単位は、サイズ８ｘ８の符号化単位６４０に含まれるサイズ８ｘ８のパーティション６４０、サイズ８ｘ４のパーティション６４２、サイズ４ｘ８のパーティション６４４、サイズ４ｘ４のパーティション６４６に分割される。

最後に、深度３のサイズ８ｘ８の符号化単位６４０は、最小符号化単位であり、最下位深度の符号化単位である。

一実施形態によるビデオ符号化装置１００の符号化単位決定部１２０は、最大符号化単位６１０の符号化深度を決定するために、最大符号化単位６１０に含まれるそれぞれの深度の符号化単位ごとに符号化を行わなければならない。

同一範囲及び同一サイズのデータを含むための深度別符号化単位の個数は、深度が深くなるほど、深度別符号化単位の個数も増加する。例えば、深度１の符号化単位一つを含むデータに対して、深度２の符号化単位は、四つが必要である。従って、同一データの符号化結果を深度別に比較するために、１つの深度１の符号化単位、及び４つの深度２の符号化単位を利用して、それぞれ符号化されなければならない。

それぞれの深度別符号化のためには、符号化単位の階層構造６００の横軸に沿って、深度別符号化単位の予測単位ごとに符号化を行い、当該深度において、最小の符号化誤差である代表符号化誤差が選択される。また、符号化単位の階層構造６００の縦軸に沿って深度が深くなり、それぞれの深度ごとに符号化を行い、深度別代表符号化誤差を比較し、最小符号化誤差が検索される。最大符号化単位６１０において、最小符号化誤差が発生する深度及びパーティションが、最大符号化単位６１０の符号化深度及びパーティションタイプに選択される。

図１９は、本発明の一実施形態による、符号化単位及び変換単位の関係を図示している。

一実施形態によるビデオ符号化装置１００、または一実施形態によるビデオ復号化装置２００は、最大符号化単位ごとに、最大符号化単位より小さいか、あるいはそれと同じ大きさの符号化単位で、映像を符号化したり、あるいは復号化したりする。符号化過程のうち、変換のための変換単位の大きさは、それぞれの符号化単位ほど大きくないデータ単位を基に選択される。

例えば、一実施形態によるビデオ符号化装置１００、または一実施形態によるビデオ復号化装置２００で、現在符号化単位７１０が６４ｘ６４サイズであるとき、３２ｘ３２サイズの変換単位７２０を利用して変換が行われる。

また、６４ｘ６４サイズの符号化単位７１０のデータに対して、６４ｘ６４サイズ以下の３２ｘ３２，１６ｘ１６，８ｘ８，４ｘ４サイズの変換単位でそれぞれ変換を行って符号化した後、原本との誤差が最小である変換単位が選択される。

図２０は、本発明の一実施形態による深度別符号化情報を図示している。

一実施形態によるビデオ符号化装置１００の出力部１３０は、符号化モードについての情報であり、それぞれの符号化深度の符号化単位ごとに、パーティションタイプについての情報８００、予測モードについての情報８１０、変換単位サイズに係わる情報８２０を符号化して伝送することができる。

パーティションタイプに係わる情報８００は、現在符号化単位の予測符号化のためのデータ単位であり、現在符号化単位の予測単位が分割されたパーティションの形態に係わる情報を示している。例えば、サイズ２Ｎｘ２Ｎの現在符号化単位ＣＵ＿０は、サイズ２Ｎｘ２Ｎのパーティション８０２、サイズ２ＮｘＮのパーティション８０４、サイズＮｘ２Ｎのパーティション８０６、サイズＮｘＮのパーティション８０８のうちいずれか１つのタイプに分割されて利用される。その場合、現在符号化単位のパーティションタイプについての情報８００は、サイズ２Ｎｘ２Ｎのパーティション８０２、サイズ２ＮｘＮのパーティション８０４、サイズＮｘ２Ｎのパーティション８０６及びサイズＮｘＮのパーティション８０８のうち一つを示すように設定される。

予測モードについての情報８１０は、それぞれのパーティションの予測モードを示している。例えば、予測モードについての情報８１０を介して、パーティションタイプについての情報８００が示すパーティションが、イントラモード８１２、インターモード８１４及びスキップモード８１６のうち一つで予測符号化が行われるということが設定される。

また、変換単位サイズについての情報８２０は、現在符号化単位に対して、いかなる変換単位を基に変換を行うかということを示している。例えば、変換単位は、第１イントラ変換単位サイズ８２２、第２イントラ変換単位サイズ８２４、第１インター変換単位サイズ８２６、第２インター変換単位サイズ８２８のうち一つである。

一実施形態によるビデオ復号化装置２００の映像データ及び符号化情報抽出部２１０は、それぞれの深度別符号化単位ごとに、パーティションタイプについての情報８００、予測モードについての情報８１０、変換単位サイズに係わる情報８２０を抽出し、復号化に利用することができる。

図２１は、本発明の一実施形態による深度別符号化単位を図示している。

深度の変化を示すために、分割情報が利用される。分割情報は、現在深度の符号化単位が、下位深度の符号化単位に分割されるか否かということを示している。

深度０及び２Ｎ＿０ｘ２Ｎ＿０サイズの符号化単位９００の予測符号化のための予測単位９１０は、２Ｎ＿０ｘ２Ｎ＿０サイズのパーティションタイプ９１２、２Ｎ＿０ｘＮ＿０サイズのパーティションタイプ９１４、Ｎ＿０ｘ２Ｎ＿０サイズのパーティションタイプ９１６、Ｎ＿０ｘＮ＿０サイズのパーティションタイプ９１８を含んでもよい。予測単位が対称的な比率に分割されたパーティション９１２，９１４，９１６，９１８だけが例示されているが、前述のように、パーティションタイプは、それらに限定されるものではなく、非対称的パーティション、任意的形態のパーティション、幾何学的形態のパーティションなどを含んでもよい。

パーティションタイプごとに、１つの２Ｎ＿０ｘ２Ｎ＿０サイズのパーティション、２つの２Ｎ＿０ｘＮ＿０サイズのパーティション、２つのＮ＿０ｘ２Ｎ＿０サイズのパーティション、４つのＮ＿０ｘＮ＿０サイズのパーティションごとに、反復的に予測符号化が行われなければならない。サイズ２Ｎ＿０ｘ２Ｎ＿０、サイズＮ＿０ｘ２Ｎ＿０、サイズ２Ｎ＿０ｘＮ＿０及びサイズＮ＿０ｘＮ＿０のパーティションについては、イントラモード及びインターモードで予測符号化が行われる。スキップモードは、サイズ２Ｎ＿０ｘ２Ｎ＿０のパーティションについてのみ予測符号化が行われる。

サイズ２Ｎ＿０ｘ２Ｎ＿０のパーティションタイプ９１２，サイズ２Ｎ＿０ｘＮ＿０のパーティションタイプ９１４、及びＮ＿０ｘ２Ｎ＿０のパーティションタイプ９１６のうち一つによる符号化誤差が最小であるならば、それ以上下位深度に分割する必要ない。

サイズＮ＿０ｘＮ＿０のパーティションタイプ９１８による符号化誤差が最小であるならば、深度０を１に変更しながら分割し（９２０）、深度２及びサイズＮ＿０ｘＮ＿０のパーティションタイプの符号化単位９３０に対して反復的に符号化を行い、最小符号化誤差を検索していく。

深度１及びサイズ２Ｎ＿１ｘ２Ｎ＿１（＝Ｎ＿０ｘＮ＿０）の符号化単位９３０の予測符号化のための予測単位９４０は、サイズ２Ｎ＿１ｘ２Ｎ＿１のパーティションタイプ９４２、サイズ２Ｎ＿１ｘＮ＿１のパーティションタイプ９４４、サイズＮ＿１ｘ２Ｎ＿１のパーティションタイプ９４６、サイズＮ＿１ｘＮ＿１のパーティションタイプ９４８を含んでもよい。

また、サイズＮ＿１ｘＮ＿１のパーティションタイプ９４８による符号化誤差が最小であるならば、深度１を深度２に変更しながら分割し（９５０）、深度２及びサイズＮ＿２ｘＮ＿２の符号化単位９６０に対して反復的に符号化を行い、最小符号化誤差を検索していく。

最大深度がｄである場合、深度別符号化単位は、深度ｄ−１まで設定され、分割情報は、深度ｄ−２まで設定される。すなわち、深度ｄ−２から分割され（９７０）、深度ｄ−１まで符号化が行われる場合、深度ｄ−１及びサイズ２Ｎ＿（ｄ−１）ｘ２Ｎ＿（ｄ−１）の符号化単位９８０の予測符号化のための予測単位９９０は、サイズ２Ｎ＿（ｄ−１）ｘ２Ｎ＿（ｄ−１）のパーティションタイプ９９２、サイズ２Ｎ＿（ｄ−１）ｘＮ＿（ｄ−１）のパーティションタイプ９９４、サイズＮ＿（ｄ−１）ｘ２Ｎ＿（ｄ−１）のパーティションタイプ９９６、サイズＮ＿（ｄ−１）ｘＮ＿（ｄ−１）のパーティションタイプ９９８を含んでもよい。

パーティションタイプにおいて、１つのサイズ２Ｎ＿（ｄ−１）ｘ２Ｎ＿（ｄ−１）のパーティション、２つのサイズ２Ｎ＿（ｄ−１）ｘＮ＿（ｄ−１）のパーティション、２つのサイズＮ＿（ｄ−１）ｘ２Ｎ＿（ｄ−１）のパーティション、４つのサイズＮ＿（ｄ−１）ｘＮ＿（ｄ−１）のパーティションごとに、反復的に予測符号化を介した符号化が行われ、最小符号化誤差が発生するパーティションタイプが検索される。

サイズＮ＿（ｄ−１）ｘＮ＿（ｄ−１）のパーティションタイプ９９８による符号化誤差が最小であるとしても、最大深度がｄであるので、深度ｄ−１の符号化単位ＣＵ＿（ｄ−１）は、それ以上下位深度への分割過程を経ず、現在最大符号化単位９００に係わる符号化深度が深度ｄ−１と決定され、パーティションタイプは、Ｎ＿（ｄ−１）ｘＮ＿（ｄ−１）と決定される。また、最大深度がｄであるので、深度ｄ−１の符号化単位９８０に対して、分割情報が設定されない。

データ単位９９９は、現在最大符号化単位に係わる「最小単位」であるとされる。一実施形態による最小単位は、最下位符号化深度である最小符号化単位が４分割された大きさの正方形のデータ単位でもある。そのような反復的符号化過程を介して、一実施形態によるビデオ符号化装置１００は、符号化単位９００の深度別符号化誤差を比較し、最小の符号化誤差が発生する深度を選択し、符号化深度を決定し、当該パーティションタイプ及び予測モードが符号化深度の符号化モードに設定される。

このように、深度０、１、…、ｄ−１、ｄの全ての深度別最小符号化誤差を比較し、誤差が最小である深度が選択され、符号化深度と決定される。符号化深度、並びに予測単位のパーティションタイプ及び予測モードは、符号化モードについての情報として符号化されて伝送される。また、深度０から符号化深度に至るまで符号化単位が分割されなければならないので、符号化深度の分割情報だけが「０」に設定され、符号化深度を除いた深度別分割情報は、「１」に設定されなければならない。

一実施形態によるビデオ復号化装置２００の映像データ及び符号化情報抽出部２２０は、符号化単位９００に係わる符号化深度及び予測単位についての情報を抽出し、符号化単位９１２を復号化するのに利用することができる。一実施形態によるビデオ復号化装置２００は、深度別分割情報を利用して、分割情報が「０」である深度を符号化深度と把握し、当該深度に係わる符号化モードについての情報を利用して、復号化に利用することができる。

図２２、図２３及び図２４は、本発明の一実施形態による、符号化単位、予測単位及び変換単位の関係を図示している。

符号化単位１０１０は、最大符号化単位について、一実施形態によるビデオ符号化装置１００が決定した符号化深度別符号化単位である。予測単位１０６０は、符号化単位１０１０において、それぞれの符号化深度別符号化単位の予測単位のパーティションであり、変換単位１０７０は、それぞれの符号化深度別符号化単位の変換単位である。

深度別符号化単位１０１０は、最大符号化単位の深度が０であるとすれば、符号化単位１０１２，１０５４は、深度が１であり、符号化単位１０１４，１０１６，１０１８，１０２８，１０５０，１０５２は、深度が２であり、符号化単位１０２０，１０２２，１０２４，１０２６，１０３０，１０３２，１０４８は、深度が３であり、符号化単位１０４０，１０４２，１０４４，１０４６は、深度が４である。

予測単位１０６０において、一部パーティション１０１４，１０１６，１０２２，１０３２，１０４８，１０５０，１０５２，１０５４は、符号化単位が分割された形態である。すなわち、パーティション１０１４，１０２２，１０５０，１０５４は、２ＮｘＮのパーティションタイプであり、パーティション１０１６，１０４８，１０５２は、Ｎｘ２Ｎのパーティションタイプであり、パーティション１０３２は、ＮｘＮのパーティションタイプである。深度別符号化単位１０１０の予測単位及びパーティションは、それぞれの符号化単位より小さいか、あるいはそれと同じである。
変換単位１０７０において、一部変換単位１０５２の映像データについては、符号化単位に比べ、小サイズのデータ単位で、変換または逆変換が行われる。また、変換単位１０１４，１０１６，１０２２，１０３２，１０４８，１０５０，１０５２，１０５４は、予測単位１０６０において、当該予測単位及びパーティションと比較すれば、互いに異なる大きさまたは形態のデータ単位である。すなわち、一実施形態によるビデオ符号化装置１００、及び一実施形態によるビデオ復号化装置２００は、同一符号化単位に対するイントラ予測／動き推定／動き補償作業、及び変換／逆変換作業であるとしても、それぞれ別個のデータ単位を基に遂行することができる。

それにより、最大符号化単位ごとに、領域別に階層的な構造の符号化単位ごとに再帰的に符号化が行われ、最適符号化単位が決定されることにより、再帰的ツリー構造による符号化単位が構成される。符号化情報は、符号化単位に係わる分割情報、パーティションタイプ情報、予測モード情報、変換単位サイズ情報を含んでもよい。下記表２は、一実施形態によるビデオ符号化装置１００、及び一実施形態によるビデオ復号化装置２００で設定することができる一例を示している。

一実施形態によるビデオ符号化装置１００の出力部１３０は、ツリー構造による符号化単位に係わる符号化情報を出力し、一実施形態によるビデオ復号化装置２００の符号化情報抽出部２２０は、受信されたビットストリームから、ツリー構造による符号化単位に係わる符号化情報を抽出することができる。

分割情報は、現在符号化単位が、下位深度の符号化単位に分割されるか否かということを示している。現在深度ｄの分割情報が０であるならば、現在符号化単位が、現在符号化単位が下位符号化単位にそれ以上分割されない深度が符号化深度であるので、符号化深度に対して、パーティションタイプ情報、予測モード、変換単位サイズ情報が定義される。分割情報によって、１段階さらに分割されなければならない場合には、分割された４個の下位深度の符号化単位ごとに、独立して符号化が行われなければならない。

予測モードは、イントラモード、インターモード及びスキップモードのうち一つで示すことができる。イントラモード及びインターモードは、全てのパーティションタイプで定義され、スキップモードは、パーティションタイプ２Ｎｘ２Ｎでのみ定義される。

パーティションタイプ情報は、予測単位の高さまたは幅が、対称的な比率に分割された対称的パーティションタイプ２Ｎｘ２Ｎ，２ＮｘＮ，Ｎｘ２Ｎ及びＮｘＮと、非対称的な比率に分割された非対称的パーティションタイプ２ＮｘｎＵ，２ＮｘｎＤ，ｎＬｘ２Ｎ，ｎＲｘ２Ｎと、を示すことができる。非対称的パーティションタイプ２ＮｘｎＵ及び２ＮｘｎＤは、それぞれ高さが１：３及び３：１に分割された形態であり、非対称的パーティションタイプｎＬｘ２Ｎ及びｎＲｘ２Ｎは、それぞれ幅が１：３及び３：１に分割された形態を示している。

変換単位サイズは、イントラモードで２種の大きさ、インターモードで２種の大きさに設定される。すなわち、変換単位分割情報が０であるならば、変換単位の大きさは、現在符号化単位のサイズ２Ｎｘ２Ｎに設定される。変換単位分割情報が１であるならば、現在符号化単位が分割された大きさの変換単位が設定される。また、サイズ２Ｎｘ２Ｎである現在符号化単位に係わるパーティションタイプが、対称形パーティションタイプであるならば、変換単位の大きさは、ＮｘＮに設定され、非対称形パーティションタイプであるならば、Ｎ／２ｘＮ／２に設定される。

一実施形態によるツリー構造による符号化単位の符号化情報は、符号化深度の符号化単位、予測単位及び最小単位単位のうち少なくとも一つについて割り当てられる。符号化深度の符号化単位は、同一符号化情報を保有している予測単位及び最小単位を一つ以上含んでもよい。

従って、隣接したデータ単位同士それぞれ保有している符号化情報を確認すれば、同一符号化深度の符号化単位に含まれるか否かということが確認される。また、データ単位が保有している符号化情報を利用すれば、当該符号化深度の符号化単位を確認することができるので、最大符号化単位内の符号化深度の分布が類推される。

従って、その場合、現在符号化単位が周辺データ単位を参照して予測する場合、現在符号化単位に隣接する深度別符号化単位内のデータ単位の符号化情報が直接参照されて利用される。

他の実施形態で、現在符号化単位が周辺符号化単位を参照して予測符号化が行われる場合、隣接する深度別符号化単位の符号化情報を利用して、深度別符号化単位内で、現在符号化単位に隣接するデータが検索されることによって、周辺符号化単位が参照される。

図２５は、表２の符号化モード情報による、符号化単位、予測単位及び変換単位の関係を図示している。

最大符号化単位１３００は、符号化深度の符号化単位１３０２，１３０４，１３０６，１３１２，１３１４，１３１６，１３１８を含む。そのうち１つの符号化単位１３１８は、符号化深度の符号化単位であるので、分割情報が０に設定される。サイズ２Ｎｘ２Ｎの符号化単位１３１８のパーティションタイプ情報は、パーティションタイプ２Ｎｘ２Ｎ１３２２，２ＮｘＮ１３２４，Ｎｘ２Ｎ１３２６，ＮｘＮ１３２８，２ＮｘｎＵ１３３２，２ＮｘｎＤ１３３４，ｎＬｘ２Ｎ１３３６及びｎＲｘ２Ｎ１３３８のうち一つに設定される。

変換単位分割情報（ＴＵ size flag）は、変換インデックスの一種であり、変換インデックスに対応する変換単位の大きさは、符号化単位の予測単位タイプまたはパーティションタイプによって変更される。

例えば、パーティションタイプ情報が、対称形パーティションタイプ２Ｎｘ２Ｎ１３２２，２ＮｘＮ１３２４，Ｎｘ２Ｎ１３２６及びＮｘＮ１３２８のうち一つに設定されている場合、変換単位分割情報が０であるならば、サイズ２Ｎｘ２Ｎの変換単位１３４２が設定され、変換単位分割情報が１であるならば、サイズＮｘＮの変換単位１３４４が設定される。

パーティションタイプ情報が、非対称形パーティションタイプ２ＮｘｎＵ１３３２，２ＮｘｎＤ１３３４，ｎＬｘ２Ｎ１３３６及びｎＲｘ２Ｎ１３３８のうち一つに設定された場合、変換単位分割情報（ＴＵ size flag）が０であるならば、サイズ２Ｎｘ２Ｎの変換単位１３５２が設定され、変換単位分割情報が１であるならば、サイズＮ／２ｘＮ／２の変換単位１３５４が設定される。

図２５を参照して説明した変換単位分割情報（ＴＵ size flag）は、０または１の値を有するフラグであるが、一実施形態による変換単位分割情報は、１ビットのフラグに限定されるものではなく、設定によって、０、１、２，３、…などに増加し、変換単位が階層的に分割されもする。変換単位分割情報は、変換インデックスの一実施形態として利用される。

その場合、一実施形態による変換単位分割情報を、変換単位の最大サイズ、変換単位の最小サイズと共に利用すれば、実際に利用された変換単位の大きさが表現される。一実施形態によるビデオ符号化装置１００は、最大変換単位サイズ情報、最小変換単位サイズ情報及び最大変換単位分割情報を符号化することができる。符号化された最大変換単位サイズ情報、最小変換単位サイズ情報及び最大変換単位分割情報は、ＳＰＳ（sequence parameter set）に挿入される。一実施形態によるビデオ復号化装置２００は、最大変換単位サイズ情報、最小変換単位サイズ情報及び最大変換単位分割情報を利用して、ビデオ復号化に利用することができる。

例えば、（ａ）現在符号化単位がサイズ６４ｘ６４であり、最大変換単位サイズが３２ｘ３２であるならば、（ａ−１）変換単位分割情報が０であるとき、変換単位の大きさは、３２ｘ３２に設定され、（ａ−２）変換単位分割情報が１であるとき、変換単位の大きさは、１６ｘ１６に設定され、（ａ−３）変換単位分割情報が２であるとき、変換単位の大きさは、８ｘ８に設定される。

他の例として、（ｂ）現在符号化単位がサイズ３２ｘ３２であり、最小変換単位サイズが３２ｘ３２であるならば、（ｂ−１）変換単位分割情報が０であるとき、変換単位の大きさは、３２ｘ３２に設定され、変換単位の大きさが３２ｘ３２より小さいことがないので、それ以上の変換単位分割情報が設定されることがない。

さらに他の例として、（ｃ）現在符号化単位がサイズ６４ｘ６４であり、最大変換単位分割情報が１であるならば、変換単位分割情報は、０または１であり、他の変換単位分割情報が設定されることがない。

従って、最大変換単位分割情報を「MaxTransformSizeIndex」、最小変換単位サイズを「MinTransformSize」、変換単位分割情報が０である場合の変換単位サイズを「RootTuSize」と定義するとき、現在符号化単位で可能な最小変換単位サイズ「CurrMinTuSize」は、下記数式（１）のように定義される。

CurrMinTuSize
＝ｍａｘ（MinTransformSize，RootTuSize／（２＾MaxTransformSizeIndex））（１）
現在符号化単位で可能な最小変換単位サイズ「CurrMinTuSize」と比較し、変換単位分割情報が０である場合の変換単位サイズである「RootTuSize」は、システム上採択可能な最大変換単位サイズを示すことができる。すなわち、数式（１）によれば、「RootTuSize／（２＾MaxTransformSizeIndex）」は、変換単位分割情報が０である場合の変換単位サイズである「RootTuSize」を最大変換単位分割情報に相応する回数ほど分割した変換単位サイズであり、「MinTransformSize」は、最小変換単位サイズであるので、それらのうち小さい値が、現在現在符号化単位で可能な最小変換単位サイズ「CurrMinTuSize」である。

一実施形態による最大変換単位サイズ「RootTuSize」は、予測モードによって異なりもする。

例えば、現在予測モードがインターモードであるならば、「RootTuSize」は、下記数式（２）によって決定される。数式（２）において、「MaxTransformSize」は、最大変換単位サイズ、「PUSize」は、現在予測単位サイズを示している。

RootTuSize＝ｍｉｎ（MaxTransformSize，PUSize）（２）
すなわち、現在予測モードがインターモードであるならば、変換単位分割情報が０である場合の変換単位サイズである「RootTuSize」は、最大変換単位サイズ及び現在予測単位サイズのうち小さい値に設定される。

現在パーティション単位の予測モードがイントラモードであるならば、「RootTuSize」は、下記数式（３）によって決定される。「PartitionSize」は、現在パーティション単位の大きさを示している。

RootTuSize＝ｍｉｎ（MaxTransformSize，PartitionSize）（３）
すなわち、現在予測モードがイントラモードであるならば、変換単位分割情報が０である場合の変換単位サイズである「RootTuSize」は、最大変換単位サイズ及び現在パーティション単位サイズのうち小さい値に設定される。

ただし、パーティション単位の予測モードによって変動する一実施形態による現在最大変換単位サイズ「RootTuSize」は、一実施形態であるのみ、現在最大変換単位サイズを決定する要因は、それらに限定されるものではないということに留意しなければならない。

前述の図１３ないし図２５を参照して詳細に説明したツリー構造の符号化単位を含む最大符号化単位は、コーディングブロックツリー（coding block tree）、ブロックツリー、ルートブロックツリー（root block tree）、コーディングツリー、コーディングルートまたはツリートランク（tree trunk）などと多様に命名される。

本発明はまた、コンピュータで読み取り可能な記録媒体に、コンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）、ＣＤ（compact disc）−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ保存装置などが含まれる。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式で、コンピュータで読み取り可能なコードでもって保存されて実行される。

以上、本発明について、その望ましい実施形態を中心に説明した。本発明が属する技術分野で当業者であるならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態に具現されるということを理解するであろう。本発明の範囲は、前述の説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にある全ての差異は、本発明に含まれたものであると解釈されなければならないであろう。

Claims

多階層ビデオ復号化方法において、
符号化された多階層ビデオをデータ単位別に区分して生成されたＮＡＬ（network adaptive layer）単位を受信する段階と、
前記受信されたＮＡＬ単位のうち、前記多階層ビデオに共通して適用される情報に係わるＶＰＳ（video parameter set）情報を含むＶＰＳＮＡＬ単位を獲得する段階であって、前記ＮＡＬ単位は、
前記多階層ビデオに含まれたスライス単位別に、スライス単位の符号化された情報を含むスライスセグメントＮＡＬ単位、前記多階層ビデオに含まれたピクチャに共通して適用されるＰＰＳ（picture parameter set）についての情報を含むＰＰＳＮＡＬ単位、前記多階層ビデオに含まれた所定階層の映像シーケンスに共通して適用されるＳＰＳ（sequence parameter set）についての情報を含むＳＰＳＮＡＬ単位及び前記ＶＰＳＮＡＬ単位を含み、
前記スライスセグメントＮＡＬ単位、前記ＰＰＳＮＡＬ単位、前記ＳＰＳＮＡＬ単位及び前記ＶＰＳＮＡＬ単位は、前記ＮＡＬ単位のヘッダに含まれたＮＡＬ単位識別子を介して識別される、
前記ＶＰＳＮＡＬ単位を獲得する段階と、
前記ＶＰＳＮＡＬ単位から前記多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を獲得する段階であって、
前記ＶＰＳＮＡＬ単位のヘッダから、前記多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスを獲得する段階と、
前記ＰＰＳＮＡＬ単位及び前記ＳＰＳＮＡＬ単位のうち少なくとも一つから、前記スケーラブル拡張類型テーブルインデックスが示す前記スケーラブル拡張類型テーブルに含まれた前記スケーラブル拡張類型の組み合わせのうち一つを示す階層インデックスを獲得し、前記獲得された階層インデックスを用いて前記ピクチャに適用された前記スケーラブル拡張類型を決定する段階をさらに含む、
前記スケーラブル拡張類型情報を獲得する段階と、を含むことを特徴とする多階層ビデオ復号化方法。
前記スケーラブル拡張類型情報を獲得する段階は、
前記ＶＰＳＮＡＬ単位のヘッダから、前記多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックス、及び前記スケーラブル拡張類型テーブルインデックスが示す前記スケーラブル拡張類型テーブルに含まれた前記スケーラブル拡張類型の組み合わせのうち一つを示す階層インデックスを獲得することを特徴とする請求項１に記載の多階層ビデオ復号化方法。
前記スケーラブル拡張類型情報は、
前記多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスであり、
前記スケーラブル拡張類型テーブルは、ＳＥＩ（supplemental enhancement information）メッセージに含まれて伝送されることを特徴とする請求項１に記載の多階層ビデオ復号化方法。
多階層ビデオ復号化装置において、
符号化された多階層ビデオをデータ単位別に区分して生成されたＮＡＬ（network adaptive layer）単位を受信し、前記受信されたＮＡＬ単位のうち、前記多階層ビデオに共通して適用される情報に係わるＶＰＳ（video parameter set）情報を含むＶＰＳＮＡＬ単位を獲得し、前記ＶＰＳＮＡＬ単位から、前記多階層ビデオのスケーラブル拡張のためのスケーラブル拡張類型情報を獲得する受信部であって、前記ＮＡＬ単位は、
前記多階層ビデオに含まれたスライス単位別に、スライス単位の符号化された情報を含むスライスセグメントＮＡＬ単位と、前記多階層ビデオに含まれたピクチャに共通して適用されるＰＰＳ（picture parameter set）についての情報を含むＰＰＳＮＡＬ単位と、前記多階層ビデオに含まれた所定階層の映像シーケンスに共通して適用されるＳＰＳ（sequence parameter set）についての情報を含むＳＰＳＮＡＬ単位及び前記ＶＰＳＮＡＬ単位を含み、
前記スライスセグメントＮＡＬ単位、前記ＰＰＳＮＡＬ単位、前記ＳＰＳＮＡＬ単位及び前記ＶＰＳＮＡＬ単位は前記ＮＡＬ単位のヘッダに含まれたＮＡＬ単位識別子を介して識別される、
前記受信部と、
前記獲得されたスケーラブル拡張類型情報に基づいて、前記多階層ビデオに含まれた前記データ単位別に適用されたスケーラブル拡張類型を決定し、前記多階層ビデオを復号化するビデオ復号化部であって、
前記ＶＰＳＮＡＬ単位のヘッダから、前記多階層ビデオに適用可能なスケーラブル拡張類型の組み合わせを含むスケーラブル拡張類型テーブルのうち一つを示すスケーラブル拡張類型テーブルインデックスを獲得し、
前記ＰＰＳＮＡＬ単位及び前記ＳＰＳＮＡＬ単位のうち少なくとも一つから、前記スケーラブル拡張類型テーブルインデックスが示す前記スケーラブル拡張類型テーブルに含まれた前記スケーラブル拡張類型の組み合わせのうち一つを示す階層インデックスを獲得し、前記獲得された階層インデックスを用いて前記ピクチャに適用された前記スケーラブル拡張類型を決定する、
前記ビデオ復号化部と、を含むことを特徴とする多階層ビデオ復号化装置。