JP2018125877A

JP2018125877A - 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法

Info

Publication number: JP2018125877A
Application number: JP2018058223A
Authority: JP
Inventors: 守屋　芳美; Yoshimi Moriya; 芳美守屋; 杉本　和夫; Kazuo Sugimoto; 和夫杉本; 彰峯澤; Akira Minesawa; 関口　俊一; Shunichi Sekiguchi; 俊一関口; 憲道日和佐; Norimichi Hiwasa; 裕介伊谷; Yusuke Itani; 亮史服部; Akifumi Hattori
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-06-26
Filing date: 2018-03-26
Publication date: 2018-08-09
Anticipated expiration: 2033-05-27
Also published as: KR20170024142A; EP2866441A1; WO2014002375A1; BR112014031555B1; JPWO2014002375A1; US10264289B2; JP5984911B2; BR112014031555A2; KR20150027219A; CN104412592B; CN104412592A; EP2866441A4; US20150195582A1; JP6580185B2; JP6716836B2; JP2016220227A; HK1205392A1; KR20170075802A; KR101752149B1; EP2866441B1

Abstract

【課題】一部のフレームだけを処理する場合であっても、必ず基本階層フレームを含まなければならず、上位階層に属するフレームのみが符号化された映像データを独立して処理できない。【解決手段】入力された動画像信号の複数のピクチャを、予測の際に参照する第１のピクチャの階層である基本階層と、基本階層の第１のピクチャ以外の第２のピクチャの階層に階層化し、符号化してビットストリームを生成する動画像符号化装置であって、ビットストリーム内に基本階層の第１のピクチャが含まれるか否かを示す基本階層有無フラグを符号化する符号化部を備え、符号化部は、入力された動画像信号の複数のピクチャから、基本階層有無フラグが基本階層の第１のピクチャが含まれることを示す第１のビットストリームと、基本階層有無フラグが基本階層の第１のピクチャが含まれないことを示す第２のビットストリームとを生成し、第２のビットストリームは第１のピクチャを参照して予測符号化される第２のピクチャを含む。【選択図】図１

Description

この発明は、動画像を高効率で符号化を行う動画像符号化装置及び動画像符号化方法と、高効率で符号化されている動画像を復号する動画像復号装置及び動画像復号方法と、ビットストリームに関するものである。

スケーラブル符号化とは、映像を荒い情報から細かい情報へと階層的に符号化する技術で、最も荒い情報から構成される基本階層の符号化データのみを復号すると最も低品質の復号映像が得られ、基本階層と第１階層の符号化データを復号すると、中品質の復号映像が得られ、さらに第２階層の符号化データを復号すると、高品質の復号映像が得られるというように、復号する階層数が多くなればなるほど高品質の復号映像を得ることができる符号化方式である。
ＳＶＣ(非特許文献１を参照)は、ＭＰＥＧ−４ＡＶＣ／Ｈ．２６４符号化方式の拡張方式として標準化されたスケーラブル符号化方式で、時間階層符号化、空間階層符号化、ＳＮＲ階層符号化をサポートしている。
図２４に時間階層符号化された映像データの一例を示す。図２４において矢印はフレーム間予測符号化の際に参照されるフレームを示している。最初に復号されるフレーム（I0）は、フレーム内の画素値のみを使って予測するフレームであり、他のフレームを参照しない。次に復号されるフレーム（P1）は、復号済みのI0フレームを参照して予測画像を生成し、生成した予測画像との差分画像が符号化されていることを示している。次に復号されるフレーム（B2）は、復号済みのI0フレームとP1フレームの2フレームを参照して予測画像生成し、生成した予測画像との差分画像が符号化されていることを示している。以下、同様である。
なお図２４において、I0，P1フレームを基本階層フレーム（T0）、B2フレームを第1階層フレーム、B3，B4フレームを第2階層フレーム、B5，B6，B7，B8を第３階層フレームと呼ぶと、基本階層フレームは同じ階層に属するフレームのみを参照して復号され、第1階層フレームは同じ階層または基本階層フレームに属するフレームのみを参照して復号され、以下同様に同じ階層またはそれ以下の階層フレームに属するフレームのみを参照して復号される。
すべての階層のフレームを復号すれば映像データ内のすべてのフレームを復号することができるが、基本階層フレームに属するフレームのみを復号すれば、全体の１／８のフレームが復号され、基本階層と第１階層に属するフレームを復号すれば、全体１／４のフレームが復号され、復号する階層を増やせば増やすほど、動きのなめらかな映像が復号されるように符号化されている。
以上のように時間階層符号化された映像データは、一部のフレームを抽出して復号できるように構成されたものなので、スケーラブル符号化に対応していない復号装置でも映像データを正しく復号することができる。
なお映像データの先頭に付加される上位ヘッダのパラメータセットに当該映像データが階層的に符号化されている場合の最大階層数や各階層に属するフレームがより上の階層に属するフレームを参照画像として使用するかどうかを示すフラグを符号化しておくことにより、スケーラブル符号化に対応した復号装置で、映像データがスケーラブルに構成されているかどうか、スケーラブルに構成されている場合にどの程度の荒さで復号することができるかどうかを判断することができる。
例えば非特許文献２では、時間階層符号化された映像データの最大階層数や階層間の参照関係を示すフラグを符号化するためのパラメータセット（ビデオパラメータセット）をシーケンスレベルのパラメータセットより上位で符号化するようにしている。
図２５は従来の時間階層符号化された映像データを生成する動画像符号化装置の構成を示すブロック図である。
ビデオパラメータセット符号化部１０１は、映像データの最大階層数や各階層に属するフレームがより上の階層の属するフレームを参照画像として使用するかどうかを示すフラグを符号化する。
シーケンスパラメータセット符号化部１０２は、シーケンスがどのビデオパラメータセットを参照するかどうかの識別番号と映像データのシーケンス全体に関わるパラメータ（映像データの解像度など）を符号化する。
基本階層フレーム符号化部１０３は、参照するシーケンスパラメータセットの識別番号と基本階層に属するフレームを符号化する。
上位階層フレーム符号化部１０４は、基本階層フレーム符号化部１０３と同様に上位階層に属するフレームを符号化する。

Overview of the Scalable Video Coding Extension of the H.264/AVC Standard, IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 17, NO. 9, SEPTEMBER 2007 Parameter sets modifications for temporal scalability and extension hooks, JCT-VC Document JCTVC-I0230, April 2012, Geneva, CH.

従来の時間階層符号化された映像データを生成する動画像符号化装置は以上のように構成されているので、時間階層符号化された映像データは、基本階層フレームの映像データを含んでいなければならず、上位階層に属するフレームのみが符号化された映像データを生成することができないため、一部のフレームだけを処理する場合であっても、必ず基本階層フレームを含まなければならず、上位階層に属するフレームのみが符号化された映像データを独立して処理できないという課題があった。

この発明は上記のような課題を解決するためになされたもので、階層化された符号化方式であっても、復号装置側でスケーラブルに復号することができる動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法、動画像復号方法及びビットストリームを得ることを目的とする。
を得ることを目的とする。

この発明における動画像符号化装置は、入力された動画像信号の複数のピクチャを、予測の際に参照する第１のピクチャの階層である基本階層と、基本階層の第１のピクチャ以外の第２のピクチャの階層に階層化し、符号化してビットストリームを生成する動画像符号化装置であって、ビットストリーム内に基本階層の第１のピクチャが含まれるか否かを示す基本階層有無フラグを符号化する符号化部を備え、符号化部は、入力された動画像信号の複数のピクチャから、基本階層有無フラグが基本階層の第１のピクチャが含まれることを示す第１のビットストリームと、基本階層有無フラグが基本階層の第１のピクチャが含まれないことを示す第２のビットストリームとを生成し、第２のビットストリームは第１のピクチャを参照して予測符号化される第２のピクチャを含む。

この発明によれば、スケーラブルに復号処理を行うことができる効果がある。

この発明の実施の形態１による動画像符号化装置を示す構成図である。この発明の実施の形態１による動画像符号化装置のループフィルタ部で複数のループフィルタ処理を用いる場合の構成例を示す説明図である。この発明の実施の形態１における符号化ビットストリームの一例を示す説明図である。この発明の実施の形態１におけるＮＡＬユニットの構成を示す説明図である。この発明の実施の形態１による動画像符号化装置の処理内容（動画像符号化方法）を示すフローチャートである。この発明の実施の形態１による動画像復号装置を示す構成図である。この発明の実施の形態１による動画像復号装置のループフィルタ部で複数のループフィルタ処理を用いる場合の構成例を示す説明図である。この発明の実施の形態１による動画像復号装置の処理内容（動画像復号方法）を示すフローチャートである。最大符号化ブロックが階層的に複数の符号化ブロックに分割される例を示す説明図である。（ａ）は分割後の符号化ブロック及び予測ブロックの分布を示し、（ｂ）は階層分割によって符号化モードｍ（Ｂｎ）が割り当てられる状況を示す説明図である。この発明の実施の形態１における時間階層符号化された映像データの一例を示す説明図である。この発明の実施の形態１における符号化ビットストリームの一例を示す説明図である。この発明の実施の形態１における時間階層符号化された映像データの一例を示す説明図である。この発明の実施の形態１における符号化ビットストリームの一例を示す説明図である。この発明の実施の形態１における時間階層符号化された映像データの一例を示す説明図である。この発明の実施の形態１における時間階層符号化された映像データの一例を示す説明図である。この発明の実施の形態１における時間階層符号化された映像データの一例を示す説明図である。符号化ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎが選択可能なイントラ予測パラメータ（イントラ予測モード）の一例を示す説明図である。ｌ_ｉ ^ｎ＝ｍ_ｉ ^ｎ＝４の場合の予測ブロックＰ_ｉ ^ｎ内の画素の予測値を生成する際に用いる画素の一例を示す説明図である。この発明の実施の形態２におけるサブビットストリーム生成装置の構成を示す説明図である。この発明の実施の形態２におけるサブビットストリームの一例を示す説明図である。この発明の実施の形態２におけるサブビットストリームの一例を示す説明図である。この発明の実施の形態２におけるサブビットストリームの一例を示す説明図である。従来の時間階層符号化された映像データの一例を示す説明図である。従来の時間階層符号化された映像データを生成する動画像符号化装置の構成を示すブロック図である。

実施の形態１．
図１はこの発明の実施の形態１による動画像符号化装置を示す構成図である。
図１において、スライス分割部１４は入力画像として映像信号を入力すると、その入力画像を符号化制御部２により決定されたスライス分割情報にしたがって１以上の“スライス”という部分画像に分割する処理を実施する。スライスの分割単位は、後述する符号化ブロック単位まで細かくすることができる。なお、スライス分割部１４はスライス分割手段を構成している。

ブロック分割部１はスライス分割部１４により分割されたスライスを入力する毎に、そのスライスを符号化制御部２により決定された最大サイズの符号化ブロックである最大符号化ブロックに分割するとともに、符号化制御部２により決定された上限の階層数に至るまで、その最大符号化ブロックを階層的に各符号化ブロックへ分割する処理を実施する。
即ち、ブロック分割部１はスライスを符号化制御部２により決定された分割に応じて各符号化ブロックに分割して、その符号化ブロックを出力する処理を実施する。また、各符号化ブロックは予測処理単位となる１つないし複数の予測ブロックに分割される。
なお、ブロック分割部１はブロック分割手段を構成している。

符号化制御部２は符号化処理が実施される際の処理単位となる符号化ブロックの最大サイズを決定するとともに、最大サイズの符号化ブロックが階層的に分割される際の上限の階層数を決定することで、各々の符号化ブロックのサイズを決定する処理を実施する。
また、符号化制御部２は選択可能な１以上の符号化モード（予測処理単位を示す予測ブロックのサイズなどが異なる１以上のイントラ符号化モード、予測ブロックのサイズなどが異なる１以上のインター符号化モード）の中から、ブロック分割部１から出力される符号化ブロックに適用する符号化モードを選択する処理を実施する。選択手法の例としては、選択可能な１以上の符号化モードの中から、ブロック分割部１から出力される符号化ブロックに対する符号化効率が最も高い符号化モードを選択する手法がある。

また、符号化制御部２は符号化効率が最も高い符号化モードがイントラ符号化モードである場合、そのイントラ符号化モードで符号化ブロックに対するイントラ予測処理を実施する際に用いるイントラ予測パラメータを上記イントラ符号化モードが示す予測処理単位である予測ブロック毎に決定し、符号化効率が最も高い符号化モードがインター符号化モードである場合、そのインター符号化モードで符号化ブロックに対するインター予測処理を実施する際に用いるインター予測パラメータを上記インター符号化モードが示す予測処理単位である予測ブロック毎に決定する処理を実施する。
さらに、符号化制御部２は変換・量子化部７及び逆量子化・逆変換部８に与える予測差分符号化パラメータを決定する処理を実施する。予測差分符号化パラメータには、符号化ブロックにおける直交変換処理単位となる直交変換ブロックの分割情報を示す直交変換ブロック分割情報や、変換係数の量子化を行う際の量子化ステップサイズを規定する量子化パラメータなどが含まれる。
なお、符号化制御部２は符号化制御手段を構成している。

切換スイッチ３は符号化制御部２により決定された符号化モードがイントラ符号化モードであれば、ブロック分割部１から出力された符号化ブロックをイントラ予測部４に出力し、符号化制御部２により決定された符号化モードがインター符号化モードであれば、ブロック分割部１から出力された符号化ブロックを動き補償予測部５に出力する処理を実施する。

イントラ予測部４は切換スイッチ３から出力された符号化ブロックに対応する符号化モードとして、符号化制御部２によりイントラ符号化モードが選択された場合、その符号化ブロックの予測処理を行う際の予測処理単位である予測ブロック毎に、イントラ予測用メモリ１０に格納されている局所復号画像を参照しながら、符号化制御部２により決定されたイントラ予測パラメータを用いたイントラ予測処理（フレーム内予測処理）を実施してイントラ予測画像を生成する処理を実施する。

動き補償予測部５は切換スイッチ３から出力された符号化ブロックに対応する符号化モードとして、符号化制御部２によりインター符号化モードが選択された場合、符号化ブロックと動き補償予測フレームメモリ１２に格納されている１フレーム以上の局所復号画像を予測処理単位である予測ブロック単位に比較して動きベクトルを探索し、その動きベクトルと符号化制御部２により決定された参照するフレーム番号などのインター予測パラメータを用いて、その符号化ブロックに対するインター予測処理（動き補償予測処理）を予測ブロック単位に実施してインター予測画像を生成する処理を実施する。
なお、イントラ予測部４、イントラ予測用メモリ１０、動き補償予測部５及び動き補償予測フレームメモリ１２から予測手段が構成されている。

減算部６はブロック分割部１より出力された符号化ブロックから、イントラ予測部４により生成されたイントラ予測画像、または、動き補償予測部５により生成されたインター予測画像を減算して、その減算結果である差分画像を示す予測差分信号を変換・量子化部７に出力する処理を実施する。なお、減算部６は差分画像生成手段を構成している。
変換・量子化部７は符号化制御部２により決定された予測差分符号化パラメータに含まれる直交変換ブロック分割情報を参照して、減算部６から出力された予測差分信号に対する直交変換処理（例えば、ＤＣＴ（離散コサイン変換）やＤＳＴ（離散サイン変換）、予め特定の学習系列に対して基底設計がなされているＫＬ変換等の直交変換処理）を直交変換ブロック単位に実施して変換係数を算出するとともに、その予測差分符号化パラメータに含まれる量子化パラメータを参照して、その直交変換ブロック単位の変換係数を量子化し、量子化後の変換係数である圧縮データを逆量子化・逆変換部８及び可変長符号化部１３に出力する処理を実施する。
なお、変換・量子化部７は画像圧縮手段を構成している。

変換・量子化部７は変換係数を量子化する際、上記量子化パラメータから算出される量子化ステップサイズを変換係数毎にスケーリングする量子化マトリクスを用いて、変換係数の量子化処理を実施するようにしてもよい。

また、量子化マトリクスは、各直交変換サイズで色信号や符号化モード（イントラ符号化かインター符号化か）毎に独立しているマトリクスを使用することができ、初期値として予め動画像符号化装置及び動画像復号装置で共通に用意されている量子化マトリクスや既に符号化された量子化マトリクスの中から選択するか、新しい量子化マトリクスを用いるかをそれぞれ選択することができる。
したがって、変換・量子化部７は、各直交変換サイズに対して色信号や符号化モード毎に、新しい量子化マトリクスを用いるか否かを示すフラグ情報を符号化すべき量子化マトリクスパラメータに設定する。
そして、変換・量子化部７は、設定した量子化マトリクスパラメータを適応パラメータセットの一部として可変長符号化部１３に出力する。

逆量子化・逆変換部８は符号化制御部２により決定された予測差分符号化パラメータに含まれる量子化パラメータ及び直交変換ブロック分割情報を参照して、直交変換ブロック単位に変換・量子化部７から出力された圧縮データを逆量子化するとともに、逆量子化後の圧縮データである変換係数に対する逆直交変換処理を実施して、減算部６から出力された予測差分信号に相当する局所復号予測差分信号を算出する処理を実施する。なお、変換・量子化部７が量子化マトリクスを用いて、量子化処理を実施している場合には、逆量子化処理時においても、その量子化マトリクスを参照して、対応する逆量子化処理を実施する。
加算部９は逆量子化・逆変換部８により算出された局所復号予測差分信号と、イントラ予測部４により生成されたイントラ予測画像、または、動き補償予測部５により生成されたインター予測画像とを加算して、ブロック分割部１から出力された符号化ブロックに相当する局所復号画像を算出する処理を実施する。
なお、逆量子化・逆変換部８及び加算部９から局所復号画像生成手段が構成されている。

イントラ予測用メモリ１０は加算部９により算出された局所復号画像を格納する記録媒体である。
ループフィルタ部１１は加算部９により算出された局所復号画像に対して、所定のフィルタ処理を実施して、フィルタ処理後の局所復号画像を出力する処理を実施する。
具体的には、直交変換ブロックの境界や予測ブロックの境界に発生する歪みを低減するフィルタ（デブロッキングフィルタ）処理、画素単位に適応的にオフセットを加算する（画素適応オフセット）処理、ウィーナフィルタ等の線形フィルタを適応的に切り替えてフィルタ処理する適応フィルタ処理などを行う。

ただし、ループフィルタ部１１は、上記のデブロッキングフィルタ処理、画素適応オフセット処理及び適応フィルタ処理のそれぞれについて、処理を行うか否かを決定し、各処理の有効フラグを符号化すべき適応パラメータセットの一部及びスライスレベルヘッダの一部として可変長符号化部１３に出力する。なお、上記のフィルタ処理を複数使用する際は、各フィルタ処理を順番に実施する。図２は複数のフィルタ処理を用いる場合のループフィルタ部１１の構成例を示している。
一般に使用するフィルタ処理の種類が多いほど、画像品質は向上するが、一方で処理負荷は高くなる。即ち、画像品質と処理負荷はトレードオフの関係にある。また、各フィルタ処理の画像品質改善効果はフィルタ処理対象画像の特性によって異なる。したがって、動画像符号化装置が許容する処理負荷や符号化処理対象画像の特性にしたがって使用するフィルタ処理を決めればよい。
なお、ループフィルタ部１１はフィルタリング手段を構成している。

ここで、デブロッキングフィルタ処理では、ブロック境界にかけるフィルタ強度の選択に用いる各種パラメータを初期値から変更することができる。変更する場合には、そのパラメータを符号化すべき適応パラメータセットの一部として可変長符号化部１３に出力する。
画素適応オフセット処理では、最初に、画像を複数のブロックに分割し、そのブロック単位に、オフセット処理を行わない場合もクラス分類手法の一つとして定義して、予め用意されている複数のクラス分類手法の中から、１つのクラス分類手法を選択する。
次に、選択したクラス分類手法によって、ブロック内の各画素をクラス分類し、クラス毎に符号化歪みを補償するオフセット値を算出する。
最後に、局所復号画像の輝度値に対して、そのオフセット値を加算する処理を行うことで局所復号画像の画像品質を改善する。
したがって、画素適応オフセット処理では、ブロック分割情報、各ブロックのクラス分類手法を示すインデックス、ブロック単位の各クラスのオフセット値を特定するオフセット情報を符号化すべき適応パラメータセットの一部として可変長符号化部１３に出力する。
なお、画素適応オフセット処理において、例えば、最大符号化ブロックといった固定サイズのブロック単位に常に分割して、そのブロック毎にクラス分類手法を選択して、クラス毎の適応オフセット処理を行ってもよい。この場合、上記のブロック分割情報が不要になり、ブロック分割情報に要する符号量分だけ符号量を削減することができる。

適応フィルタ処理では、局所復号画像を所定の手法でクラス分類し、各クラスに属する領域（局所復号画像）毎に、重畳されている歪みを補償するフィルタを設計し、そのフィルタを用いて、当該局所復号画像のフィルタ処理を実施する。
そして、クラス毎に設計したフィルタを符号化すべき適応パラメータセットの一部として可変長符号化部１３に出力する。
クラス分類手法としては、画像を空間的に等間隔に区切る簡易な手法や、ブロック単位に画像の局所的な特性（分散など）に応じて分類する手法がある。
また、適応フィルタ処理で使用するクラス数は、予め動画像符号化装置及び動画像復号装置に共通の値として設定してもよいし、符号化すべき適応パラメータセットの一部としてもよい。
前者と比較して後者の方が、使用するクラス数を自由に設定することができるため、画像品質改善効果が上がるが、一方でクラス数を符号化するために、その分の符号量が増加する。

さらに、適応フィルタ処理のクラス分類及びフィルタ設計・処理を画像全体に対してではなく、例えば、最大符号化ブロックといった固定サイズのブロック毎に行ってもよい。
即ち、固定サイズのブロック内を分割した複数の小ブロック単位に画像の局所的な特性（分散など）に応じてクラス分類し、クラス毎にフィルタ設計及びフィルタ処理を行うようにして、固定サイズのブロック毎に、各クラスのフィルタを適応パラメータセットの一部として符号化するようにしてもよい。
このようにすることで、画像全体に対してクラス分類及びフィルタ設計・処理を実施する場合よりも、局所的な性質に応じた高精度なフィルタ処理を実現することができる。
なお、画素適応オフセット処理及び適応フィルタ処理を行う場合には、映像信号をループフィルタ部１１で参照する必要があるため、映像信号がループフィルタ部１１に入力されるように、図１の動画像符号化装置を変更する必要がある。

動き補償予測フレームメモリ１２はループフィルタ部１１のフィルタ処理後の局所復号画像を格納する記録媒体である。
可変長符号化部１３は変換・量子化部７から出力された圧縮データと、符号化制御部２の出力信号（最大符号化ブロック内のブロック分割情報、符号化モード、予測差分符号化パラメータ、イントラ予測パラメータ又はインター予測パラメータ）と、動き補償予測部５から出力された動きベクトル（符号化モードがインター符号化モードである場合）とを可変長符号化して符号化データを生成する。
また、可変長符号化部１３は、図３に例示するように、符号化ビットストリームのヘッダ情報として、ビデオパラメータセット、シーケンスレベルヘッダ、ピクチャレベルヘッダ、適応パラメータセットを符号化し、ピクチャデータと共に符号化ビットストリームを生成する。
なお、可変長符号化部１３は可変長符号化手段を構成している。

ただし、ピクチャデータは１以上のスライスデータから構成され、各スライスデータはスライスレベルヘッダと当該スライス内にある上記符号化データをまとめたものである。
シーケンスレベルヘッダは、画像サイズ、色信号フォーマット、輝度信号や色差信号の信号値のビット深度、シーケンス単位でのループフィルタ部１１における各フィルタ処理（適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理）の有効フラグ情報、量子化マトリクスの有効フラグ情報など、一般的にシーケンス単位に共通となるヘッダ情報をまとめたものである。
ピクチャレベルヘッダは、参照するシーケンスレベルヘッダのインデックスや動き補償時の参照ピクチャ数、エントロピー符号化の確率テーブル初期化フラグなど、ピクチャ単位で設定するヘッダ情報をまとめたものである。

スライスレベルヘッダは、当該スライスがピクチャのどの位置にあるかを示す位置情報、どのピクチャレベルヘッダを参照するかを示すインデックス、スライスの符号化タイプ（オールイントラ符号化、インター符号化など）、当該スライスで使用する適応パラメータセットのインデックス及び上記インデックスが示す適応パラメータセットを用いたループフィルタ部１１における各フィルタ処理（適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理）を行うか否かを示すフラグ情報などのスライス単位のパラメータをまとめたものである。
適応パラメータセットは、適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理に関わるパラメータ（フィルタパラメータ）及び量子化マトリクスに関わるパラメータ（量子化マトリクスパラメータ）が存在するか否かのフラグをそれぞれ持ち、上記フラグが“有効”であるパラメータのみ対応するパラメータを持つパラメータセットである。さらに、適応パラメータセットは符号化ビットストリームに多重化されている複数の適応パラメータセットを識別するためのインデックス（ａｐｓ＿ｉｄ）も持つ。
ビデオパラメータセットは、時間階層符号化に関わるパラメータやその他スケーラブル符号化に関わるパラメータ、マルチビュー符号化に関わるパラメータなど異なる階層に属するピクチャに関わる情報をまとめたものである。さらに、ビデオパラメータセットは符号化ビットストリームに多重化されている複数のビデオパラメータセットを識別するためのインデックス（ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｔｅｒ＿ｓｅｔ＿ｉｄ）も持つ。

ビデオパラメータセット、シーケンスレベルヘッダ、ピクチャレベルヘッダ、適応パラメータセット、ピクチャデータを構成する１以上のスライスデータなどの各符号化データは、ＮＡＬ（Network Abstraction Layer）ユニットと呼ばれる単位で符号化ビットストリームを構成する。
図４にＮＡＬユニットの構成を示す。ＮＡＬユニットはヘッダ部とペイロードデータ部から構成され、ヘッダ部にはペイロードデータ部に入っている符号化データの種類、すなわち、ビデオパラメータセット、シーケンスレベルヘッダ、ピクチャレベルヘッダ、適応パラメータセット、スライスデータのいずれの符号化データかを示すタイプ情報などが含まれる。ペイロードデータ部には、タイプ情報で示された種類の符号化データが含まれる。ヘッダ部にはタイプ情報の他に参照フラグや階層識別番号などが含まれる。参照フラグは、ペイロードデータに含まれる符号化データがスライスデータの場合に、そのスライスデータを復号して得られるフレームが他のフレームから参照されるフレームであるか否かを示すフラグである。階層識別番号は映像データが時間階層符号化されている場合にどの階層に関連した符号化データであるかを示す番号である。例えば符号化データがスライスデータであって、そのスライスが基本階層に属するフレームのスライスデータである場合には基本階層に関連した符号化データであるので、基本階層を示す「０」を階層識別番号として符号化する。

図１の例では、動画像符号化装置の構成要素であるブロック分割部１、符号化制御部２、切換スイッチ３、イントラ予測部４、動き補償予測部５、減算部６、変換・量子化部７、逆量子化・逆変換部８、加算部９、イントラ予測用メモリ１０、ループフィルタ部１１、動き補償予測フレームメモリ１２及び可変長符号化部１３のそれぞれが専用のハードウェア（例えば、ＣＰＵを実装している半導体集積回路や、ワンチップマイコンなど）で構成されているものを想定しているが、動画像符号化装置がコンピュータで構成される場合、ブロック分割部１、符号化制御部２、切換スイッチ３、イントラ予測部４、動き補償予測部５、減算部６、変換・量子化部７、逆量子化・逆変換部８、加算部９、ループフィルタ部１１及び可変長符号化部１３の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。
図５はこの発明の実施の形態１による動画像符号化装置の処理内容（動画像符号化方法）を示すフローチャートである。

図６はこの発明の実施の形態１による動画像復号装置を示す構成図である。
図６において、可変長復号部３１は図１の動画像符号化装置により生成された符号化ビットストリームを入力すると、そのビットストリームからＮＡＬユニットの単位にビデオパラメータセット、シーケンスレベルヘッダ、ピクチャレベルヘッダ、適応パラメータセット、スライスレベルヘッダなどの各ヘッダ情報を復号するとともに、そのビットストリームから、階層的に分割されている各々の符号化ブロックの分割状況を示すブロック分割情報を可変長復号する。
このとき、可変長復号部３１によって可変長復号された適応パラメータセット内の量子化マトリクスパラメータから、当該適応パラメータセットの量子化マトリクスを特定する。具体的には、各直交変換サイズの色信号や符号化モード毎に、量子化マトリクスパラメータが初期値として予め動画像符号化装置及び動画像復号装置で共通に用意されている量子化マトリクス、または、既に復号された量子化マトリクスである（新しい量子化マトリクスでない）ことを示す場合は、上記適応パラメータセットに含まれる上記マトリクスの内のどの量子化マトリクスであるかを特定するインデックス情報を参照して量子化マトリクスを特定し、量子化マトリクスパラメータが新しい量子化マトリクスを用いることを示す場合は、量子化マトリクスパラメータに含まれる量子化マトリクスを使用する量子化マトリクスとして特定する。
また、可変長復号部３１は、各ヘッダ情報を参照して、スライスデータに含まれる最大復号ブロック（図１の動画像符号化装置の「最大符号化ブロック」に相当するブロック）を特定し、ブロック分割情報を参照して、最大復号ブロックを階層的に分割して復号処理を行う単位である復号ブロック（図１の動画像符号化装置の「符号化ブロック」に相当するブロック）を特定し、各々の復号ブロックに係る圧縮データ、符号化モード、イントラ予測パラメータ（符号化モードがイントラ符号化モードである場合）、インター予測パラメータ（符号化モードがインター符号化モードである場合）、予測差分符号化パラメータ及び動きベクトル（符号化モードがインター符号化モードである場合）を可変長復号する処理を実施する。なお、可変長復号部３１は可変長復号手段を構成している。

逆量子化・逆変換部３２は可変長復号部３１により可変長復号された予測差分符号化パラメータに含まれる量子化パラメータ及び直交変換ブロック分割情報を参照して、可変長復号部３１により可変長復号された圧縮データを直交変換ブロック単位に逆量子化するとともに、逆量子化後の圧縮データである変換係数に対する逆直交変換処理を実施して、図１の逆量子化・逆変換部８から出力された局所復号予測差分信号と同一の復号予測差分信号を算出する処理を実施する。なお、逆量子化・逆変換部３２は差分画像生成手段を構成している。

ここで、可変長復号部３１により可変長復号された各ヘッダ情報が、当該スライスで量子化マトリクスを用いて、逆量子化処理を実施することを示している場合、量子化マトリクスを用いて逆量子化処理を行う。
具体的には、各ヘッダ情報から特定される当該スライスで参照する適応パラメータセットの量子化マトリクスを用いて逆量子化処理を行う。

切換スイッチ３３は可変長復号部３１により可変長復号された符号化モードがイントラ符号化モードであれば、可変長復号部３１により可変長復号されたイントラ予測パラメータをイントラ予測部３４に出力し、可変長復号部３１により可変長復号された符号化モードがインター符号化モードであれば、可変長復号部３１により可変長復号されたインター予測パラメータ及び動きベクトルを動き補償部３５に出力する処理を実施する。

イントラ予測部３４は可変長復号部３１により可変長復号されたブロック分割情報から特定される復号ブロックに係る符号化モードがイントラ符号化モードである場合、その復号ブロックの予測処理を行う際の予測処理単位である予測ブロック毎に、イントラ予測用メモリ３７に格納されている復号画像を参照しながら、切換スイッチ３３から出力されたイントラ予測パラメータを用いたイントラ予測処理（フレーム内予測処理）を実施してイントラ予測画像を生成する処理を実施する。

動き補償部３５は可変長復号部３１により可変長復号されたブロック分割情報から特定される復号ブロックに係る符号化モードがインター符号化モードである場合、上記復号ブロックの予測処理を行う際の予測処理単位である予測ブロック毎に、動き補償予測フレームメモリ３９に格納されている復号画像を参照しながら、切換スイッチ３３から出力された動きベクトルとインター予測パラメータを用いたインター予測処理（動き補償予測処理）を実施してインター予測画像を生成する処理を実施する。
なお、イントラ予測部３４、イントラ予測用メモリ３７、動き補償部３５及び動き補償予測フレームメモリ３９から予測手段が構成されている。

加算部３６は逆量子化・逆変換部３２により算出された復号予測差分信号と、イントラ予測部３４により生成されたイントラ予測画像、または、動き補償部３５により生成されたインター予測画像とを加算して、図１の加算部９から出力された局所復号画像と同一の復号画像を算出する処理を実施する。なお、加算部３６は復号画像生成手段を構成している。

イントラ予測用メモリ３７は加算部３６により算出された復号画像を格納する記録媒体である。
ループフィルタ部３８は加算部３６により算出された復号画像に対して、所定のフィルタ処理を実施して、フィルタ処理後の復号画像を出力する処理を実施する。
具体的には、直交変換ブロックの境界や予測ブロックの境界に発生する歪みを低減するフィルタ（デブロッキングフィルタ）処理、画素単位に適応的にオフセットを加算する（画素適応オフセット）処理、ウィーナフィルタ等の線形フィルタを適応的に切り替えてフィルタ処理する適応フィルタ処理などを行う。
ただし、ループフィルタ部３８は、上記のデブロッキングフィルタ処理、画素適応オフセット処理、適応フィルタ処理のそれぞれについて、可変長復号部３１により可変長復号された各ヘッダ情報を参照して、当該スライスで行うか否かを特定する。
なお、図１の動画像符号化装置において、ループフィルタ部３８で使用するフィルタパラメータをヘッダ情報の一つである適応パラメータセットの一部として符号化するのではなく、スライス単位に使用するフィルタパラメータをそれぞれ直接スライスデータで符号化している場合は、可変長復号部３１はスライスデータからループフィルタ部３８で使用するフィルタパラメータを復号する。
このとき、２つ以上のフィルタ処理を行う場合において、動画像符号化装置のループフィルタ部１１が図２のように構成されていれば、図７に示すようにループフィルタ部３８が構成される。
なお、ループフィルタ部３８はフィルタリング手段を構成している。

ここで、デブロッキングフィルタ処理では、当該スライスが参照する適応パラメータセットを参照し、ブロック境界にかけるフィルタ強度の選択に用いる各種パラメータを初期値から変更する情報が存在する場合、その変更情報に基づいて、デブロッキングフィルタ処理を実施する。変更情報がない場合は、予め定められた手法に従って行う。

画素適応オフセット処理では、当該スライスが参照する適応パラメータセットを参照し、その適応パラメータセットに含まれるブロック分割情報に基づいて復号画像を分割し、そのブロック単位に、その適応パラメータセットに含まれるブロック単位のクラス分類手法を示すインデックスを参照して、そのインデックスが“オフセット処理を行わない”ことを示すインデックスでない場合、ブロック単位にブロック内の各画素を上記インデックスが示すクラス分類手法に従ってクラス分類する。
なお、クラス分類手法の候補として、ループフィルタ部１１の画素適応オフセット処理のクラス分類手法の候補と同一のものが予め用意されている。
そして、ブロック単位の各クラスのオフセット値を特定するオフセット情報（適応パラメータセットに含まれているオフセット情報）を参照して、復号画像の輝度値にオフセットを加算する処理を行う。

ただし、動画像符号化装置のループフィルタ部１１の画素適応オフセット処理において、ブロック分割情報は符号化せずに、常に画像を固定サイズのブロック単位（例えば、最大符号化ブロック単位）に分割し、そのブロック毎にクラス分類手法を選択して、クラス毎の適応オフセット処理を行うように構成されている場合、ループフィルタ部３８においても、ループフィルタ部１１と同一の固定サイズのブロック単位に画素適応オフセット処理を実施する。

適応フィルタ処理では、当該スライスが参照する適応パラメータセットを参照し、その適応パラメータセットに含まれるクラス毎のフィルタを用いて、図１の動画像符号化装置と同一の手法でクラス分類した後に、そのクラス分類情報に基づいてフィルタ処理を行う。
ただし、動画像符号化装置のループフィルタ部１１の適応フィルタ処理において、上記のクラス分類及びフィルタ設計・処理を画像全体に対してではなく、例えば、最大符号化ブロックといった固定サイズのブロック毎に行うように構成されている場合、ループフィルタ部３８においても、ループフィルタ部１１と同一の固定サイズのブロック毎に、各クラスで用いるフィルタを復号して上記クラス分類及びフィルタ処理を行う。

動き補償予測フレームメモリ３９はループフィルタ部３８のフィルタ処理後の復号画像を格納する記録媒体である。

図６の例では、動画像復号装置の構成要素である可変長復号部３１、逆量子化・逆変換部３２、切換スイッチ３３、イントラ予測部３４、動き補償部３５、加算部３６、イントラ予測用メモリ３７、ループフィルタ部３８及び動き補償予測フレームメモリ３９のそれぞれが専用のハードウェア（例えば、ＣＰＵを実装している半導体集積回路や、ワンチップマイコンなど）で構成されているものを想定しているが、動画像復号装置がコンピュータで構成される場合、可変長復号部３１、逆量子化・逆変換部３２、切換スイッチ３３、イントラ予測部３４、動き補償部３５、加算部３６及びループフィルタ部３８の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。
図８はこの発明の実施の形態１による動画像復号装置の処理内容（動画像復号方法）を示すフローチャートである。

次に動作について説明する。
この実施の形態１では、映像の各フレーム画像を入力画像として、符号化済みの近傍画素からのイントラ予測又は近接フレーム間での動き補償予測を実施して、得られた予測差分信号に対して直交変換・量子化による圧縮処理を施し、その後、可変長符号化を行って符号化ビットストリームを生成する動画像符号化装置と、その動画像符号化装置から出力される符号化ビットストリームを復号する動画像復号装置について説明する。

図１の動画像符号化装置は、映像信号の空間・時間方向の局所的な変化に適応して、映像信号を多様なサイズのブロックに分割して、フレーム内・フレーム間適応符号化を行うことを特徴としている。
一般的に、映像信号は、空間・時間的に信号の複雑さが局所的に変化する特性を有している。空間的に見ると、ある映像フレーム上では、例えば、空や壁などのような比較的広い画像領域中で均一な信号特性を有する絵柄もあれば、人物や細かいテクスチャを含む絵画など、小さい画像領域内で複雑なテクスチャパターンを有する絵柄も混在することがある。
時間的に見ても、空や壁は局所的に時間方向の絵柄の変化は小さいが、動く人物や物体は、その輪郭が時間的に剛体・非剛体の運動をするため、時間的な変化が大きい。

符号化処理は、時間・空間的な予測によって、信号電力やエントロピーの小さい予測差分信号を生成して、全体の符号量を削減する処理を行うが、予測に用いるパラメータをできるだけ大きな画像信号領域に均一に適用できれば、当該パラメータの符号量を小さくすることができる。
一方、時間的・空間的に変化の大きい画像信号パターンに対して、同一の予測パラメータを大きな画像領域に適用すると、予測の誤りが増えてしまうため、予測差分信号の符号量が増加してしまう。
したがって、時間的・空間的に変化が大きい領域では、同一の予測パラメータを適用して予測処理を行うブロックサイズを小さくして、予測に用いるパラメータのデータ量を増やし、予測差分信号の電力・エントロピーを低減する方が望ましい。

この実施の形態１では、このような映像信号の一般的な性質に適応した符号化を行うため、最初に所定の最大ブロックサイズから予測処理等を開始し、階層的に映像信号の領域を分割し、分割した領域毎に予測処理や、その予測差分の符号化処理を適応化させる構成をとるようにしている。

図１の動画像符号化装置が処理対象とする映像信号フォーマットは、輝度信号と２つの色差信号からなるＹＵＶ信号や、ディジタル撮像素子から出力されるＲＧＢ信号等の任意の色空間のカラー映像信号のほか、モノクロ画像信号や赤外線画像信号など、映像フレームが水平・垂直２次元のディジタルサンプル（画素）列から構成される任意の映像信号とする。
ただし、各画素の階調は、８ビットでもよいし、１０ビットや１２ビットなどの階調でもよい。

以下の説明では、便宜上、特に断らない限り、入力画像の映像信号はＹＵＶ信号であるとし、かつ、２つの色差成分Ｕ，Ｖが輝度成分Ｙに対して、サブサンプルされた４：２：０フォーマットの信号を扱う場合について述べる。
また、映像信号の各フレームに対応する処理データ単位を「ピクチャ」と称する。
この実施の形態１では、「ピクチャ」は順次走査（プログレッシブスキャン）された映像フレーム信号として説明を行うが、映像信号がインタレース信号である場合、「ピクチャ」は映像フレームを構成する単位であるフィールド画像信号であってもよい。

最初に、図１の動画像符号化装置の処理内容を説明する。
まず、符号化制御部２は、シーケンス内のピクチャのピクチャタイプ、符号化順、予測に使うピクチャの参照関係などのＧＯＰ（Group Of Picture）構造を決定する。例えば図２４に示すようなＧＯＰ構造で時間階層符号化を行う場合を例に符号化処理の内容を説明する。
符号化制御部２は、最初のピクチャのピクチャタイプをＩピクチャ(Ｉ０ピクチャ)とし、次に符号化するピクチャのピクチャタイプをＰピクチャ（Ｐ１ピクチャ）とし、Ｐ１ピクチャはＩ０ピクチャのみを参照して予測符号化する。Ｉ０ピクチャとＰ１ピクチャを基本階層（Ｔ_０）に属するピクチャとする。
Ｐ１ピクチャの次に符号化するピクチャのピクチャタイプはＢピクチャ（Ｂ２ピクチャ）とし、Ｂ２ピクチャは第１階層（Ｔ１）に属するピクチャとする。Ｂ２ピクチャは基本階層または第１階層に属するピクチャを参照して予測符号化する。図２４の例ではＩ０ピクチャとＰ１ピクチャを参照して予測符号化する。
Ｂ２ピクチャの次に符号化するピクチャのピクチャタイプはＢピクチャ（Ｂ３ピクチャ）とし、Ｂ３ピクチャは第２階層（Ｔ２）に属するピクチャとする。なおＢ３ピクチャの次に符号化するピクチャも第２階層（Ｔ２）に属するピクチャ（Ｂ４ピクチャ）とする。
第２階層（Ｔ２）に属するピクチャは基本階層から第２階層に属するピクチャを参照して予測符号化する。
Ｂ４ピクチャの次に、Ｂ５ピクチャ、Ｂ６ピクチャ、Ｂ７ピクチャ、Ｂ８ピクチャの順に符号化する。Ｂ５ピクチャからＢ８ピクチャは第３階層（Ｔ３）に属するピクチャとし、基本階層から第３階層に属するピクチャを参照して予測符号化する。
以下、９枚ごとに基本階層に属するピクチャとし、基本階層の間の８枚のピクチャを第２階層から第４階層の３階層に分けて符号化する。
なお以上のようなＧＯＰ構造で時間階層符号化する場合には、復号装置側で基本階層に属するピクチャのみを正しく復号することができる。同様に基本階層と第２階層に属するピクチャのみを正しく復号することができるといったように、復号装置側はスケーラブルに復号することができる。そこで符号化制御部２は時間階層符号化されているかどうかを示すフラグを時間階層符号化されていることを示す値（例えば１）にセットして可変長符号化部へ出力する。ＧＯＰ構造が時間階層符号化されていない場合には、時間階層符号化されているかどうかを示すフラグを時間階層符号化されていないことを示す値（例えば０）にセットして可変長符号化部へ出力する。
次に最大階層数や階層ごとに必要なピクチャバッファのサイズなどの情報を可変長符号化部へ出力する。図２４の例では、最大階層数は４、階層ごとに必要なピクチャバッファのサイズは、参照フレーム数と各階層に属するピクチャが表示順になるまでバッファリングしておく必要があるピクチャ数によって決定される。
次に、符号化制御部２は、符号化対象となるピクチャ（カレントピクチャ）のスライス分割状態を決めると共に、ピクチャの符号化に用いる最大符号化ブロックのサイズと、最大符号化ブロックを階層分割する階層数の上限を決定する（図５のステップＳＴ１）。
最大符号化ブロックのサイズの決め方としては、例えば、入力画像の映像信号の解像度に応じて、全てのピクチャに対して同一のサイズを定めてもよいし、入力画像の映像信号の局所的な動きの複雑さの違いをパラメータとして定量化して、動きの激しいピクチャには、小さいサイズを定める一方、動きが少ないピクチャには、大きいサイズを定めるようにしてもよい。

分割階層数の上限の決め方としては、例えば、入力画像の映像信号の解像度に応じて、全てのピクチャに対して同一の階層数を定める方法や、入力画像の映像信号の動きが激しい場合には、階層数を深くして、より細かい動きが検出できるように設定し、動きが少ない場合には、階層数を抑えるように設定する方法などがある。
なお、上記最大符号化ブロックのサイズと、最大符号化ブロックを階層分割する階層数の上限はシーケンスレベルヘッダなどに符号化してもよいし、符号化せずに動画像復号装置側も同一の決定処理を行うようにしてもよい。前者はヘッダ情報の符号量が増加するものの、動画像復号装置側で上記決定処理を行わずに済むため、動画像復号装置の処理負荷を抑えることができる上、動画像符号化装置側で最適な値を探索して送ることができる。後者は反対に、動画像復号装置側で上記決定処理を行うため、動画像復号装置の処理負荷が増加するものの、ヘッダ情報の符号量は増加しない。

また、符号化制御部２は、利用可能な１以上の符号化モードの中から、階層的に分割される各々の符号化ブロックに対応する符号化モードを選択する（ステップＳＴ２）。
即ち、符号化制御部２は、最大符号化ブロックサイズの画像領域毎に、先に定めた分割階層数の上限に至るまで、階層的に符号化ブロックサイズを有する符号化ブロックに分割して、各々の符号化ブロックに対する符号化モードを決定する。
符号化モードには、１つないし複数のイントラ符号化モード（総称して「ＩＮＴＲＡ」と称する）と、１つないし複数のインター符号化モード（総称して、「ＩＮＴＥＲ」と称する）とがあり、符号化制御部２は、当該ピクチャで利用可能な全ての符号化モード、または、そのサブセットの中から、各々の符号化ブロックに対応する符号化モードを選択する。

ただし、後述するブロック分割部１により階層的に分割される各々の符号化ブロックは、さらに予測処理を行う単位である１つないし複数の予測ブロックに分割され、予測ブロックの分割状態も符号化モードの中に情報として含まれる。即ち、符号化モードは、どのような予測ブロック分割を持つイントラまたはインター符号化モードかを識別するインデックスである。
符号化制御部２による符号化モードの選択方法は、公知の技術であるため詳細な説明を省略するが、例えば、利用可能な任意の符号化モードを用いて、符号化ブロックに対する符号化処理を実施して符号化効率を検証し、利用可能な複数の符号化モードの中で、最も符号化効率がよい符号化モードを選択する方法などがある。

また、符号化制御部２は、各々の符号化ブロック毎に、差分画像が圧縮される際に用いられる量子化パラメータ及び直交変換ブロック分割状態を決定するとともに、予測処理が実施される際に用いられる予測パラメータ（イントラ予測パラメータ又はインター予測パラメータ）を決定する。
ただし、符号化ブロックがさらに予測処理を行う予測ブロック単位に分割される場合は、予測ブロック毎に予測パラメータ（イントラ予測パラメータ又はインター予測パラメータ）を選択することができる。
さらに、符号化モードがイントラ符号化モードである符号化ブロックにおいては、詳細は後述するが、イントラ予測処理を行う際に予測ブロックに隣接する符号化済みの画素を用いることから、予測ブロック単位に符号化を行う必要があるため、選択可能な変換ブロックサイズは予測ブロックのサイズ以下に制限される。

符号化制御部２は、量子化パラメータ及び変換ブロックサイズを含む予測差分符号化パラメータを変換・量子化部７、逆量子化・逆変換部８及び可変長符号化部１３に出力する。
また、符号化制御部２は、イントラ予測パラメータを必要に応じてイントラ予測部４に出力する。
また、符号化制御部２は、インター予測パラメータを必要に応じて動き補償予測部５に出力する。

スライス分割部１４は、入力画像として映像信号を入力すると、その入力画像を符号化制御部２により決定されたスライス分割情報にしたがって１以上の部分画像であるスライスに分割する。
ブロック分割部１は、スライス分割部１４から各スライスを入力する毎に、そのスライスを符号化制御部２により決定された最大符号化ブロックサイズに分割し、さらに、分割した最大符号化ブロックを符号化制御部２により決定された符号化ブロックへ階層的に分割して、その符号化ブロックを出力する。

ここで、図９は最大符号化ブロックが階層的に複数の符号化ブロックに分割される例を示す説明図である。
図９において、最大符号化ブロックは、「第０階層」と記されている輝度成分が（Ｌ^０，Ｍ^０）のサイズを有する符号化ブロックである。
最大符号化ブロックを出発点として、４分木構造で別途定める所定の深さまで、階層的に分割を行うことによって符号化ブロックを得るようにしている。
深さｎにおいては、符号化ブロックはサイズ（Ｌ^ｎ，Ｍ^ｎ）の画像領域である。
ただし、Ｌ^ｎとＭ^ｎは、同じであってもよいし、異なっていてもよいが、図９では、Ｌ^ｎ＝Ｍ^ｎのケースを示している。

以降、符号化制御部２により決定される符号化ブロックサイズは、符号化ブロックの輝度成分におけるサイズ（Ｌ^ｎ，Ｍ^ｎ）と定義する。
４分木分割を行うため、常に、（Ｌ^ｎ＋１，Ｍ^ｎ＋１）＝（Ｌ^ｎ／２，Ｍ^ｎ／２）が成立する。
なお、ＲＧＢ信号など、全ての色成分が同一サンプル数を有するカラー映像信号（４：４：４フォーマット）では、全ての色成分のサイズが（Ｌ^ｎ，Ｍ^ｎ）になるが、４：２：０フォーマットを扱う場合、対応する色差成分の符号化ブロックサイズは（Ｌ^ｎ／２，Ｍ^ｎ／２）になる。

以降、第ｎ階層の符号化ブロックをＢ^ｎで表し、符号化ブロックＢ^ｎで選択可能な符号化モードをｍ（Ｂ^ｎ）で表すものとする。
複数の色成分からなるカラー映像信号の場合、符号化モードｍ（Ｂ^ｎ）は、色成分毎に、それぞれ個別のモードを用いるように構成されてもよいし、全ての色成分に対し共通のモードを用いるように構成されてもよい。以降、特に断らない限り、ＹＵＶ信号、４：２：０フォーマットの符号化ブロックの輝度成分に対する符号化モードを指すものとして説明を行う。

符号化ブロックＢ^ｎは、図９に示すように、ブロック分割部１によって、予測処理単位を表す１つないし複数の予測ブロックに分割される。
以降、符号化ブロックＢ^ｎに属する予測ブロックをＰ_ｉ ^ｎ（ｉは、第ｎ階層における予測ブロック番号）と表記する。図９にはＰ_０ ^０とＰ_１ ^０の例を示している。
符号化ブロックＢ^ｎ内の予測ブロックの分割が、どのようになされているかは、符号化モードｍ（Ｂ^ｎ）の中に情報として含まれる。
予測ブロックＰ_ｉ ^ｎは、全て符号化モードｍ（Ｂ^ｎ）に従って予測処理が行われるが、予測ブロックＰ_ｉ ^ｎ毎に、個別の予測パラメータ（イントラ予測パラメータ又はインター予測パラメータ）を選択することができる。

符号化制御部２は、最大符号化ブロックに対して、例えば、図１０に示すようなブロック分割状態を生成して、符号化ブロックを特定する。
図１０（ａ）の点線で囲まれた矩形が各符号化ブロックを表し、各符号化ブロック内にある斜線で塗られたブロックが各予測ブロックの分割状態を表している。
図１０（ｂ）は、図１０（ａ）の例について、階層分割によって符号化モードｍ（Ｂ^ｎ）が割り当てられる状況を４分木グラフで示したものである。図１０（ｂ）の□で囲まれているノードは、符号化モードｍ（Ｂ^ｎ）が割り当てられたノード（符号化ブロック）である。
この４分木グラフの情報は符号化モードｍ（Ｂ^ｎ）と共に符号化制御部２から可変長符号化部１３に出力されて、ビットストリームに多重化される。

切換スイッチ３は、符号化制御部２により決定された符号化モードｍ（Ｂ^ｎ）がイントラ符号化モードである場合（ｍ（Ｂ^ｎ）∈ＩＮＴＲＡの場合）、ブロック分割部１から出力された符号化ブロックＢ^ｎをイントラ予測部４に出力する。
一方、符号化制御部２により決定された符号化モードｍ（Ｂ^ｎ）がインター符号化モードである場合（ｍ（Ｂ^ｎ）∈ＩＮＴＥＲの場合）、ブロック分割部１から出力された符号化ブロックＢ^ｎを動き補償予測部５に出力する。

イントラ予測部４は、符号化制御部２により決定された符号化モードｍ（Ｂ^ｎ）がイントラ符号化モードであり（ｍ（Ｂ^ｎ）∈ＩＮＴＲＡの場合）、切換スイッチ３から符号化ブロックＢ^ｎを受けると（ステップＳＴ３）、イントラ予測用メモリ１０に格納されている局所復号画像を参照しながら、符号化制御部２により決定されたイントラ予測パラメータを用いて、その符号化ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎに対するイントラ予測処理を実施して、イントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎを生成する（ステップＳＴ４）。
なお、動画像復号装置がイントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎと全く同じイントラ予測画像を生成する必要があるため、イントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎの生成に用いられたイントラ予測パラメータは、符号化制御部２から可変長符号化部１３に出力されて、ビットストリームに多重化される。
イントラ予測部４の処理内容の詳細は後述する。

動き補償予測部５は、符号化制御部２により決定された符号化モードｍ（Ｂ^ｎ）がインター符号化モードであり（ｍ（Ｂ^ｎ）∈ＩＮＴＥＲの場合）、切換スイッチ３から符号化ブロックＢ^ｎを受けると（ステップＳＴ３）、その符号化ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎと動き補償予測フレームメモリ１２に格納されているフィルタ処理後の局所復号画像を比較して動きベクトルを探索し、その動きベクトルと符号化制御部２により決定されたインター予測パラメータを用いて、その符号化ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎに対するインター予測処理を実施して、インター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎを生成する（ステップＳＴ５）。
なお、動画像復号装置がインター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎと全く同じインター予測画像を生成する必要があるため、インター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎの生成に用いられたインター予測パラメータは、符号化制御部２から可変長符号化部１３に出力されて、ビットストリームに多重化される。
また、動き補償予測部５により探索された動きベクトルも可変長符号化部１３に出力されて、ビットストリームに多重化される。

減算部６は、ブロック分割部１から符号化ブロックＢ^ｎを受けると、その符号化ブロックＢ^ｎ内の予測ブロックＰ_ｉ ^ｎから、イントラ予測部４により生成されたイントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎ、または、動き補償予測部５により生成されたインター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎのいずれか一方を減算して、その減算結果である差分画像を示す予測差分信号ｅ_ｉ ^ｎを変換・量子化部７に出力する（ステップＳＴ６）。

変換・量子化部７は、減算部６から予測差分信号ｅ_ｉ ^ｎを受けると、符号化制御部２により決定された予測差分符号化パラメータに含まれる直交変換ブロック分割情報を参照して、その予測差分信号ｅ_ｉ ^ｎに対する直交変換処理（例えば、ＤＣＴ（離散コサイン変換）やＤＳＴ（離散サイン変換）、予め特定の学習系列に対して基底設計がなされているＫＬ変換等の直交変換処理）を直交変換ブロック単位に実施して、変換係数を算出する。
また、変換・量子化部７は、その予測差分符号化パラメータに含まれる量子化パラメータを参照して、その直交変換ブロック単位の変換係数を量子化し、量子化後の変換係数である圧縮データを逆量子化・逆変換部８及び可変長符号化部１３に出力する（ステップＳＴ７）。このとき、上記量子化パラメータから算出される量子化ステップサイズを変換係数毎にスケーリングする量子化マトリクスを用いて量子化処理を実施するようにしてもよい。

逆量子化・逆変換部８は、変換・量子化部７から圧縮データを受けると、符号化制御部２により決定された予測差分符号化パラメータに含まれる量子化パラメータ及び直交変換ブロック分割情報を参照して、直交変換ブロック単位にその圧縮データを逆量子化する。
変換・量子化部７が量子化処理に量子化マトリクスを用いている場合には、逆量子化処理時においても、その量子化マトリクスを参照して、対応した逆量子化処理を実施する。
また、逆量子化・逆変換部８は、直交変換ブロック単位に逆量子化後の圧縮データである変換係数に対する逆直交変換処理（例えば、逆ＤＣＴ、逆ＤＳＴ、逆ＫＬ変換など）を実施して、減算部６から出力された予測差分信号ｅ_ｉ ^ｎに相当する局所復号予測差分信号を算出して加算部９に出力する（ステップＳＴ８）。

加算部９は、逆量子化・逆変換部８から局所復号予測差分信号を受けると、その局所復号予測差分信号と、イントラ予測部４により生成されたイントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎ、または、動き補償予測部５により生成されたインター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎのいずれか一方を加算することで、局所復号画像を算出する（ステップＳＴ９）。
なお、加算部９は、その局所復号画像をループフィルタ部１１に出力するとともに、その局所復号画像をイントラ予測用メモリ１０に格納する。
この局所復号画像が、以降のイントラ予測処理の際に用いられる符号化済みの画像信号になる。

ループフィルタ部１１は、加算部９から局所復号画像を受けると、その局所復号画像に対して、所定のフィルタ処理を実施して、フィルタ処理後の局所復号画像を動き補償予測フレームメモリ１２に格納する（ステップＳＴ１０）。
具体的には、直交変換ブロックの境界や予測ブロックの境界に発生する歪みを低減するフィルタ（デブロッキングフィルタ）処理、画素単位に適応的にオフセットを加算する（画素適応オフセット）処理、ウィーナフィルタ等の線形フィルタを適応的に切り替えてフィルタ処理する適応フィルタ処理などを行う。

ただし、ループフィルタ部１１は、上記のデブロッキングフィルタ処理、画素適応オフセット処理、適応フィルタ処理のそれぞれについて、処理を行うか否かを決定し、各処理の有効フラグを符号化すべき適応パラメータセットの一部及びスライスレベルヘッダの一部として可変長符号化部１３に出力する。なお、上記のフィルタ処理を複数使用する際は、各フィルタ処理を順番に実施する。図２は複数のフィルタ処理を用いる場合のループフィルタ部１１の構成例を示している。
一般に使用するフィルタ処理の種類が多いほど、画像品質は向上するが、一方で処理負荷は高くなる。即ち、画像品質と処理負荷はトレードオフの関係にある。また、各フィルタ処理の画像品質改善効果はフィルタ処理対象画像の特性によって異なる。したがって、動画像符号化装置が許容する処理負荷や符号化処理対象画像の特性にしたがって使用するフィルタ処理を決めればよい。

ステップＳＴ３〜ＳＴ９の処理は、階層的に分割された全ての符号化ブロックＢ^ｎに対する処理が完了するまで繰り返し実施され、全ての符号化ブロックＢ^ｎに対する処理が完了すると、ステップＳＴ１３の処理に移行する（ステップＳＴ１１，ＳＴ１２）。

可変長符号化部１３は、変換・量子化部７から出力された圧縮データと、符号化制御部２から出力された最大符号化ブロック内のブロック分割情報（図１０（ｂ）を例とする４分木情報）、符号化モードｍ（Ｂ^ｎ）及び予測差分符号化パラメータと、符号化制御部２から出力されたイントラ予測パラメータ（符号化モードがイントラ符号化モードである場合）又はインター予測パラメータ（符号化モードがインター符号化モードである場合）と、動き補償予測部５から出力された動きベクトル（符号化モードがインター符号化モードである場合）とを可変長符号化して、それらの符号化結果を示す符号化データを生成する（ステップＳＴ１３）。

また、可変長符号化部１３は、図３に例示するように、符号化ビットストリームのヘッダ情報として、ビデオパラメータセット、シーケンスレベルヘッダ、ピクチャレベルヘッダ、適応パラメータセットを符号化し、ピクチャデータと共に符号化ビットストリームを生成する。
ただし、ピクチャデータは１以上のスライスデータから構成され、各スライスデータはスライスレベルヘッダと当該スライス内にある上記符号化データをまとめたものである。

シーケンスレベルヘッダは、画像サイズ、色信号フォーマット、輝度信号や色差信号の信号値のビット深度、シーケンス単位でのループフィルタ部１１における各フィルタ処理（適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理）の有効フラグ情報、量子化マトリクスの有効フラグ情報など、一般的にシーケンス単位に共通となるヘッダ情報をまとめたものである。
ピクチャレベルヘッダは、参照するシーケンスレベルヘッダのインデックスや動き補償時の参照ピクチャ数、エントロピー符号化の確率テーブル初期化フラグ等のピクチャ単位で設定するヘッダ情報をまとめたものである。
スライスレベルヘッダは、当該スライスがピクチャのどの位置にあるかを示す位置情報、どのピクチャレベルヘッダを参照するかを示すインデックス、スライスの符号化タイプ（オールイントラ符号化、インター符号化など）、当該スライスで使用する適応パラメータセットのインデックス及び上記インデックスが示す適応パラメータセットを用いたループフィルタ部１１における各フィルタ処理（適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理）を行うか否かを示すフラグ情報などといったスライス単位のパラメータをまとめたものである。

適応パラメータセットは、適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理に関わるパラメータ（フィルタパラメータ）と、量子化マトリクスに関わるパラメータ（量子化マトリクスパラメータ）とを持つパラメータセットであり、符号化ビットストリームに多重されている複数の適応パラメータセットを識別するために、各適応パラメータセットはインデックス（ａｐｓ＿ｉｄ）を有している。
そして、各適応パラメータセットは、適応フィルタ処理、画素適応オフセット処理、デブロッキングフィルタ処理に関わるそれぞれのフィルタパラメータと、量子化マトリクスパラメータとがそれぞれ存在しているか否かを示すフラグ（ｐｒｅｓｅｎｔ＿ｆｌａｇ）を有しており、各存在フラグが“有効”の場合は、それに対応するパラメータを有している。
したがって、適応パラメータセットは、各パラメータがあるか否かを自由に設定することができる。
各スライスは、スライスレベルヘッダ内にスライスの復号処理時に参照する適応パラメータセットのインデックス（ａｐｓ＿ｉｄ）を少なくとも１つ以上持っており、対応する適応パラメータセットを参照して、量子化処理・逆量子化処理やループフィルタ処理を実施する。

また、適応パラメータセットを符号化して符号化ビットストリームに多重化する際、同じインデックス（ａｐｓ＿ｉｄ）を持つ適応パラメータセットが既に符号化ビットストリームに存在する場合には、そのインデックスを持つ適応パラメータセットが、上記の符号化対象の適応パラメータセットに置き換えられる。
したがって、新しい適応パラメータセットを符号化する際、既に符号化された適応パラメータセットが不要の場合は、その不要な適応パラメータセットのインデックスで符号化することで、適応パラメータセットの上書き更新が可能になり、保存しなければならない適応パラメータセットの数を増やさずに済むため、使用するメモリの容量を抑えることができる。

次にビデオパラメータセットについて説明する。
ビデオパラメータセットには、符号化制御部２から出力された時間階層符号化されているかどうかを示すフラグと最大階層数、各階層のピクチャバッファのサイズが符号化されている。
ビデオパラメータセットには、更にそのビデオパラメータセットを参照するピクチャに基本階層が含まれているかどうかの基本階層有無フラグが符号化されている。
図３図１１の例では、ビデオパラメータセットはシーケンスの先頭のみに符号化されていて、図３図１１のシーケンスは基本階層と第１階層のピクチャとから構成されており、基本階層と第１階層のピクチャはビデオパラメータセット１を参照して符号化されている。この場合にはビデオパラメータセットを参照するピクチャに基本階層を含んでいるので、このビデオパラメータセットを参照するピクチャに基本階層が含まれているかどうかの基本階層有無フラグを基本階層が含まれていることを示す値（例えば１）に設定する。
図１２図１３の例では、シーケンスは階層単位で構成されており、シーケンスの先頭のみに符号化されているビデオパラメータセットも階層ごとに符号化されていて、基本階層のピクチャはビデオパラメータセット１を参照して符号化されている。第１階層のピクチャはビデオパラメータセット２を参照して符号化されている。この場合にはビデオパラメータセット１を参照するピクチャには基本階層が含まれているので、ビデオパラメータセット１を参照するピクチャに基本階層が含まれているかどうかの基本階層有無フラグを基本階層が含まれていることを示す値（例えば１）に設定する。またビデオパラメータセット２を参照するピクチャには基本階層が含まれていないので、ビデオパラメータセット２を参照するピクチャに基本階層が含まれているかどうかの基本階層有無フラグを基本階層が含まれていないことを示す値（例えば０）に設定する。
なお基本階層有無フラグが基本階層を含んでいないことを示している場合には、シーケンスは基本階層と1以上の階層のピクチャとから構成されている必要があるので、最大階層数は１以上の値となるように制限されていてもよい。
また別の例としては最大階層数が１以上の場合に基本階層有無フラグがビデオパラメータセットに符号化されるようにしてもよい。
ビデオパラメータセットは符号化ビットストリームに多重化されている複数のビデオパラメータセットを識別するためのインデックス（ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｔｅｒ＿ｓｅｔ＿ｉｄ）も符号化する。
図１２の例では、ビデオパラメータセット１とビデオパラメータセット２の識別インデックス（ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｔｅｒ＿ｓｅｔ＿ｉｄ）は、同じ値をもつように符号化してもよい。すなわち、同一シーケンス内で時間階層符号化されたピクチャが参照するビデオパラメータセットの識別インデックスは同一の値となるように符号化しておく。
なお、同一シーケンス内で時間階層符号化されたピクチャが参照するビデオパラメータセットの基本階層が含まれているかどうかを示す基本階層有無フラグ以外のパラメータの値（最大階層数や各階層のピクチャバッファのサイズ、識別インデックス）は、同一の値となるように符号化しておいてもよいし、それぞれ異なる値となるように符号化しておいてもよい。
次に、図１２図１３の符号化ビットストリームを階層ごとに異なる回線で伝送する場合を例に説明する。ビデオパラメータセット１を参照する基本階層のピクチャに関わる符号化データを例えば電波を利用して伝送し、ビデオパラメータセット２を参照する第１階層以上の階層のピクチャに関わる符号化データを例えばＩＰ網を利用して伝送する。
電波のみを受信して復号する復号装置では、基本階層のピクチャのみを正常に復号することができる。
電波とＩＰ網の双方を使って受信し復号する復号装置では、電波で受信したビデオパラメータセット１を参照するピクチャの符号化データを受け取った場合には、基本階層有無フラグは基本階層が含まれていることを示しており、基本階層のピクチャを正常に復号することができる。その後、ＩＰ網で受信したビデオパラメータセット２を参照するピクチャの符号化データを受け取った場合には、基本階層有無フラグは基本階層が含まれていないことを示しているが、既に基本階層のピクチャを復号済みであるため、第１階層以上の階層のピクチャを正常に復号することができる。更に、ビデオパラメータセット１を参照するピクチャの符号化データを電波で受信する前に、ＩＰ網でビデオパラメータセット２を参照するピクチャの符号化データを受信した場合は、ＩＰ網で受信したビデオパラメータセット２を参照するピクチャの符号化データには、ビデオパラメータセット２から復号される基本階層有無フラグの値によって、基本階層のピクチャが含まれていないことがわかり、電波で受信するビデオパラメータセット１を参照するピクチャの符号化データの復号が完了していないため、その復号結果を待って復号を開始する必要があることがわかる。なお、図１３の例では、基本階層と第１階層のビデオパラメータセットに基本階層有無フラグを設定した場合を説明しているが、例えば第２階層のビデオパラメータセット３に第１階層と同様の基本階層有無フラグを設定し、ビデオパラメータセット３を参照するピクチャの符号化データを先に受信した場合は、ビデオパラメータセット１を参照するピクチャの符号化データとビデオパラメータセット２を参照するピクチャの符号化データの復号結果を待って復号を開始する必要があることが分かる。
ビデオパラメータセットは、シーケンスレベルヘッダより前に符号化されていて、シーケンスレベルヘッダには参照するビデオパラメータの識別インデックス（ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｔｅｒ＿ｓｅｔ＿ｉｄ）を符号化する。

基本階層有無フラグの無い従来の符号化装置、復号装置では、例えば、ビデオパラメータセット１を電波で受信する前に、ＩＰ網でビデオパラメータセット２を受信するような場合は想定されておらず、受信したシーケンスは復号を開始するため、必ず基本階層フレームの映像データを含んでいないと復号ができないものであった。これに対して本発明の符号化装置、復号装置は、上述のように、階層ごとに異なる回線で伝送する等、復号装置が符号化ビットストリームを必ずしも階層順に受信しない場合であっても、ビデオパラメータセットとして、そのビデオパラメータセットを参照するピクチャに基本階層が含まれているかどうかの基本階層有無フラグを符号化することにより、復号装置で、基本階層のピクチャが含まれているか否かを判断でき、基本階層のピクチャが含まれている場合にはすぐに基本階層のピクチャを復号し、基本階層のピクチャが含まれていない場合には基本階層のピクチャの復号後に復号するという処理を行うことができるため、上位階層に属するフレームのみが符号化された映像データを独立して処理可能なスケーラブルに符号化、復号処理を行うことができる。
なお、この基本階層有無フラグは、時間階層符号化に限らず他の階層符号化方式やマルチビュー符号化方式において、参照するピクチャに基本階層あるいはベースビューのピクチャが含まれているか否かを示すフラグとしてもよい。

また、ビデオパラメータセットの別の例として、そのビデオパラメータセットを参照する階層のピクチャが自分自身より下の階層のピクチャを予測の際に参照しないことを示す下位階層参照フラグを符号化するようにしても良い。図１４図１５のように、時間階層符号化されている場合でこの下位階層参照フラグが自分自身より下の階層のピクチャを予測の際に参照しないことを示す値（例えば１）に設定されている場合には、予測に用いることができる参照ピクチャは同じ階層に属するピクチャ間のみになり、自分自身より下の階層の有無にかかわらずビデオパラメータセットを参照するピクチャの単位（サブビットストリーム）を設定することができる。（下位階層参照フラグが自分自身より下の階層のピクチャを予測の際に参照しないことを示していない場合は例えば０に設定する。）
例えば、ビデオパラメータセット１を参照する基本階層のピクチャに関わる符号化データを例えば電波を利用して伝送し、ビデオパラメータセット２を参照する第１、２階層のピクチャに関わる符号化データとビデオパラメータセット３を参照する第３階層のピクチャに関わる符号化データとを例えばＩＰ網を利用して伝送する場合、図１５のようにどのビデオパラメータセットの下位階層参照フラグも自分自身より下の階層のピクチャを予測の際に参照しないことを示す値に設定されていれば、ＩＰ網を利用して伝送されたデータ（サブビットストリーム１、２）を受け取った復号装置は、自分自身より下の階層のピクチャを受信済みであるか否かにかかわらず、すぐに受信したデータを復号することが可能となる。

下位階層参照フラグの無い従来の符号化装置、復号装置では、自分自身より下の階層のピクチャを予測の際に必ず参照していたため、基本階層を含むサブビットストリームしか定義できなかった。これに対して本発明の符号化装置、復号装置は、ビデオパラメータセットとして、そのビデオパラメータセットを参照する階層のピクチャが自分自身より下の階層のピクチャを予測の際に参照しないことを示す下位階層参照フラグを符号化することにより、自分自身より下の階層の有無にかかわらずビデオパラメータセットを参照するピクチャの単位（サブビットストリーム）を設定して、復号装置で、このようなサブビットストリームを受信した場合に自分自身より下の階層のピクチャを受信済みであるか否かにかかわらず、すぐに受信したデータを復号することができるため、上位階層に属するフレームのみが符号化された映像データを独立して処理可能なスケーラブルに符号化、復号できる装置を得ることができる。
なお、この下位階層参照フラグは時間階層符号化に限らず他の階層符号化方式やマルチビュー符号化方式において、予測に用いることができるピクチャを同じ階層あるいは同じビューに属するピクチャ間のみとすることを示すフラグとしてもよい。

また、ビデオパラメータセットして、上記基本階層有無フラグと上記下位階層参照フラグとを単独で符号化する場合について説明したが、上記基本階層有無フラグと上記下位階層参照フラグとを併用して符号化するようにしてもよい。例えば、上位階層の属するフレームのみが符号化された映像データを独立して処理したいが、符号化効率を落とさずに復号したいデータである場合は、図１４図１６のように、上位階層に属するフレーム（サブビットストリーム１、２）の基本階層有無フラグを０、下位階層参照フラグを１に設定することにより、サブビットストリーム１、２を受信した復号装置は、サブビットストリーム１が受信されるのを待って、サブビットストリーム１、２を復号する。そして、上位階層に属するフレームのみが符号化された映像データを独立して処理したいが、上位階層に属するフレームのみが符号化された映像データだけで処理したいデータである場合は、図１４図１７のように、上位階層に属するフレーム（サブビットストリーム１、２）の基本階層有無フラグを０、下位階層参照フラグを０に設定することにより、サブビットストリーム１、２を受信した復号装置は、自分自身より下の階層の有無にかかわらずサブビットストリーム１、２を復号する。このように、上記基本階層有無フラグと上記下位階層参照フラグとを併用することにより、要求の異なるアプリケーションデータごとに処理を変更することが可能となる。

なお、本実施の形態１では、上記基本階層有無フラグと上記下位階層参照フラグとがビデオパラメータセットとして設定される場合について説明したが、シーケンスレベルヘッダに設定するようにしても良い。
また、本実施の形態１では、上記基本階層有無フラグを、基本階層が含まれていることを示す場合（例えば１）と、基本階層が含まれていないことを示す場合（例えば０）とで説明したが、基本階層が含まれていないことを示す場合（例えば１）と、基本階層が含まれていないことを示していない場合（例えば０）としてもよい。
また、本実施の形態１では、上記下位階層参照フラグを、そのビデオパラメータセットを参照する階層のピクチャが自分自身より下の階層のピクチャを予測の際に参照しないことを示す場合（例えば１）と、参照しないことを示していない場合（例えば０）とで説明したが、そのビデオパラメータセットを参照する階層のピクチャが自分自身より下の階層のピクチャを予測の際に参照しないことを示す場合（例えば１）と、参照することを示す場合（例えば０）としてもよい。
また、どちらのフラグも設定する値は、０と１が逆となってもよい。

次にビデオパラメータセットを符号化データとして含むＮＡＬユニットの符号化について説明する。上述のとおり、ＮＡＬユニットはヘッダ部とペイロードデータ部から構成されヘッダ部にはタイプ情報、階層識別番号などが含まれる。タイプ情報がビデオパラメータセットを示す場合の階層識別番号の符号化値について述べる。上述のとおり階層識別番号は映像データが時間階層符号化されている場合にどの階層に関連した符号化データであるかを示す番号である。ビデオパラメータセットのように複数の階層に関連している場合には関連付けられている最小の階層を示す番号を符号化する。図３図１１の例ではビデオパラメータセットは基本階層と第１階層から参照されるので、基本階層と第１階層に関連した符号化データである。この場合にはビデオパラメータセットを含むＮＡＬユニットの階層識別番号として、最小の階層すなわち基本階層を示す「０」を符号化する。次に図１２図１３の例では、基本階層のピクチャはビデオパラメータセット１を参照し、第１階層のピクチャはビデオパラメータセット２を参照して符号化されるので、ビデオパラメータセット１を含むＮＡＬユニットの階層識別番号は「０」を符号化し、ビデオパラメータセット２を含むＮＡＬユニットの階層識別番号は「１」を符号化する。

次に、イントラ予測部４の処理内容を詳細に説明する。
図１８は符号化ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎが選択可能なイントラ予測パラメータであるイントラ予測モードの一例を示す説明図である。ただし、Ｎ_Ｉはイントラ予測モード数を表している。
図１８では、イントラ予測モードのインデックス値と、そのイントラ予測モードが示す予測方向ベクトルを示しており、図１８の例では、選択可能なイントラ予測モードの個数が増えるに従って、予測方向ベクトル同士の相対角度が小さくなるように設計されている。

イントラ予測部４は、上述したように、予測ブロックＰ_ｉ ^ｎのイントラ予測パラメータを参照して、その予測ブロックＰ_ｉ ^ｎに対するイントラ予測処理を実施して、イントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎを生成するが、ここでは、輝度信号における予測ブロックＰ_ｉ ^ｎのイントラ予測信号を生成するイントラ処理について説明する。

予測ブロックＰ_ｉ ^ｎのサイズをｌ_ｉ ^ｎ×ｍ_ｉ ^ｎ画素とする。
図１９はｌ_ｉ ^ｎ＝ｍ_ｉ ^ｎ＝４の場合の予測ブロックＰ_ｉ ^ｎ内の画素の予測値を生成する際に用いる画素の一例を示す説明図である。
図１９では、予測ブロックＰ_ｉ ^ｎの上の符号化済みの画素（２×ｌ_ｉ ^ｎ＋１）個と、左の符号化済みの画素（２×ｍ_ｉ ^ｎ）個を予測に用いる画素としているが、予測に用いる画素は、図１９に示す画素より多くても少なくてもよい。
また、図１９では、予測ブロックＰ_ｉ ^ｎの近傍の１行又は１列分の画素を予測に用いているが、２行又は２列、あるいは、それ以上の画素を予測に用いてもよい。

予測ブロックＰ_ｉ ^ｎに対するイントラ予測モードのインデックス値が０（平面（Ｐｌａｎａｒ）予測）の場合には、予測ブロックＰ_ｉ ^ｎの上に隣接する符号化済み画素と予測ブロックＰ_ｉ ^ｎの左に隣接する符号化済み画素を用いて、これら画素と予測ブロックＰ_ｉ ^ｎ内の予測対象画素との距離に応じて内挿した値を予測値として予測画像を生成する。
予測ブロックＰ_ｉ ^ｎに対するイントラ予測モードのインデックス値が２（平均値（ＤＣ）予測）の場合には、予測ブロックＰ_ｉ ^ｎの上に隣接する符号化済み画素と予測ブロックＰ_ｉ ^ｎの左に隣接する符号化済み画素の平均値を予測ブロックＰ_ｉ ^ｎ内の画素の予測値として予測画像を生成する。

イントラ予測モードのインデックス値が０（平面予測）と２（平均値予測）以外の場合には、インデックス値が示す予測方向ベクトルυ_ｐ＝（ｄｘ，ｄｙ）に基づいて、予測ブロックＰ_ｉ ^ｎ内の画素の予測値を生成する。
図１９に示すように、予測ブロックＰ_ｉ ^ｎの左上画素を原点として、予測ブロックＰ_ｉ ^ｎ内の相対座標を（ｘ，ｙ）と設定すると、予測に用いる参照画素の位置は、下記のＬと隣接画素の交点になる。

参照画素が整数画素位置にある場合には、その整数画素を予測対象画素の予測値とし、参照画素が整数画素位置にない場合には、参照画素に隣接する整数画素から生成される補間画素を予測値とする。
図１９の例では、参照画素は整数画素位置にないので、参照画素に隣接する２画素から内挿したものを予測値とする。なお、隣接する２画素のみではなく、隣接する２画素以上の画素から補間画素を生成して予測値としてもよい。
補間処理に用いる画素を多くすることで補間画素の補間精度を向上させる効果がある一方、補間処理に要する演算の複雑度が増加することから、演算負荷が大きくても高い符号化性能を要求する動画像符号化装置の場合には、より多くの画素から補間画素を生成するようにした方がよい。

以上に述べた処理によって、予測ブロックＰ_ｉ ^ｎ内の輝度信号の全ての画素に対する予測画素を生成して、イントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎを出力する。
なお、イントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎの生成に用いられたイントラ予測パラメータ（イントラ予測モード）は、ビットストリームに多重化するために可変長符号化部１３に出力される。

なお、先に説明したＭＰＥＧ−４ＡＶＣ／Ｈ．２６４における８×８画素のブロックのイントラ予測時に参照画像に対して施される平滑化処理と同様に、イントラ予測部４において、予測ブロックＰ_ｉ ^ｎの中間予測画像を生成する際の参照画素を、予測ブロックＰ_ｉ ^ｎに隣接する符号化済み画素を平滑化処理した画素とするように構成した場合であっても、上述の例と同様の中間予測画像に対するフィルタ処理を行うことができる。

予測ブロックＰ_ｉ ^ｎの色差信号に対しても、輝度信号と同様の手順で、イントラ予測パラメータ（イントラ予測モード）に基づくイントラ予測処理を実施し、イントラ予測画像の生成に用いられたイントラ予測パラメータを可変長符号化部１３に出力する。
ただし、色差信号で選択可能なイントラ予測パラメータ（イントラ予測モード）は輝度信号と異なっていてもよい。例えば、ＹＵＶ信号４：２：０フォーマットの場合、色差信号（Ｕ、Ｖ信号）は、輝度信号（Ｙ信号）に対して解像度を水平方向、垂直方向共に１／２に縮小した信号であり、輝度信号に比べて画像信号の複雑性が低く予測が容易であることから、選択可能なイントラ予測パラメータは輝度信号よりも少ない数としてイントラ予測パラメータを符号化するのに要する符号量の削減や、予測処理の低演算化を図ってもよい。

次に、図６の動画像復号装置の処理内容を具体的に説明する。
可変長復号部３１は、図１の動画像符号化装置により生成された符号化ビットストリームを入力すると、そのビットストリームに対する可変長復号処理を実施して（図８のステップＳＴ２１）、ビデオパラメータセットとして符号化されたシーケンス内のピクチャが時間階層符号化されているかどうかを示すフラグや最大階層数、階層ごとに必要なピクチャバッファのサイズ、そのビデオパラメータセットを参照するピクチャに基本階層が含まれているかどうかを示す基本階層有無フラグなどの情報及びフレームサイズの情報などの１フレーム以上のピクチャから構成されるシーケンス単位のヘッダ情報（シーケンスレベルヘッダ）及びピクチャ単位のヘッダ情報（ピクチャレベルヘッダ）、適応パラメータセットとして符号化されたループフィルタ部３８で使用するフィルタパラメータや量子化マトリクスパラメータを復号する。
また、符号化装置にてビデオパラメータセットとして、そのビデオパラメータセットを参照する階層のピクチャが自分自身より下の階層のピクチャを予測の際に参照するかどうかを示す下位階層参照フラグを符号化している場合には、そのフラグを復号する。
なお、最大階層数が１以上の場合に基本階層有無フラグがビデオパラメータセットに符号化されている場合には最大階層数が１以上の場合にのみ基本階層有無フラグを復号するようにする。
なお、基本階層有無フラグや下位階層参照フラグを復号した場合の動作やその効果については、上述の通りである。

また、可変長復号部３１は、図１の動画像符号化装置の符号化制御部２により決定された最大符号化ブロックサイズ及び分割階層数の上限を動画像符号化装置と同様の手順で決定する（ステップＳＴ２２）。
例えば、最大符号化ブロックサイズや分割階層数の上限が映像信号の解像度に応じて決められた場合には、復号したフレームサイズ情報に基づいて、動画像符号化装置と同様の手順で最大符号化ブロックサイズを決定する。
最大符号化ブロックサイズ及び分割階層数の上限が、動画像符号化装置側でシーケンスレベルヘッダなどに多重化されている場合には、上記ヘッダから復号した値を用いる。
以降、動画像復号装置では、上記最大符号化ブロックサイズを最大復号ブロックサイズと称し、最大符号化ブロックを最大復号ブロックと称する。
可変長復号部３１は、決定された最大復号ブロック単位に、図１０で示されるような最大復号ブロックの分割状態を復号する。復号された分割状態に基づき、階層的に復号ブロック（図１の動画像符号化装置の「符号化ブロック」に相当するブロック）を特定する（ステップＳＴ２３）。

次に、可変長復号部３１は、復号ブロックに割り当てられている符号化モードを復号する。復号した符号化モードに含まれる情報に基づき、復号ブロックをさらに１つないし複数の予測処理単位である予測ブロックに分割し、予測ブロック単位に割り当てられている予測パラメータを復号する（ステップＳＴ２４）。

即ち、可変長復号部３１は、復号ブロックに割り当てられている符号化モードがイントラ符号化モードである場合、復号ブロックに含まれており、予測処理単位となる１つ以上の予測ブロック毎にイントラ予測パラメータを復号する。
一方、復号ブロックに割り当てられている符号化モードがインター符号化モードである場合、復号ブロックに含まれており、予測処理単位となる１つ以上の予測ブロック毎にインター予測パラメータ及び動きベクトルを復号する（ステップＳＴ２４）。

さらに、可変長復号部３１は、予測差分符号化パラメータに含まれる直交変換ブロック分割情報に基づき、直交変換ブロック毎に圧縮データ（変換・量子化後の変換係数）を復号する（ステップＳＴ２４）。

切換スイッチ３３は、可変長復号部３１により可変長復号された符号化モードｍ（Ｂ^ｎ）がイントラ符号化モードであれば（ｍ（Ｂ^ｎ）∈ＩＮＴＲＡの場合）、可変長復号部３１により可変長復号された予測ブロック単位のイントラ予測パラメータをイントラ予測部３４に出力する。
一方、可変長復号部３１により可変長復号された符号化モードｍ（Ｂ^ｎ）がインター符号化モードであれば（ｍ（Ｂ^ｎ）∈ＩＮＴＥＲの場合）、可変長復号部３１により可変長復号された予測ブロック単位のインター予測パラメータ及び動きベクトルを動き補償部３５に出力する。

イントラ予測部３４は、可変長復号部３１により可変長復号された符号化モードｍ（Ｂ^ｎ）がイントラ符号化モード（ｍ（Ｂ^ｎ）∈ＩＮＴＲＡ）である場合（ステップＳＴ２５）、切換スイッチ３３から出力された予測ブロック単位のイントラ予測パラメータを受け取って、図１のイントラ予測部４と同様の手順で、イントラ予測用メモリ３７に格納されている復号画像を参照しながら、上記イントラ予測パラメータを用いた復号ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎに対するイントラ予測処理を実施して、イントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎを生成する（ステップＳＴ２６）。

動き補償部３５は、可変長復号部３１により可変長復号された符号化モードｍ（Ｂ^ｎ）がインター符号化モード（ｍ（Ｂ^ｎ）∈ＩＮＴＥＲ）である場合（ステップＳＴ２５）、切換スイッチ３３から出力された予測ブロック単位の動きベクトルとインター予測パラメータを受け取って、動き補償予測フレームメモリ３９に格納されているフィルタ処理後の復号画像を参照しながら、その動きベクトルとインター予測パラメータを用いた復号ブロックＢ^ｎ内の各予測ブロックＰ_ｉ ^ｎに対するインター予測処理を実施してインター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎを生成する（ステップＳＴ２７）。

逆量子化・逆変換部３２は、可変長復号部３１から圧縮データ及び予測差分符号化パラメータを受けると、図１の逆量子化・逆変換部８と同様の手順で、その予測差分符号化パラメータに含まれる量子化パラメータ及び直交変換ブロック分割情報を参照して、直交変換ブロック単位にその圧縮データを逆量子化する。
このとき、可変長復号部３１により可変長復号された各ヘッダ情報を参照し、各ヘッダ情報が、当該スライスで量子化マトリクスを用いて、逆量子化処理を実施することを示している場合は、量子化マトリクスを用いて逆量子化処理を行う。

この際、可変長復号部３１により可変長復号された各ヘッダ情報を参照して、各直交変換サイズで色信号や符号化モード（イントラ符号化かインター符号化か）毎に使用する量子化マトリクスを特定する。
具体的には、スライスレベルヘッダから特定される当該スライスで参照する適応パラメータセットの量子化マトリクスを当該スライスで使用する量子化マトリクスに設定する。
また、逆量子化・逆変換部３２は、直交変換ブロック単位に逆量子化後の圧縮データである変換係数に対する逆直交変換処理を実施して、図１の逆量子化・逆変換部８から出力された局所復号予測差分信号と同一の復号予測差分信号を算出する（ステップＳＴ２８）。

加算部３６は、逆量子化・逆変換部３２により算出された復号予測差分信号と、イントラ予測部３４により生成されたイントラ予測画像Ｐ_{ＩＮＴＲＡｉ} ^ｎ、または、動き補償部３５により生成されたインター予測画像Ｐ_{ＩＮＴＥＲｉ} ^ｎのいずれか一方を加算して復号画像を算出し、その復号画像をループフィルタ部３８に出力するとともに、その復号画像をイントラ予測用メモリ３７に格納する（ステップＳＴ２９）。
この復号画像が、以降のイントラ予測処理の際に用いられる復号済みの画像信号になる。

ループフィルタ部３８は、全ての復号ブロックＢ^ｎに対するステップＳＴ２３〜ＳＴ２９の処理が完了すると（ステップＳＴ３０）、加算部３６から出力された復号画像に対して、所定のフィルタ処理を実施して、フィルタ処理後の復号画像を動き補償予測フレームメモリ３９に格納する（ステップＳＴ３１）。
具体的には、直交変換ブロックの境界や予測ブロックの境界に発生する歪みを低減するフィルタ（デブロッキングフィルタ）処理、画素単位に適応的にオフセットを加算する（画素適応オフセット）処理、ウィーナフィルタ等の線形フィルタを適応的に切り替えてフィルタ処理する適応フィルタ処理などを行う。
ただし、ループフィルタ部３８は、上記のデブロッキングフィルタ処理、画素適応オフセット処理、適応フィルタ処理のそれぞれについて、可変長復号部３１により可変長復号された各ヘッダ情報を参照して、当該スライスで処理を行うか否かを特定する。
このとき、２つ以上のフィルタ処理を行う場合に、動画像符号化装置のループフィルタ部１１が図２のように構成されている場合には、図７に示すようにループフィルタ部３８が構成される。

ここで、デブロッキングフィルタ処理では、当該スライスが参照する適応パラメータセットを参照し、ブロック境界にかけるフィルタ強度の選択に用いる各種パラメータを初期値から変更する情報が存在する場合には、その変更情報に基づいて、デブロッキングフィルタ処理を実施する。変更情報がない場合は、予め定められた手法に従って行う。

画素適応オフセット処理では、当該スライスが参照する適応パラメータセットを参照し、その適応パラメータセットに含まれるブロック分割情報に基づいて分割し、そのブロック単位に、その適応パラメータセットに含まれるブロック単位のクラス分類手法を示すインデックスを参照して、そのインデックスが“オフセット処理を行わない”ことを示すインデックスでない場合、ブロック単位にブロック内の各画素を上記インデックスが示すクラス分類手法に従ってクラス分類する。
なお、クラス分類手法の候補として、ループフィルタ部１１の画素適応オフセット処理のクラス分類手法の候補と同一のものが予め用意されている。

そして、ループフィルタ部３８は、ブロック単位の各クラスのオフセット値を特定する適応パラメータセットに含まれるオフセット情報を参照して、復号画像の輝度値にオフセットを加算する処理を行う。
ただし、動画像符号化装置のループフィルタ部１１の画素適応オフセット処理において、ブロック分割情報は符号化せずに、常に画像を固定サイズのブロック単位（例えば、最大符号化ブロック単位）に分割し、そのブロック毎にクラス分類手法を選択してクラス毎の適応オフセット処理を行うように構成されている場合、ループフィルタ部３８においても、ループフィルタ部１１と同一の固定サイズのブロック単位に画素適応オフセット処理を実施する。

適応フィルタ処理では、当該スライスが参照する適応パラメータセットを参照し、その適応パラメータセットに含まれるクラス毎のフィルタを用いて、図１の動画像符号化装置と同一の手法でクラス分類した後に、そのクラス分類情報に基づいてフィルタ処理を行う。
ただし、動画像符号化装置のループフィルタ部１１の適応フィルタ処理において、上記のクラス分類及びフィルタ設計・処理を画像全体に対してではなく、例えば、最大符号化ブロックといった固定サイズのブロック毎に行うように構成されている場合、ループフィルタ部３８においても、ループフィルタ部１１と同一の固定サイズのブロック毎に、各クラスで用いるフィルタを復号して上記クラス分類及びフィルタ処理を行う。
このループフィルタ部３８によるフィルタ処理後の復号画像が、動き補償予測用の参照画像となり、また、再生画像となる。

以上で明らかなように、この実施の形態１によれば、可変長符号化部１３が符号化ビットストリームのヘッダ情報として、ビデオパラメータセットを符号化し、ビデオパラメータセットには時間階層符号化されているかどうかを示すフラグと最大階層数、各階層のピクチャバッファのサイズを符号化するとともに、ビデオパラメータセットを参照するピクチャの符号化データに基本階層のピクチャの符号化データが含まれるかどうかを示す基本階層有無フラグを符号化するようにし、可変長復号部３１がこの基本階層有無フラグを復号するようにしたので、復号装置で、基本階層のピクチャが含まれているか否かを判断でき、基本階層のピクチャが含まれている場合にはすぐに基本階層のピクチャを復号し、基本階層のピクチャが含まれていない場合には基本階層のピクチャの復号後に復号するという処理を行うことができ、上位階層に属するフレームのみが符号化された映像データを独立して処理可能なスケーラブルに符号化、復号処理を行うことができる。
また、可変長符号化部１３が符号化ビットストリームのヘッダ情報として、ビデオパラメータセットを参照するピクチャの符号化データにそのビデオパラメータを参照する階層のピクチャが自分自身より下の階層のピクチャを予測の際に参照するかどうかを示す下位階層参照フラグを復号するようにしたので、自分自身より下の階層の有無にかかわらずビデオパラメータセットを参照するピクチャの単位（サブビットストリーム）を設定して、復号装置で、このようなサブビットストリームを受信した場合に自分自身より下の階層のピクチャを受信済みであるか否かにかかわらず、すぐに受信したデータを復号することができ、上位階層に属するフレームのみが符号化された映像データを独立して処理可能なスケーラブルに符号化、復号できる装置を得ることができる。

実施の形態２．
本実施の形態は、実施の形態１による動画像符号化装置が生成した符号化ビットストリームからサブビットストリームを抽出するサブビットストリーム生成装置について述べる。
図２０にサブビットストリーム生成装置の構成を示す。
図２０において、図１の可変長符号化部１３の出力である符号化されたビットストリームを入力とし、ＮＡＬユニットヘッダ解析部５１は、符号化ビットストリームを構成しているＮＡＬユニットのヘッダ部を解析し、タイプ情報や参照フラグ、階層識別番号などのヘッダ情報を復号する。ビデオパラメータセット解析部５２はタイプ情報がビデオパラメータセットであることを示している場合に、ＮＡＬユニットのペイロードデータ部に含まれるビデオパラメータセットを復号する。ビデオパラメータセットから復号された時間階層符号化されているかどうかを示すフラグが、符号化ビットストリームが時間階層符号化されていることを示す場合には、ビデオパラメータセットから復号された最大階層数に基づいて、サブビットストリームの階層数を決定する。サブビットストリームの階層数の決定は、例えばビデオパラメータセットから復号された各階層を復号するのに必要なピクチャバッファのサイズから決定することができる。ピクチャバッファのサイズが大きい場合には、復号画像の遅延が大きくなるため、デコーダ側で許容される最大遅延に基づいてサブビットストリームの階層数を決定することができる。ＮＡＬユニット抽出部５３は、決定されたサブビットストリームの階層数に基づいてＮＡＬユニットを抽出する。例えば３以上の階層数がある符号化ビットストリームにおいて、サブビットストリームの階層数を２と決定した場合には基本階層と第１階層に属するピクチャの符号化データをペイロードデータとして含むＮＡＬユニットを抽出する。ＮＡＬユニット多重化部５４はＮＡＬユニット抽出部５３で抽出したＮＡＬユニットを多重化してサブビットストリームを生成する。

次に動作について説明する。
図３の符号化装置における出力である符号化ビットストリームからサブビットストリームを生成する場合を例に説明する。
まずＮＡＬユニットヘッダ解析部５１は、符号化ビットストリームを構成しているＮＡＬユニットのヘッダ部を解析する。ＮＡＬユニットのヘッダ部から復号されたタイプ情報がビデオパラメータセットであることを示している場合には、ビデオパラメータセット解析部５２にて、ＮＡＬユニットのペイロードデータ部に含まれるビデオパラメータセットを復号する。図３の例では、ビデオパラメータセット解析部５２は、ビデオパラメータセット１を復号する。ビデオパラメータセット１から復号された時間階層符号化されていることを示すフラグが、符号化ビットストリームが時間階層符号化されていることを示す場合には、ビデオパラメータセットから復号された最大階層数（図３では２）に基づいてサブビットストリーム中の階層数を決定する。ＮＡＬユニット抽出部５３は、サブビットストリーム中の階層数を１と決定した場合には、基本階層に属するピクチャの符号化データをペイロードデータとして含むＮＡＬユニットを抽出する。すなわちＮＡＬユニットヘッダの階層識別番号が１以上のＮＡＬユニットを除き、階層識別番号が０のＮＡＬユニットのみを抽出する。ＮＡＬユニット多重化部５４はＮＡＬユニット抽出部５３で抽出したＮＡＬユニットを多重化してサブビットストリームを生成する。図３の符号化ビットストリームから基本階層のＮＡＬユニットのみを抽出して構成されるサブビットストリームを図２１に示す。
次に図３に示す符号化ビットストリームから第１階層のみを抽出してサブビットストリームを生成する場合を例に説明する。ＮＡＬユニットヘッダ解析部５１は基本階層のみを抽出してサブビットストリームを生成する場合と同じである。ＮＡＬユニット抽出部５３は、第１階層に属するピクチャの符号化データをペイロードデータデータとして含むＮＡＬユニットを抽出する。図３の例ではビデオパラメータセット１とシーケンスレベルヘッダ１は、基本階層と第１階層のピクチャから共通に参照されるので、第１階層に属するピクチャに関わる符号化データとして抽出する。ピクチャデータ（スライスデータ）に関しては、ＮＡＬユニットヘッダの階層識別番号が１のＮＡＬユニットのみを抽出することで第１階層に属するピクチャのピクチャデータを抽出することができる。第１階層のみを抽出して生成されるサブビットストリームには、基本階層の符号化データが含まれないため、ビデオパラメータセット１の基本階層有無フラグの値を基本階層が含まれていることを示す値(例えば1)から基本階層が含まれていないことを示す値（例えば０）に変更する。ＮＡＬユニット多重化部５４は、基本階層有無フラグの値が変更されたビデオパラメータセット１Ａとシーケンスレベルヘッダ１、第１階層のピクチャのピクチャレベルヘッダとピクチャデータ（スライスデータ）を多重化してサブビットストリーム（図２２）を生成する。
次に図１２に示す符号化ビットストリームからサブビットストリームを生成する場合を例に説明する。なお基本階層を含むサブビットストリームを生成する場合には図３の符号化ビットストリームからサブビットストリームを生成する場合と同じであるので、基本階層を含まないサブビットストリーム、例えば第1階層に属するピクチャの符号化データのみから構成されるサブビットストリームを生成する場合を例に説明する。ＮＡＬユニットヘッダ解析部５１の処理は、図３の符号化ビットストリームからサブビットストリームを生成する場合と同じである。ＮＡＬユニット抽出部５３は、第１階層に属するピクチャの符号化データをペイロードデータとして含むＮＡＬユニットを抽出する。図１２の例では階層ごとにビデオパラメータセットが符号化されているので、第１階層に属するピクチャはビデオパラメータセット２を参照して符号化されている。従って図１２の例では、第１階層に属するピクチャに関わる符号化データとして、ＮＡＬユニットヘッダの階層識別番号が１のＮＡＬユニットのみを抽出することで、ビデオパラメータセット２、シーケンスレベルヘッダ２と第１階層に属するピクチャのピクチャデータを抽出することができる。なおビデオパラメータセット２の基本階層有無フラグは、基本階層が含まれないことを示す値になっているので、ＮＡＬユニット多重化部５４はビデオパラメータセット２のパラメータ値を変更することなく、ビデオパラメータセット２とシーケンスレベルヘッダ２、第１階層のピクチャのピクチャレベルヘッダとピクチャデータ（スライスデータ）を多重化してサブビットストリーム（図２３）を生成する。
以上のように、ビデオパラメータセットに設定された情報に基づいて、サブビットストリームの符号化データをＮＡＬユニット単位で抽出することにより、様々なサブビットストリームを生成できるため、スケーラブルに符号化、復号できる装置を得ることができる。

１ブロック分割部（ブロック分割手段）、２符号化制御部（符号化制御手段）、３切換スイッチ、４イントラ予測部（予測手段）、５動き補償予測部（予測手段）、６減算部（差分画像生成手段）、７変換・量子化部（画像圧縮手段）、８逆量子化・逆変換部（局所復号画像生成手段）、９加算部（局所復号画像生成手段）、１０イントラ予測用メモリ（予測手段）、１１ループフィルタ部（フィルタリング手段）、１２動き補償予測フレームメモリ（予測手段）、１３可変長符号化部（可変長符号化手段）、１４スライス分割部（スライス分割手段）、３１可変長復号部（可変長復号手段）、３２逆量子化・逆変換部（差分画像生成手段）、３３切換スイッチ、３４イントラ予測部（予測手段）、３５動き補償部（予測手段）、３６加算部（復号画像生成手段）、３７イントラ予測用メモリ（予測手段）、３８ループフィルタ部（フィルタリング手段）、３９動き補償予測フレームメモリ（予測手段）、５１ＮＡＬユニットヘッダ解析部、５２ビデオパラメータセット解析部、５３ＮＡＬユニット抽出部、５４ＮＡＬユニット多重化部。

Claims

入力された動画像信号の複数のピクチャを、予測の際に参照する第１のピクチャの階層である基本階層と、前記基本階層の第１のピクチャ以外の第２のピクチャの階層に階層化し、符号化してビットストリームを生成する動画像符号化装置であって、
前記ビットストリーム内に前記基本階層の第１のピクチャが含まれるか否かを示す基本階層有無フラグを符号化する符号化部を備え、
前記符号化部は、前記入力された動画像信号の複数のピクチャから、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれることを示す第１のビットストリームと、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれないことを示す第２のビットストリームとを生成し、前記第２のビットストリームは前記第１のピクチャを参照して予測符号化される前記第２のピクチャを含むことを特徴とする動画像符号化装置。
入力された複数のピクチャを、予測の際に参照する第１のピクチャの階層である基本階層と、前記基本階層の第１のピクチャ以外の第２のピクチャの階層に階層化し、符号化されたビットストリームを復号する動画像復号装置であって、
前記ビットストリーム内に前記基本階層の第１のピクチャが含まれるか否かを示す基本階層有無フラグを復号する復号部を備え、
前記復号部は、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれることを示す第１のビットストリームと、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれないことを示す第２のビットストリームとを用いて前記複数のピクチャを復号し、前記第２のビットストリームは前記第１のピクチャを参照して予測符号化される前記第２のピクチャを含むことを特徴とする動画像復号装置。
入力された動画像信号の複数のピクチャを、予測の際に参照する第１のピクチャの階層である基本階層と、前記基本階層の第１のピクチャ以外の第２のピクチャの階層に階層化し、符号化してビットストリームを生成する動画像符号化方法であって、
前記ビットストリーム内に前記基本階層の第１のピクチャが含まれるか否かを示す基本階層有無フラグを符号化する符号化ステップを備え、
前記符号化ステップにおいて、前記入力された動画像信号の複数のピクチャから、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれることを示す第１のビットストリームと、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれないことを示す第２のビットストリームとを生成し、前記第２のビットストリームは前記第１のピクチャを参照して予測符号化される前記第２のピクチャを含むことを特徴とする動画像符号化方法。
入力された複数のピクチャを、予測の際に参照する第１のピクチャの階層である基本階層と、前記基本階層の第１のピクチャ以外の第２のピクチャの階層に階層化し、符号化されたビットストリームを復号する動画像復号方法であって、
前記ビットストリーム内に前記基本階層の第１のピクチャが含まれるか否かを示す基本階層有無フラグを復号する復号ステップを備え、
前記復号ステップにおいて、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれることを示す第１のビットストリームと、前記基本階層有無フラグが前記基本階層の第１のピクチャが含まれないことを示す第２のビットストリームとを用いて前記複数のピクチャを復号し、前記第２のビットストリームは前記第１のピクチャを参照して予測符号化される前記第２のピクチャを含むことを特徴とする動画像復号方法。