JP6156497B2

JP6156497B2 - 動画像符号化装置、動画像符号化方法、及び動画像復号装置ならびに動画像復号方法

Info

Publication number: JP6156497B2
Application number: JP2015527092A
Authority: JP
Inventors: 数井　君彦; 君彦数井; 智史島田; デニークリスティアンバル，ギヨム
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-07-16
Filing date: 2013-07-16
Publication date: 2017-07-05
Anticipated expiration: 2033-07-16
Also published as: JPWO2015008340A1; WO2015008340A1; US20160134888A1

Description

本発明は、例えば、インター予測符号化を行う動画像符号化装置及び動画像符号化方法、及びインター予測符号化された動画像を復号する動画像復号装置及び動画像復号方法に関する。

動画像データは、一般に非常に大きなデータ量を有する。そのため、動画像データを扱う装置は、動画像データを他の装置へ送信する場合、あるいは、動画像データを記憶装置に記憶する場合、動画像データを符号化することにより圧縮する。代表的な動画像の符号化標準として、International Standardization Organization/International Electrotechnical Commission(ISO/IEC)で策定されたMoving Picture Experts Group phase 2（MPEG-2）、あるいはMPEG-4、H.264 MPEG-4 Advanced Video Coding（MPEG-4 AVC/H.264）が利用されている。また、新たな符号化標準として、HEVC (High Efficiency Video Coding, MPEG-H/H.265)（例えば、非特許文献１を参照）が策定されている。

これらの符号化標準は、符号化対象のピクチャを符号化済のピクチャの情報を用いて符号化するインター予測符号化方式と、符号化対象のピクチャが持つ情報のみを用いて符号化対象のピクチャを符号化するイントラ予測符号化方式を採用している。

MPEG-2では、インター予測符号化時に符号化対象ピクチャが参照するピクチャ（参照ピクチャ）は、Group of Pictures (GOP)構造によって一意に定められる。一方、AVC規格及びHEVC規格では、参照ピクチャはGOP構造とは独立して決定できる。一旦ソース符号化された後に復号されたピクチャは、後に符号化するピクチャがインター予測符号化時に参照できるように、復号済バッファ（Decoded Picture Buffer, DPB)に記憶される。そして参照ピクチャの決定は、以下の二つのステップによってなされる。一つ目のステップは、DPBに保存する符号化済み（復号装置の場合は復号済み）ピクチャの決定である(DPB管理）。また二つ目のステップは、DPBに記憶された複数のピクチャの中から符号化対象ピクチャの参照ピクチャとして用いるピクチャの複数選択である（参照ピクチャリスト構築）。これら二つのステップの動作は、AVC規格とHEVC規格とで異なる。

まずDPB管理について説明する。
AVC規格は、直前に符号化されたピクチャを優先してDPBに保存する、スライディングウィンドウ方式を採用している。DPBに空き容量が無い場合には、先に符号化されたピクチャから順に、DPBから消去される。AVC規格は、さらに、DPBに記憶されているピクチャのうち、指定されたピクチャを消去する方法(Memory Management Control Operations, MMCO)も補完的に採用している。

図１は、スライディングウィンドウ方式によるDPB管理の例を示す、符号化対象ピクチャとDPBとの関係の一例を示す図である。図１において、横軸は動画像符号化装置に対するピクチャの入力順序を表す。
動画像１０１０は、ピクチャI0〜P8を含む。このうち、ピクチャI0は、イントラ予測符号化されるIピクチャであり、ピクチャP1〜P8は、それぞれ、１方向についてインター予測符号化されるPピクチャである。本例では、動画像符号化装置に対する各ピクチャの入力順序は、符号化順序と同一とする。また各ピクチャの上に示された矢印は、符号化時の参照関係を表し、矢印の基点のピクチャが矢印の先端のピクチャを参照する。この例に示された符号化構造では、入力順番が3n（nは整数）のピクチャは、入力順番が3(n-1), 3(n-2)のピクチャを優先して参照する。入力順番が(3n+1)のピクチャは、入力順番が3n, {3(n-1)+1}のピクチャを優先して参照する。入力順番が(3n+2)のピクチャは、入力順番が(3n+1), 3n, {3(n-1)+2}のピクチャを優先して参照する。この符号化構造は時間方向階層符号化に相当するものであり、例えば、動画像復号装置は、入力順序が3m（mは整数）のピクチャ以外は復号せずに、入力順序が3mのピクチャのみを正常復号（すなわち、3倍速再生）することができる。

この例では、DPB１０２０は、４個のバンク（バンク0〜バンク3）を有し、各バンクは、一つのピクチャを保存する。図１において、N/Aは、バンクにピクチャが保存されていないことを示す。例えば、ピクチャI0が入力された時点では、何れのバンクにもピクチャが保存されていない。また、ピクチャP1が入力された時点では、ピクチャI0がバンク0に保存されている。その後、ピクチャが動画像符号化装置に入力され、符号化される度に、その符号化が済んだピクチャがDPB１０２０に保存される。

スライディングウィンドウ方式では、DPB１０２０には符号化順序が後のピクチャほど優先的に保存されるため、例えばピクチャP5が符号化される場合には、ピクチャI0はDPBから消去される。このため、ピクチャP6はピクチャI0を参照できない。

AVCのもう一つのDPB管理方式であるMMCOによって、この問題は解決できる。具体的には、ピクチャP4の符号化が完了した時点で、動画像符号化装置はピクチャP1をDPB１０２０から消去する。またピクチャP5の符号化が完了した時点で、動画像符号化装置はピクチャP2をDPB１０２０から除去する。これにより、動画像符号化装置は、ピクチャP6の符号化開始時に、ピクチャI0をDPB１０２０に残すことができる。

一方、HEVC規格は、DPBの管理方式としてReference Picture Set(RPS)方式を採用している。RPS方式では、各ピクチャを符号化する時に、DPBに保存しておく符号化済みピクチャが明示的に示される。RPS方式では、あるピクチャをDPBに一定期間保存する場合、その期間内に符号化する全てのピクチャについて、このピクチャがDPBに保存されることを明示的に示し続ける必要がある。

図２は、RPS方式によるDPB管理の例を示す、符号化対象ピクチャとDPBとの関係の一例を示す図である。図２において、横軸は動画像符号化装置に対するピクチャの入力順序を表す。
動画像１１１０は、ピクチャI0〜P8を含む。このうち、ピクチャI0は、イントラ予測符号化されるIピクチャであり、ピクチャP1〜P8は、それぞれ、１方向についてインター予測符号化されるPピクチャである。本例では、動画像符号化装置に対する各ピクチャの入力順序は、符号化順序と同一とする。また各ピクチャの上に示された矢印は、符号化時の参照関係を表し、矢印の基点のピクチャが矢印の先端のピクチャを参照する。

リスト１１２０は、各ピクチャの符号化データに付加される、DPBに残すピクチャを示すPicture Order Count(POC)値の一覧(RPS)である。POCはピクチャの入力順序（すなわち、表示順序）に比例して増加するピクチャ固有の値であり、ピクチャごとの符号化データに付加される。例えば、ピクチャP6では、ピクチャI0, P3, P4, P5のPOC値がRPSに含まれている。ピクチャP6より前に符号化されるピクチャのRPSには、これらのピクチャのPOC値が含まれている必要がある。例えばピクチャP5のRPSにピクチャI0のPOC値が含まれていない場合、ピクチャP5の符号化開始時点でピクチャI0がDPB１０３０から消去されてしまう。そのため、ピクチャP6のRPSにピクチャI0のPOC値が含まれているにもかかわらず、ピクチャP6はピクチャI0を参照できない。
この例では、DPB１１３０は、DPB１０２０と同様に、４個のバンクを有している。図２では、各ピクチャの入力時にDPB１０２０の各バンクが保存しているピクチャが示されている。この例では、DPB１０２０と異なり、ピクチャP6を符号化する時に、ピクチャI0がバンク0に保存されているので、ピクチャP6はピクチャI0を参照できる。
このように、動画像符号化装置は、RPS方式のみで、スライディングウィンドウ方式とMMCOとで実現される機能を実現可能である。そのため、RPS方式を利用することにより、DPB管理の処理が簡易になる。

次に、参照ピクチャリストの構築について説明する。
AVC規格及びHEVC規格では、二つの参照ピクチャリストL0及びL1が定義される。リストL0は、MPEG-2規格の前方向参照ピクチャに対応し、リストL1は後方向参照ピクチャに対応する。ただし、AVC規格及びHEVC規格では、リストL1が、符号化対象ピクチャよりも入力順序（すなわち、表示順序）で先（すなわち、POCが小さい）の参照ピクチャを含むことができる。またリストL0及びリストL1は、複数の参照ピクチャを含むことができる。PピクチャはリストL0のみを持ち、BピクチャはリストL0とリストL1の両方を持つことができる。リストL0及びリストL1は、DPBに保存されている複数の参照ピクチャのなから選択されたピクチャを示す。そしてリストL0及びリストL1は、符号化（動画像復号装置の場合には復号）するピクチャごとに作成される。インター予測符号化されるピクチャ内のブロックごとに、リストL0またはリストL1に示された参照ピクチャのなかから、インター予測符号化に用いる参照ピクチャが選択される。HEVC規格の場合、インター予測符号化の単位であるPrediction Unit(PU)ごとに、パラメータRefIdxL0及びRefIdxL1が規定される。これらのパラメータは、参照するピクチャについてのリスト内の順序を示す。以降、PUのL0方向の参照ピクチャ、及びL0方向の参照ピクチャをそれぞれ、L0[RefIdxL0]及びL1[RefIdxL1]と表記する。

AVC規格とHEVC規格とでは、デフォルトのL0及びL1の決定方法が異なる。AVC規格では、符号化対象ピクチャがPピクチャの場合とBピクチャの場合とで、L0及びL1の決定に用いるパラメータが異なる。符号化対象ピクチャがPピクチャの場合、L0には、符号化対象ピクチャよりもFrameNum値が小さい参照ピクチャが格納される。その際、符号化対象ピクチャのFrameNum値と参照ピクチャ間のFrameNum値の差分が小さい参照ピクチャから順にL0に格納される。FrameNumは、ピクチャごとに付加されるパラメータであり、符号化順序にしたがって1ずつ増加する。フィールドピクチャについて、一つのフレームを形成するフィールドペアに含まれる二つのフィールドピクチャは同一のFrameNumを持つ、という制約がある。そのため、フィールドペアに含まれる二つのフィールドピクチャの符号化順序は、必ず連続する。

一方、符号化対象ピクチャがBピクチャの場合、L0には、符号化対象ピクチャのPOC値よりもPOC値が小さい参照ピクチャが格納される。その際、符号化対象ピクチャのPOC値と参照ピクチャ間のPOC値の差分が小さい参照ピクチャから順にL0に格納される。また、L1には、符号化対象ピクチャのPOC値よりもPOC値が大きい参照ピクチャが格納される。その際、符号化対象ピクチャのPOC値と参照ピクチャ間のPOC値の差分が小さい参照ピクチャから順にL1に格納される。

HEVC規格では、FrameNumは廃止されている。そしてHEVC規格では、POC値を用いて、AVC規格におけるBピクチャについてのL0及びL1に格納される参照ピクチャの決定方法と同様の方法により、L0及びL1に格納される参照ピクチャが決定される。したがって、HEVC規格では、フィールドペアに含まれる二つのフィールドピクチャの符号化順序は、連続していなくてもよい。

AVC規格及びHEVC規格では共に、上記の方法で作成されたデフォルトのL0及びL1は書き換え可能である。具体的には、L0及びL1のリストサイズの縮小（すなわち、DPBに格納された参照可能なピクチャの内、一部分のみをインター予測符号化に使用）、及びリスト内の参照ピクチャの順番の入れ替えが可能である。リスト内の参照ピクチャの順番を入れ替えることにより、動画像符号化装置は、各PUで参照される頻度が高い参照ピクチャをリストの先頭に移動することができる。そのため、可変長符号化（エントロピー符号化）によるRefIdxL0及びRefIdxL1のビット量が削減される。そのため、符号化効率が向上する。なお、必要なパラメータの通知方法は、AVC規格とHEVC規格とで類似している。

特開２０１３−１１０５４９号公報

JCTVC-L1003, 「High Efficiency Video Coding (HEVC) text specification draft 10 (for FDIS & Consent)」, Joint Collaborative Team on Video Coding of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, January 2013 JCTVC-G196, 「Modification of derivation process of motion vector information for interlace format」, Joint Collaborative Team on Video Coding of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, November 2011

HEVC規格は、インターレス方式で生成された動画像（以下、単にインターレス動画像と呼ぶ）に対応する。図３を参照しつつ、インターレス動画像について説明する。
ピクチャ１２１０〜１２１３は、それぞれ、プログレッシブ方式で生成された動画像（以下、単にプログレッシブ動画像と呼ぶ）に含まれるフレームピクチャである。
一方、インターレス動画像は、プログレッシブ動画像の各フレームピクチャから、偶数(0, 2, 4, ...)ラインのみを含むトップフィールドピクチャと、奇数(1, 3, 5, ...)ラインのみを含むボトムフィールドピクチャを交互に切り出したものである。フィールドピクチャの垂直方向のライン数は、フレームピクチャの垂直方向のライン数の1/2になる。図３において、ピクチャ１２２０及び１２２２がトップフィールドピクチャであり、ピクチャ１２２１及び１２２３がボトムフィールドピクチャである。
インターレス動画像の垂直方向の解像度は、プログレッシブ動画像垂直方向の解像度の1/2になる。人間の視覚は、動きの激しい動画像では知覚できる空間解像度が低下することを利用して、インターレス動画像は人間の主観的な画質を大きく損なわずにデータ量を削減している。

AVC規格では、インターレス動画像を符号化する場合、動画像符号化装置は、フィールドピクチャを単位とする符号化（フィールド符号化と呼ぶ）、またはフィールドペアを単位とした符号化（フレーム符号化と呼ぶ）を、フィールドペアごとに切り替えできる。この場合、フィールドペアは、時間的に連続するトップフィールドピクチャとボトムフィールドピクチャを含む。
フレーム符号化時には、動画像符号化装置は、キャプチャリングされたトップフィールドピクチャとボトムフィールドピクチャとをラインごとにインタリーブすることにより、一つのフレームピクチャを作成し、そのフレームピクチャを符号化する。この場合、トップフィールドピクチャに含まれるラインがキャプチャリングされた時刻は、ボトムフィールドピクチャに含まれるラインがキャプチャリングされた時刻と異なる。そのため、一般に、ピクチャに写っている物体の動きが大きい場合にはフィールド符号化が選択され、逆に、物体の動きが小さい場合にはフレーム符号化が選択される。

一方、HEVC規格では、フィールド符号化とフレーム符号化間の切り替えは、フィールドペア単位ではなく、シーケンス単位となる。シーケンスは、ランダムアクセス（再引き込み開始）ポイントとなるイントラ予測符号化ピクチャを先頭とした、符号化順序において連続する複数のピクチャの集合である。
フィールド符号化されるシーケンスでは、動画像符号化装置は、各フィールドピクチャを、垂直方向のライン数がフレームのライン数の1/2、かつ、フレームレートが２倍のフレームピクチャと見なしてフレーム符号化する。AVC規格等で採用されているインターレス動画像に特化した符号化は行われず、各フィールドピクチャのパリティ（トップもしくはボトム）は符号化時に使用されない。また、HEVC規格では、異なるシーケンスに属するピクチャ間でインター予測符号化は適用されない。すなわち、DPBに保存されるピクチャは、必ず全てフィールドピクチャか、もしくは全てフレームピクチャである。RPS方式では、ピクチャがフィールドピクチャかフレームピクチャかによらず、同じ制御が適用される。

HEVC規格における、シーケンス単位でのフィールドとフレーム間の切り替えでは、その切り替わるシーケンスの境界にイントラ予測符号化ピクチャが必ず出現するので、符号化効率が低下する。そこで、AVC規格のように、フィールドペアごとにフィールドとフレーム間の切り替えを行えることが好ましい。しかしながら、HEVC規格のRPS方式は、フィールド符号化とフレーム符号化とが混在する状況では適用できないという問題がある。

そこで本明細書は、ピクチャ単位でフィールドとフレーム間の切り替えを可能としつつインターレス動画像を符号化する場合にも、HEVC規格のRPS方式によるDPB管理を可能にする動画像符号化装置及び動画像復号装置を提供することを目的とする。

本実施形態による動画像符号化装置及び動画像復号装置は、符号化対象ピクチャの種別（フィールドもしくはフレーム）によらず、RPS方式に従って統一した動作を行えるように、DPBに保存するピクチャを常にフィールドピクチャとする。符号化対象ピクチャについてのRPS情報の単位も、同様に、常にフィールドピクチャ単位とする。なお、RPS情報は、参照ピクチャ情報の一例である。
また、新規に追加するピクチャパラメータとして、フレームピクチャから参照されるときにペアとなる二つのフィールドピクチャを示す参照ペア情報が、各ピクチャについて規定される。この参照ペア情報は、DPBに保存されている一つのトップフィールドピクチャと、一つのボトムフィールドピクチャとの組を記述する。AVC規格では、トップフィールドピクチャとボトムフィールドピクチャの組は、常に、表示順序が連続する二つのフィールドピクチャの組、すなわち、入力順序が2t（tは整数）のトップフィールドと入力順序が(2t+1)のボトムフィールドの組でなければならない。しかし、本実施形態では、動画像符号化装置は、参照ペア情報を用いることで、時間的に離れたトップフィールドピクチャとボトムフィールドピクチャとを組み合わせて、一つのフレームピクチャとし、そのフレームピクチャを符号化対象ピクチャが参照できる。そのため、符号化効率がさらに向上する。

一つの実施形態によれば、動画像に含まれる複数のフィールドピクチャをインター予測符号化する動画像符号化装置が提供される。この動画像符号化装置は、複数のフィールドピクチャのうち、符号化済みのフィールドピクチャを保存するバッファメモリと、二つのフィールドピクチャを含むペアをインターリーブしてフレームピクチャを作成する場合に、複数のフィールドピクチャのそれぞれにペアとなる他方のフィールドピクチャを指定する参照ペア情報を付加する制御部と、複数のフィールドピクチャのうち、符号化されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャを符号化対象ピクチャとしてインター予測符号化する場合に、バッファメモリに保存された符号化済みのフィールドピクチャの参照ペア情報を参照して特定されたペアをインターリーブすることで参照ピクチャとしてフレームピクチャを生成するバッファインタフェース部と、符号化対象ピクチャがフレームピクチャである場合、符号化対象ピクチャを参照ピクチャを用いてフレームピクチャ単位でインター予測符号化することで符号化データを生成する符号化部と、符号化データ及び参照ペア情報をエントロピー符号化することにより、エントロピー符号化された参照ペア情報を含む、符号化された動画像データを生成するエントロピー符号化部とを有する。

また他の実施形態によれば、インター予測符号化された複数のフィールドピクチャを含む符号化動画像を復号する動画像復号装置が提供される。この動画像復号装置は、エントロピー符号化された、復号対象ピクチャの符号化データと、二つのフィールドピクチャを含むペアをインターリーブしてフレームピクチャを作成する場合に、複数のフィールドピクチャのそれぞれについてペアとなる他方のフィールドピクチャを指定する参照ペア情報とを復号するエントロピー復号部と、複数のフィールドピクチャのうち、復号済みのフィールドピクチャを保存するバッファメモリと、復号対象ピクチャが、複数のフィールドピクチャのうちの復号されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャである場合に、参照ペア情報を参照して、参照ピクチャを生成するための復号済みの二つのフィールドピクチャを決定する参照ピクチャ管理部と、複数のフィールドピクチャのうち、復号されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャを復号ピクチャとしてインター予測復号する場合に、バッファメモリに保存された復号済みのフィールドピクチャのなかから、参照ペア情報に基づいて決定された復号済みの二つのフィールドピクチャのペアをインターリーブすることで参照ピクチャとしてフレームピクチャを生成するバッファインタフェース部と、復号対象ピクチャがフレームピクチャである場合、復号対象ピクチャの符号化データを参照ピクチャを用いてフレームピクチャ単位でインター予測復号することでその復号対象ピクチャを復号する復号部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された動画像符号化装置及び動画像復号装置は、ピクチャ単位でフィールドとフレーム間の切り替えを可能としつつインターレス動画像を符号化する場合にも、HEVC規格のRPS方式によるDPB管理を行える。

図１は、スライディングウィンドウ方式によるDPB管理を説明する図である。図２は、RPS方式によるDPB管理を説明する図である。図３は、インターレス動画像を説明する図である。図４は、第１の実施形態による動画像符号化装置の概略構成図である。図５は、第１の実施形態による動画像復号装置の概略構成図である。図６は、第１の実施形態による符号化ユニットの例を説明する図である。図７は、第１の実施形態による符号化構造判定の例を説明する図である。図８は、第１の実施形態によるDPB管理の例を説明する図である。図９は、第１の実施形態によるバッファインタフェース部の内蔵メモリ及びフレームバッファのデータ構造を説明する図である。図１０は、第１の実施形態による制御部及びバッファインタフェース部と、ソース符号化部との間で交換される制御データの構造を説明する図である。図１１は、第１の実施形態によるビットストリームの構造及びパラメータを説明する図である。図１２は、第１の実施形態による動画像符号化処理の動作フローチャートである。図１３は、第１の実施形態による動画像復号処理の動作フローチャートである。図１４は、第２の実施形態による符号化ユニットの例を説明する図である。図１５は、第２の実施形態による符号化構造判定の例を説明する図である。図１６は、第２の実施形態によるDPB管理の例を説明する図である。図１７は、各実施形態またはその変形例による動画像符号化装置または動画像復号装置の各部の機能を実現するコンピュータプログラムが動作することにより、動画像符号化装置または動画像復号装置として動作するコンピュータの構成図である。

以下、図を参照しつつ、第１の実施形態による、動画像符号化装置について説明する。この動画像符号化装置は、インターレス動画像をイントラ予測符号化及びインター予測符号化方式で符号化し、符号化された動画像データを出力する。

動画像信号に含まれるピクチャは、カラー動画像であってもよく、あるいは、モノクロ動画像であってもよい。
また、符号化対象となるインターレス動画像の形式は、フィールドペアにおいて、トップフィールドの入力（表示）順序がボトムフィールドの入力順序よりも先となるトップフィールドファスト形式であってもよい。あるいは、符号化対象となるインターレス動画像の形式は、フィールドペアにおいて、ボトムフィールドの入力（表示）順序がトップフィールドの入力順序よりも先となるボトムフィールドファスト形式であってもよい。なお、符号化対象となるインターレス動画像がボトムフィールドファスト形式である場合、以下の説明におけるトップフィールドとボトムフィールドの表記を入れ替えればよい。

図４は、第１の実施形態による、動画像符号化装置の概略構成図である。
動画像符号化装置１０は、制御部１１と、参照ピクチャ管理部１２と、ソース符号化部１３と、バッファインタフェース部１４と、フレームバッファ１５と、エントロピー符号化部１６とを有する。
動画像符号化装置１０が有するこれらの各部は、それぞれ、別個の回路として動画像符号化装置１０に実装される。あるいは、動画像符号化装置１０が有するこれらの各部は、その各部の機能を実現する回路が集積された一つの集積回路として動画像符号化装置１０に実装されてもよい。あるいはまた、動画像符号化装置１０が有するこれらの各部は、動画像符号化装置１０が有するプロセッサ上で実行されるコンピュータプログラムにより実現される機能モジュールであってもよい。

制御部１１は、図示しない外部からの制御信号、及び入力動画像の特徴、例えば、ピクチャ間での写っている物体の動きの大きさに基づいて、符号化ユニットの構造、及び符号化ユニット内の各ピクチャの符号化モードを決定する。なお、符号化ユニットの構造については後述する。また符号化モードは、インター予測符号化及びイントラ予測符号化の何れかである。さらに、制御部１１は、制御信号及び入力動画像の特徴に基づいて、各ピクチャの符号化順序、参照関係、及びピクチャ種別（フレームもしくはフィールド）を決定する。さらに、制御部１１は、符号化ユニットの構造に基づいて、各フィールドピクチャに参照ペア情報を付加する。そして制御部１１は、参照ペア情報を、参照ピクチャ管理部１２、ソース符号化部１３及びエントロピー符号化部１６へ通知する。
制御部１１は、符号化ユニットの構造、符号化対象ピクチャの符号化モード、参照関係、ピクチャ種別を参照ピクチャ管理部１２及びソース符号化部１３に通知する。

参照ピクチャ管理部１２は、DPBの一例であるフレームバッファ１５を管理する。そして参照ピクチャ管理部１２は、フレームバッファ１５に保存されている符号化済みのフィールドピクチャのうちで参照ピクチャとして利用可能なフィールドピクチャを特定する参照ピクチャ情報を作成し、その参照ピクチャ情報をソース符号化部１３へ通知する。すなわち、参照ピクチャ管理部１２は、ソース符号化部１３に対し、DPB内の参照ピクチャ及び局所復号ピクチャのバンク番号を通知する。なお、局所復号ピクチャは、符号化対象ピクチャのうちのソース符号化が終了した部分を復号することにより得られる、ピクチャの一部分である。
なお、制御部１１及び参照ピクチャ管理部１２の処理の詳細及び参照ペア情報については後述する。

ソース符号化部１３は、入力動画像に含まれる各ピクチャをソース符号化（情報源符号化）する。具体的には、ソース符号化部１３は、ピクチャごとに選択された符号化モードに従って、フレームバッファ１５に記憶されている参照ピクチャまたは局所復号ピクチャから、ブロックごとに予測ブロックを生成する。その際、ソース符号化部１３は、バッファインタフェース部１４に対して、参照ピクチャもしくは局所復号ピクチャの読み出し要求を出力し、バッファインタフェース部１４を介して、フレームバッファ１５から参照ピクチャまたは局所復号ピクチャの各画素の値を受け取る。

例えば、ソース符号化部１３は、ブロックが前方向予測モードまたは後方向予測モードによってインター予測符号化される場合、動きベクトルを算出する。なお、動きベクトルは、例えば、フレームバッファ１５から得た参照ピクチャとブロックとの間でブロックマッチングを実行することにより算出される。そしてソース符号化部１３は、参照ピクチャを、動きベクトルに基づいて動き補償する。ソース符号化部１３は、動き補償されたインター予測符号化用の予測ブロックを生成する。なお、動き補償は、動きベクトルで表された、ブロックとそれに対して最も類似する参照ピクチャ上の領域の位置ずれ量を相殺するように、その最も類似する参照ピクチャ上の領域の位置を移動する処理である。

また、符号化対象ブロックが双方向予測モードによってインター予測符号化される場合、ソース符号化部１３は、二つの動きベクトルのそれぞれによって特定された参照ピクチャ上の領域を、その対応する動きベクトルで動き補償する。そしてソース符号化部１３は、動き補償により得られた二つの補償画像の対応する画素間で画素値を平均することにより予測ブロックを生成する。あるいは、ソース符号化部１３は、その二つの補償画像の対応する画素の値に、対応する参照ピクチャと符号化対象ピクチャ間の時間が短いほど大きい重み係数を乗じて加重平均することにより、予測ブロックを生成してもよい。

またソース符号化部１３は、符号化対象ブロックがイントラ予測符号化される場合、局所復号ピクチャに含まれる、符号化対象ブロックに隣接するブロックから予測ブロックを生成する。そしてソース符号化部１３は、ブロックごとに、ブロックと予測ブロックとの差分演算を実行する。そしてソース符号化部１３は、その差分演算により得られたブロック内の各画素に対応する差分値を、予測誤差信号とする。

ソース符号化部１３は、ブロックの予測誤差信号を直交変換することにより、予測誤差変換係数を求める。例えば、ソース符号化部１３は、直交変換処理として、離散コサイン変換（Discrete Cosine Transform、DCT）を利用できる。

次に、ソース符号化部１３は、予測誤差変換係数を量子化することにより、その予測誤差変換係数の量子化係数を算出する。この量子化処理は、一定区間に含まれる信号値を一つの信号値で表す処理である。そしてその一定区間は、量子化幅と呼ばれる。例えば、ソース符号化部１３は、予測誤差変換係数から、量子化幅に相当する所定数の下位ビットを切り捨てることにより、その予測誤差変換係数を量子化する。ソース符号化部１３は、量子化された予測誤差変換係数及び動きベクトル等の符号化パラメータを符号化データとしてエントロピー符号化部１６へ出力する。

またソース符号化部１３は、ブロックの量子化された予測誤差変換係数から、そのブロックよりも符号化順で後のブロックを符号化するために参照される局所復号ピクチャ及び参照ピクチャを生成する。そのために、ソース符号化部１３は、量子化された予測誤差変換係数に、量子化幅に相当する所定数を乗算することにより、量子化された予測誤差変換係数を逆量子化する。この逆量子化により、ブロックの予測誤差変換係数が復元される。その後、ソース符号化部１３は、予測誤差変換係数を逆直交変換処理する。逆量子化処理及び逆直交変換処理を量子化信号に対して実行することにより、符号化前の予測誤差信号と同程度の情報を有する予測誤差信号が再生される。

ソース符号化部１３は、予測ブロックの各画素値に、その画素に対応する再生された予測誤差信号を加算する。これらの処理を各ブロックについて実行することにより、ソース符号化部１３は、その後に符号化されるブロックに対する予測ブロックを生成するために利用される局所復号ピクチャを生成する。ソース符号化部１３は、各ブロックの局所復号ピクチャが生成される度に、その局所復号ピクチャを、書き込み要求とともに、バッファインタフェース部１４へ出力する。

バッファインタフェース部１４は、参照ピクチャまたは局所復号ピクチャの読み出し要求に応じて、フレームバッファ１５からその参照ピクチャまたは局所復号ピクチャの各画素の値を読み込み、ソース符号化部１３へ出力する。その際、バッファインタフェース部１４は、参照ピクチャがフレームピクチャである場合、参照ペア情報に応じて特定される二つのフィールドピクチャの各画素値をフレームバッファ１５から読み込み、その二つのフィールドピクチャをインターリーブすることでフレームピクチャを生成する。

またバッファインタフェース部１４は、局所復号ピクチャ書き込み要求に応じて、局所復号ピクチャをフレームバッファ１５に書き込む。その際、バッファインタフェース部１４は、例えば、各局所復号ピクチャを符号化順序に従ってフレームバッファ１５に書き込むことで、各局所復号ピクチャを結合してもよい。そして符号化対象ピクチャの全てのブロックのそれぞれに対応する局所復号ピクチャが結合されることにより、参照ピクチャが再生される。

フレームバッファ１５は、参照ピクチャとして利用される可能性の有る複数のフィールドピクチャを保存できるメモリ容量を有する。そしてフレームバッファ１５は、複数のバンクを有し、バンクごとに、参照ピクチャ及び局所復号ピクチャの何れか一つを保存する。

エントロピー符号化部１６は、量子化変換係数、動きベクトル等の符号化パラメータ、及び参照ペア情報を含むヘッダ情報をエントロピー符号化することで、符号化ピクチャを生成する。そしてエントロピー符号化部１６は、符号化ピクチャをビットストリームとして出力する。

図５は、第１の実施形態による、動画像復号装置の概略構成図である。
動画像復号装置２０は、エントロピー復号部２１と、参照ピクチャ管理部２２と、バッファインタフェース部２３と、フレームバッファ２４と、ソース復号部２５とを有する。動画像復号装置２０が有するこれらの各部は、それぞれ、別個の回路として動画像復号装置２０に実装される。あるいは、動画像復号装置２０が有するこれらの各部は、その各部の機能を実現する回路が集積された一つの集積回路として動画像復号装置２０に実装されてもよい。あるいはまた、動画像復号装置２０が有するこれらの各部は、動画像復号装置２０が有するプロセッサ上で実行されるコンピュータプログラムにより実現される機能モジュールであってもよい。

エントロピー復号部２１は、符号化された動画像のビットストリームをエントロピー復号して、量子化変換係数、動きベクトル等の符号化パラメータ、及び参照ペア情報を復号する。そしてエントロピー復号部２１は、量子化変換係数及び符号化パラメータをソース復号部２５へ出力する。さらに、エントロピー復号部２１は、符号化パラメータのうち、参照ペア情報など、DPBの管理に必要なパラメータを参照ピクチャ管理部２２へ出力する。

参照ピクチャ管理部２２は、DPBの一例であるフレームバッファ２４を管理する。参照ピクチャ管理部２２は、エントロピー復号部２１から送られる符号化パラメータに従って、フレームバッファ２４に格納し、かつピクチャ復号時に参照される参照ピクチャを決定する。その際、参照ピクチャ管理部２２は、復号対象ピクチャがフレームピクチャである場合に、参照ペア情報を参照して、参照ピクチャを作成するために利用される二つのフィールドピクチャを決定する。また参照ピクチャ管理部２２は、ソース復号部２５に対して、参照ピクチャ及び復号ピクチャのバンク番号を通知する。

バッファインタフェース部２３は、ソース復号部２５からの参照ピクチャ読み出し要求に応じてフレームバッファ２４から該当する参照ピクチャの各画素の値を読み出し、その各画素の値をソース復号部２５へ出力する。その際、バッファインタフェース部２３は、参照ピクチャがフレームピクチャである場合、参照ペア情報に応じて特定される二つのフィールドピクチャの各画素値をフレームバッファ２４から読み込み、その二つのフィールドピクチャをインターリーブすることでフレームピクチャを生成する。
またバッファインタフェース部２３は、ソース復号部２５からの復号ピクチャ書き込み要求に応じて、受け取った復号ピクチャの各画素の値をフレームバッファ２４に書き込む。

フレームバッファ２４は、複数のバンクを有し、バンクごとに、参照ピクチャ及び局所復号ピクチャの何れか一つを保存する。

ソース復号部２５は、エントロピー復号部２１から通知される、復号対象ピクチャ内の各ブロックについて、量子化された予測誤差変換係数及び符号化パラメータ、及び動きベクトルを用いてソース復号を行う。具体的には、ソース復号部２５は、量子化された予測誤差変換係数に、量子化幅に相当する所定数を乗算することにより、量子化された予測誤差変換係数を逆量子化する。この逆量子化により、復号対象ブロックの予測誤差変換係数が復元される。その後、ソース復号部２５は、予測誤差変換係数を逆直交変換処理する。逆量子化処理及び逆直交変換処理を量子化信号に対して実行することにより、予測誤差信号が再生される。

ソース復号部２５は、バッファインタフェース部２３に対して、参照ピクチャもしくは復号ピクチャの画素値の読み出し要求を通知する。そしてソース復号部２５は、バッファインタフェース部２３から参照ピクチャまたは復号ピクチャの各画素の値を受け取る。そしてソース復号部２５は、参照ピクチャまたは復号ピクチャに基づいて、予測ブロックを生成する。

ソース復号部２５は、予測ブロックの各画素値に、その画素に対応する再生された予測誤差信号を加算する。これらの処理を各ブロックについて実行することにより、ソース復号部２５は、各ブロックを復号する。なお、予測ブロックは、そのブロックがインター予測符号化されたブロックである場合、復号済みのピクチャ及び復号された動きベクトルを用いて作成される。そしてソース復号部２５は、例えば、各ブロックを、符号化順序に従って結合することでピクチャを復号する。復号されたピクチャは表示のために装置外部に出力される。またソース復号部２５は、復号ピクチャを、復号ピクチャの未復号のブロックの予測ブロックの生成、もしくは後続ピクチャの予測ブロックの生成に用いるために、バッファインタフェース部２３に、書き込み要求とともに出力する。

次に、第１の実施形態による、動画像符号化装置１０及び動画像復号装置２０のDPB管理についての動作の詳細を説明する。なお、DPB管理について、動画像符号化装置１０と動画像復号装置２０は、ほぼ同一の動作を行うため、動画像符号化装置１０の動作と動画像復号装置２０の動作に差異がある箇所以外については、動画像復号装置２０の動作の説明を省略する。

最初に、動画像符号化装置１０の制御部１１の動作の詳細を説明する。
まず以下の用語の定義を行う。
・「レイヤ」は、時間方向階層符号化におけるピクチャの階層を示す。HEVC規格では、NAL Unit Headerに含まれるNuhTemporalIdPlus1パラメータによって、ピクチャのレイヤレベル(0, 1, 2, ...)が示される。階層符号化では、レイヤレベルがNのピクチャは、レイヤレベルがN以下のピクチャのみを参照して符号化されるように、参照関係が制約される。これにより、動画像復号装置は、最大のレイヤレベルをM(Mは1以上の整数)とするビットストリームから、レイヤレベルがN(Nは整数、ただしN < M)以下の符号化ピクチャのみを切り出したサブストリームを作成して、そのサブストリーム内の符号化ピクチャの全てを正常復号できる。MPEG-2規格で使用される、Iピクチャ（イントラピクチャ）、Pピクチャ（前方向参照ピクチャ）、Bピクチャ（両方向参照ピクチャ）を含む一般的なGOP構造は、最大のレイヤレベルを1とする時間方向階層符号化に相当する。言い換えると、常に非参照ピクチャとなるBピクチャ（レイヤレベル1に相当）をビットストリームから除いても、動画像復号装置は、残りのIピクチャ及びPピクチャ（レイヤレベル0に相当）を正常復号できる。
・「符号化ユニット」は、レイヤレベルが0となるピクチャを先頭とし、符号化順で次にレイヤレベルが0となるピクチャの直前のピクチャまでを含む、ピクチャの集合である。ただし、レイヤレベルが0となるピクチャが二つ連続し、かつそれらが同一のフィールドペアに含まれる場合には、その二つのピクチャは同一の符号化ユニットに含まれる。
MPEG-2規格におけるGOPの場合、符号化ユニットは、IピクチャもしくはPピクチャを先頭とし、符号化順で後かつ表示順で前となる複数のBピクチャを含むピクチャの集合になる。IピクチャもしくはPピクチャと、符号化順で次のIピクチャもしくはPピクチャとの間のBピクチャの数をLとすると、符号化ユニットに含まれるピクチャ数は(L+1)となる。時間方向階層符号化の場合、符号化ユニットに含まれるピクチャ数は、一般的に(2^M)となる。ただしMは最大レイヤレベルであり、符号化順で同一レイヤレベルのピクチャが連続しないことを仮定している。以下の説明ではこの仮定を適用する。

第１の実施形態では、動画像符号化装置１０の制御部１１は、外部から入力された最大レイヤ数Mと各ピクチャの動きベクトル（後述）を用いて、符号化ユニットの構造を決定する。なお、動画像復号装置２０では、ビットストリームのパラメータから符号化ユニットの構造を決定する。

図６は、第１の実施形態における、最大レイヤ数Mが2の場合の符号化ユニット、及び符号化ユニット内の各ピクチャのレイヤレベル及び参照関係の一例を示す図である。第１の実施形態では、各ピクチャの動きベクトルによらず、制御部１１は、常に同一の符号化ユニット構造を用いる。すなわち、第１の実施形態では、後述する第１の符号化ユニット構造と第２の符号化ユニット構造は、ともに図６に示される符号化ユニット構造と同一である。図６において、横軸は入力順序（表示順序）を表し、縦軸はレイヤを表す。

一つの符号化ユニット１３００には、４個のフィールドペア１３１０〜１３１３が含まれる。一方、フィールドペア１３２０は、符号化ユニット１３００よりも符号化順序で一つ前の符号化ユニットに含まれる。各フィールドペアには、トップフィールドとボトムフィールドが含まれる。第１の実施形態では、同一フィールドペアに含まれるトップフィールドとボトムフィールドは同じレイヤレベルを持ち、かつ、フィールド符号化される場合には、その二つのフィールドは連続して符号化される。
フィールドペア１３１０〜１３１３のそれぞれに含まれる二つのフィールドがフィールド符号化される場合、各フィールドには、それぞれ、フィールドピクチャのPOC値として(8m-6)、(8m-5)、(8m-4)、(8m-3)、(8m-2)、(8m-1)、(8m)、(8m+1)が割り当てられる（mは整数）。一方、フィールドペア１３１０〜１３１３がフレーム符号化される場合には、各フィールドペアには、それぞれ、フレームピクチャのPOC値としてそれぞれ、(8m-6)、(8m-4)、(8m-2)、(8m)が割り当てられる。

図６に示された各矢印は、フィールドペア１３１０〜１３１３の全てがフレーム符号化される場合のフィールドペア間の参照関係を表す。インター予測符号化で符号化対象ピクチャが参照できるピクチャは、符号化対象ピクチャのレイヤレベルと同じもしくは小さいレイヤレベルを持つピクチャに制限される。一方、フィールドペア１３１０〜１３１３がフィールド符号化される場合には、符号化対象のフィールドピクチャは、フレーム符号化時に参照できるフィールドペアの両フィールドを参照できる。例えば、ピクチャ(8m-2)は、ピクチャ(8m-4)とピクチャ(8m-5)の両方を参照できる。さらに、符号化対象フィールドピクチャがボトムフィールドの場合、同一フィールドペアのトップフィールドを参照できる。例えば、フィールドペア１３１２に含まれるピクチャ(8m-1)は、同じフィールドペア１３１２に含まれるピクチャ(8m-2)を参照できる。
フィールドペア単位の符号化順序は、フィールドペア１３１３→１３１１→１３１０→１３１２となる。制御部１１は、以下に述べる方法に従い、各フィールドペアが符号化される際のピクチャ種別（フレームもしくはフィールド）を決定する。

制御部１１は、符号化に先立ち、各フィールドペアのトップフィールドもしくはボトムフィールドのどちらか一方を符号化対象ピクチャ、他方を参照ピクチャと見なして動きベクトル探索を行う。制御部１１は、この動きベクトル探索を、ピクチャを互いに重ならないN*N画素のブロック単位に分割してブロックごとにブロックマッチングをすることで実行する。全ブロックの動きベクトルの絶対値の平均値が閾値より低い場合には、制御部１１は、フィールドペアをフレーム符号化し、その平均値が閾値以上の場合にはフィールドペアをフィールド符号化する。これにより、動画像符号化装置１０は、フィールドペアに写っている物体の動きが比較的小さい場合には、そのフィールドペアをフレーム符号化することで符号化効率を向上できる。一方、動画像符号化装置１０は、フィールドペアに写っている物体の動きが比較的大きい場合には、そのフィールドペアをフィールド符号化することで符号化効率を向上できる。なお、閾値は、例えば、フレームの画素単位で数画素程度の値に設定される。

なお、動きベクトルの探索方法は上記の方法に限定されない。例えば、制御部１１は、フィールドピクチャ内の特定ブロックのみを動きベクトルの探索の対象としてもよい。また制御部１１は、フレーム・フィールド符号化判定を行うフィールドペアの前後のフィールドペアを参照ピクチャとして用いてもよい。この場合、制御部１１は、判定対象のフィールドペアに含まれる何れかのフィールドを符号化対象ピクチャとし、そのフィールドペアの前または後のフィールドペアに含まれる何れかのフィールドを参照ピクチャとして動きベクトル探索を行えばよい。
また、制御部１１は、動きベクトルの探索を行うブロックを、HEVC規格のPUとしてもよい。さらに、制御部１１は、符号化対象ピクチャ及び参照ピクチャの輝度成分のみを動きベクトルの探索に用いてもよい。

さらに、制御部１１は、符号化ユニット内の全てのフィールドペア、もしくは一部のフィールドペアの動きベクトルの絶対値の平均値を用いて符号化ユニット構造を決定してもよい。具体的には、動きベクトルの絶対値の平均値が閾値未満の場合には、制御部１１は、第１の符号化ユニット構造を利用し、動きベクトルの絶対値の平均値が閾値よりも大きい場合には第２の符号化ユニット構造を利用する。先に述べたように、第１の実施形態では、第１の符号化ユニット構造と第２の符号化ユニット構造は同一である。

動画像符号化装置１０は、上記のようにして決定された、符号化ユニット及びフィールドペアの符号化構造（フレームもしくはフィールド）に基づき、各ピクチャを符号化する。図７及び図８を参照しつつ、各ピクチャの符号化パラメータ、及びDPBの管理について説明する。

図７に示された、動画像１４００は、複数のフィールドピクチャを含む。このうち、'nt'と書かれたブロックは、入力順でn番目のフィールドペアに含まれるトップフィールドピクチャである。一方、'nb'と書かれたブロックは、入力順でn番目のフィールドペアに含まれるボトムフィールドピクチャである。各フィールドピクチャの下の番号0, 1, 2, ..., 17は、それぞれ、対応するフィールドピクチャのPOC値である。例えば、トップフィールドピクチャ(1t)のPOC値は2であり、ボトムフィールドピクチャ(2b)のPOC値は5である。さらに、POC値の下の表記'Field'及び'Frame'は、先に述べた方法により決定された、符号化時のピクチャ種別（フィールドもしくはフレーム）を表す。例えば、'Frame'に対応するフィールドペア(2t,2b)は、フレームピクチャとして符号化される。一方、'Field'に対応するフィールドペア(4t,4b)に含まれる二つのフィールドピクチャ(4t),(4b)は、それぞれ、フィールドピクチャとして符号化される。

符号化構造１４１０は、各ピクチャの符号化の際のピクチャ種別を符号化順に表わす。制御部１１は、イントラ予測符号化される先頭フィールドペア(0t, 0b)のみ、内包するフィールドペアが一つの符号化ユニットに含め、他のフィールドペアを、図６に示されるような、Mが2の場合の符号化ユニットに含める。すなわち、フィールドピクチャ{1t, 1b, ..., 4t, 4b}が２番目の符号化ユニットに含まれ、フィールドピクチャ{5t, 5b, ..., 8t, 8b}が３番目の符号化ユニットに含まれる。なお、２番目の符号化ユニット以降において、先頭フィールドペアはPピクチャとし、その他のフィールドペアはBピクチャとする。レイヤレベルが2のピクチャ（すなわち、レイヤレベルが最も高いピクチャ）は非参照ピクチャとする。また、図７中の垂直破線は、符号化ユニット間の境界を表す。

符号化構造１４１０において、'nt'もしくは'nb'と書かれた正方形状のブロックは、それぞれ、符号化時においてフィールドピクチャとして扱われる一つのピクチャを表す。一方、'nt nb'と書かれた長方形状のブロックは、符号化時においてフレームピクチャとして扱われる一つのピクチャを表す。符号化構造１４１０の下に示された数値が書かれた横長のブロック列１４２０は、各ピクチャのピクチャ構造を表す。ここで、白塗りのブロックは、そのブロックの上に記載された対応ピクチャがフィールド符号化されることを表す。一方、網掛けのブロックは、そのブロックの上に記載された対応ピクチャがフレーム符号化されることを表す。ブロック内の数値は、その数値の上に位置する対応ピクチャのPOC値である。なお、以下では、符号化時に一つのピクチャとして扱われるピクチャの単位を、単に符号化ピクチャと呼ぶ。

図８を参照しつつ、図７に示された符号化ユニット及びピクチャ構造に基づく、各ピクチャのパラメータ及びDPB状態を説明する。なお、動画像復号装置２０に関しては、以下の説明における局所復号ピクチャを、復号ピクチャと読み替える。

本実施例では、DPB、すなわち、フレームバッファのバンク数（参照ピクチャ及び局所復号ピクチャの両方を含む）は8であり、L0、L1方向の参照ピクチャ数の上限は2である。バンク数及び参照ピクチャ数の上限は、例えば、何れも外部設定され、制御部１１及び参照ピクチャ管理部１２に通知される。動画像復号装置２０では、バンク数及び参照ピクチャ数の上限は、符号化データのビットストリーム内のパラメータ値で設定される。

ブロック列１４２０は、図７に示されたブロック列１４２０に対応し、各ピクチャのピクチャ構造及びPOC値を符号化順に示す。なお、図８において、横軸は符号化（復号）順序を示す。
テーブル１４３０は、各符号化ピクチャに含まれるパラメータを示す。パラメータRefPicPoc及びPairPicPocは、それぞれ、符号化ピクチャのRPS情報、及び参照ペア情報である。例えば、5番目に符号化されるフレームピクチャ（POC値は4）について、RPS情報(RefPicPoc)は、POC値が0, 1, 8, 9であるフィールドピクチャがDPBに保存されることを示す。また、参照ペア情報(PairPicPoc)は、そのフレームピクチャであるフィールドペアに含まれるボトムフィールドのPOC値5となる。
符号化ピクチャのPOC値及びRPS情報は、HEVC規格と同等の方法で動画像復号装置２０へ通知される。その通知の方法については後述する。

参照ピクチャ管理部１２は、RPS情報を以下のように決定する。レイヤレベルが0のピクチャは、その後にレイヤレベルが0のフィールドペアが2回符号化されるまで、DPBに保存される。これは、レイヤレベルが0のピクチャは、同じレイヤレベルのピクチャしか参照できないため、二つ後に符号化されるレイヤレベル0のピクチャに参照される可能性があるためである。例えば、POCが0及び1のピクチャは、POCが16のピクチャが符号化された後にDPBから消去される。

レイヤレベルが1のピクチャは、その後にレイヤレベルが0のフィールドペアが符号化される直前までDPBに保存される。例えば、POCが4及び5のピクチャは、POCが16のピクチャが符号化される直前にDPBから消去される。

参照ペア情報PairPicPocは、このパラメータが付加されたフィールドピクチャがフレームピクチャとして参照される場合に組となる、別パリティのフィールドピクチャのPOC値を示す。第１の実施形態では、組となる別パリティのフィールドピクチャは、同一フィールドペア内の他方のフィールドピクチャとする。なお、符号化ピクチャがフレームピクチャ（同一フィールドぺア内の両フィールドピクチャによって形成される）である場合には、制御部１１は、その符号化ピクチャのPOC値をトップフィールドのPOC値とし、PairPicPoc値をボトムフィールドのPOC値とする。
例えば、POC値が8のピクチャのPairPicPocは9となる。POC値が8のピクチャよりも後に符号化されるPOC値が4のフレームピクチャが、L1[0]参照ピクチャとしてPOC値が8となる（フィールド）ピクチャを参照するときに、そのフレームピクチャは、POC値が8のフィールドピクチャとPOC値が9のフィールドピクチャを組み合わせた一つのフレームピクチャとして参照する。なお、二つのフィールドピクチャがフレームピクチャとして参照される場合には、その二つのフィールドピクチャは必ずDPBに参照ピクチャとして保存されているものとする。

テーブル１４４０は、RefPicPoc情報に基づいて制御されたDPBの内容を示す。各バンク名と同じ列に記された番号は、そのバンクに保存されているピクチャのPOC値を表す。例えば、バンク0には、POC値が0のピクチャを符号化する時に、そのピクチャの局所復号ピクチャが保存される。なお、局所復号ピクチャが保存されるバンクは網掛けで表示される。次に、POC値が1のピクチャが符号化される時に、POC値が0のピクチャは参照ピクチャとして扱われる。POC値が0のピクチャは、その後POC値が12のピクチャが符号化されるまでバンク0に保存される。

テーブル１４５０は、DPBに記憶されているピクチャに基づいて生成された参照ピクチャのリストL0、L1を示す。L0及びL1の各エントリは、符号化ピクチャがフィールドピクチャの場合には、HEVC規格に規定された参照ピクチャの決定方法と同様の方法で決定される。一方、符号化ピクチャがフレームピクチャの場合には、L0及びL1の各エントリは、HEVC規格に規定された参照ピクチャの決定方法と同様の方法で決定された後、参照される際にペアとなるフィールドピクチャのエントリが削除される。例えば、POC値が4のフレームピクチャを符号化する時には、DPBにはPOC値が0、1、8、9のフィールドピクチャが保存されている。この場合、ピクチャ1はピクチャ0とともに参照フレームピクチャを形成し、ピクチャ9はピクチャ8とともに参照フレームピクチャを形成する。そのため、リストL0及びL1からピクチャ1とピクチャ9は削除される。結果として、リストL0にはピクチャ0のみが示され、リストL1にはピクチャ8のみが示される。
このように、リストL0、L1の各エントリは、符号化ピクチャの種別（フィールドもしくはフレーム）によらず、一つのフィールドピクチャを示す。したがって、本実施形態によるリストL0、L1及びパラメータRefIdxL0、RefIdxL1は、HEVC規格と互換性がある。

図９及び図１０を参照しつつ、動画像符号化装置１０における、バッファインタフェース部１４を介したバンクアクセスを実施するために行う動作と動画像符号化装置１０の各部間の通信データ形式について説明する。なお、動画像復号装置２０の動作及び通信データ形式も動画像符号化装置１０とほぼ同等であるが、以下の説明では異なる部分を併記する。また動画像復号装置２０については、以下の説明における符号化対象ピクチャを復号対象ピクチャと読み替える。

メモリ１５００は、動画像符号化装置１０のバッファインタフェース部１４（動画像復号装置２０ではバッファインタフェース部２３）の内蔵メモリである。バッファインタフェース部１４のレジスタ１５０１は、フレームバッファ１５における各バンクの先頭アドレスが保存される(N+1)個のレジスタPosBank(0), ..., PosBank(N)を有する。またレジスタ群１５０２は、ピクチャに関するパラメータを保存する。レジスタ群１５０２に含まれる各レジスタNumBanks、HeaderOffset、LumaOffset、CbOffset、CrOffset、LumaW、LumaH、ChromaW、ChromaHには、それぞれ、バンク数、バンク内ヘッダ領域へのオフセット、ピクチャ輝度成分へのオフセット、ピクチャCb成分へのオフセット、ピクチャCr成分へのオフセット、ピクチャ輝度成分の幅、ピクチャ輝度成分の高さ、ピクチャ色差成分の幅、ピクチャ色差成分の高さが格納される。

符号化動作の開始に先立ち、制御部１１は、バッファインタフェース部１４を初期化する。なお、動画像復号装置２０では、エントロピー復号部２１が、ビットストリーム内のパラメータに基づいて、バッファインタフェース部２３を初期化する。初期化時には、制御部１１は、フレームバッファ内のバンク数(N+1)、画面幅（フレームピクチャの水平方向画素数）w、画面高（フレームピクチャの垂直方向画素数）hをバッファインタフェース部１４に通知する。バッファインタフェース部１４（動画像復号装置２０ではバッファインタフェース部２３）は、これらに基づき、レジスタ群１５０１及び１５０２の各レジスタの値を設定する。符号化ピクチャの色差フォーマットが4:2:0の場合には、各レジスタには、以下の値が格納される。
NumBanks = (N+1)
LumaW = w
LumaH = h
ChromaW = w/2
ChromaH = h/2
HeaderSize = C0(固定値)
LumaOffset = HeaderSize
CbOffset = HeaderSize + (w * h)
CrOffset = HeaderSize + (w * h) * 3 / 2
PosBank(0) = C1(固定値)
PosBank(1) = PosBank(0) + B
PosBank(2) = PosBank(1) + B, ...
PosBank(N) = PosBank(N-1) + B
ただし、B = (HeaderSize + (w * h) * 2)である。

メモリマップ１５１０は、動画像符号化装置１０のフレームバッファ１５（動画像復号装置２０ではフレームバッファ２４）内の、各バンクのメモリ領域を模式的に表す。レジスタPosBank(m)(m=0,1,...,N)に格納されているアドレスは、フレームバッファ１５内のバンクmの先頭アドレスとなる。
メモリマップ１５２０は、フレームバッファ１５（動画像復号装置２０ではフレームバッファ２４）内の、各バンク内部のメモリ構造を表す。各バンクには、先頭から順に、C0バイトのヘッダ領域Header、輝度画素値領域LumaPixel、Cb画素値領域CbPixel、Cr画素領域CrPixelが連続したメモリアドレス上に配置される。

各ピクチャの符号化開始に先立ち、動画像符号化装置１０の参照ピクチャ管理部１２は、ソース符号化部１３に対し（動画像復号装置２０では、参照ピクチャ管理部２２が、ソース復号部２５に対し）、符号化ピクチャ情報及び参照ピクチャバンク情報を通知する。

図１０において、データ構造１５３０は、符号化ピクチャ情報及び参照ピクチャバンク情報のデータ構造である。Poc、FieldFlag、PairPicPocは、それぞれ、符号化対象ピクチャのPOC値、符号化対象ピクチャの構造を表すフラグ（フィールドの場合は'1'、フレームの場合は'0'）、フレーム参照時にペアとなるフィールドピクチャのPOC値を表す。またW、Hは、符号化対象ピクチャの水平方向画素数及び垂直方向画素数である。NumL0、NumL1は、それぞれ、リストL0及びL1のエントリ数である。BankRDEC0、BankRDEC1は、局所復号ピクチャが保存されているバンク番号である。符号化対象ピクチャがフィールドピクチャの場合にはBankRDEC0のみが使用され、符号化対象ピクチャがフレームピクチャの場合には、BankRDEC0にはトップフィールドのバンク番号、BankRDEC1にはボトムフィールドのバンク番号が格納される。BankL0[n]、BankL1[m]は、それぞれ、参照ピクチャL0[n]のバンク番号、参照ピクチャL1[m]のバンク番号である。

動画像符号化装置１０のソース符号化部１３は、バッファインタフェース部１４を介してフレームバッファ１５に局所復号ピクチャの画素値を書き込む場合、図１０に示されるデータ構造１５４０を持つ書き込み要求をバッファインタフェース部１４へ送信する。またソース符号化部１３は、フレームバッファ１５から画素値を読み出す場合、データ構造１５４０を持つ読み出し要求をバッファインタフェース部１４へ送信する。なお、動画像復号装置２０でも同様に、ソース復号部２５は、バッファインタフェース部２３を介してフレームバッファ２４に復号ピクチャの画素値を書き込む場合、データ構造１５４０を持つ書き込み要求をバッファインタフェース部２３へ送信する。またソース復号部２５は、フレームバッファ２４から復号ピクチャの画素値を読み出す場合も、データ構造１５４０を持つ読み出し要求をバッファインタフェース部２３へ送信する。また、参照ピクチャの画素値を読み出す場合にも、データ構造１５４０を持つ読み出し要求が使用される。

データ構造１５４０に含まれる、各データRWFlag、BankIdx、FieldFlagは、それぞれ、読み出しか書き込みを表すフラグ（'1'で書き込み、'0'で読み出し）、対象バンク番号、符号化対象ピクチャの構造（フィールドの場合は'1'、フレームの場合は'0'）を表す。またデータPoc、PairPicPoc、ChannelIdxは、それぞれ、符号化対象ピクチャのPOC値、符号化対象ピクチャのPairPicPoc値、画素値の区分を表すフラグ（'0'は輝度、'1'はCb、'2'はCr）を表す。そしてデータOX、OY、W、Hは、それぞれ、読み書きする画素単位の矩形領域の左上位置のピクチャ内X座標及びY座標、読み書きする画素単位の矩形領域の幅及び高さである。Poc及びPairPicPocは、RWFlag = 1の場合のみ使用される。これらのデータは、対応するバンクのメモリマップ１５２０中のHeaderに格納される。

フレームバッファ１５（動画像復号装置２０では、フレームバッファ２４）からのバンクb (b = [0, N])への書き込み領域もしくは読み出し領域の、ピクチャ上端からpライン目(p = [0, H-1])の左端画素のアドレスは、バッファインタフェース部１４（動画像復号装置２０では、バッファインタフェース部２３）にて以下のように算出される。
FieldFlag = 1(フィールド)の場合： OffsetA + ((OY + p) * pw)
FieldFlag = 0(フレーム)の場合： OffsetB + (((OY + p)/2) * pw)
ただし、OffsetAはフィールドピクチャの左上端画素のアドレスに対応し、ChannelIdxが0(輝度)、1(Cb)、2(Cr)の場合で、それぞれ、(PosBank(b) + HeaderSize + LumaOffset), (PosBank(b) + HeaderSize + CbOffset)、(PosBank(b) + HeaderSize + CrOffset)となる。またpwは、ChannelIdxが0、1、2の場合に、それぞれ、LumaW、ChromaW、ChromaWとなる。
また、OffsetBは、フレームピクチャに含まれる二つのフィールドピクチャのそれぞれの左上端画素のアドレスに対応し、ChannelIdxが0、1、2の場合で、それぞれ、(X + HeaderSize + LumaOffset)、(X + HeaderSize + CbOffset)、(X + HeaderSize + CrOffset)となる。ただし、Xは、(OY + p)%2が0の場合、すなわち、トップフィールドについてはPosBank(b)となり、(OY + p)%2が1の場合、すなわち、ボトムフィールドについてはPosBank(b')となる。b'は、RWFlagが1の場合にはPairPicPocと同じPOC値を持つバンク番号であり、RWFlagが0の場合には、バンクbのHeader情報に含まれるPairPicPocと同じPOC値を持つバンク番号である。すなわち、FieldFlagが1の場合は、ソース符号化部１３は、フレームバッファ１５が（動画像復号装置２０では、ソース復号部２５は、フレームバッファ２４が）、フレームピクチャ単位でDPBを管理するものと見なして、フレームピクチャのデータを読み書きする。一方、バッファインタフェース部１４（動画像復号装置２０では、バッファインタフェース部２３）は、ラインごとに、対応するフィールドピクチャが格納されているバンクに対して読み書きすることで、ピクチャ構造の違いに対応する。

図１１を参照しつつ、第１の実施形態による、符号化動画像データを含むビットストリームの構成を説明する。
データ１６００は、ビットストリームの中の、一つの符号化ピクチャに対応するデータである。シンタックスNUH(NAL Unit Header)、VPS(Video Parameter Set)、SPS(Sequence Parameter Set)、PPS(Picture Parameter Set)、SEI(Supplemental Enhancement Information), SH(Slice Segment Header)、SLICE(Slice Segment Data)は、それぞれ、SHを除き、HEVC規格で定義されている同一名のシンタックスと同一である。SHは、HEVC規格で定義されている同一名のシンタックスに比べて一部拡張されている。各シンタックスの詳細は後述する。

パラメータセット１６１０は、NUHに含まれるパラメータである。パラメータNalUnitTypeは、NUHに続くRBSP(Raw Byte Sequence Payload)の種類を示す。例えば後続するRBSPがVPSの場合には、'VPS NUT'(32)となる。パラメータNuhTemporalIdPlus1は、レイヤ数を示す。
パラメータセット１６２０は、SPSに含まれるパラメータである。ここでは、特に、本実施形態に関連するパラメータのみを示している。各RBSP内でのパラメータは上の方から先にビットストリームに出現する。また図中の垂直の点線は、明示的に列挙したパラメータの間に、本明細書では特に記述しないパラメータが一つ以上存在することを示す。
パラメータGeneralProgressiveSourceFlag及びGeneraInterlaceSourceFlagは、本実施形態では、それぞれ0、1とし、符号化対象の動画像がインターレスであること示す。パラメータLog2MaxPicOrderCntLsbMinus4は、SHで示されるPOC値の復元に用いられる。パラメータNumShortTermRefPicSetsは、SPSで記述するRPSの個数を示す。パラメータShortTermRefPicSetSet(i)は、i番目(i = [0, NumShortTermRefPicSets - 1])のRPSを記述する。パラメータShortTermRefPicSetSet(i)の詳細については後述する。

パラメータセット１６３０は、PPSに含まれるパラメータである。ここでは、特に、本実施形態に関連するパラメータのみを示している。パラメータSliceSegmentHeaderExtensionPresentFlagは、SHにてパラメータSliceSegmentHeaderExtensionLengthを記述するために1とする。

パラメータセット１６４０は、SHに含まれるパラメータである。ここでは、特に、本実施形態に関連するパラメータのみを示している。パラメータSliceTypeは、スライス種別（0: Bスライス、1: Pスライス、2: Iスライス）を示す。パラメータSlicePicOrderCntLsbは、後続するSLICEを含む符号化ピクチャのPOC値のLSBを示す。パラメータSlicePicOrderCntLsbとパラメータLog2MaxPicOrderCntLsbMinus4とを用いて、HEVC規格によるPOC値の記述方式と同様な方式でデータ１６００に対応するピクチャのPOC値が記述される。パラメータShortTermRefPicSetSpsFlagは、SPSで記述されたRPSをデータ１６００のSLICEのRPSとするか(1)、否か(0)を記述する。本実施形態では、説明の簡略化のため、パラメータShortTermRefPicSetSpsFlagを1とする。パラメータShortTermRefPicSetSet()は、データ１６００のSLICEのRPSを記述する。パラメータShortTermRefPicSetSet()の詳細は後述する。パラメータShortTermRefPicSetIdxは、パラメータShortTermRefPicSetSpsFlagが0の場合に、SPSで記述された複数のRPSのうち、使用するRPSを示す。パラメータNumRefIdxActiveOverrideFlagは、SHにてL0及びL1のリストのエントリ数を示すパラメータNumRefIdxL0ActiveMinus1及びNumRefIdxL1ActiveMinus1が出現するか(1)、否(0)かを記述する。パラメータSliceSegmentHeaderExtensionLengthは、パラメータセット１６６０の記述に必要なデータ量（バイト単位）を記述する。パラメータSliceSegmentHeaderExtensionDataByteは、パラメータセット１６６０を含む。

パラメータセット１６５０は、パラメータセット１６２０のうちのShortTermRefPicSet()に含まれるパラメータである。パラメータInterRefPicSetPredictionFlagは、RPSが複数存在する場合に、一つのRPSから別のRPSを予測するか否か（1:予測する、0:予測しない）を記述する。説明の簡略化のため、ここではパラメータInterRefPicSetPredictionFlagは0とする。パラメータDeltaIdxMinus1、DeltaRpsSign、AvsDeltaRpsMinus1、UsedByCurrPicFlag及びUseDeltaFlagは、パラメータセット１６５０に含まれるパラメータInterRefPicSetPredictionFlagが1の場合のみ記述される。パラメータnumNegativePics及びnumPositivePicsは、それぞれ、データ１６００のSHを含むピクチャのPOC値より小さいPOC値をもつ参照ピクチャの個数、データ１６００のSHを含むピクチャのPOC値より大きいPOC値をもつ参照ピクチャの個数を記述する。パラメータDeltaPocS0Minus1(i) (i = [0, numNegativePics - 1])、及びパラメータDeltaPocS1Minus1(j) (j = [0, numPositivePics - 1])は、参照ピクチャのPOC値導出に用いられる。パラメータDeltaPocS0Minus1(i)及びDeltaPocS1Minus1(j)の詳細は後述する。パラメータUsedByCurrPicS0Flag(i) (i = [0, numNegativePics - 1])及びパラメータUsedByCurrPicS1Flag(j) (j = [0, numPositivePics - 1])は、それぞれ、i番目、j番目の参照ピクチャが本SHを含むピクチャから参照される(1)か、否(0)かを記述する。

パラメータセット１６６０は、SliceSegmentHeaderExtensionDataByteに含まれるパラメータである。パラメータFieldPicFlagは、データ１６００に対応するピクチャがフィールドの場合に1となり、データ１６００に対応するピクチャがフレームの場合に0となる。パラメータBottomFieldFlagは、データ１６００に対応するピクチャがピクチャがボトムフィールドの場合に1となり、データ１６００に対応するピクチャがトップフィールドの場合に0となる。FieldPicFlagが0の場合には、パラメータBottomFieldFlagは定義されない。
パラメータPairPicPocDiffは、参照ペア情報の一例であり、フレームピクチャから参照される場合にペアとなる別のフィールドピクチャのPOC値から、データ１６００に対応するピクチャのPOC値を減算した値を記述する。

パラメータnumNegativePics、numPositivePics、DeltaPocS0Minus1()及びDeltaPocS1Minus1()の値の決定方法を、図８を参照しつつ説明する。
テーブル１４３０に記述されているように、POC値が6のピクチャ（フレーム）について、POC値がそれぞれ0, 1, 4, 5, 8, 9のピクチャがDPBに保存されている。DPBに保存されている各ピクチャに相当するRPSを記述するには、パラメータnumNegativePics、numPositivePics、DeltaPocS0Minus1()及びDeltaPocS1Minus1()は以下のようになる。

まず、本ピクチャのPOS値6より小さいPOS値を持つピクチャは4個(0,1,4,5)、DPBに保存されており、一方、本ピクチャのPOS値6より大きいPOS値を持つピクチャは2個(8,9)、DPBに保存されている。そのため、パラメータnumNegativePics及びnumPositivePicsは、それぞれ、以下のようになる。
numNegativePics = 4
numPositivePics = 2

また、DeltaPocS0Minus1(i)は、それぞれ、符号化対象（復号対象）ピクチャのPOC値より小さいPOC値を持つ、DPBに保存されたピクチャのPOC値を、本ピクチャのPOC値に近い方から順に一つ前のピクチャのPOC値との差分から1を減じた値で記述する。そのため、この例では、DeltaPocS0Minus1(i)は、以下のように決定される。
DeltaPocS0Minus1(0) = 0 :POC = 5に相当 ( = 6 - (5 + 1))
DeltaPocS0Minus1(1) = 0 :POC = 4に相当 ( = 5 - (4 + 1))
DeltaPocS0Minus1(2) = 2 :POC = 1に相当 ( = 4 - (1 + 1))
DeltaPocS0Minus1(3) = 0 :POC = 0に相当 ( = 1 - (0 + 1))
また、DeltaPocS1Minus1(i)は、それぞれ、符号化対象（復号対象）ピクチャのPOC値より大きいPOC値を持つ、DPBに保存されたピクチャのPOC値を、本ピクチャのPOC値に近い方から順に、そのPOC値から一つ前のピクチャのPOC値を減じた値からさらに1を減じた値で記述する。そのため、この例では、DeltaPocS1Minus1(i)は、以下のように決定される。
DeltaPocS1Minus1(0) = 1 :POC = 8に相当 ( = 8 - (6 + 1))
DeltaPocS1Minus1(1) = 0 :POC = 9に相当 ( = 9 - (8 + 1))

図１２は、第１の実施形態による、動画像符号化処理の動作フローチャートである。動画像符号化装置１０は、この動作フローチャートに従って、符号化ユニットごとに符号化処理を実行する。

制御部１１は、符号化ユニットの各ピクチャの符号化に先立ち、符号化ユニットの平均動き量を算出する（ステップＳ１０１）。例えば、制御部１１は、符号化ユニット内の各フィールドペアに含まれる二つのフィールド間のブロックごとの動きベクトルの絶対値の平均値を算出する。さらに、制御部１１は、そのフィールドペアごとの動きベクトルの絶対値の平均値を符号化ユニット単位で平均化することにより平均動き量を算出する。

制御部１１は、符号化ユニットの平均動き量が所定の閾値Th未満か否か判定する（ステップＳ１０２）。閾値Thは、例えば、フレームの画素単位で数画素程度に設定される。平均動き量が閾値Th未満の場合（ステップＳ１０２−Ｙｅｓ）、制御部１１は、符号化ユニットに対して第１の符号化ユニット構造を適用する（ステップＳ１０３）。なお、第１の実施形態では、第１の符号化ユニット構造は、図６に示される、各フィールドがフィールドペア単位で符号化順序が指定される符号化ユニット構造である。そして制御部１１は、その符号化ユニットの構造などに基づいて、各フィールドに参照ペア情報を設定する。

一方、平均動き量が閾値Th以上の場合（ステップＳ１０２−Ｎｏ）、制御部１１は、符号化ユニットに対して第２の符号化ユニット構造を適用する（ステップＳ１０４）。そして制御部１１は、その符号化ユニットの構造などに基づいて、各フィールドに参照ペア情報を設定する。なお、第１の実施形態では、第２の符号化ユニット構造も、図６に示される、各フィールドがフィールドペア単位で符号化順序で指定される符号化ユニット構造である。しかし、後述するように、第２の符号化ユニット構造は、各フィールドがフィールド単位で符号化順序が指定される符号化ユニット構造であってもよい。

ステップＳ１０３またはＳ１０４の後、制御部１１は、次に符号化するピクチャは、符号化フィールドペアであるか否か判定する（ステップＳ１０５）。第１の実施形態では、符号化フィールドペア（すなわち、フレームピクチャとして符号化するトップフィールドとボトムフィールドとの組）は、常にフィールドペアであるとする。そのため、符号化するピクチャは、常にフィールドペアとなる（ステップＳ１０５−Ｙｅｓ）。そして、制御部１１は、符号化フィールドペアの平均動き量を計算する（ステップＳ１０６）。なお、符号化フィールドペアの平均動き量は、例えば、そのフィールドペアに含まれる二つのフィールド間のブロックごとの動きベクトルの絶対値の平均値とすることができる。

制御部１１は、符号化フィールドペアの平均動き量が、所定の閾値Th2以上か否か判定する（ステップＳ１０７）。なお、閾値Th2は、閾値Thと同じでもよく、異なっていてもよい。そして閾値Th2は、例えば、フレームの画素単位で数画素程度に設定される。
符号化フィールドペアの平均動き量が閾値Th2以上の場合(ステップＳ１０７−Ｙｅｓ)、制御部１１は、フィールド単位で符号化すると判定する。そして制御部１１は、ソース符号化部１３に、フィールド単位で符号化することを通知する。

ソース符号化部１３は、符号化フィールドペアのトップフィールドを、符号化モードに従って、インター予測またはイントラ予測符号化する（ステップＳ１０８）。そしてソース符号化部１３は、符号化されたトップフィールドのデータをエントロピー符号化部１６へ出力し、エントロピー符号化部１６は、そのデータをエントロピー符号化する。またソース符号化部１３は、符号化フィールドペアのボトムフィールドを、符号化モードに従って、インター予測またはイントラ予測符号化する（ステップＳ１０９）。そしてソース符号化部１３は、符号化されたボトムフィールドのデータをエントロピー符号化部１６へ出力し、エントロピー符号化部１６は、そのデータをエントロピー符号化する。さらに、ソース符号化部１３は、局所復号ピクチャをバッファインタフェース部１４を介してフレームバッファ１５に書き込む。また参照ピクチャ管理部１２は、フレームバッファ１５に保存されている符号化済みのフィールドに関する情報を更新する。

一方、ステップＳ１０７にて、符号化フィールドペアの平均動き量が閾値Th2未満の場合(ステップＳ１０７−Ｎｏ)、制御部１１は、フレーム単位で符号化すると判定する。そして制御部１１は、ソース符号化部１３に、フレーム単位で符号化することを通知する。ソース符号化部１３は、符号化フィールドペアを、符号化モードに従って、フレーム単位でインター予測またはイントラ予測符号化する（ステップＳ１１０）。そしてソース符号化部１３は、符号化されたフィールドペアのデータをエントロピー符号化部１６へ出力し、エントロピー符号化部１６は、そのデータをエントロピー符号化する。さらに、ソース符号化部１３は、局所復号ピクチャをバッファインタフェース部１４を介してフレームバッファ１５に書き込む。また参照ピクチャ管理部１２は、フレームバッファ１５に保存されている符号化済みのフィールドに関する情報を更新する。

また、ステップＳ１０５にて、次に符号化するピクチャは、フィールドピクチャである場合（ステップＳ１０５−Ｎｏ）、制御部１１は、フィールド単位で符号化すると判定する。そして制御部１１は、ソース符号化部１３に、フィールド単位で符号化することを通知する。
ソース符号化部１３は、次に符号化するピクチャを、符号化モードに従って、フィールド単位でインター予測またはイントラ予測符号化する（ステップＳ１１１）。

ステップＳ１０９、Ｓ１１０またはＳ１１１の後、制御部１１は、符号化ユニット内に符号化されていないピクチャがあるか否か判定する（ステップＳ１１２）。符号化されていないピクチャが有る場合（ステップＳ１１２−Ｙｅｓ）、制御部１１は、ステップＳ１０５以降の処理を繰り返す。一方、符号化ユニット内の全てのピクチャが符号化されている場合（ステップＳ１１２−Ｎｏ）、制御部１１は、動画像符号化処理を終了する。

図１３は、第１の実施形態による動画像復号処理の動作フローチャートである。動画像復号装置２０は、この動作フローチャートに従って、ピクチャごとに復号処理を実行する。

エントロピー復号部２１は、エントロピー符号化された復号対象ピクチャのデータ及びスライスヘッダ(SH)を復号する（ステップＳ２０１）。そしてエントロピー復号部２１は、SHに含まれるRPS情報及び参照ペア情報など、DPB管理に必要な情報を参照ピクチャ管理部２２に通知する。参照ピクチャ管理部２２は、SHのRPS情報に従って、DPB（すなわち、フレームバッファ２４）の各バンクに関する情報を更新する（ステップＳ２０２）。また参照ピクチャ管理部２２は、DPBの内容に従い、復号対象ピクチャの参照ピクチャリストL0及びL1を生成する（ステップＳ２０３）。その際、参照ピクチャ管理部２２は、復号対象ピクチャがフレームピクチャである場合、参照ペア情報を参照することで、リストL0及びL1にエントリされる参照ピクチャであるフレームピクチャを生成するために利用される二つのフィールドピクチャを決定する。そして参照ピクチャ管理部２２は、参照ピクチャリストL0及びL1をソース復号部２５へ通知する。

ソース復号部２５は、受け取った参照ピクチャリスト及びエントロピー復号部２１から受け取った符号化パラメータに基づいて、参照ピクチャを特定し、その参照ピクチャを利用して、復号対象ピクチャ内の各ブロックを復号する（ステップＳ２０４）。またソース復号部２５は、バッファインタフェース部２３を介して復号ピクチャをフレームバッファ２４に書き込む。さらに、参照ピクチャ管理部２２は、フレームバッファ２４に関する情報を更新する。
そして動画像復号装置２０は、動画像復号処理を終了する。

以上に説明してきたように、本実施形態による動画像符号化装置及び動画像復号装置は、符号化（復号）対象ピクチャの種別（フィールドもしくはフレーム）によらず、DPBに保存するピクチャを常にフィールドピクチャとする。符号化対象ピクチャについてのRPS情報の単位も、同様に、常にフィールドピクチャ単位とする。これにより、動画像符号化装置及び動画像復号装置は、符号化（復号）対象ピクチャの種別によらずにDPB管理をRPS方式で統一して動作を行うことができる。また、符号化データに付加されるピクチャパラメータとして、フレームピクチャから参照されるときにペアとなる二つのフィールドピクチャを示す参照ペア情報を規定した。そのため、この動画像符号化装置及び動画像復号装置は、ピクチャ単位でフレームとフィールドを切り替えてピクチャを符号化または復号することができる。

次に、第２の実施形態による動画像符号化装置及び動画像復号装置について説明する。
第２の実施形態による動画像符号化装置及び動画像復号装置は、第１の実施形態による動画像符号化装置及び動画像復号装置と比較して、フィールド単位で符号化順序が指定される符号化ユニット構造（第２の符号化ユニット構造）も利用可能とする点で異なる。以下では、第１の実施形態と第２の実施形態の相違点についてを説明する。

図１４は、最大レイヤ数Mが2の場合の第２の符号化ユニット、及び符号化ユニット内の各ピクチャのレイヤレベル及び参照関係の一例を示す図である。

第二の符号化ユニット構造を持つ符号化ユニット２０００は、フィールドペアを含まず、フィールドピクチャのみを含む。すなわち、符号化ユニットが第２の符号化ユニット構造を持つ場合、符号化ユニット内のピクチャの全ては、フィールドピクチャとして符号化される。この例では、符号化ユニット２０００は、８個のフィールドピクチャ２０１２〜２０１９を含む。またフィールドピクチャ２０１０及び２０１１は、符号化ユニット２０００より前の符号化ユニットに含まれる。

図１４に示された各矢印は、各フィールドピクチャ間の参照関係を表す。なお、図１４では、簡単化のために、参照関係の一部のみを示している。
この例では、フィールドピクチャ２０１２〜２０１９の符号化順序は、フィールド２０１９→２０１５→２０１３→２０１２→２０１４→２０１７→２０１６→２０１８の順となる。

図１５を参照しつつ、第１の符号化ユニット構造を持つ符号化ユニットと第２の符号化ユニット構造を持つ符号化ユニットの両方を含む動画像データについての各ピクチャのパラメータ及びDPB状態を説明する。
図７及び８の説明と同様に、動画像復号装置２０では、局所復号ピクチャは、復号ピクチャと読み替える。
動画像２１００は、図７に示された動画像１４００と同様に、三つの符号化ユニット２１０１〜２１０３を含む。また、各ブロックは、それぞれ、動画像２１００に含まれる一つのフィールドピクチャを表す。このうち、'nt'と書かれたブロックは、入力順でn番目のフィールドペアに含まれるトップフィールドピクチャである。一方、'nb'と書かれたブロックは、入力順でn番目のフィールドペアに含まれるボトムフィールドピクチャである。

ピクチャの動きベクトルに従って、１番目および３番目の符号化ユニット２１０１及び２１０３が第１の符号化ユニット構造（図６に示された構造）となり、２番目の符号化ユニット２１０２が第２の符号化ユニット構造（図１４に示された構造）となっている。符号化ユニットが第２の符号化ユニット構造を持つ場合、その符号化ユニットに含まれる各フィールドピクチャは、フィールド単位で、必ず個々に符号化される。

符号化構造２１１０は、各ピクチャの符号化の際のピクチャ種別を符号化順に表わす。図８に示された例と異なり、何れのレイヤレベルのピクチャも、他のレイヤレベルのピクチャを参照可能とする。また符号化ユニット内の表示順で最後のトップフィールドは、他のピクチャから参照可能とする。

図１６を参照しつつ、図１５に示された符号化ユニット及びピクチャ構造に基づく、各ピクチャのパラメータ及びDPB状態を説明する。なお、動画像復号装置２０では、局所復号ピクチャは、復号ピクチャと読み替える。図１６において、横軸は符号化（復号）順序を示す。
本実施例では、図８の例と同様に、DPBのバンク数（参照ピクチャ及び局所復号ピクチャの両方を含む）は8であり、L0、L1方向のそれぞれの参照ピクチャ数の上限は2である。バンク数及び参照ピクチャ数の上限は、例えば、何れも外部設定され、制御部１１に通知される。動画像復号装置２０では、バンク数及び参照ピクチャ数の上限は、ビットストリーム内のパラメータ値で設定される。

ブロック列２１２０は、図１５に示された各ピクチャのピクチャ構造及びPOC値を符号化順に示す。ここで、ブロック内の数値は、図１５に示された各ピクチャのPOC値である。白塗りのブロックは、そのブロック内に示されたPOC値を持つピクチャがフィールド符号化されることを表す。一方、網掛けのブロックは、そのブロック内に示されたPOC値を持つピクチャがフレーム符号化されることを表す。

テーブル２１３０は、各符号化ピクチャに含まれるパラメータを示す。第１の実施形態と異なり、POC値が8もしくは9以外のフィールドピクチャのパラメータPairPicPocは、未定義となる。図１１のビットストリーム構造に含まれるパラメータPairPocPicDiffは0に設定される。

テーブル２１４０は、RefPicPoc情報に基づいて制御されたDPBの内容を示す。各バンク名と同じ列に記された番号は、そのバンクに保存されているピクチャのPOC値を表す。例えば、バンク0には、POC値が0のピクチャを符号化する時に、そのピクチャの局所復号ピクチャが保存される。なお、局所復号ピクチャが保存されるバンクは網掛けで表示される。次に、POC値が1のピクチャが符号化される時に、POC値が0のピクチャは参照ピクチャとして扱われる。POC値が0のピクチャは、その後POC値が16のピクチャが符号化されるまでバンク0に保存される。

テーブル２１５０は、DPBに記憶されているピクチャに基づいて生成された参照ピクチャのリストL0、L1を示す。この例では、２番目の符号化ユニットに含まれるフィールドピクチャ8及び9を含むフィールドペアのみが、参照フレームとして、フレームピクチャ16から参照される。それ以外では、各フィールドピクチャは、それぞれ、フィールドとして符号化対象ピクチャから参照される。

なお、フィールドピクチャのパラメータPairPicPocは、そのパラメータを含むフィールドピクチャのPOC値と同じ値を有してもよい。この場合も、パラメータPairPocPicDiffは0に設定される。フレームピクチャがそのフィールドピクチャを参照する場合には、そのフィールドピクチャを、トップフィールド及びボトムフィールドとしてインタリーブすることにより、参照フレームピクチャが生成される。

なお、変形例によれば、参照ペア情報は、時間的に離れたトップフィールドピクチャとボトムフィールドピクチャとの組み合わせを指定してもよい。これにより、動画像符号化装置は、フレーム単位でピクチャを符号化する際に、より柔軟に参照されるフレームピクチャを生成できるので、符号化効率をより向上できる。
この場合、パラメータPairPicPocは、フィールドペアを組むもう一つのフィールドピクチャのPOC値を有さなくてもよい。図１６の例において、POC値が6のフィールドピクチャが参照ピクチャとなる場合、POC値が9のフィールドピクチャのパラメータPairPicPocが6に設定され、POC値が6のフィールドピクチャのパラメータPairPicPocが9に設定されてもよい。この場合、POC値が16のフレームピクチャのL0[0]は6となり、POC値が6のピクチャとPOC値が9のピクチャとをインタリーブしたフレームピクチャが、POC値が16のフレームピクチャによって参照される。

また、他の変形例によれば、動画像符号化装置は、参照ペア情報であるパラメータPairPicPocに指定されるPOC値を、トップフィールドとボトムフィールドで異なる値としてもよい。例えば、各フィールドについて、パラメータPairPicPocに指定されるPOC値は、表示順で一つ前のフィールドのPOC値であってもよい。これにより、動画像符号化装置は、トップフィールドを基準として参照フレームとなるフィールドペアを決定する場合と、ボトムフィールドを基準として参照フレームとなるフィールドペアを決定する場合とで、異なる参照フレームを作成できる。そのため、動画像符号化装置は、フレーム単位でピクチャを符号化する際に、参照されるフレームピクチャとしてより最適化なものを選択可能にできるので、符号化効率をより向上できる。

上述した実施形態またはその変形例による動画像符号化装置、及び動画像復号装置は、様々な用途に利用される。例えば、この動画像符号化装置、及び動画像復号装置は、ビデオカメラ、映像送信装置、映像受信装置、テレビ電話システム、コンピュータあるいは携帯電話機に組み込まれる。

図１７は、上記の実施形態またはその変形例による動画像符号化装置または動画像復号装置の各部の機能を実現するコンピュータプログラムが動作することにより、動画像符号化装置または動画像復号装置として動作するコンピュータの構成図である。

コンピュータ１００は、ユーザインターフェース部１０１と、通信インターフェース部１０２と、記憶部１０３と、記憶媒体アクセス装置１０４と、プロセッサ１０５とを有する。プロセッサ１０５は、ユーザインターフェース部１０１、通信インターフェース部１０２、記憶部１０３及び記憶媒体アクセス装置１０４と、例えば、バスを介して接続される。

ユーザインターフェース部１０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部１０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部１０１は、例えば、ユーザの操作に応じて、符号化する動画像データあるいは復号する符号化動画像データを選択する操作信号をプロセッサ１０５へ出力する。またユーザインターフェース部１０１は、プロセッサ１０５から受け取った、復号された動画像データを表示してもよい。

通信インターフェース部１０２は、コンピュータ１００を、動画像データを生成する装置、例えば、ビデオカメラと接続するための通信インターフェース及びその制御回路を有してもよい。そのような通信インターフェースは、例えば、Universal Serial Bus（ユニバーサル・シリアル・バス、USB）とすることができる。

さらに、通信インターフェース部１０２は、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。

この場合には、通信インターフェース部１０２は、通信ネットワークに接続された他の機器から、符号化する動画像データまたは復号する符号化動画像データを取得し、それらのデータをプロセッサ１０５へ渡す。また通信インターフェース部１０２は、プロセッサ１０５から受け取った、符号化動画像データまたは復号された動画像データを通信ネットワークを介して他の機器へ出力してもよい。

記憶部１０３は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部１０３は、プロセッサ１０５上で実行される、動画像符号化処理または動画像復号処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。また記憶部１０３は、上記の各実施形態または変形例によるフレームバッファとして機能してもよい。

記憶媒体アクセス装置１０４は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０６にアクセスする装置である。記憶媒体アクセス装置１０４は、例えば、記憶媒体１０６に記憶されたプロセッサ１０５上で実行される、動画像符号化処理または動画像復号処理用のコンピュータプログラムを読み込み、プロセッサ１０５に渡す。

プロセッサ１０５は、上記の実施形態または変形例による動画像符号化処理用コンピュータプログラムを実行することにより、符号化動画像データを生成する。そしてプロセッサ１０５は、生成された符号化動画像データを記憶部１０３に保存し、または通信インターフェース部１０２を介して他の機器へ出力する。またプロセッサ１０５は、上記の実施形態または変形例による動画像復号処理用コンピュータプログラムを実行することにより、符号化動画像データを復号する。そしてプロセッサ１０５は、復号された動画像データを記憶部１０３に保存し、ユーザインターフェース部１０１に表示し、または通信インターフェース部１０２を介して他の機器へ出力する。

なお、動画像符号化装置１０の各部の機能をプロセッサ上で実行可能なコンピュータプログラムは、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。同様に、動画像復号装置２０の各部の機能をプロセッサ上で実行可能なコンピュータプログラムは、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。ただし、そのような記録媒体には、搬送波は含まれない。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１０動画像符号化装置
１１制御部
１２参照ピクチャ管理部
１３ソース符号化部
１４バッファインタフェース部
１５フレームバッファ
１６エントロピー符号化部
２０動画像復号装置
２１エントロピー復号部
２２参照ピクチャ管理部
２３バッファインタフェース部
２４フレームバッファ
２５ソース復号部

Claims

動画像に含まれる複数のフィールドピクチャをインター予測符号化する動画像符号化装置であって、
前記複数のフィールドピクチャのうち、符号化済みのフィールドピクチャを保存するバッファメモリと、
二つのフィールドピクチャを含むペアをインターリーブしてフレームピクチャを作成する場合に、前記複数のフィールドピクチャのそれぞれに前記ペアとなる他方のフィールドピクチャを指定する参照ペア情報を付加する制御部と、
前記複数のフィールドピクチャのうち、符号化されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャを符号化対象ピクチャとしてインター予測符号化する場合に、前記バッファメモリに保存された符号化済みのフィールドピクチャの前記参照ペア情報を参照して特定されたペアをインターリーブすることで参照ピクチャとしてフレームピクチャを生成するバッファインタフェース部と、
前記符号化対象ピクチャがフレームピクチャである場合、当該符号化対象ピクチャを前記参照ピクチャを用いてフレームピクチャ単位でインター予測符号化することで符号化データを生成する符号化部と、
前記符号化データ及び前記参照ペア情報をエントロピー符号化することにより、エントロピー符号化された参照ペア情報を含む、符号化された動画像データを生成するエントロピー符号化部と、
を有する動画像符号化装置。
前記符号化対象ピクチャが属する、複数のピクチャ間の参照関係が規定される単位となる符号化ユニットの当該参照関係を表す構造及び前記符号化対象ピクチャの符号化順序に基づいて、前記バッファメモリに保存する前記符号化済みのフィールドピクチャを決定し、前記バッファメモリに保存されている前記符号化済みのフィールドピクチャのうちで前記参照ピクチャとして利用可能なフィールドピクチャを特定する参照ピクチャ情報を作成し、該参照ピクチャ情報を前記符号化部へ通知する参照ピクチャ管理部をさらに有し、
前記符号化部は、前記参照ピクチャ情報に基づいて、前記バッファメモリから読み出して前記参照ピクチャとして利用する符号化済みのフィールドピクチャを指定する情報を前記バッファインタフェース部へ通知する、請求項１に記載の動画像符号化装置。
前記制御部は、前記複数のフィールドピクチャのうち、時間的に連続する二つのフィールドピクチャ間で、当該二つのフィールドピクチャに写っている物体の動き量を求め、該動き量が第１の閾値未満である場合、当該二つのフィールドピクチャをインターリーブすることにより作成されるフレームピクチャを前記符号化対象ピクチャとすることを前記符号化部に通知し、一方、前記動き量が前記第１の閾値以上である場合、前記二つのフィールドピクチャのそれぞれを別個に符号化対象ピクチャとすることを前記符号化部に通知する、請求項２に記載の動画像符号化装置。
前記制御部は、前記符号化ユニットに含まれる、表示順序で連続する二つのフィールドピクチャのそれぞれについて、当該二つのフィールドピクチャに写っている物体の動き量を求め、前記符号化ユニット全体で前記動き量を平均することで得られた平均動き量が第２の閾値未満である場合、前記符号化ユニットに含まれる各フィールドピクチャについて、表示順序で連続する二つのフィールドピクチャのペアごとに符号化順序を設定し、
一方、前記平均動き量が前記第２の閾値以上である場合、前記符号化ユニットに含まれるフィールドピクチャごとに符号化順序を設定する、請求項３に記載の動画像符号化装置。
インター予測符号化された複数のフィールドピクチャを含む符号化動画像を復号する動画像復号装置であって、
エントロピー符号化された、復号対象ピクチャの符号化データと、二つのフィールドピクチャを含むペアをインターリーブしてフレームピクチャを作成する場合に、前記複数のフィールドピクチャのそれぞれについて前記ペアとなる他方のフィールドピクチャを指定する参照ペア情報とを復号するエントロピー復号部と、
前記複数のフィールドピクチャのうち、復号済みのフィールドピクチャを保存するバッファメモリと、
復号対象ピクチャが、前記複数のフィールドピクチャのうちの復号されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャである場合に、前記参照ペア情報を参照して、参照ピクチャを生成するための復号済みの二つのフィールドピクチャを決定する参照ピクチャ管理部と、
前記複数のフィールドピクチャのうち、復号されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャを前記復号ピクチャとしてインター予測復号する場合に、前記バッファメモリに保存された復号済みのフィールドピクチャのなかから、前記参照ペア情報に基づいて決定された復号済みの二つのフィールドピクチャのペアをインターリーブすることで前記参照ピクチャとしてフレームピクチャを生成するバッファインタフェース部と、
前記復号対象ピクチャがフレームピクチャである場合、当該復号対象ピクチャの符号化データを前記参照ピクチャを用いてフレームピクチャ単位でインター予測復号することで当該復号対象ピクチャを復号する復号部と、
を有する動画像復号装置。
動画像に含まれる複数のフィールドピクチャをインター予測符号化する動画像符号化方法であって、
前記複数のフィールドピクチャのうち、符号化済みのフィールドピクチャをバッファメモリに保存し、
二つのフィールドピクチャを含むペアをインターリーブしてフレームピクチャを作成する場合に、前記複数のフィールドピクチャのそれぞれに前記ペアとなる他方のフィールドピクチャを指定する参照ペア情報を付加し、
前記複数のフィールドピクチャのうち、符号化されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャを符号化対象ピクチャとしてインター予測符号化する場合に、前記バッファメモリに保存された符号化済みのフィールドピクチャの前記参照ペア情報を参照して特定されたペアをインターリーブすることで参照ピクチャとしてフレームピクチャを生成し、
前記符号化対象ピクチャがフレームピクチャである場合、当該符号化対象ピクチャを前記参照ピクチャを用いてフレームピクチャ単位でインター予測符号化することで符号化データを生成し、
前記符号化データ及び前記参照ペア情報をエントロピー符号化することにより、エントロピー符号化された参照ペア情報を含む、符号化された動画像データを生成する、
ことを含む動画像符号化方法。
インター予測符号化された複数のフィールドピクチャを含む符号化動画像を復号する動画像復号方法であって、
エントロピー符号化された、復号対象ピクチャの符号化データと、二つのフィールドピクチャを含むペアをインターリーブしてフレームピクチャを作成する場合に、前記複数のフィールドピクチャのそれぞれについて前記ペアとなる他方のフィールドピクチャを指定する参照ペア情報とを復号し、
前記複数のフィールドピクチャのうち、復号済みのフィールドピクチャをバッファメモリに保存し、
復号対象ピクチャが、前記複数のフィールドピクチャのうちの復号されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャである場合に、前記参照ペア情報を参照して、参照ピクチャを生成するための復号済みの二つのフィールドピクチャを決定し、
前記複数のフィールドピクチャのうち、復号されていない二つのフィールドピクチャをインターリーブすることで作成されるフレームピクチャを前記復号ピクチャとしてインター予測復号する場合に、前記バッファメモリに保存された復号済みのフィールドピクチャのなかから、前記参照ペア情報に基づいて決定された復号済みの二つのフィールドピクチャのペアをインターリーブすることで前記参照ピクチャとしてフレームピクチャを生成し、
前記復号対象ピクチャがフレームピクチャである場合、当該復号対象ピクチャの符号化データを前記参照ピクチャを用いてフレームピクチャ単位でインター予測復号することで当該復号対象ピクチャを復号する、
ことを含む動画像復号方法。