JP5281623B2

JP5281623B2 - 画像符号化方法，画像復号方法，画像符号化装置，画像復号装置およびそれらのプログラム

Info

Publication number: JP5281623B2
Application number: JP2010218036A
Authority: JP
Inventors: 信哉志水; 宣彦松浦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2013-09-04
Anticipated expiration: 2030-09-29
Also published as: TWI508529B; EP2624566A1; KR20130059422A; WO2012043330A1; JP2012074917A; CA2811898A1; CN103098475A; US9031338B2; KR101552664B1; TW201225677A; EP2624566A4; CN103098475B; US20130170763A1; BR112013008046A2

Description

本発明は，画像の符号化および復号技術に関し，特に距離画像のような画像の符号化に適した画像符号化方法，画像復号方法，画像符号化装置，画像復号装置およびそれらのプログラムに関するものである。

距離画像とは，カメラから被写体までの距離を画素値として表現した画像のことである。カメラから被写体までの距離はシーンの奥行きとも言えるため，距離画像は奥行き画像と呼ばれることもある。また，奥行きはデプス（Ｄｅｐｔｈ）とも呼ばれるため，デプスマップ（ＤｅｐｔｈＭａｐ）と呼ばれることもある。コンピュータグラフィックスの分野では，デプスはＺバッファに蓄積された情報となるためＺ画像やＺマップと呼ばれることもある。なお，カメラから被写体までの距離の他に，表現対象空間上に張られた三次元座標系のＺ軸に対する座標値を距離（デプス）として用いることもある。一般に，撮影された画像に対して水平方向をＸ軸，垂直方向をＹ軸とするため，Ｚ軸はカメラの向きと一致するが，複数のカメラに対して共通の座標系を用いる場合など，Ｚ軸がカメラの向きと一致しない場合もある。以下では，距離・奥行き・Ｚ値を区別せずに距離情報と呼び，距離情報を画素値として表した画像を距離画像と呼ぶ。

距離情報を画素値として表す際に，物理量に対応する値をそのまま画素値とする方法と，最小値と最大値の間をある数に量子化して得られる値を用いる方法と，最小値からの差をあるステップ幅で量子化して得られる値を用いる方法がある。表現したい範囲が限られている場合には，最小値などの付加情報を用いるほうが距離情報を高精度に表現することができる。また，等間隔に量子化する際に，物理量をそのまま量子化する方法と物理量の逆数を量子化する方法とがある。一般に距離情報の逆数は視差に比例した値となるため，距離情報を高精度に表現する必要がある場合には，前者が使用され，視差情報を高精度に表現する必要がある場合には，後者が使用されることが多い。以下では，距離情報の画素値化の方法や量子化の方法に関係なく，距離情報が画像として表現されたものを全て距離画像と呼ぶ。

距離画像の利用用途の１つとして立体画像がある。一般的な立体画像の表現では，観測者の右目用の画像と左目用の画像からなるステレオ画像であるが，あるカメラにおける画像とその距離画像とを用いて立体画像を表現することができる（詳しい技術は非特許文献１を参照）。

このような１視点における映像と距離画像とを用いて表現された立体映像を符号化する方式には，ＭＰＥＧ−ＣＰａｒｔ．３(ISO/IEC 23002-3) を使用することが可能である（詳しい内容は非特許文献２を参照）。

映像と距離画像とを複数視点に対して持つことで，単視点の場合に表現可能な立体映像よりも，大きな視差を持った立体映像を表現することが可能となる（詳細は非特許文献３を参照）。

また，このような立体映像を表現する用途以外に，距離画像は，鑑賞者が撮影カメラの配置を気にせずに自由に視点を移動できる自由視点映像を生成するデータの１つとしても使用される。このような撮影カメラとは別のカメラからシーンを見ているとしたときの合成画像を仮想視点画像と呼ぶことがあり，Image-based Rendering の分野で盛んにその生成法が検討されている。多視点の映像と距離画像とから仮想視点映像を生成する代表的な手法としては，非特許文献４に記載の手法がある。

距離画像は１つのコンポーネントで構成されているため，グレースケール画像とみなすことができる。また，被写体が実空間上で連続的に存在し，瞬間的に離れた位置へ移動することができないため，画像信号と同様に空間的相関および時間的相関を持つと言える。したがって，通常の画像信号や映像信号を符号化するために用いられる画像符号化方式や動画像符号化方式によって，距離画像や距離動画像は空間的冗長性や時間的冗長性を取り除きながら効率的に符号化することが可能である。実際にＭＰＥＧ−ＣＰａｒｔ．３では，既存の動画像符号化方式を用いて符号化を行っている。

ここで，従来の一般的な映像信号の符号化方式について説明する。一般に被写体が実空間上で空間的および時間的連続性を持つことから，その見え方は空間的および時間的に高い相関をもつ。映像信号の符号化では，そのような相関性を利用して高い符号化効率を達成している。

具体的には，符号化対象ブロックの映像信号を既に符号化済みの映像信号から予測して，その予測残差のみを符号化することで，符号化する必要がある情報を減らし，高い符号化効率を達成する。代表的な映像信号の予想の手法としては，隣接するブロックから空間的に予測信号を生成する画面内予測や，異なる時刻に撮影された符号化済みフレームから被写体の動きを推定して時間的に予測信号を生成する動き補償予測がある。また，予測残差信号と呼ばれる予測の誤差も，空間的な相関と人間の視覚特性を利用するために，ＤＣＴ等を用いて予測残差信号を周波数空間でのデータへ変換し，低周波領域に残差信号のエネルギーを集中させることで，効率的に符号化を行う。各手法の詳細は動画像国際標準規格のＭＰＥＧ−２やＨ．２６４／ＭＰＥＧ−４ＡＶＣ（非特許文献５）を参照されたい。

C. Fehn, P. Kauff, M. Op de Beeck, F. Emst, W. IJsselsteijn, M. Pollefeys, L. Van Gool, E. Ofek and I. Sexton, "An Evolutionary and Optimised Approach on 3D-TV", Proceedings of International Broadcast Conference, pp.357-365, Amsterdam, The Netherlands, September 2002. W.H.A. Bruls, C. Varekamp, R. Klein Gunnewiek, B. Barenbrug and A. Bourge, "Enabling Introduction of Stereoscopic (3D) Video: Formats and Compression Standards", Proceedings of IEEE International Conference on Image Processing, pp.I-89-I-92, San Antonio, USA, September 2007. A. Smolic, K. Mueller, P. Merkle, N. Atzpadin, C. Fehn, M. Mueller, O. Schreer, R. Tanger, P. Kauff and T. Wiegand, "Multi-view video plus depth (MVD) format for advanced 3D video systems", Joint Video Team of ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6, Doc. JVT-W100, San Jose, USA, April 2007. C. L. Zitnick, S. B. Kang, M. Uyttendaele, S. A. J. Winder, and R. Szeliski, "High-quality Video View Interpolation Using a Layered Representation", ACM Transactions on Graphics, vol.23, no.3, pp.600-608, August 2004. Recommendation ITU-T H.264, "Advanced video coding for generic audiovisual services", March 2009.

被写体は実空間上で連続であるため高い空間相関をもち，瞬間的に離れた位置へ移動することが不可能であるため高い時間相関を持つ。したがって，空間相関と時間相関とを利用する既存の動画像符号化方式を用いることで，グレースケール画像として表した距離画像を効率的に符号化することが可能である。

しかしながら，距離情報は被写体内部では変化が少なく，被写体間では非常に大きな違いがあることから，空間的または時間的な予測の結果，正確な予測が達成できて予測残差が非常に小さくなるか，全く有効な予測ができず予測残差が非常に大きくなってしまうかのどちらかとなる。つまり，予測残差信号に強いエッジが生成されることになる。そのような強いエッジは，ＤＣＴ等を用いて周波数空間でのデータへ変換されると，低周波領域に残差信号のエネルギーを集中させることができず，多くの高周波成分が生じることになる。その結果，残差信号を効率的に符号化することができない。

図２３に，ある距離画像の９×９画素のブロックの一例を示した。このブロックには２つの被写体が存在し，一方の画素値が５０前後で，もう一方の画素値が２００前後である。空間的な予測では，このブロックの１行目と１列目の情報を用いて残りの８×８画素を予測する。予測の方法には様々なものがあるが，ここではＨ．２６４に採用されている代表的な２つの予測方法，水平予測と垂直予測の２つの例を示した。図の右側に示されるとおり，予測残差には大きく分けて−１５０前後，０前後，１５０前後の３種類の値しか存在せず，かなり大きなエッジが生じている。

図２４は，図２３に示した予測残差に８×８の二次元ＤＣＴをかけた結果を示している。直流（ＤＣ）成分は図の一番奥になり，左右に行くほど高周波を表している。図から明らかなように，どちらの場合にも，多くの高周波領域に大きな信号が生じており，残差信号のコンパクト化に失敗していることが分かる。

予測を行わずに，ＤＣＴ等の変換のみを用いて符号化することも可能であるが，別のブロックとの空間的相関を取り除くことができず，さらに符号化効率が悪化してしまう。また，ＤＣＴ等の変換を行わないで符号化することも可能であるが，その場合には，ブロック内の局所的な相関を利用することができず，効率的な符号化を達成することができない。

本発明は，以上のような事情に鑑みてなされたものであって，距離画像のような画素値がオブジェクトに大きく依存する画像に対して，オブジェクトごとの代表画素値とオブジェクト識別情報を用いることで，画素値がオブジェクトに大きく依存する画像を効率的に符号化する画像符号化技術およびそのビットストリームを復号する画像復号技術を提供することを目的とする。

本発明は，上記課題を解決するため，画像を伝送または蓄積するにあたり，画像フレームを予め定められた大きさの処理領域（以下，ブロックともいう）に分割し，ブロックごとに各画素の画素値を予測しながら符号化を行う画像符号化において，ブロック内に，固定数の被写体またはブロックごとに可変数の被写体が存在すると仮定し，各ブロックの画像を，「各被写体を代表する画素値（以下，被写体画素値という）」，「各画素の被写体識別情報」という情報で表現する。すなわち，ブロック内の１つの画素に対して，どの被写体であるかを示す１つの被写体識別情報が割り振られ，１つの被写体識別情報には１つの被写体画素値が対応づけられる。この情報に従い，画素ごとに最も類似する値を割り当てるため，複雑なエッジ形状を保持した予測画像を生成することができる。なお，ブロック内に含まれる被写体の数は高々数個に限られるため，この情報の量は限られる。

ここでいう被写体とは，撮影されている個々の物体や人物そのものを意味するのではなく，情報を付与する対象であり，例えば類似する画像信号（輝度，色彩，デプスなど）を持つ領域である。つまり，単一物体であっても，場所によって異なる色を持つ場合には，複数の被写体とみなす。また，画像信号を符号化する必要のない物体や物体の一部分は被写体とはみなさない。すなわち，被写体は，フレーム内の実オブジェクト（被写体）とは関係なく，情報が付与されない実オブジェクトは，本発明でいう“被写体”ではない。また，１つの実オブジェクトに対して２つの情報が付与される場合には，それぞれ別の被写体として扱われる。

本発明およびその実施形態の説明で使用する用語を説明する。

「被写体数」：被写体数は，ブロック内に存在する“被写体”の数であり，情報を付与する対象の個数である。被写体数は，ブロック内の画素値を解析することで生成することができる。例えば，ブロック内の画素を画素値や位置などの情報を用いてクラスタリングし，各クラスタの評価値（例えば，画素値の分散）が一定値以下となるクラスタ数の最大値を被写体数とすることが可能である。また，経験などに基づいて外部から与えたり，予め定められた値を用いることも可能である。被写体数は，付加情報の１つである被写体画素値の個数を表現するために用いられる。また，被写体マップに登場する被写体識別子の最大値を表現するためにも用いられる。

「被写体画素値」：被写体画素値は，“被写体”に対して１つ定義される値であり，その“被写体”を代表する画素値である。画素値としては，輝度値や色差値，Ｒ値などを用いることができる。また，ＲＧＢ値などの複数の色コンポーネント値の集合を用いる場合もある。被写体画素値は，ブロック内の画素値を解析することで生成する。具体的には，ブロック内の画素を画素値や位置などの情報を用いて“被写体数”のクラスタにクラスタリングし，各クラスタごとに，含まれる画素の画素値に対する平均値や中央値を計算することで得る。ブロック内の各画素に対して，その画素の“被写体”に対応する被写体画素値を割り当てることで，そのブロックの予測画像を生成するために用いられる。

「被写体マップ」：被写体マップは，ブロック内の各画素にどの“被写体”が存在しているかを示したものである。具体的には，各画素を“被写体”（被写体画素値）に対応づけられた被写体識別子で表現したものである。最も単純な表現では２次元情報として表現できるが，木構造を用いて表現することもできる。被写体マップは，ブロック内の各画素に対して，その画素値に最も近い被写体画素値に対応する被写体識別子を割り当てることで生成する。なお，画素値と被写体画素値の類似度だけでなく，被写体マップ自体の表現に必要なビット数も鑑みて生成することもある。被写体マップは，予測画素を生成する際に，ブロック内の各画素に対して，どの被写体画素値を割り当てるのかを示すために用いられる。

「付加情報」：本発明で処理対象フレームの画像（映像）信号を予測するために用いる情報を付加情報と呼ぶ。付加情報は処理を行うブロック単位で生成される。付加情報は，基本的には，被写体数・被写体画素値・被写体マップの３つの情報で構成される。

本発明の画像符号化では，以下の処理を行う。
（１）ブロック内に存在する被写体の数を被写体数として設定する。
（２）ブロック内に被写体数だけの被写体が存在すると仮定して，被写体ごとに１つの画素値を被写体画素値として設定する。
（３）被写体を識別する被写体識別子と被写体画素値とを対応づけ，ブロック内の各画素の画素値と被写体画素値とから，ブロック内の各画素にどの被写体が撮影されているかを被写体識別子で示す被写体マップを生成する。
（４）被写体マップに従って各画素に被写体画素値の値を割り当てることでブロックに対する予測画像を生成する。
（５）被写体マップを符号化する。
（６）被写体画素値を符号化する。
（７）予測画像を用いてブロックに対する画像信号を予測符号化する。
（８）被写体マップの符号データ，被写体画素値の符号データ，画像信号の符号データを多重化して出力する。

以上のように，本発明では，予測画像を生成するために，被写体の代表的な画素値である被写体画素値，およびどの被写体画素値を用いて予測画像を生成するかを画素ごとに示す被写体マップの２つの付加情報を用いる。予測画像の生成に「予測方向」という情報を用いていた従来技術と比較して，本発明は，付加情報の符号量が増加するが，正確な予測画像を生成することで，予測残差の符号化に必要な符号量を大幅に減らし，トータルとしてブロックあたりに必要な符号量を削減することができる。

さらに，本発明は，上記（１）の被写体数を設定するステップにおいて，ブロック内の画素の情報からブロック内の被写体の数を推定して被写体数とする処理を行い，この被写体を符号化し，被写体数の符号データを付加情報として他の符号データと多重化して出力するようにしてもよい。これにより，ブロックごとに最適な被写体数を設定し，予測精度を高めることができる。

また，本発明は，上記（６）の被写体画素値を符号化するステップにおいて，被写体識別子ごとに，被写体マップで該被写体識別子が使用されているか否かをチェックし，使用されている場合には，該被写体識別子に対応する被写体画素値を符号化し，使用されていない場合には，該被写体識別子に対応する被写体画素値の符号化を省略することもできる。ブロック内の画素の予測で使用されていない被写体画素値の符号化を省くことで，より符号量の削減が可能になる。

また，本発明は，上記（７）の画像信号を予測符号化するステップにおいて，予測画像に対してディザを加え，ディザを加えられた予測画像を用いて符号化対象のブロックに対する画像信号を予測符号化してもよい。予測画像にディザを加えることにより，被写体の個数が限られていても，より自然画に近い変化を与えることができる。

本発明の画像復号では，以下の処理を行う。
（１）ブロック内に存在する被写体の数を被写体数として設定する。
（２）復号対象となる符号データから，被写体マップを復号する。
（３）各被写体識別子ごとに１つ設定された被写体画素値を符号データから復号する。
（４）被写体マップに従って各画素に被写体画素値の値を割り当てることでブロックに対する予測画像を生成する。
（５）予測画像を用いてブロックに対する画像信号を符号データから復号する。

これにより，上記画像符号化によって符号化された画像を復号することができる。

また，本発明は，上記（１）の被写体数を設定するステップにおいて，被写体数を符号データから復号して設定してもよい。

また，本発明は，上記（３）の被写体画素値を復号するステップにおいて，被写体マップに現れた被写体識別子に対応する被写体画素値だけを復号するようにしてもよい。

また，本発明は，上記（５）の画像信号を復号するステップにおいて，予測画像に対してディザを加え，ディザを加えられた予測画像を用いてブロックに対する画像信号を符号データから復号するようにしてもよい。

本発明によれば，距離画像のような画素値が被写体に大きく依存し，局所的には限られた数の被写体しか存在しないような画像に対して，被写体ごとの代表画素値と被写体識別情報を用いることで，高精度な予測を実現することが可能となり，効率的な画像符号化を実現することができる。すなわち，本発明を用いることにより，複雑な形状を持つ被写体に対して，正確にエッジを保持した正確な予測画像を提供することで，予測残差符号化に必要な符号量を削減することができる。

本発明の第１実施形態による画像符号化装置の構成を示すブロック図である。第１実施形態による画像符号化装置の処理フローチャートである。第１実施形態による画像符号化装置の他の構成例を示すブロック図である。被写体マップの例を示す図である。被写体識別子を符号化する例を説明する図である。木構造被写体マップの例を示す図である。木構造被写体マップの例を示す図である。被写体マップに現れた被写体識別子に対する被写体画素値のみを符号化する場合の処理フローチャートである。被写体画素値の予測を行って被写体画素値を符号化する場合の処理フローチャートである。第２実施形態による画像復号装置の構成を示すブロック図である。第２実施形態による画像復号装置の処理フローチャートである。第２実施形態による画像復号装置の他の構成例を示すブロック図である。復号された木構造被写体マップの例を示す図である。復号された被写体マップの例を示す図である。符号データのブロックごとのシンタックスの一例を示す図である。予測画像の生成に用いる付加情報のデータ構造の例１を示す図である。予測画像の生成に用いる付加情報のデータ構造の例２を示す図である。予測画像の生成に用いる付加情報のデータ構造の例３を示す図である。予測画像の生成に用いる付加情報のデータ構造の例４を示す図である。画像符号化装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成例を示す図である。画像復号装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成例を示す図である。本手法と従来手法を用いて符号化した場合の発生符号量の比較を示す図である。本発明の課題を説明する図である。本発明の課題を説明する図である。

本発明では，処理領域内の被写体ごとに１つの画素値を設定し，処理領域内の各画素に対して被写体を識別するための情報を与えて，予測画像を生成する。そのため，任意の被写体形状に対応して高精度な予測画像を生成することが可能となる。特に，画素値が被写体に依存して大きく異なる場合，参照先と予測先の被写体を一致させ，画素ごとの予測精度をほぼ同等にすることが可能となる。

また，画像全体では多数の画素値が存在していても，局所的には限られた数の画素値しかないと考えられるため，小さな領域ごとに被写体の画素値を設定することで，本発明では，被写体の局所的な特徴を利用して効率的な符号化を行うことができる。

以下，本発明の一実施形態を，図面を参照して説明する。

〔第１実施形態：画像符号化装置〕
まず，第１実施形態について説明する。図１は，本発明の第１実施形態による画像符号化装置の構成を示すブロック図である。画像符号化装置１００は，図１に示すように，符号化対象フレーム入力部１０１，符号化対象フレームメモリ１０２，被写体数設定部１０３，被写体画素値設定部１０４，被写体画素値符号化部１０５，被写体マップ生成部１０６，被写体マップ符号化部１０７，予測画像生成部１０８，画像信号符号化部１０９，および多重化部１１０を備えている。

符号化対象フレーム入力部１０１は，符号化対象となる画像フレームを入力する。符号化対象フレームメモリ１０２は，入力された符号化対象フレームを蓄積する。被写体数設定部１０３は，予め定められた大きさの処理領域に含まれる被写体数を設定する。被写体画素値設定部１０４は，処理領域に与えられた数の被写体が存在すると仮定して，各被写体に対して１つの画素値を設定する。被写体画素値符号化部１０５は，与えられた被写体ごとの画素値を符号化する。以下，ある領域に対して生成された被写体ごとの画素値を被写体画素値と呼ぶ。

被写体マップ生成部１０６は，処理領域内の各画素に撮影されている被写体を識別して被写体マップを生成する。被写体マップ符号化部１０７は，生成された被写体マップを符号化する。予測画像生成部１０８は，処理領域に対して生成された被写体画素値と被写体マップから，処理領域に対する予測画像を生成する。画像信号符号化部１０９は，処理領域ごとに予測画像を用いて符号化対象フレームの画像信号を符号化する。多重化部１１０は，被写体画素値の符号データと，被写体マップの符号データと，符号化対象フレームの画像信号の符号データを多重化して出力する。

図２は，第１実施形態による画像符号化装置１００の動作を説明するためのフローチャートである。このフローチャートに従って，画像符号化装置１００の実行する処理について詳細に説明する。

まず，符号化対象フレーム入力部１０１により，符号化対象フレームを入力し，符号化対象フレームメモリ１０２に格納する（ステップＳ１０１）。符号化対象フレームの格納が終了したら，符号化対象フレームを分割し，分割した領域ごとに，符号化対象フレームの画像信号を符号化する（ステップＳ１０２〜Ｓ１１２）。つまり，符号化対象ブロックインデックスをｂｌｋ，総符号化対象ブロック数をｎｕｍＢｌｋｓで表すとすると，ｂｌｋを０で初期化し（ステップＳ１０２），その後，ｂｌｋに１を加算しながら（ステップＳ１１１），ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳ１１２），以下の処理（ステップＳ１０３〜ステップＳ１１０）を繰り返す。

符号化対象ブロックごとに繰り返される処理では，まず，被写体数設定部１０３で，ブロックｂｌｋに含まれる被写体の数（被写体数ｎｕｍＯｂｊｓ）を設定する（ステップＳ１０３）。被写体数は復号側と同じ処理であれば，どのような処理を用いて決定してもかまわない。例えば，常に予め定められた数を設定してもかまわない。

また，符号化対象ブロックごとに異なる値を被写体数として設定してもかまわない。符号化対象ブロックごとに異なる値を設定する方法としては，符号化対象ブロックの画素値に従って被写体数を設定する方法がある。具体的には，符号化対象ブロックの画素に対してｋ−ｍｅａｎｓ法やＡｆｆｉｎｉｔｙＰｒｏｐａｇａｔｉｏｎなどのクラスタリング手法を用いて，各クラスタ内の画素値分散が予め定められた値以下になるクラスタリング結果のうち，最小のクラスタ数を被写体数にする方法がある。クラスタリングに用いる尺度としては，画素値のみを用いてもかまわないし，画素値と画素位置とからなる値を用いてもかまわない。別の方法としては，被写体数の候補ごとに，その被写体数を設定して符号化した場合の符号量と歪み量との重み付き和で与えられるレート歪みコストを計算し，そのコストが最小になる被写体数を設定する方法がある。

被写体数が大きくなると符号化効率が低下する場合があるため，被写体数の最大値を予め定めておき，被写体数が一定値以上になるのを防いでもかまわない。なお，符号化対象ブロックごとに異なる値を被写体数とする場合，被写体数は符号データを復号する際に必要となるため，設定した被写体数を符号データに含める必要がある。

図３は，被写体数を符号化する場合の画像符号化装置のブロック図である。被写体数を符号化する場合には，図１に示す画像符号化装置１００における被写体数設定部１０３の後に，被写体数設定部１０３が設定した被写体数を符号化する被写体数符号化部１１１を追加する。

被写体数を符号化する場合，設定した被写体数をそのまま符号化してもかまわないし，符号化対象ブロックに隣接する既に符号化済みの領域の情報を用いて予測した被写体数との差分値を符号化してもかまわない。予測の方法としては，既に符号化済みの隣接ブロックを符号化する際に用いられた被写体数の平均値や中央値を予測値とする方法がある。

また，被写体を符号化する場合，ブロックごとに符号化するのではなく，フレームやスライスと呼ばれる複数ブロックの集合ごとに被写体数を設定・符号化してもかまわない。このようにすることで，被写体数が領域に依存して変化するような場合に，効率的に被写体数を符号化することが可能となる。なお，フレームまたはスライス単位の被写体数の設定・符号化と，ブロックごとの被写体数の設定・符号化を組み合わせることも可能である。その場合，フレームまたはスライス単位では，そのフレームまたはスライスに含まれる複数ブロックの多くに当てはまると考えられる被写体数を設定・符号化し，ブロックごとにその被写体数からの変化量を設定・符号化する。ブロックごとに設定・符号化する変化量は，隣接する既に符号化済みの領域の情報を用いて予測し，変化量の予測差分として符号化することも可能である。

被写体数の設定が終了したら，次に，被写体画素値設定部１０４で，ブロックｂｌｋ内の被写体ごとに１つの画素値を設定し，被写体画素値Ｖａｌｕｅ（ｉ）とする（ステップＳ１０４）。ここでｉは，被写体を識別するための被写体識別子とし，０以上ｎｕｍＯｂｊｓ未満の整数である。また，被写体識別子は予め定められた規則に従って割り当てる。ここでは，被写体画素値が小さい順に割り当てられているとする。

被写体ごとに１つの画素値を設定する方法には，どのような方法を用いてもかまわない。例えば，画素値の値域を被写体数で均一量子化し，各範囲の中央値を設定してもかまわない。別の方法としては，ブロックｂｌｋの画素を前述のようなクラスタリング手法を用いて，ｎｕｍＯｂｊｓ個のクラスタに分割し，各クラスタに含まれる画素の画素値の平均値や中央値を，被写体画素値とする方法がある。なお，被写体数を設定する際に，ブロックｂｌｋの画素をクラスタリングしている場合には，被写体数と被写体画素値を同時に設定してもかまわない。

さらに別の方法としては，ｎｕｍＯｂｊｓ個以下のクラスタ数で，クラスタ内の画素値分散値の最大値が別途定められた閾値より小さくなる最小のクラスタ数で分割して，クラスタごとの平均値や中央値を被写体画素値に設定し，ｎｕｍＯｂｊｓ個に不足する分は適当に被写体画素値を設定する方法がある。常に被写体数が一定の場合，本来は単一オブジェクトしか存在しない場合にも，複数の被写体が存在すると仮定することにより，過度に高精度な予測を提供し，後述の被写体マップの符号量が増大してしまう可能性がある。しかし，ターゲットとなるビットレートに応じて閾値を定めて，ｎｕｍＯｂｊｓによらずに被写体識別子を定めることで，符号量が多くなり過ぎるのを防ぐことが可能となる。

被写体画素値が得られたら，次に，被写体マップ生成部１０６でブロックｂｌｋに対して被写体マップを生成する（ステップＳ１０５）。

ここで，被写体マップとは，ブロックｂｌｋの各画素に対して，被写体識別子を割り当てたものである。被写体マップは，例えば図４のような２次元情報である。各画素に対して被写体識別子を割り当てる方法としては，各画素に対して，その画素値に最も近い被写体画素値を持つ被写体識別子を割り当てる方法がある。また，別の方法として，被写体画素値を設定する際にクラスタリングを行っている場合には，その結果を利用して，クラスタごとに割り当てられた被写体識別子を，そのクラスタに属する画素に対して設定する方法がある。

さらに別の方法としては，複数の被写体マップ候補を生成し，被写体マップ候補ごとに，その被写体マップ候補を用いて符号化を行った際の符号量と歪み量との重み付き和で与えられるレート歪みコストを計算し，その値が最小となるものを被写体マップとして設定する方法がある。可能性のある全ての被写体マップを被写体マップ候補にしてもかまわないし，限定したいくつかの特徴的な被写体マップのみを被写体マップ候補にしてもかまわない。特徴的な被写体マップとしては，各画素に対して，その画素値に最も近い被写体画素値を持つ被写体識別子を割り当てて生成した被写体マップや，全ての画素が同じ被写体識別子となるような被写体マップや，水平や垂直に２分割された被写体マップなどがある。

次に，生成された被写体マップを，被写体マップ符号化部１０７で符号化する（ステップＳ１０６）。符号化には，どのような方法を用いてもかまわない。例えば，被写体数に応じて各被写体識別子に固定長または可変長の符号を割り当て，ラスタースキャンやジグザグスキャンなどを用いて２次元のマップ情報を１次元のバイナリデータへ変換することで符号化してもかまわない。

別の方法としては，予め定められた順序にスキャンしながらブロックｂｌｋ内の各画素に対する被写体識別子を符号化する際に，各画素に対して周囲の既に符号化済みの画素を参照画素に設定し，その参照画素における被写体識別子に応じて，確率テーブルを変化させながら算術符号化する方法がある。例えば，被写体数が３の際に，図５のように３つの参照画素を定義する場合には，参照画素における被写体識別子の組み合わせごとに，符号化対象画素における被写体識別子の確率テーブルを定義することができる。つまり，この場合には２７通りの確率テーブルを用いて符号化する。この確率テーブルは復号側で同じものが得られる限りは，固定のものであっても，それまでの符号化履歴に応じて更新を行う可変の確率テーブルであってもかまわない。一般に同じ被写体は連続して出現するため，このように周辺の状況を用いることで，符号化対象シンボルの発生確率をより高精度に表現することが可能となり，算術符号化における符号化効率を向上させることが可能となる。なお，より広範囲の周辺画素の情報を用いることで，発生確率を高精度に予測することが可能となる。

なお，参照画素の設定方法によっては，画面端において一部の参照画素が存在しない場合や，Ｈ．２６４／ＡＶＣのようにブロックごとに異なる予測モードを切り替えて用いる際に参照画素において被写体識別子が存在しない場合がある。そのような画素に対しては，予め定められた被写体識別子を割り当てるか，別途不明のラベルを割り当てて別の確率テーブルを定義することで，上記のような場合を考慮して被写体マップの算術符号化の符号化効率を向上させることが可能である。

さらに別の方法として，被写体マップを木構造の情報に変換してから符号化する方法がある。具体的には，ブロックｂｌｋをルートとして，各ノードの子ノードには，親ノードのブロックを分割した複数のサブブロックを対応させた木構造を用いる。このような木構造を用いることで，まとまって存在する単一オブジェクトの画素集合を効率よく表現することが可能となり，符号化効率を向上させることが可能となる。

木構造としては，任意の定義のものを用いることが可能である。例えば，各ノードに対して，そのノードに対応するブロック内の全ての画素の被写体識別子が同じか否かを表すバイナリ情報を付加し，子ノードとして，被写体識別子が全て同じ場合にはその被写体識別子の番号を持つリーフ，被写体識別子が全て同じではない場合には自身のブロックを４分割して生成したサブブロックに対応する４つのノードを定義して木構造の情報を生成することができる。なお，対応するブロックが１画素になった場合には，全ての画素の被写体識別子が同じか否かを表すバイナリ情報のノードを省略することができる。図４の被写体マップに対して，以上の方法により生成した木構造を図６に示す。

別の定義としては，各ノードに対して，そのノードに対応するブロック内の全ての画素の被写体識別子が同一な場合にはその被写体識別子の番号に１を足した数，そうでない場合には０を情報として付与し，情報０を付与されたノードに対してのみ，そのブロックを４分割したサブブロックに対する子ノードを定義する方法もある。図４の被写体マップに対して，この方法で生成した木構造が図７である。

生成された木を符号化する際には，木を深さ優先探索，または幅優先探索してスキャンし，スキャン順に各ノードの持つ情報を符号化する。このときリーフとリーフ以外を分けて符号化することも可能である。図６を木の深さ優先探索によるスキャン結果の数列は，01001000222110221201011000011111となる。これをリーフとそれ以外とで分けると，リーフは0002221221201000111 ，リーフ以外は，0101010011011 となる。図７の木の深さ優先探索によるスキャン結果の数列は，0101013332033230120111222 となる。

数列はそのまま２値化して符号データとしてもかまわないし，隣接画素における被写体識別子の状況に応じて確率テーブルを切り替えながら算術符号化してもかまわない。例えば，図６のリーフ以外を符号化する場合，各ノードに対応するブロックに隣接する画素の被写体識別子を調べ，最も画素数が多い被写体識別子に対する画素数に応じて確率テーブルを切り替える方法がある。また，図６のリーフを符号化する場合には，各ノードに対応するブロックに隣接する画素の被写体識別子の状況に応じて確率テーブルを切り替える方法がある。なお，確率テーブルは復号側で同じものが得られる限りは，固定のものであっても，それまでの符号化履歴に応じて更新を行う可変の確率テーブルであってもかまわない。

被写体マップの符号化が終了したら，次に，被写体画素値符号化部１０５で，被写体識別子ごとに被写体画素値を符号化する（ステップＳ１０７）。被写体画素値をそのまま符号化してもかまわないし，隣接ブロックにおける被写体画素値や，既に符号化した同じブロックの被写体画素値を用いて予測を行い，予測残差のみを符号化してもかまわない。

隣接ブロックから予測する方法としては，同じ被写体識別子の隣接ブロックの被写体画素値の平均値や中央値を予測値とする方法がある。既に符号化した同じブロックの被写体画素値を用いて予測を行う方法としては，被写体画素値が小さい順に符号化を行う場合，直前に符号化した被写体画素値に１を加えた値を予測値とする方法や，直前に符号化した被写体画素値と残りの符号化の必要な被写体画素値の数とを用いて予測値を生成する方法がある。

この最後の方法は，直前に符号化した被写体画素値に１を加えた値を最小値，取り得る画素値の最大の値を最大値とした範囲を，残りの符号化が必要な被写体画素値の数のほぼ同じ大きさを持つ部分範囲へと分割し，その中から，最小値を含む部分範囲における中央値を予測値とする方法である。例えば，直前に被写体画素値として５１を符号化し，残りの被写体画素値の数が３つの場合，［５２，２５５］を同じ大きさを持つ３つの部分範囲に分割することで，［５２，１１９］，［１２０，１８７］，［１８８，２５５］を得て，最小値を含む［５２，１１９］の範囲の中央値８５を予測値とする。全く同じ大きさの部分範囲にならない場合には，予め定められたルールに従って，整数を両端に持つ部分範囲を生成してもかまわないし，小数等を用いて表現してもかまわない。なお，予測値は整数である必要があるため，中央値を求める際には切り捨てや四捨五入を行う。また，範囲を分割する際に，事前知識を用いて等間隔以外の一定のルールに従った分割をしてもかまわない。例えば，大きさがＮ，２Ｎ，３Ｎ，…と大きくなっていくように分割する方法や，Ｎ，Ｎ／２，Ｎ／３，…と小さくなっていくように分割する方法がある。

また，隣接ブロックから予測する方法と既に符号化した同じブロックの被写体画素値を用いて予測を行う方法とを組み合わせて予測を行う方法もある。例えば，最初の被写体画素値を符号化する場合には，隣接ブロックから予測し，それ以外の被写体画素値を符号化する場合には，同じブロックで直前に符号化した被写体画素値を用いて予測する方法がある。別の方法としては，同じブロックで直前に符号化した被写体画素値と，隣接ブロックから予測した値とを比較して，その比較結果に応じて予測値を決定する方法がある。さらに別の方法としては，どちらの予測方法を用いたのかを示す情報を別途符号化して予測方法を切り替える方法がある。

なお，被写体画素値を符号化する際に，被写体マップに現れた被写体識別子に対する被写体画素値のみを符号化するようにしてもかまわない。その場合の詳細な処理フローを，図８に示す。このフローでは，被写体識別子（ｏｂｊ）を０に初期化し（ステップＳ１２１），被写体識別子ごとに，その被写体識別子が被写体マップで使用されているか否かをチェックし（ステップＳ１２２），使用されている場合には，その被写体識別子に対する被写体画素値を符号化して（ステップＳ１２３），次の被写体識別子へ進む（ステップＳ１２４）。一方，使用されていない場合には，符号化を行わずに，すぐに次の被写体識別子へ進む（ステップＳ１２４）。以上の処理を，すべての被写体識別子に対して繰り返したなら，処理を終了する（ステップＳ１２５）。

図９は，被写体画素値の予測を行う場合のフローチャートである。図８との違いは，被写体識別子が被写体マップで使用されている場合に，その被写体識別子に対する被写体画素値の予測値を生成して（ステップＳ１３３），その予測値と被写体画素値との差分値を符号化する（ステップＳ１３４）ことである。

ある被写体識別子が被写体マップで使用されているか否かチェックする方法には，任意の方法を用いて構わない。例えば，被写体マップを生成・符号化した際など，これらのフローに入る前に，各被写体識別子が使用されているか否かを示すフラグを生成しておき，チェック時にはそのフラグをチェックすることで判定を行う方法がある。

このように被写体マップをチェックして，被写体画素値の符号化の実行を制御することで，使用されない情報を符号化するのに必要な符号量を削減することが可能である。例えば，ブロックｂｌｋの画像信号によらず，常に一定の被写体数を設定する場合など，被写体画素値の設定方法や被写体マップの生成方法によって，使用しない被写体識別子が生じるため，このように使用しない被写体識別子に対する被写体画素値の符号化を省略することで，符号量を少なくすることが可能となる。

また，上記の説明では，被写体画素値や被写体画素値の予測残差はそのまま符号化しているが，符号量や品質のターゲットに対して設定された量子化パラメータを用いて，量子化した値を符号化してもかまわない。その場合，予測値を生成する際には，量子化・逆量子化を経て復号側で得られる値を参照する必要がある。

次に，被写体マップと被写体画素値とを用いて，予測画像生成部１０８で，ブロックｂｌｋに対する予測画像を生成する（ステップＳ１０８）。具体的には，各画素に対して，被写体マップから得られる被写体識別子に対応する被写体画素値を割り当てることで予測画像を生成する。なお，被写体画素値が量子化して符号化されている場合には，量子化・逆量子化して復号側で得られる値を用いて予測画像を生成する必要がある。

なお，上記のように作られた予測画像に対して，さらにディザを加えてもかまわない。被写体マップと被写体画素値を用いた予測画像では，被写体数と同じ数の画素値しか存在しないため，自然画とは異なる性質をもつ画像となる。そのため，ディザを加えることでより自然画に近い変化を与えることができる。ディザ生成には任意の方法を用いることが可能であるが，復号側で同じものを発生できるようにする必要がある。そのため，複数のディザ生成法を切り替えたり，ディザ生成法に初期値なとのパラメータが必要となる場合には，それらの情報を符号化する必要がある。

予測画像が得られたら，画像信号符号化部１０９で，ブロックｂｌｋに対する画像信号を予測符号化する（ステップＳ１０９）。符号化にはどのような方法を用いてもかまわない。ＭＰＥＧ−２やＨ．２６４／ＡＶＣなどの一般的な符号化では，ブロックｂｌｋの画像信号と予測画像との差分信号に対して，ＤＣＴなどの周波数変換，量子化，２値化，エントロピー符号化を順に施すことで符号化を行う。

最後に，多重化部１１０で，被写体マップの符号データと，被写体画素値の符号データと，画像信号の符号データとを多重化して出力する（ステップＳ１１０）。被写体数を符号化している際には，被写体数に対する符号データも符号化する。なお，ここではブロックごとに多重化しているが，フレーム単位で多重化してもかまわない。ただし，その場合には，復号時に１フレーム分の符号データをバッファリングしてから復号する必要が生じる。

特殊な状況として，被写体数が１の場合，被写体マップは１通りしか存在しないため，被写体マップ設定ステップはその唯一の被写体マップ候補を設定するだけでよく，被写体マップを符号化する必要はない。

〔第２実施形態：画像復号装置〕
次に，本発明の第２実施形態について説明する。図１０は，第２実施形態による画像復号装置の構成を表すブロック図である。画像復号装置２００は，図１０に示すように，符号データ入力部２０１，符号データメモリ２０２，分離部２０３，被写体数設定部２０４，被写体マップ復号部２０５，被写体画素値復号部２０６，予測画像生成部２０７，および画像信号復号部２０８を備えている。

符号データ入力部２０１は，復号対象となる画像フレームの符号データを入力する。符号データメモリ２０２は，入力された符号データを蓄積する。分離部２０３は，多重化された符号データを複数の異なる情報が符号化されている符号データへと分離する。被写体数設定部２０４は，予め定められた大きさの処理領域に含まれる被写体数を設定する。被写体マップ復号部２０５は，符号データから被写体マップを復号する。被写体画素値復号部２０６は，符号データから被写体ごとに被写体画素値を復号する。予測画像生成部２０７は，処理領域に対して復号された被写体画素値と被写体マップから，処理領域に対する予測画像を生成する。画像信号復号部２０８は，処理領域ごとに予測画像を用いて符号データから復号対象フレームの画像信号を復号する。

図１１は，第２実施形態による画像復号装置２００の動作を説明するためのフローチャートである。このフローチャートに従って，画像復号装置２００の実行する処理について詳細に説明する。

まず，符号データ入力部２０１は，復号対象フレームに対する符号データを入力し，符号データメモリ２０２に格納する（ステップＳ２０１）。符号データの格納が終了したら，復号対象フレームを分割し，分割した領域ごとに，復号対象フレームの画像信号を復号する（ステップＳ２０２〜Ｓ２１０）。つまり，復号対象ブロックインデックスをｂｌｋ，総復号対象ブロック数をｎｕｍＢｌｋｓで表すとすると，ｂｌｋを０で初期化し（ステップＳ２０２），その後，ｂｌｋに１を加算しながら（ステップＳ２０９），ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳ２１０），以下の処理（ステップＳ２０３〜Ｓ２０８）を繰り返す。

復号対象ブロックごとに繰り返される処理では，まず，分離部２０３で，入力された符号データを複数の情報の符号データへと分離する（ステップＳ２０３）。第２実施形態では，複数の情報の符号データがブロック単位でインターリーブされている例で説明しているが，フレームなど異なる単位でインターリーブされている場合には，この符号データの分離をブロック単位で繰り返す必要はない。

符号データの分離が終了したら，次に，被写体数設定部２０４で，ブロックｂｌｋに含まれる被写体の数ｎｕｍＯｂｊｓを設定する（ステップＳ２０４）。被写体数の設定は，符号化側と同じ処理を用いて行う。例えば，符号化側で常に予め定められた数を設定している場合には，ここでも同じ数を設定する。

別の例としては，ブロックごとに異なる被写体数を設定するために，被写体数が符号化され符号データに含まれている場合には，被写体数設定部２０４は，被写体数の符号データを受け取り，復号した結果の値を被写体数として設定する。

図１２は，被写体数が符号化されている場合の画像復号装置のブロック図である。被写体数が符号化されている場合には，図１２に示すように，被写体数設定部２０４′は，分離部２０３で分離された被写体数の符号データを受け取り，それを復号して被写体数を取得する。なお，符号化時に，ブロックｂｌｋに隣接する既に処理済みのブロックを符号化する際に用いた被写体数の平均値または中央値を予測値として，ブロックｂｌｋの被写体数が予測符号化されている場合には，同様の方法で予測値を生成し，その値に符号データから復号された値を加えたものを被写体数として設定する。

また，ブロックごとではなく，フレームやスライスと呼ばれる複数ブロックの集合ごとに被写体数が符号化されている場合もある。そのような場合には，フレームやスライス単位で一度だけ被写体数符号データを復号し，その結果を一時的に蓄積することで，次の更新のタイミングまで繰り返し同じ値を設定する。さらに，フレームまたはスライス単位でグローバルな被写体数が符号化され，ブロックごとでそこからの変化量が符号化されている場合もある。そのような場合には，フレームやスライス単位で一度だけグローバル被写体数符号データを復号し，その結果を一時的に蓄積し，その値にブロックごとに復号される変化量の値を加えて，そのブロックで用いる被写体数を得る。さらに，その変化量が隣接するブロックから予測されている場合には，ブロックごとに被写体変化量予測差分を復号し，その値にグローバル被写体数と隣接ブロックからの変化量の予測値とを加えることで，そのブロックで用いる被写体数を得る。

被写体数の設定が終了したら，次に，被写体マップ復号部２０５で，分離された符号データから被写体マップを復号する（ステップＳ２０５）。ここで，被写体マップとは，ブロックｂｌｋの各画素に対して，被写体識別子を割り当てたものである。例えば，図４のような２次元情報である。被写体マップの復号は，符号化時に用いられた方法に応じて異なる。

例えば，被写体数に応じて各被写体識別子に固定長または可変長の符号を割り当てて，ラスタースキャンやジグザグスキャンなどを用いて２次元のマップ情報を１次元のバイナリデータへ変換することで符号化が行われている場合がある。その場合には，符号データとして与えられた１次元のバイナリデータを順に走査し，対応する被写体識別子が見つかるごとに，ラスタースキャンやジグザグスキャンなど，符号化時と同じ順に，画素ごとに被写体識別子を割り当てていくことで復号を行う。

別の方法として，予め定められた順序にスキャンしながらブロックｂｌｋ内の各画素に対する被写体識別子を符号化する際に，各画素に対して周囲の既に符号化済みの画素を参照画素に設定し，その参照画素における被写体識別子に応じて，確率テーブルを変化させながら算術符号化を行っている場合がある。そのような場合には，使用されたスキャン順と同様の順に画素ごとに，周囲の既に復号済みの画素を参照画素に設定し，その画素における被写体識別子に応じて，確率テーブルを変化させながら算術復号を行う。確率テーブルの数や初期値，更新方法，設定方法は符号化時と同じ手法を用いることで正しく復号を行うことが可能である。

なお，参照画素の設定方法によっては，画面端において一部の参照画素が存在しない場合や，Ｈ．２６４／ＡＶＣのようにブロックごとに異なる予測モードを切り替えて用いる際に参照画素において被写体識別子が存在しない場合がある。そのような画素に対しては，符号化時と同様の方法で，予め定められた被写体識別子を割り当てるか，別途不明のラベルを割り当てて別の確率テーブルを定義することで，上記のような場合を考慮して効率よく符号化した被写体マップの符号データを正しく復号することが可能である。

さらに別の方法として，木構造のデータを用いて被写体マップが符号化されている場合がある。その場合も符号化時の方法に応じた方法を用いることで符号データから被写体マップを復号することが可能である。

与えられた符号データから木構造のデータを介して，被写体マップを復号する処理では，まず，符号データのバイナリ列から木構造のデータを表す数列を復号する。バイナリ列から木構造データ数列の復号には，符号化時に用いられた方法に応じた方法を用いる必要がある。例えば，可変確率テーブルを用いた算術符号化が行われている場合には，符号化時と同じ方法で確率テーブルを更新しながら符号データから非圧縮のバイナリ列を復号する。非圧縮のバイナリ列は，符号化時に用いたものと同じ固定長または可変長のテーブルを参照して逆変換を行い，符号化前の数列を復号する。

木構造データを表す数列が復号できたら，その数列を解読して木構造のデータを構築する。ここでは符号化時に木構造から数列を生成したのと逆の変換を行う必要がある。なお，木構造の定義も符号化側と共有している必要がある。例えば，ブロックｂｌｋをルートとして，各ノードは０〜ｎｕｍＯｂｊｓの数字を持ち，０が割り当てられているノードは４つの子ノードを持つ木構造が定義され，木を深さ優先探索でスキャンして数列を生成している場合，数列0100133332033231020232222 が与えられた場合には，図１３のような木が復元されることになる。

木構造データが得られたら，そこから被写体マップを復元する。この復元には，符号化側と木構造の定義を共有している必要があり，その定義を用いて復元を行う。例えば，木のルートはブロックｂｌｋ全体を表し，子ノードは親ノードを縦横２等分してできる４つのサブブロック（ラスタースキャン順）に対応しており，各ノードに割り当てられた０以外の数字から１を引いた数が，対応するブロックに含まれる全ての画素に対する被写体識別子を示している場合，図１３の木からは図１４の被写体マップを復号することが可能である。

なお，ここで示した木構造や数列の定義などは一例であり，符号化側と定義を共有することが可能であればどのような方法を用いてもかまわない。

被写体マップの復号が終了したら，次に，被写体画素値復号部２０６で，分離された符号データから被写体識別子ごとに被写体画素値を復号する（ステップＳ２０６）。被写体識別子ごとの被写体画素値の復号は，符号化時に用いられた方法に応じて異なる。以下では，簡単のために，被写体識別子の小さい順に被写体画素値が符号化されているとする。

例えば，被写体画素値がそのまま復号されている場合には，復号して得られる値を順に被写体識別子に割り当てていく。また，隣接ブロックにおける被写体画素値や，既に復号した同じブロックの被写体画素値を用いて予測を行い，予測残差のみが復号されている場合には，生成した予測値に対して，符号データから復号される値を加えた値を被写体画素値として順に被写体識別子に割り当てる。

予測値の生成には復号時と同じ方法を用いる必要がある。例えば，隣接ブロックから予測する方法としては，同じ被写体識別子の隣接ブロックの被写体画素値の平均値や中央値を予測値とする方法がある。既に復号した同じブロックの被写体画素値を用いて予測を行う方法としては，被写体画素値が小さい順に復号されている場合，直前に復号した被写体画素値に１を加えた値を予測値とする方法や，直前に復号した被写体画素値と残りの復号が必要な被写体画素値の数とを用いて予測値を生成する方法がある。

直前に復号した被写体画素値と残りの復号が必要な被写体画素値の数とを用いて予測値を生成する方法の具体例としては，次のようなものがある。まず，直前に復号した被写体画素値に１を加えた値を最小値，取り得る画素値の最大の値を最大値とした範囲を，残りの復号が必要な被写体画素値の数のほぼ同じ大きさを持つ部分範囲へと分割する。そして，その中から，最小値を含む部分範囲における中央値を予測値とする。例えば，直前に被写体画素値として５１を復号し，残りの被写体画素値の数が３つの場合，［５２，２５５］を同じ大きさを持つ３つの部分範囲に分割することで，［５２，１１９］，［１２０，１８７］，［１８８，２５５］を得て，最小値を含む［５２，１１９］の範囲の中央値８５を予測値とする。全く同じ大きさの部分範囲にならない場合には，予め定められたルールに従って，整数を両端に持つ部分範囲を生成してもかまわないし，小数等を用いて表現してもかまわない。例えば，大きさがＮ，２Ｎ，３Ｎ，…と大きくなっていくように分割する方法や，Ｎ，Ｎ／２，Ｎ／３，…と小さくなっていくように分割する方法がある。正しく復号するためには，分割のルールは符号化時に用いたものと同じものである必要がある。

また，隣接ブロックから予測する方法と既に復号した同じブロックの被写体画素値を用いて予測する方法とを組み合わせて予測を行う方法もある。例えば，最初の被写体画素値を復号する場合には，隣接ブロックから予測し，それ以外の被写体画素値を復号する場合には，同じブロックで直前に復号した被写体画素値を用いて予測する方法がある。別の方法としては，同じブロックで直前に復号した被写体画素値と，隣接ブロックから予測した値とを比較して，その比較結果に応じて予測値を決定する方法がある。さらに別の方法としては，どちらの予測方法を用いたのかを示す情報を別途符号化して予測方法を切り替えている場合がある。その場合には，予測手法を示す情報を復号した後に，その結果に応じて予測値を生成することになる。

なお，被写体マップに現れた被写体識別子に対する被写体画素値のみが符号化されている場合がある。そのような場合，被写体マップの結果から欠番となる被写体識別子を判定し，その被写体識別子は飛ばして復号順に被写体画素値を割り当てていく。

また，上記の説明では被写体画素値や被写体画素値の予測残差はそのまま符号化されているとして説明したが，符号量や品質のターゲットに対して設定された量子化パラメータを用いて，量子化した値が符号化されている場合がある。そのような場合には，復号して得られた値を逆量子化することで被写体画素値の復号値を得る。

被写体画素値の復号が終了したら，次に，予測画像生成部２０７で，ブロックｂｌｋに対する予測画像を生成する（ステップＳ２０７）。具体的には，各画素に対して，被写体マップから得られる被写体識別子に対応する被写体画素値を割り当てることで予測画像を生成する。

なお，上記のように作られた予測画像に対して，さらにディザを加えてもかまわない。被写体マップと被写体画素値を用いた予測画像では，被写体数と同じ数の画素値しか存在しないため，自然画とは異なる性質をもつ画像となる。そのため，ディザを加えることでより自然画に近い変化を与えることができる。ディザ生成には任意の方法を用いることが可能であるが，符号化側と同じ手法を用いる必要がある。なお，符号データにディザ生成装置の初期化等に必要なパラメータが含まれている場合には，それを復号して用いる。

予測画像が得られたら，画像信号復号部２０８で，ブロックｂｌｋに対する画像信号を復号する（ステップＳ２０８）。画像信号の復号は，符号化時に用いられた方法に応じて異なる。例えば，ＭＰＥＧ−２やＨ．２６４／ＡＶＣなどの一般的な符号化が用いられている場合には，符号データに対して，エントロピー復号，逆２値化，逆量子化，ＩＤＣＴなどの周波数逆変換を行うことで予測残差を復号し，その結果に予測画像を加えることでブロックｂｌｋの画像信号を復元する。

特殊な状況として，被写体数が１の場合，被写体マップは１通りしか存在しないため，そのブロックに対する被写体マップを符号化しないことで符号量を削減している場合がある。そのような場合には，被写体マップ符号データを復号せずに，その唯一の被写体マップ候補を，そのブロックに対する被写体マップとして設定するだけでよい。なお，被写体数が１の場合に，被写体マップを復号するか否かは，符号化時の処理と同じにする必要がある。

図１５に，上述した第１実施形態で生成される符号データおよび第２実施形態で入力される符号データのブロックごとのシンタックスの一例を示す。ここで，num ＿objects は被写体数，map ＿objectは被写体マップ，exist(i, j) は被写体マップｊ内に被写体識別子ｉが存在する場合にＴＲＵＥ，そうでない場合にＦＡＬＳＥを返す関数，residual＿value ＿object［ｉ］は被写体識別子がｉの被写体画素値の予測残差，residuals は画像信号の予測残差を表している。

次に，本実施形態において，予測画像の生成に用いる付加情報のデータ構造の例を説明する。

［付加情報のデータ構造の例１］
図１６は，予測画像の生成に用いる付加情報のデータ構造の例１を示す図である。符号化／復号対象の画像信号の予測のために，図１６（Ａ）に示すように，被写体数と，被写体マップと，各被写体識別子ごとの被写体画素値が設定される。被写体数Ｎは整数である。被写体マップは，ブロック内の画素数と同じ長さの１〜Ｎの整数列である。被写体画素値は，予測なしの場合，符号なし整数であり，予測ありの場合，符号付き整数である。

図１６（Ｂ）は，付加情報の具体例を示している。被写体数は４であるが，被写体マップには被写体識別子が２の画素が１つも存在しない。そのため，被写体識別子２に対応する被写体画素値のデータは省かれている。

［付加情報のデータ構造の例２］
図１７は，予測画像の生成に用いる付加情報のデータ構造の例２を示す図である。この例では，被写体マップの前に，単一被写体ブロック識別情報が付加されている。単一被写体ブロック識別情報は，０〜Ｎの整数であり，ブロック内が単一被写体の場合，すなわちブロック内の全画素が同じ被写体識別子の場合，１〜Ｎの値であり，複数の被写体を含む場合には０である。単一被写体ブロック識別情報が０の場合，以降の被写体マップおよび被写体画素値のデータは，前述したデータ構造の例１と同様である。単一被写体ブロック識別情報が１〜Ｎの場合，この数をマイナス１した数が被写体識別子である。換言すれば，ブロック内の被写体識別子がすべて同じ場合には，その被写体識別子に１を加算した値が，単一被写体ブロック識別情報として付加情報に設定される。

図１７（Ｂ）は，付加情報の具体例を示している。この例では，被写体数は２であるが，単一被写体ブロックなので，被写体マップのデータはない。また，単一被写体識別子は，１−１＝０となるので，その被写体画素値「３１」だけが設定され，それ以外（被写体識別子＝１）の被写体画素値はない。

［付加情報のデータ構造の例３］
図１８は，予測画像の生成に用いる付加情報のデータ構造の例３を示す図である。この例では，被写体マップを木構造形式で保持する。この木構造被写体マップは，被写体マップを木構造で表現し，各ノードの値を予め定められた順にスキャンしたものであり，可変長の整数列である。

図１８（Ｂ）は，付加情報の具体例を示している。この例では，被写体数は３であり，木構造被写体マップは，図７で説明した被写体マップ形式で保持されている。また，被写体画素値は，予測ありの場合であり，マイナスの値も含む。

［付加情報のデータ構造の例４］
図１９は，予測画像の生成に用いる付加情報のデータ構造の例４を示す図である。この例では，木構造被写体マップを，ブロック分割情報とブロック内被写体識別子情報とに分けて保持している。ブロック分割情報は，木構造被写体マップを用いた際のリーフ以外のノードをスキャンした結果を示し，ブロック内被写体識別子情報は，木構造被写体マップを用いた際のリーフをスキャンした結果を示す。

図１９（Ｂ）は，付加情報の具体例を示している。この例は，木構造被写体マップとして，図６で説明した木構造被写体マップをリーフ以外のノードとリーフのノードとに分けてスキャンした場合の値が設定されている。

上述した第１，第２実施形態では，１フレーム中の全てのブロックを本発明によって符号化および復号する処理を説明したが，一部のブロックにのみ適用し，その他のブロックでは，Ｈ．２６４／ＡＶＣなどで用いられる画面内予測符号化や動き補償予測符号化などを用いて符号化を行ってもかまわない。その場合にはブロックごとにどの方法を用いて符号化したかを示す情報を符号化および復号する必要がある。

上述した第１，第２実施形態では，１フレームを符号化および復号する処理を説明したが，複数フレーム繰り返すことで動画像符号化にも適用することができる。また，動画像の一部のフレームや一部のブロックにのみ適用することもできる。その場合，被写体の存在には空間的だけでなく時間的な連続性があることから，被写体マップの符号化に用いる参照画素や，被写体画素値の予測に用いる隣接ブロックの定義を，空間方向だけでなく時間方向にも拡張して用いることは容易に類推可能である。

以上説明した画像符号化および画像復号の処理は，コンピュータとソフトウェアプログラムとによっても実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも，ネットワークを通して提供することも可能である。

図２０に，画像符号化装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成例を示す。本システムは，プログラムを実行するＣＰＵ５０と，ＣＰＵ５０がアクセスするプログラムやデータが格納されるＲＡＭ等のメモリ５１と，カメラ等からの符号化対象の画像信号を入力する符号化対象フレーム入力部５２（ディスク装置等による画像信号を記憶する記憶部でもよい）と，第１実施形態で説明した処理をＣＰＵ５０に実行させるソフトウェアプログラムである画像符号化プログラム５３１が格納されたプログラム記憶装置５３と，ＣＰＵ５０がメモリ５１にロードされた画像符号化プログラム５３１を実行することにより生成された多重化符号データを，例えばネットワークを介して出力する多重化符号データ出力部５４（ディスク装置等による多重化符号データを記憶する記憶部でもよい）とが，バスで接続された構成になっている。

図示省略するが，他に，被写体数記憶部，被写体マップ記憶部，被写体画素値記憶部，予測画像記憶部，被写体数符号データ記憶部，被写体マップ符号データ記憶部，被写体画素値符号データ記憶部，画像情報符号データ記憶部などのハードウェアが設けられ，本手法の実施に利用される。

図２１に，画像復号装置をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成例を示す。本システムは，プログラムを実行するＣＰＵ６０と，ＣＰＵ６０がアクセスするプログラムやデータが格納されるＲＡＭ等のメモリ６１と，画像符号化装置が本手法により符号化した多重化符号データを入力する多重化符号データ入力部６２（ディスク装置等による多重化符号データを記憶する記憶部でもよい）と，第２実施形態で説明した処理をＣＰＵ６０に実行させるソフトウェアプログラムである画像復号プログラム６３１が格納されたプログラム記憶装置６３と，ＣＰＵ６０がメモリ６１にロードされた画像復号プログラム６３１を実行することにより，多重化符号データを復号して得られた復号画像データを，再生装置などに出力する復号画像データ出力部６４とが，バスで接続された構成になっている。

〔効果の検証〕
従来手法（例えば，Ｈ．２６４／ＡＶＣ）と本発明を用いた手法（本手法という）との符号量の比較を行う。

１．概念的な符号量の比較
１．１付加情報の符号量
付加情報は，従来手法ではエッジの向きを示す情報であり，２次元ベクトルである。これに対し，本手法による付加情報は，被写体数分の被写体画素値（スカラ値または色ベクトル）と被写体マップ（二次元情報）であり，条件にもよるが，処理ブロックを１６×１６，被写体数を４とした場合，ビット量は約６８倍になる（ただし，エントロピー符号化することで，約５倍程度にすることができる）。

１．２予測残差の符号量
エッジの強い画像においては，予測画像と入力画像とで物体形状が大きく異なると，その予測残差を周波数領域へ変換しても，情報を効率的に低域へ集中させることができず，予測残差の符号量が非常に多くなる。

つまり，直線しか表現できない従来手法よりも，任意の形状を表現できる本手法のほうが予測残差の符号量を少なくすることが可能である。対象画像や符号化条件にもよるが，予測残差の符号量は約３分の１程度にすることが可能である。

１．３トータルの符号量
一般的な符号化レートにおいて，従来手法の予測残差の符号量は，符号量全体の約９割を占める。つまり，全体の符号量を１００とすると，付加情報が１０で予測残差が９０となる。本手法により，付加情報が５倍，予測残差が１／３になるとすると，本手法によって全体の符号量は８０とすることが可能である。

２．実験例
図２２に，あるサンプル画像（ｂａｌｌｅｔ）について，本手法と従来手法を用いて符号化した場合の発生符号量の比較を示す。図２２に示すグラフにおいて，縦軸のＹ−ＰＳＮＲは画像の品質（単位はｄＢ），横軸のｂｉｔｒａｔｅは符号量（単位はｂｐｓ／ｖｉｅｗ）を表している。Ｙ−ＰＳＮＲの値は，大きなほど綺麗な画像であることを示す。

図２２において，Ｌ１の曲線が本手法による符号量と画像の品質の関係を示しており，Ｌ２の曲線が従来手法による符号量と画像の品質の関係を示している。なお，図２２（Ａ）と（Ｂ）は同じグラフである。

２．１符号量削減効果としての解釈（図２２（Ａ）参照）
図２２（Ａ）のグラフから，Ｙ−ＰＳＮＲが４３ｄＢとなるとき，従来手法（Ｈ．２６４／ＡＶＣ）では，約６５０ｋｂｐｓの符号量が必要であり，本手法では，約４００ｋｂｐｓの符号量が必要であることが分かる。ここから，同じ品質で符号化する場合，本手法によって約４割削減できたことが分かる。

２．２品質改善効果としての解釈（図２２（Ｂ）参照）
図２２（Ｂ）のグラフから，ｂｉｔｒａｔｅが４００ｋｂｐｓとなるとき，従来手法（Ｈ．２６４／ＡＶＣ）では，約３９ｄＢの品質であり，本手法では，約４３ｄＢの品質であることが分かる。ここから，同じ符号量で符号化する場合，本手法によって４ｄＢ画質を改善（歪み量を約６割削減）できたことが分かる。

以上，図面を参照して本発明の実施の形態を説明してきたが，上記実施の形態は本発明の例示に過ぎず，本発明が上記実施の形態に限定されるものでないことは明らかである。したがって，本発明の精神および技術的範囲を逸脱しない範囲で構成要素の追加，省略，置換，その他の変更を行ってもよい。

１００画像符号化装置
１０１符号化対象フレーム入力部
１０２符号化対象フレームメモリ
１０３被写体数設定部
１０４被写体画素値設定部
１０５被写体画素値符号化部
１０６被写体マップ生成部
１０７被写体マップ符号化部
１０８予測画像生成部
１０９画像信号符号化部
１１０多重化部
１１１被写体数符号化部
２００画像復号装置
２０１符号データ入力部
２０２符号データメモリ
２０３分離部
２０４被写体数設定部
２０５被写体マップ復号部
２０６被写体画素値復号部
２０７予測画像生成部
２０８画像信号復号部

Claims

画像を伝送または蓄積するにあたり，画像フレームを予め定められた大きさの処理領域に分割し，処理領域ごとに各画素の画素値を予測しながら符号化を行う画像符号化方法であって，
処理領域内に存在する被写体の数を被写体数として設定する被写体数設定ステップと，
処理領域内に存在する被写体ごとに，各被写体を代表する１つの画素値を，該被写体を識別する被写体識別子に対応づけて，被写体画素値として設定する被写体画素値設定ステップと，
処理領域内の各画素の画素値と被写体画素値とから，処理領域内の各画素にどの被写体が撮影されているかを被写体識別子で示す被写体マップを生成する被写体マップ生成ステップと，
前記被写体マップに従って各画素に前記被写体画素値の値を割り当てることで処理領域に対する予測画像を生成する予測画像生成ステップと，
前記被写体マップを符号化する被写体マップ符号化ステップと，
前記被写体画素値を符号化する被写体画素値符号化ステップと，
前記予測画像を用いて処理領域に対する画像信号を予測符号化する画像信号符号化ステップとを有する
ことを特徴とする画像符号化方法。
前記被写体数設定ステップで設定した被写体数を符号化する被写体数符号化ステップをさらに含み，
前記被写体数設定ステップでは，処理領域内の画素の情報から処理領域内の被写体の数を推定して被写体数とする
ことを特徴とする請求項１に記載の画像符号化方法。
前記被写体画素値符号化ステップでは，前記被写体識別子ごとに，前記被写体マップで該被写体識別子が使用されているか否かをチェックし，使用されている場合には，該被写体識別子に対応する前記被写体画素値を符号化し，使用されていない場合には，該被写体識別子に対応する前記被写体画素値の符号化を省略する
ことを特徴とする請求項１または請求項２に記載の画像符号化方法。
前記予測画像に対してディザを加えるディザ付加ステップをさらに含み，
前記画像信号符号化ステップでは，前記ディザを加えられた予測画像を用いて処理領域に対する画像信号を予測符号化する
ことを特徴とする請求項１，請求項２または請求項３に記載の画像符号化方法。
画像の符号データを復号するに際し，画像フレームを予め定められた大きさの処理領域に分割し，処理領域ごとに各画素の画素値を予測しながら復号を行う画像復号方法であって，
処理領域内に存在する被写体の数を被写体数として設定する被写体数設定ステップと，
処理領域内の各画素に撮影されている被写体を被写体識別子によって表した被写体マップを前記符号データから復号する被写体マップ復号ステップと，
前記被写体識別子ごとに１つ設定された被写体画素値を前記符号データから復号する被写体画素値復号ステップと，
前記被写体マップに従って各画素に前記被写体画素値の値を割り当てることで処理領域に対する予測画像を生成する予測画像生成ステップと，
前記予測画像を用いて処理領域に対する画像信号を前記符号データから復号する画像信号復号ステップとを有する
ことを特徴とする画像復号方法。
前記被写体数設定ステップでは，前記被写体数を前記符号データから復号して設定する
ことを特徴とする請求項５に記載の画像復号方法。
前記被写体画素値復号ステップでは，前記被写体マップに現れた被写体識別子に対応する被写体画素値のみを復号する
ことを特徴とする請求項５または請求項６に記載の画像復号方法。
前記予測画像に対してディザを加えるディザ付加ステップをさらに含み，
前記画像信号復号ステップでは，前記ディザを加えられた予測画像を用いて処理領域に対する画像信号を前記符号データから復号する
ことを特徴とする請求項５，請求項６または請求項７に記載の画像復号方法。
画像を伝送または蓄積するにあたり，画像フレームを予め定められた大きさの処理領域に分割し，処理領域ごとに各画素の画素値を予測しながら符号化を行う画像符号化装置であって，
処理領域内に存在する被写体の数を被写体数として設定する被写体数設定手段と，
処理領域内に存在する被写体ごとに，各被写体を代表する１つの画素値を，該被写体を識別する被写体識別子に対応づけて，被写体画素値として設定する被写体画素値設定手段と，
前記被写体画素値と被写体を識別する被写体識別子とを対応づけ，処理領域内の各画素の画素値と被写体画素値とから，処理領域内の各画素にどの被写体が撮影されているかを被写体識別子で示す被写体マップを生成する被写体マップ生成手段と，
前記被写体マップに従って各画素に前記被写体画素値の値を割り当てることで処理領域に対する予測画像を生成する予測画像生成手段と，
前記被写体マップを符号化する被写体マップ符号化手段と，
前記被写体画素値を符号化する被写体画素値符号化手段と，
前記予測画像を用いて処理領域に対する画像信号を予測符号化する画像信号符号化手段とを備える
ことを特徴とする画像符号化装置。
前記被写体数を符号化する被写体数符号化手段をさらに含み，
前記被写体数設定手段は，処理領域内の画素の情報から処理領域内の被写体の数を推定して被写体数とする
ことを特徴とする請求項９に記載の画像符号化装置。
前記被写体画素値符号化手段は，前記被写体識別子ごとに，前記被写体マップで該被写体識別子が使用されているか否かをチェックし，使用されている場合には，該被写体識別子に対応する前記被写体画素値を符号化し，使用されていない場合には，該被写体識別子に対応する前記被写体画素値の符号化を省略する
ことを特徴とする請求項９または請求項１０に記載の画像符号化装置。
前記予測画像に対してディザを加えるディザ付加手段をさらに含み，
前記画像信号符号化手段は，前記ディザを加えられた予測画像を用いて処理領域に対する画像信号を予測符号化する
ことを特徴とする請求項９，請求項１０または請求項１１に記載の画像符号化装置。
画像の符号データを復号するに際し，画像フレームを予め定められた大きさの処理領域に分割し，処理領域ごとに各画素の画素値を予測しながら復号を行う画像復号装置であって，
処理領域内に存在する被写体の数を被写体数として設定する被写体数設定手段と，
処理領域内の各画素に撮影されている被写体を被写体識別子によって表した被写体マップを前記符号データから復号する被写体マップ復号手段と，
前記被写体識別子ごとに１つ設定された被写体画素値を前記符号データから復号する被写体画素値復号手段と，
前記被写体マップに従って各画素に前記被写体画素値の値を割り当てることで処理領域に対する予測画像を生成する予測画像生成手段と，
前記予測画像を用いて処理領域に対する画像信号を前記符号データから復号する画像信号復号手段とを備える
ことを特徴とする画像復号装置。
前記被写体数設定手段は，前記被写体数を前記符号データから復号して設定する
ことを特徴とする請求項１３に記載の画像復号装置。
前記被写体画素値復号手段は，前記被写体マップに現れた被写体識別子に対応する被写体画素値のみを復号する
ことを特徴とする請求項１３または請求項１４に記載の画像復号装置。
前記予測画像に対してディザを加えるディザ付加手段をさらに含み，
前記画像信号復号手段は，前記ディザを加えられた予測画像を用いて処理領域に対する画像信号を前記符号データから復号する
ことを特徴とする請求項１３，請求項１４または請求項１５に記載の画像復号装置。
請求項１から請求項４までのいずれか１項に記載の画像符号化方法をコンピュータに実行させるための画像符号化プログラム。
請求項５から請求項８までのいずれか１項に記載の画像復号方法をコンピュータに実行させるための画像復号プログラム。