(A)第1の実施形態
以下、本発明による動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムの第1の実施形態を、図面を参照しながら詳述する。
(A−1)第1の実施形態の構成
動画像配信システム1は、動画像符号化装置10及び動画像復号装置20を有している。
図1は、この実施形態の動画像配信システム1の全体構成を示すブロック図である。
動画像配信システム1は、動画像符号化装置10及び動画像復号装置20を有している。
動画像符号化装置10は、フレーム単位(画像単位)で入力される入力動画像信号(入力映像信号)を符号化して、符号化したデータをストリーム化(ビットストリーム化)して出力する。図1に示すように、動画像符号化装置10では、入力動画像信号を構成する各画像が、Wyner−Ziv画像F11とKey画像F12とに分けて符号化される。そして、動画像符号化装置10は、Wyner−Ziv画像F11を符号化した符号化データのストリーム(以下、「Slepian−WolfストリームST1」と呼ぶ)と、Key画像F12を符号化したデータのストリーム(以下、「KeyストリームST2」と呼ぶ)と、後述する選択信号伝達符号C1(詳細については後述する)を出力する。
動画像復号装置20は、動画像符号化装置10から出力された符号化データ(Slepian−Wolfストリーム、及びKeyストリーム)を復号して、復号画像(復号フレーム)を生成し、フレーム単位(画像単位)で復号動画像信号(復号動画像データ)として出力するものである。動画像復号装置20は、Slepian−WolfストリームST1を復号して得たWyner−Ziv復号画像F41と、KeyストリームST2を復号して得た復号画像(Key画像F12)とを合わせた復号動画像信号を出力する。
なお、動画像符号化装置10が出力するデータ形式、及び動画像復号装置20に入力されるデータ形式については限定されないものである。例えば、動画像符号化装置10から、リアルタイムデータ伝送に適したストリーム形式ではなく、同様のデータを1つのデータファイルとして出力して、オフライン(例えば、ハードディスク等のデータ記録媒体)で動画像復号装置20に供給するようにしてもよい。
次に、動画像符号化装置10の内部構成について図2を用いて説明する。
動画像符号化装置10は、エンコーダ予測画像生成部101、エンコーダ予測画像量子化部102、画像選択部103、ブロック単位画像選択部104、符号化対象画像更新部105、符号化対象画像量子化部106、レート制御部107、Slepian−Wolf符号化部108、及びKey画像符号化部120を有している。
Key画像符号化部120は、画面内符号化処理(例えば、H.264/AVCやJPEG等の符号化技術による符号化処理)を行って、Key画像F12を符号化し、その符号化データをストリーム化して、KeyストリームST2として出力するものである。
エンコーダ予測画像生成部101は、Key画像F12からエンコーダ予測画像F21を生成するものである。エンコーダ予測画像生成部101がエンコーダ予測画像F21を生成する方式については限定されないものであり、DVCシステムを採用したシステムにおける種々の生成方式を適用することができる。
エンコーダ予測画像量子化部102は、エンコーダ予測画像F21を量子化(例えば、画素ごとにビット列のデータに変換)し、量子化後エンコーダ予測画像F22を生成するものである。
画像選択部103は、Wyner−Ziv画像F11とエンコーダ予測画像F21の差を画素ごとに計算し、画素ごとに、Wyner−Ziv画像F11又はエンコーダ予測画像F21のいずれか一方を選択する処理を行う。そして、画像選択部103は、画素ごとの選択結果を示すデータを選択信号S11として生成する。
レート制御部107は、量子化後エンコーダ予測画像F22と量子化後Wyner−Ziv画像F24からSlepian−Wolf符号に必要な符号量を推定し、その推定結果をレートRとして出力するものである。レート制御部107が符号量を推定する具体的処理については、限定されないものであり、DVCを採用したシステムにおける種々の推定処理を適用することができる。
Slepian−Wolf符号化部108は、量子化後Wyner−Ziv画像F24をSlepian−Wolf符号化し、レートRに基づく符号量で、Slepian−WolfストリームST1を生成するものである。Slepian−Wolf符号化部108がSlepian−Wolf符号化処理を行う具体的方式については、限定されないものであり、DVCを採用したシステムにおける種々の符号化処理を適用することができる。
ブロック単位画像選択部104は、画像をブロック単位(例えば、4×4のブロック)に分割して、各ブロック内の画素のうち、選択信号S11でエンコーダ予測画像F21側が選択されている数と、Wyner−Ziv画像F11側が選択されている数との比率に応じて、当該ブロックについて選択する画像(Wyner−Ziv画像F11又はエンコーダ予測画像F21のいずれか)を決定する。具体的には、この実施形態のブロック単位画像選択部104は、各ブロックについて、選択信号S11でエンコーダ予測画像F21側が選択されている画素の比率を計算し、その比率が予め設定された比率(以下「k」と表す。kは、例えば、0.6≦k≦1(60%≦k≦100%)の範囲の任意の値)以上の場合、当該ブロックについてエンコーダ予測画像F21を選択し、そうでない場合にはWyner−Ziv画像F11を選択するものとする。そして、ブロック単位画像選択部104は、その選択結果(ブロックごとに選択された画像を表すデータ)を、ブロック単位選択信号S12として出力する。
符号化対象画像更新部105は、Wyner−Ziv画像F11とエンコーダ予測画像F21と、ブロック単位選択信号S12とに基づき、更新後Wyner−Ziv画像F23を生成するものである。
符号化対象画像量子化部106は、更新後Wyner−Ziv画像F23を量子化(例えば、画素ごとにビット列のデータに変換)し、量子化後Wyner−Ziv画像F24を生成するものである。
選択信号通知部109は、ブロック単位選択信号S12を動画像復号装置20に伝送するための選択信号伝達符号C1に変換して出力するものである。なお、ブロック単位選択信号S12をそのまま出力可能な場合には、動画像符号化装置10において選択信号通知部109は省略するようにしてもよい。
次に、動画像復号装置20の内部構成について図3を用いて説明する。
動画像復号装置20は、選択信号受取部200、エンコーダ予測画像生成部201、デコーダ予測画像生成部202、デコーダ予測画像更新部203、デコーダ予測画像量子化部204、LLR推定部205、Slepian−Wolf復号部206、再構成部207、再構成画像更新部208及びKey画像復号部220を有している。
Key画像復号部220は、KeyストリームST2を復号処理(動画像符号化装置10側に対応する復号処理)して、Key画像F12を得るものである。なお、この実施形態では、説明を簡易とするため、Key画像復号部220において、KeyストリームST2を復元して、符号化側に入力されるKey画像F12と同じ内容の復元画像が得られるものとする。Key画像復号部220で得られる復号画像は、できるだけ符号化側に入力されるKey画像に近い内容であることが望ましいが、完全に同一でなくてもよい。
選択信号受取部200は、動画像符号化装置10から供給された選択信号伝達符号C1から、ブロック単位選択信号S11を復元して取得するものである。
エンコーダ予測画像生成部201は、Key画像復号部220で取得されたKey画像F12からエンコーダ予測画像F21を生成するものである。なお、この実施形態では、説明を簡易とするために、エンコーダ予測画像生成部201において、符号化側と同じエンコーダ予測画像F21が得られるものとして説明する。エンコーダ予測画像生成部201で得られるエンコーダ予測画像は、できるだけ符号化側で生成されるものに近い内容であることが望ましいが、完全に同一でなくてもよい。
デコーダ予測画像生成部202は、Key画像復号部220で取得されたKey画像F12から、デコーダ予測画像F32を生成するものである。デコーダ予測画像生成部202がデコーダ予測画像F32を生成する方式については限定されないものであり、DVC方式を採用したシステムにおける種々の生成方式を適用することができる。
デコーダ予測画像更新部203は、エンコーダ予測画像F21とデコーダ予測画像F32と、ブロック単位選択信号S11とに基づき、更新後デコーダ予測画像F33を生成するものである。なお、デコーダ予測画像更新部203及び更新後デコーダ予測画像F33の詳細については後述する。
デコーダ予測画像量子化部204は、デコーダ予測画像F32を量子化(例えば、画素ごとにビット列のデータに変換)し、量子化後デコーダ予測画像F34を生成するものである。
LLR推定部205は、量子化後デコーダ予測画像F34から量子化されたビット列の各ビットについてLLR(Log Likelihood Ratio)を推定し、LLR通知信号S22として出力するものである。
Slepian−Wolf復号部206は、LLR通知信号S22とSlepian−WolfストリームST1から、訂正後Wyner−Ziv画像F35を生成するものである。
動画像符号化装置10では、LLR推定部205及びSlepian−Wolf復号部206により、Slepian−Wolf復号を行う復号手段が形成されている。そして、LLR推定部205及びSlepian−Wolf復号部206が行う具体的処理としては、種々のDVCシステムにおける復号手段を適用することができる。
再構成部207は、訂正後Wyner−Ziv画像F35と、更新後デコーダ予測画像F33とを用いて、画像の再構成処理(逆量子化しながらWyner−Ziv画像F11を推定する処理)を行い、再構成画像F36を生成するものである。なお、再構成部207の詳細処理については後述する。
再構成画像更新部208は、再構成画像F36とデコーダ予測画像F32と、ブロック単位選択信号S11とに基づき、Wyner−Ziv復号画像F41を生成するものである。なお、再構成画像更新部208の詳細処理については後述する。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の動画像配信システム1の動作を説明する。
(A−2−1)動画像符号化装置10の動作
まず、動画像配信システム1の動画像符号化装置10側の動作について、図4のフローチャートを用いて説明する。
まず、エンコーダ予測画像生成部101において、動き推定などを用いて、Key画像F12からエンコーダ予測画像F21が生成される(S101)。
次に、エンコーダ予測画像量子化部102において、エンコーダ予測画像F21を量子化し、量子化後エンコーダ予測画像F22が生成される(S102)。ただし、レート制御部107で量子化後エンコーダ予測画像F22を利用したレート制御をおこなわない場合、当該ステップの処理は不要である。
次に、画像選択部103により、Wyner−Ziv画像F11とエンコーダ予測画像F21の差分が画素ごとに計算される。そして画像選択部103では、計算された差分が、量子化誤差(以下「X」とも表す)未満ならばエンコーダ予測画像F21が選択され、差分が量子化誤差X以上ならばWyner−Ziv画像F11が選択される。そして、画像選択部103では、その選択結果を示す選択信号S11が生成される(S103)。
Wyner−Ziv画像F11の画素値とエンコーダ予測画像F21の画素値の差が、量子化誤差Xよりも大きいか小さいかについて、画像選択部103は、たとえば、その差が量子化ステップ幅(以下、「W」とも表す)の半分よりも大きいか小さいかを計算することで判定できる。また、画像選択部103は、たとえば、その差が量子化ステップ幅Wよりも大きいか小さいかを計算することで判定しても良い。前者は、量子化誤差の平均値が量子化ステップ幅の半分であろうという仮説に基づく方法で、後者は、量子化誤差は何時も最大値で発生するとみなす場合の方法である。
そして、ブロック単位画像選択部104は、画像(フレーム;Wyner−Ziv画像F11、及びエンコーダ予測画像F21)を、任意の画素ずつのブロックに区切り(この実施形態では、例として、画像全体を4×4=16のブロックに区切るものとする)、ブロックごとに、Wyner−Ziv画像F11、又は、エンコーダ予測画像F21のいずれかを選択する。そして、ブロック単位画像選択部104は、その選択結果を示すブロック単位選択信号S12を生成する(S104)。
この実施形態では、ブロック単位画像選択部104は、選択信号S11で各ブロックについて、エンコーダ予測画像F21が選択されている画素数を数え、所定の比率k以上の画素でエンコーダ予測画像F21が選択されている場合に、当該ブロックについてエンコーダ予測画像F21を選択し、それ以外の場合には当該ブロックについてWyner−Ziv画像F11を選択する。
そして、符号化対象画像更新部105は、ブロック単位選択信号S12の指示に従い、Wyner−Ziv画像F11とエンコーダ予測画像F21とから更新後Wyner−Ziv画像F23を生成する(S105)。
そして、符号化対象画像量子化部106は、更新後Wyner−Ziv画像F23を量子化し、量子化後Wyner−Ziv画像F24を生成する(S106)。
そして、レート制御部107は、量子化後Wyner−Ziv画像F24と量子化後エンコーダ予測画像F22とを比較して、動画像復号装置20(デコーダ)で復号に必要となるSlepian−Wolf符号化のレートRを生成する(S107)。
ただし、第1の実施形態では非特許文献1のように、フィードバックアプローチによってレート制御する場合でも有効である。例えば、レート制御部107において、一度決定したレートRについて、非特許文献1の記載技術と同様に、デコーダ側からのフィードバックの内容に応じて調節し、所望の復号品質が得られるようにするようにしてもよい。
そして、Slepian−Wolf符号化部108が、レートRに基づき、量子化後Wyner−Ziv画像F24をSlepian−Wolf符号化し、Slepian−WolfストリームST1を生成する(S108)。
そして、選択信号通知部109が、ブロック単位選択信号S12を選択信号伝達符号C1として出力する(S109)。
次に、上述のステップS103における画像選択部103の処理の詳細について説明する。
この実施形態では、例として、画像選択部103では、Wyner−Ziv画像F11の画素値とエンコーダ予測画像F21の画素値の差分が量子化誤差Xよりも大きい位置の画素については、Wyner−Ziv画像F11の画素値を採用するものとする。また、この実施形態の画像選択部103では、Wyner−Ziv画像F11の画素値とエンコーダ予測画像F21の画素値の差分が量子化誤差X以下の位置の画素については、エンコーダ予測画像F21の画素値を採用するものとする。
量子化誤差Xは、基本的に画素ごとに異なる値であり、個別に求めることが望ましいが、第1の実施形態の画像選択部103では、演算量を低減するために、それぞれの画素について量子化誤差Xを一律の値(以下、「閾値T」と呼ぶ)と比較して処理するものとする。すなわち、画像選択部103では、「Wyner−Ziv画像F11の画素値と、エンコーダ予測画像F21の画素値の差」と閾値Tとの比較結果によって、選択する画素値を決定するものとする。
閾値Tの設定方法は限定されないものであるが、例えば、全ての画素の量子化誤差Xの平均値が、量子化ステップ幅Wの半分であるとみなして、閾値Tを量子化ステップ幅の半分と設定(T=W/2)するようにしても良い。また、例えば、全ての画素の量子化誤差Xは常に最大値(量子化ステップ幅)とみなして、閾値Tを量子化ステップ幅Wと設定(T=W)するようにしても良い。
次に、上述の量子化ステップ幅Wについて、図6を用いて説明する。
図6では、更新後Wyner−Ziv画像及びエンコーダ予測画像F21の各画素の画素値が0〜255の範囲(8bit相当)である場合の量子化ステップ幅Wについて示している。図6(a)に示すように、各画素の量子化値を2ビットで表すと00、01、10、11の4つの値のいずれかになる。図6(a)に示すように、各画素の量子化値が2ビットで表わされる場合、量子化ステップ幅Wを、量子化前と同様に0〜255(10進数)の値で表わすと64となる。また、図6(b)に示すように、各画素の量子化値が3ビットで表わされる場合、量子化ステップ幅Wを、量子化前と同様に0〜255(10進数)の値で表わすと32となる。
次に、上述のステップS104、S105における、ブロック単位画像選択部104及び符号化対象画像更新部105の処理の詳細について、図7を用いて説明する。
図7で示す例のように、ブロック単位選択信号S12がエンコーダ予測画像を選択しているブロックでは、エンコーダ予測画像F21の情報を用い、ブロック単位選択信号S12が符号化対象画像を選択しているブロックでは、Wyner−Ziv画像F11の情報を用いて、更新後Wyner−Ziv画像F23を構成する。
図7では、Wyner−Ziv画像F11、エンコーダ予測画像F21、更新後Wyner−Ziv画像F23のそれぞれについて、縦4ブロック×横4ブロック(16のブロック)に分割したとなっている。図7(a)、図7(b)、図7(d)は、それぞれWyner−Ziv画像F11、エンコーダ予測画像F21、更新後Wyner−Ziv画像F23の画像の内容を概念的に表している。また、図7(c)では、ブロック単位選択信号S12において、Wyner−Ziv画像F11が選択されたブロックと、エンコーダ予測画像F21が選択されたブロックの分布を示している。図7では、四角形の枠のそれぞれを1つのブロックとし、当該四角形の中に図示された符号が当該ブロックの識別子となっている。図7(a)に示すWyner−Ziv画像F11では、各ブロックの符号は、小文字のアルファベットa〜pとなっている。そして、図7(b)に示すエンコーダ予測画像F21では、各ブロックの符号は、大文字のアルファベットA〜Pとなっている。そして、図7(c)に示すような分布のブロック単位選択信号S12に基づいて生成される更新後Wyner−Ziv画像F23が、図7(d)のようになる。
図7(d)では、Wyner−Ziv画像F11が選択されたブロックについては小文字のアルファベットの符号を付し、エンコーダ予測画像F21が選択されたブロックについては大文字のアルファベットを付している。
例えば、図7(d)に示すブロックB1には小文字のアルファベット「e」が付されているので、Wyner−Ziv画像F11の画素値が採用されていることを示している。一方、図7(d)に示す画素B2には、大文字のアルファベット「I」が付されているので、エンコーダ予測画像F21の画素値が採用されていることを示している。
選択信号S11は、1つの画素につき、1ビットの情報を有しているため、その情報量は多い。その情報量は、量子化ステップを半分にするために必要な情報量に相当する。しかし、ブロック単位画像選択部104で、選択信号104をブロック化し情報量を抑えたブロック単位選択信号S12を生成し、そのブロック単位選択信号S12に基づいた選択信号伝達符号C1の符号量は僅かとなる。
また、エンコーダ予測画像の品質が高い画素は密集し、領域を形成することが多い。したがって、選択信号S11がエンコーダ予測画像F21を指している領域は、エンコーダ予測画像F21の品質が高い領域であるため、エンコーダ予測画像F21を指している選択信号S11も密集し領域を形成する傾向がある。この傾向があるため、ブロック単位画像選択部104は、符号量を僅かに抑えながらも、効率よく選択信号S11の情報を保持することができる。
(A−2−2)動画像復号装置20の動作
次に、動画像復号装置20の復号処理の動作について、図5のフローチャートを用いて説明する。
まず、選択信号受取部110が、選択信号伝達符号C1の供給を受け、ブロック単位選択信号S11を生成する(S110)。
そして、エンコーダ予測画像生成部201が、動き推定などを用いて、Key画像F12からエンコーダ予測画像F21を生成する(S111)。
そして、デコーダ予測画像生成部202が、動き推定などを用いて、Key画像F12からデコーダ予測画像F32を生成する(S112)。
そして、デコーダ予測画像更新部203が、ブロック単位選択信号S11の指示に従い、エンコーダ予測画像F21とデコーダ予測画像F32とから更新後デコーダ対象画像113を生成する(S113)。
ブロック単位選択信号S11は、ブロック単位選択信号S12でエンコーダ予測画像が選択されているブロックについては、エンコーダ予測画像F21の情報を利用して更新後デコーダ予測画像113を構成する。また、ブロック単位選択信号S11は、ブロック単位選択信号S12で符号化対象画像が選択されているブロックでは、デコーダ予測画像F32の情報を用いて、更新後デコーダ予測画像113を構成する。
そして、デコーダ予測画像量子化部204が、更新後デコーダ予測画像113を量子化し、量子化後デコーダ予測画像F34を生成する(S114)。
そして、LLR推定部205が、量子化後デコーダ予測画像F34から、LLR通知信号S22を推定する(S115)。
そして、Slepian−Wolf復号部206が、LLR通知信号S22とSlepian−WolfストリームST1を用いてSlepian−Wolf復号し、訂正後Wyner−Ziv画像F35を生成する(S116)。
そして、再構成部207が、訂正後Wyner−Ziv画像F35と、デコーダ予測画像113とにもとづいて、再構成画像F36を生成する(S117)。
そして、再構成画像更新部208が、ブロック単位選択信号S11の指示に従い、再構成画像F36とデコーダ予測画像F32とから復号画像5を生成する(S118)。
具体的には、再構成画像更新部208は、ブロック単位選択信号S11がエンコーダ予測画像を選択しているブロックでは、デコーダ予測画像F32の情報を用い、ブロック単位選択信号S12が符号化対象画像を選択しているブロックでは再構成画像112の情報を用いて、更新後デコーダ予測画像113を構成する。
ブロック単位選択信号S12がエンコーダ予測画像F21を選択しているブロックは、Wyner−Ziv画像F11とエンコーダ予測画像F21間の誤差が量子化誤差未満の領域である。つまり、当該ブロックは、エンコーダ予測画像F21の品質が高い領域(予測が当たりやすい領域)である。一般的に、デコーダ予測画像は、エンコーダ予測画像よりも高品質であるため、予測が当たりやすい領域では、デコーダ予測画像の品質が、エンコーダ予測画像の品質よりも高くなる可能性は高い。そこで、第1の実施形態の動画像復号装置20では、ブロック単位選択信号S11によってエンコーダ予測画像F21が選択されている領域ではデコーダ予測画像F32の情報を復号結果として採用するものとする。
(A−3)第1の実施形態の効果
第1の実施形態によれば以下のような効果を奏することができる。
(A−3−1)動画像符号化装置10では、Wyner−Ziv画像F11をそのままSlepian−Wolf符号化に用いずに、選択信号S11を利用して補正した更新後Wyner−Ziv画像F23を用いてSlepian−Wolf符号化を行っている。符号化対象画像更新部105では、Wyner−Ziv画像F11の各画素の量子化誤差Xを閾値Tと比較し、その比較結果に応じて、一部のブロックについて画素値をエンコーダ予測画像F21の画素値に置き換えている。したがって、更新後Wyner−Ziv画像F23では、Wyner−Ziv画像F11よりも、エンコーダ予測画像F21との差異が少ない画像となっている。そして、レート制御部107は、量子化後Wyner−Ziv画像F24(更新後Wyner−Ziv画像F23を量子化した画像)と量子化後エンコーダ予測画像F22とを比較し、量子化後エンコーダ予測画像F22の誤りを推定し訂正するために必要な符号量をレートRとして計算する。レート制御部107では、量子化後エンコーダ予測画像F22と比較の対象となる画像(量子化値列)との差異が少ないほど、訂正すべき誤りが少なく、計算結果が低いレートR(少ない符号量)となる。また、レート制御部107では、Wyner−Ziv画像F11よりもエンコーダ予測画像F21との差異が少ない更新後Wyner−Ziv画像F23に基づく量子化後Wyner−Ziv画像F24を用いてレートRを計算している。したがって、第1の実施形態のレート制御部107では、従来(Wyner−Ziv画像F11をそのまま量子化に用いて、レートRを計算する場合)以下のレートRを計算結果として出力することになる。
そして、符号化対象画像更新部105では、上述の通り、量子化誤差Xが閾値T以上の画素が比率k以上含まれているブロックについては、Wyner−Ziv画像F11の画素値を採用し、量子化誤差Xが閾値T以上の画素が比率k未満のブロックについては、エンコーダ予測画像F21の画素値を採用するものとしている。上述の通り、更新後Wyner−Ziv画像F23は、Wyner−Ziv画像F11よりもエンコーダ予測画像F21との差分が少なくなるように補正されている。しかし、更新後Wyner−Ziv画像F23において、補正されているブロックの画素は所定の比率k以上で、量子化誤差Xよりも差分の少ない画素となる。したがって、Wyner−Ziv画像F11と更新後Wyner−Ziv画像F23との間の変化を画素単位(パラメータ単位)で見た場合、その変化は比率k以上の画素で量子化誤差Xの範囲内にとどまることになる。
一方、Slepian−Wolf符号化部108では、量子化後エンコーダ予測画像F22の誤りを訂正して量子化後Wyner−Ziv画像F24とするためのパリティビットを生成する。上述の通り、量子化後Wyner−Ziv画像F24及び量子化後エンコーダ予測画像F22には、量子化誤差Xを含むことになる。したがって、Wyner−Ziv画像F11と更新後Wyner−Ziv画像F23との差分が、量子化誤差Xの範囲内とすれば、Slepian−Wolf符号化部108で生成するパリティビットによる誤り訂正の結果は、Wyner−Ziv画像F11をそのままSlepian−Wolf符号化を行う場合と比較しても同程度の精度となる。すなわち、この実施形態の動画像符号化装置10のように、更新後Wyner−Ziv画像F23をSlepian−Wolf符号化に用いる場合でも、Wyner−Ziv画像F11をそのままSlepian−Wolf符号化に用いる場合でも、動画像復号装置20側で得られる復号品質は同程度となる。
しかし、第1の実施形態の画像選択部103では、画素ごとの量子化誤差Xについて一律に閾値T(例えば、エンコーダ予測画像F21の量子化ステップ幅の半分の値)と比較する処理を行っているため、実際に更新後Wyner−Ziv画像F23をSlepian−Wolf符号化に用いる場合でも、動画像復号装置20側で得られる復号品質は同程度となるか否かについての検証を行った。以下、第1の実施形態の効果に関する検証結果について、図8、図9を用いて説明する。
図8では、従来技術と同様に、Wyner−Ziv画像F11をそのまま量子化してSlepian−Wolf符号化を行う例について説明している。一方、図9では、第1の実施形態の動画像符号化装置10により符号化を行う例(更新後Wyner−Ziv画像F23を量子化して符号化に用いる場合)について示している。また、図8、図9では、説明を簡易とするために、各画像(Wyner−Ziv画像F11、更新後Wyner−Ziv画像F23、及びエンコーダ予測画像F21)は、3つの画素PX1〜PX3による画素列(1×3の画素列)で構成される画像であるものとしている。そして、図8、図9では、説明を簡易とするため、ブロック単位選択信号S12における各ブロックが1つの画素で構成されるものとして表している。言い換えると、図8、図9では、3つの画素PX1〜PX3が、それぞれブロック単位選択信号S12における1つのブロックを構成しているものとして示している。
そして、図8、図9では、Wyner−Ziv画像F11を構成する画素列αの画素PX1〜PX3の画素値は、それぞれ79、114、164(10進数)となっているものとする。また、図8、図9において、エンコーダ予測画像F21を構成する画素列βの各画素値は、それぞれ97、129、188であったものとする。なお、図8、図9では、画素列α、画素列βの各画素値は0〜255(10進数)で表されるものとして示している。
次に、図8、図9の例のそれぞれについて、Slepian−Wolf符号化を行う場合に必要な符号量、及び、Slepian−Wolf符号化部108で生成される符号(パリティビット)を用いて動画像復号装置20側で復号処理を行った場合の平均誤差(復号品質)について説明する。
まず、図8の例において、Slepian−Wolf符号化を行う場合に必要な符号量について説明する。図8の例では、量子化後エンコーダ予測画像F22として、画素列βを量子化ビット数2ビットで量子化した量子化値列γ1を用いるものとする。図8では、量子化ビット数2ビットで量子化された量子化値列γ1の各量子化値は先頭から01、10、10(2進数)となっている。
また、図8に示すように、Wyner−Ziv画像F11の画素列αの各画素値を、量子化ビット数2ビットで量子化した量子化値列δ(量子化後Wyner−Ziv画像F24)の画素PX1〜PX3の画素値は、それぞれ01、01、10(2進数)となる。
そして、量子化ビット数2ビットで量子化された量子化値列γ1(エンコーダ予測画像F21)と、量子化値列δ(Wyner−Ziv画像F11)の間に生じている予測誤りを訂正するのに必要な情報量は、量子化値列γ1(エンコーダ予測画像F21)と量子化値列δ(Wyner−Ziv画像F11)の間のビット誤り確率から条件付きエントロピーを計算し、それに量子化列δのビット数を乗じれば求めることができる。この場合、量子化値列γ1(エンコーダ予測画像F21)と、量子化値列δ(Wyner−Ziv画像F11)の間のビット誤り数は、6個中2個であるので、ビット誤り確率は2/6である。
そして、このビット誤り確率からpをビット誤り確率としたときの条件付きエントロピー「−plog(p)−(1−p)log(1−p)」を求め、それに量子化列δのビット数6を乗じると、5.5ビットになる。すなわち、図8の例では、5.5ビットの符号量(パリティビット)がなければ量子化後エンコーダ予測画像F22から量子化後Wyner−Ziv画像F24を得ることができないことになる。
次に、図8の例における平均誤差について説明する。
ここでは、動画像復号装置20においてSlepian−Wolf復号が成功し、Slepian−Wolf復号部206が出力する訂正後Wyner−Ziv画像F35が、量子化値列δ(Wyner−Ziv画像F11)と同じになったと仮定する。このとき、訂正後量子化値から、画像を再構成する方法(画像再構成部212の処理方法)は限定されないものであるが、例えば、非特許文献4のように、デコーダ予測画像F32を量子化した値と訂正後Wyner−Ziv画像F35が一致する場合、デコーダ予測画像F32を再構成結果とし、異なる場合は、量子化区間のなかでデコーダ予測画像F32に最も近い値を再構成結果とするようにしてもよい。なお、図8、図9の例では、説明を簡易にするためにデコーダ予測画像F32がエンコーダ予測画像F21と同じであったと仮定する。
そして、図8の例では、動画像復号装置20で生成される再構成画像の画素列ε1を構成する各画素の画素値は、97、128、188(10進数)になる。この場合、ε1と、原画像(Wyner−Ziv画像F11)の画素列αとの間の平均誤差(画素ごとの画素値の差分の平均値)を求めると、18.7になる。
次に、図9の例について説明する。
なお、図9の例では、量子化後エンコーダ予測画像F22として、画素列βを量子化ビット数3ビットで表した量子化値列γ2を用いるものとする。図9では、量子化ビット数2ビットで量子化された量子化値列γ2の各量子化値は先頭から011、100、101(2進数)となっている。図8の例と図9の例で、エンコーダ予測画像F21に適用する量子化ビット数を同じとすると、誤り訂正に必要な符号量が減り、平均誤差が増える結果となり、本発明の効果がわかりにくくなる。そこで、図9では、量子化ビット数を3ビットとして、図8の例と同程度の平均誤差を、より少ない符号量で実現できることを検証している。
はじめに、Wyner−Ziv画像(画素列α)とエンコーダ予測画像F21(画素列β)の間の画素値の差分を計算する。図8では、先頭から画素Px2の画素値の差分のみが、量子化ステップ幅の半分(2^(8−3)/2=16)よりも小さい15である。したがって、図9の例における更新後Wyner−Ziv画像F23の画素列ζでは、画素Px2のみがエンコーダ予測画像F21の画素値に補正され、その画素値は先頭から79、129、164(10進数)となる。
次に、図9の例において、Slepian−Wolf符号化を行う場合に必要な符号量について説明する。
図9に示すように、エンコーダ予測画像F21の画素列βを、量子化ビット数3ビットで量子化した量子化値列γ2の3つの量子化値は、先頭から011、100、101(2進数)となる。
また、更新後Wyner−Ziv画像F23の画素列ζを、量子化ビット数3ビットで量子化した量子化値列δの3つの量子化値は、先頭から010、100、101(2進数)となる。
そして、量子化ビット数3ビットで量子化された量子化値列γ2(量子化後エンコーダ予測画像F22)と、量子価値列δ(量子化後Wyner−Ziv画像F24)の間に生じている予測誤りを訂正するのに必要な情報量は、量子化値列γ2(量子化後エンコーダ予測画像F22)と量子化値列δ(量子化後Wyner−Ziv画像F24)の間のビット誤り確率から求めた条件付きエントロピーを計算すれば求めることができる。この場合、量子化値列γ2(エンコーダ予測画像F21)と、量子化値列δ(更新後Wyner−Ziv画像F23)の間のビット誤り数は、9個中1個であるので、ビット誤り確率は1/9である。
そして、このビット誤り確率からpをビット誤り確率としたときの条件付きエントロピー「−plog(p)−(1−p)log(1−p)」を求め、それに量子化列δのビット数9を乗じると、4.5ビットになる。すなわち、図9の例では、4.5ビットの符号量(パリティビット)がなければ量子化後エンコーダ予測画像F22から量子化後Wyner−Ziv画像F24を得ることができないことになる。
次に、図9の例における平均誤差について説明する。
図9の例では、動画像復号装置20においてSlepian−Wolf復号が成功し、Slepian−Wolf復号部206が出力する訂正後Wyner−Ziv画像F35が、量子化値列δ(Wyner−Ziv画像F11)と同じになったと仮定する。そして、図9において、再構成画像F36の生成方法(再構成部207の処理方法)に、図8の場合と同じ方法を用いるものとする。この場合、図9の例では、動画像復号装置20で生成される再構成画像の画素列ε2を構成する各画素の画素値は、先頭から96、129、188(10進数)になる。この場合、ε2(再構成画像F36)と、画素列α(Wyner−Ziv画像F11)のとの間の平均誤差(画素ごとの画素値の差分の平均値)を求めると、18.7(小数点以下を四捨五入)になる。
以上の計算結果をまとめると、図8の例では、平均誤差18.7を実現するのに5.5ビットの符号量を要していたのに対し、図9の例(第1の実施形態の動画像配信システム1)では、同じ平均誤差18.7を実現するのに、4.5ビットしかしか必要としていない。すなわち、第1の実施形態のように、エンコーダ予測画像F21の量子化ステップ幅の半分の値を量子化誤差Xの平均値とみなして、更新後Wyner−Ziv画像F23を生成するための閾値Tとして適用しても、従来よりも少ない符号量で同等の復号品質を実現することができることがわかる。
以上のように、第1の実施形態の動画像配信システム1では、符号量あたりの画質改善量が小さい画素を対象にした符号量の増加を防止することで、復号画像の品質を低下させずに符号量を少なくすることができる。
(A−3−2)動画像配信システム1では、動画像符号化装置10から動画像復号装置20に、ブロック単位選択信号S11(選択信号伝達符号C1)を通知することにより、動画像復号装置20で不必要な復号誤りの発生を防止できる。なお、従来のDVCを採用したシステムにおいて、不必要な復号誤りは、例えば、デコーダ予測画像がエンコーダ予測画像よりも高品質になる場合に発生する。
上述の通り、一般的に、デコーダ予測画像は、エンコーダ予測画像よりも高品質である。また、エンコーダ予測画像が符号化対象画像(Wyner−Ziv画像)に近いことは、復号品質を改善するために役立つ。しかし、この実施形態の動画像符号化装置10のように、更新後Wyner−Ziv画像F23(Wyner−Ziv画像F11を、エンコーダ予測画像F21により更新した画像)のSlepian−Wolf符号を生成している場合、そのSlepian−Wolf符号にとっては、更新後Wyner−Ziv画像F23を生成することが復号の目標になる。したがって、動画像復号装置20のSlepian−Wolf復号部206に対して、可能な限り更新後Wyner−Ziv画像F23に近い画像を入力することが求められる。
すなわち、Slepian−Wolf復号部206に与えるデコーダ予測画像が更新後Wyner−Ziv画像F23から遠ければ、Slepian−Wolf復号部206では、誤りが多すぎるとして復号誤りを発生させる恐れがある。更新後Wyner−Ziv画像F23は、一部にエンコーダ予測画像の情報を含んでいるため、デコーダ予測画像F32がエンコーダ予測画像F21よりも高品質な場合(つまりデコーダ予測画像F32がエンコーダ予測画像F21よりも遠い場合)、デコーダ予測画像F32と更新後Wyner−Ziv画像F23の関係も遠くなる可能性がある。その場合、Slepian−Wolf復号部206において、復号誤りが発生する。そこで、動画像復号装置20では、更新後デコーダ予測画像F33を生成すること(Wyner−Ziv画像F11とデコーダ予測画像F32とのそれぞれ同じ領域でエンコーダ予測画像F21の情報を含むこと)で、不必要な復号誤りの発生を防止する。
(B)第2の実施形態
以下、本発明による動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムの第2の実施形態を、図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
第2の実施形態の動画像配信システム1Aの全体構成についても上述の図1を用いて示すことができる。以下、第2の実施形態について第1の実施形態との差異について説明する。
第2の実施形態の動画像配信システム1Aでは、動画像符号化装置10及び動画像復号装置20が、動画像符号化装置10A及び動画像復号装置20Aに置き換わっている。
図10は、第2の実施形態の動画像符号化装置10Aの機能的構成について示したブロック図である。
そして、第2の実施形態の動画像符号化装置10Aでは、レート制御部107がレート制御部107Aに置き換わっている。
レート制御部107Aは、ブロック単位選択信号S12において、Wyner−Ziv画像F11が選択されているブロックに係るビット(当該ブロックに所属する画素値を示すビット)を特定し、符号化対象画像が選択されている画素に関わるビットのみを対象に、ビット反転確率を求め、求めたビット反転確率からレートRを生成する処理を行う。
図11は、第2の実施形態の動画像復号装置20Aの機能的構成について示したブロック図である。
第2の実施形態の動画像復号装置20Aでは、LLR補正部209が追加されている点で第1の実施形態と異なっている。
LLR補正部209は、ブロック単位選択信号S11より、エンコーダ予測画像F21が選択されているブロックの位置を明らかにし、エンコーダ予測画像F21が選択されているブロックに含まれるビットに対応するLLRの大きさが、その他のビットのLLRに比べて十分大きくなるように補正する処理(例えば、1以上の係数を乗じて補正する処理や、定数を加算する処理)を行って、補正後LLRを求める。そして、LLR補正部209は、各ビットの補正後LLRを表す補正後LLR通知信号219を生成して、Slepian−Wolf復号部206に供給する。Slepian−Wolf復号部206は、補正後LLR通知信号S23とSlepian−WolfストリームST1を用いて、Slepian−Wolf復号をおこない、訂正後Wyner−Ziv画像F35を生成する。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の動画像配信システム1Aの動作を説明する。
以下では、第2の実施形態の動画像配信システム1Aの動作のうち、第1の実施形態との差異について図12、図13を用いて説明する。
第2の実施形態の動画像配信システム1Aでは、上述のステップS107、S115、S116が、それぞれステップS207、S215、S216に置き換わっている点で異なっている。
まず、動画像符号化装置10A側の処理(ステップS207)について説明する。
図12に示すようにステップS207は、3つのステップS207−1〜S207−3に分かれている。
ステップS207−1では、レート制御部107Aにより、ブロック単位選択信号S12に基づき、Wyner−Ziv画像F11が選択されている画素が特定される。
ステップS207−2では、レート制御部107Aにより、Wyner−Ziv画像F11が選択されている画素に関わるビットのみを対象にビット反転確率が求められる。
ステップS207−3では、レート制御部107Aにより、求めたビット反転確率からレートRが生成される。
第1の実施形態のSlepian−Wolf符号化処理においては、ビット反転確率が定常であることを前提に符号化するので、エンコーダ予測画像F21が選択されているブロックでもビット反転が発生する可能性を配慮したSlepiam−Wolf符号を生成する。しかし、更新後Wyner−Ziv画像F23において、エンコーダ予測画像F21が選択されているブロックは、符号化側と復号側とで情報(エンコーダ予測画像F21)が共有されている領域であり、新たな情報を必要としない領域である。そこで、第2の実施形態の動画像復号装置20Aでは、Wyner−Ziv画像F11が選択されているブロックを特定し、そのブロックに関わるビットのみで、ビット反転確率およびレートRを計算することで、符号量の増加を防止する。
次に、動画像復号装置20A側の処理(ステップS215、S216)について説明する。
図13に示すようにステップS215は、2つのステップS215−1、S215−2に分かれている。
ステップS215−1では、LLR推定部205により、量子化後デコーダ予測画像F34から、LLRが推定され、LLR通知信号S22として出力される。
ステップS215−2では、LLR補正部209により、ブロック単位選択信号S11に基づき、LLR通知信号S22が補正され、補正後LLR通知信号S23として生成される。
具体的には、LLR補正部209は、ブロック単位選択信号S11より、エンコーダ予測画像が選択されているブロックの位置を認識し、エンコーダ予測画像F21が選択されているブロックに含まれるビットに対応するLLRの大きさが、その他のビットのLLRに比べて十分大きくなるように補正する。
そして、ステップS216では、Slepian−Wolf復号部206により、補正後LLR通知信号S23とSlepian−WolfストリームST1を用いて、復号処理が行われ、訂正後Wyner−Ziv画像F35が生成される。
第1の実施形態のSlepian−Wolf復号処理では、ビット反転確率が定常であることを前提に処理されるため、エンコーダ予測画像F21が選択されているブロックでもビット反転が発生する可能性を配慮したSlepiam−Wolf復号処理を行う。しかし、更新後デコーダ予測画像F33において、エンコーダ予測画像F21が選択されているブロックは、符号化側と復号側とで情報(エンコーダ予測画像F21)が共有されている領域であり、新たな情報を必要としない領域である。そこで、第2の実施形態の動画像復号装置20Aでは、Wyner−Ziv画像F11が選択されているブロックを特定し、LLRを補正することで、復号成功確率(復号品質)を向上させることができる。特に、第2の実施形態の動画像符号化装置10Aのように、Wyner−Ziv画像F11が選択されているブロックを特定し、そのブロックに関わるビットのみで、ビット反転確率およびレートRを計算し、符号量を削減している場合、LLRの補正による復号品質向上効果は大きくなる。
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
動画像符号化装置10Aでは、動画像復号装置20Aと情報共有がなされていない、Wyner−Ziv画像F11が選択されているブロックに限定してレートを推定することで、符号量を削減できる。
また、動画像復号装置20Aにおいても、動画像符号化装置10Aと情報共有がなされている、エンコーダ予測画像F21が選択されている領域に関わるビットのLLRを周囲のLLRよりも大きくすることで、Slepian−Wolf復号の品質向上が可能となる。
(C)第3の実施形態
以下、本発明による動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムの第3の実施形態を、図面を参照しながら詳述する。
(C−1)第3の実施形態の構成
第3の実施形態の動画像配信システム1Bの全体構成についても上述の図1を用いて示すことができる。以下、第3の実施形態について第1の実施形態との差異について説明する。
第3の実施形態の動画像配信システム1Bでは、動画像符号化装置10及び動画像復号装置20が、動画像符号化装置10B及び動画像復号装置20Bに置き換わっていうる点で第1の実施形態と異なっている。
図14は、第3の実施形態の動画像符号化装置10Bの機能的構成について示したブロック図である。
第3の実施形態の動画像符号化装置10Bでは、Slepian−Wolf符号化部108がSlepian−Wolf符号化部108Bに置き換わり、さらに、Slepian−Wolf符号選択部109が追加されている点で第1の実施形態と異なっている。
Slepian−Wolf符号選択部109は、ブロック単位選択信号S12に基づき、Wyner−Ziv画像F11が選択されているブロックのビットを特定して、特定したビットを対象としてSlepian−Wolf符号化処理を行うための情報(以下、「専用Slepian−Wolf符号化情報S13」と呼ぶ)を生成する。
この実施形態では、専用Slepian−Wolf符号化情報S13は、上述の特定されたビットのビット数(符号化対象となるビット数)で符号化するのに最適なSlepian−Wolf符号(Slepian−Wolf符号化に用いる符号の行列)を含むものとする。
Slepian−Wolf符号選択部109は、例えば、符号化対象となるビット数(特定ビット数)ごとに最適なSlepian−Wolf符号を予め保持しておき、符号化対象となるビット数(特定ビット数)に応じたSlepian−Wolf符号を選択して、専用Slepian−Wolf符号化情報S13の生成に用いるようにしてもよい。
Slepian−Wolf符号選択部109で、任意のビット数に応じたSlepian−Wolf符号を保持する具体的な処理については限定されないものである。
例えば、参考文献1(Xiao-Yu Hu,Regular and irregular progressive edge-growth tanner graphs, Information Theory, IEEE Transactions on, Volume 51, Issue 1, Pages 386 - 398.)の記載技術を用いて生成したLDPC符号(Low−Density Parity−check Code)に対して、参考文献2(D. Varodayan, A. Aaron and B. Girod,Rate-adaptive codes for distributed source coding, EURASIP Signal Processing Journal, Special Section on Distributed Source Coding, vol. 86, no. 11, pp. 3123-3130, November 2006.)の記載技術に基づく処理を加えて、レートを容易に変更可能なLDPC符号が得られる。そこで、Slepian−Wolf符号選択部109は、例えば、上述の参考文献1、2の記載技術を用いて、任意のビット数に応じて調整された上述のLDPC符号を、Slepian−Wolf符号として保持するようにしてもよい。
Slepian−Wolf符号化部108Bは、専用Slepian−Wolf符号化情報S13を用いてSlepian−Wolf符号化し、Slepian−WolfストリームST1を生成する。
図15は、第3の実施形態の動画像復号装置20Bの機能的構成について示したブロック図である。
第3の実施形態の動画像復号装置20Bでは、Slepian−Wolf復号部206がSlepian−Wolf復号部206Bに置き換わり、さらに、Slepian−Wolf符号選択部210が追加されている点で第1の実施形態と異なっている。
Slepian−Wolf符号選択部210は、ブロック単位選択信号S11に基づき、Wyner−Ziv画像F11が選択されているブロックのビットを特定して、特定したビットを対象としてSlepian−Wolf復号処理を行うための情報(以下、「専用Slepian−Wolf復号情報S24」と呼ぶ)を生成する。
専用Slepian−Wolf復号情報S24は、上述の特定されたビットのビット数で復号するのに最適なSlepian−Wolf符号(Slepian−Wolf復号に用いる符号の行列)を含むものとする。
Slepian−Wolf符号選択部210は、例えば、復号対象となるビット数(特定ビット数)ごとに最適なSlepian−Wolf符号を予め保持しておき、復号対象となるビット数(特定ビット数)に応じたSlepian−Wolf符号を選択して、専用Slepian−Wolf復号情報S24の生成に用いるようにしてもよい。Slepian−Wolf符号選択部210は、例えば、上述のSlepian−Wolf符号選択部109と同様に、上述の参考文献1、2の記載技術を用いて生成されたSlepian−Wolf符号を保持するようにしてもよい。
Slepian−Wolf符号化部108Bは、専用Slepian−Wolf符号S24を用いてSlepian−Wolf復号し、訂正後Wyner−Ziv画像F35を生成する点で第1の実施形態と異なっている。
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の動画像配信システム1Bの動作を説明する。
以下では、第3の実施形態の動画像配信システム1Bの動作のうち、第1の実施形態との差異について図16、図17を用いて説明する。
第3の実施形態の動画像配信システム1Aでは、上述のステップS108、S116が、それぞれステップS308、S316に置き換わっている点で第1の実施形態と異なっている。
まず、動画像符号化装置10B側の処理(ステップS308)について説明する。
図16に示すようにステップS308は、2つのステップS308−1、S308−2に分かれている。
ステップS308−1では、Slepian−Wolf符号選択部109により、ブロック単位選択信号S12に基づき、符号化対象画像が選択されている画素に関わるビットのビットが特定され、特定されたビットに基づいて専用Slepian−Wolf符号化情報S13が生成される。
ステップS308−2では、Slepian−Wolf符号化部108Bにより、レートRに基づき、専用Slepian−Wolf符号化情報S13を用いて、量子化後Wyner−Ziv画像F24が符号化され、Slepian−WolfストリームST1が生成される。具体的には、Slepian−Wolf符号化部108Bは、専用Slepian−Wolf符号化情報S13の情報に基づき、符号化するビットを集め、集めたビットを上述の最適なSlepian−Wolf符号で符号化する。
次に、動画像復号装置20A側の処理(ステップS316)について説明する。
図17に示すようにステップS316は、2つのステップS316−1、S316−2に分かれている。
ステップS316−1では、Slepian−Wolf符号選択部210により、ブロック単位選択信号S11に基づき、符号化対象画像が選択されている画素に関わるビットのビット数が特定され、特定されたビットに基づいて専用Slepian−Wolf復号情報S24が生成される。
ステップS316−2では、Slepian−Wolf復号部206Bにより、LLR通知信号S22、及び専用Slepian−Wolf復号情報S24を用いて、Slepian−WolfストリームST1が復号され、訂正後Wyner−Ziv画像F35が生成される。
具体的には、Slepian−Wolf復号部206Bは、専用Slepian−Wolf復号情報S24の情報に基づき、復号するビットに対応するLLRを集め、集めたLLRを上述の最適なSlepian−Wolf符号で、Slepian−WolfストリームST1を復号する。
(C−3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
更新後Wyner−Ziv画像F23(更新後デコーダ予測画像F33)において、エンコーダ予測画像F21(エンコーダ予測画像F21)が選択されているブロックは、動画像符号化装置10Bと動画像復号装置20Bとの間で、情報が共有されている領域であり、動画像復号装置20Bで復号するために新たな情報を必要としない領域である。
したがって、動画像符号化装置10Bでは、ブロック単位選択信号S12に基づいて、生成した専用Slepian−Wolf符号化情報S13を用いてSlepian−Wolf符号化処理を行うことで、Wyner−Ziv画像F11が選択されているブロックを符号化するのに最適な符号化処理を行い、符号量の増加を抑制することができる。
また、動画像復号装置20Bでは、ブロック単位選択信号S11に基づいて生成した専用Slepian−Wolf復号情報S24を用いて、Slepian−Wolf復号処理を行うことで、Wyner−Ziv画像F11が選択されているブロックの復号に最適な復号処理を行い、復号品質を向上させることができる。
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D−1)上記の各実施形態では、説明を簡易とするために、Wyner−Ziv画像の符号化及び復号に用いる各画像(Wyner−Ziv画像、エンコーダ予測画像、更新後Wyner−Ziv画、デコーダ予測画像、更新後デコーダ予測画像等)について、非特許文献1等のようにDCT変換等による変換処理を行わずに、各画素の画素値又は量子化値で表わしたパラメータ形式(ピクセルドメイン形式)のまま処理するものとして説明している。ただし、本発明では、各画像を表現するためのパラメータ形式は、ピクセルドメイン形式に限定されず、DCT変換等により変換係数領域ごとの量子化値で表わしたパラメータ形式(トランスフォームドメイン形式)としても良い。トランスフォームドメイン形式の場合、上記の各実施形態の画素の画素値(量子化値)が、変換係数領域(複数のブロックに分割して処理する場合には、各ブロック内での変換係数領域)ごとの量子化値に置き換えられることになる。上記の各実施形態で、符号化及び復号に用いる各画像について、トランスフォームドメイン形式で処理する場合には、量子化処理の前段に、トランスフォームドメイン形式のパラメータ列に変換する変換処理部を追加すれば良い。
上記の各実施形態では、各画素の画素値をパラメータとして並べたパラメータ列としてみることができる。そして、Slepian−Wolf理論およびWyner−Ziv理論に基づいたDVC方式の符号化処理及び復号処理では、符号化及び復号する対象となるパラメータ列の数や各パラメータの持つ意味は限定されない。したがって、各画像を表現するためのパラメータ列の形式(パラメータの数等)を変更したとしても、上記の各実施形態と同様の効果を奏することができる。
(D−2)上記の各実施形態において、動画像復号装置では、Key画像からエンコーダ予測画像やデコーダ予測画像を生成しているが、他時刻のWyner−Ziv復号画像から生成しても良い。また、動画像復号装置では、非特許文献3のようにスケーラブル構造を有する場合は、ベースレイヤの情報を用いて、デコーダ予測画像を生成しても良い。
(D−3)上記の各実施形態の動画像符号化装置では、レート制御部による推定結果により、レートRを決定する構成となっているが、非特許文献1のように、動画像復号装置側からのフィードバックアプローチによってレート制御する構成としても良い。フィードバックアプローチによってレート制御する場合、エンコーダ予測画像量子化部102を省略するようにしてもよい。
(D−4)上記の各実施形態では、動画像符号化装置と動画像復号装置はネットワーク等の通信路で接続されているものとして説明しているが、動画像符号化装置と動画像復号装置は直接通信可能な構成としなくてもよい。例えば、動画像符号化装置が生成した動画像データ(Slepian−Wolfストリーム及びKeyストリームのデータ)を、DVDやハードディスク等の媒体に記録し、オフラインで動画像復号装置に供給するようにしてもよい。
(D−5)第3の実施形態において、専用Slepian−Wolf復号情報S24とSlepian−Wolf符号化部108の形態として、エンコーダ予測画像F21が選択されている画素に属するビットが符号化処理および復号処理に関わらないSlepian−Wolf符号を生成しても良い。該Slepian−Wolf符号は、符号化および復号するビットの位置情報を、Slepian−Wolf符号に内在したものとなる。この場合、ステップS308−2で、Slepian−Wolf符号化部108Bは、符号化するビットを集めたり、ステップS316−2で復号するビットに対応するLLRを集めたりする必要はなくなる。