JP5900024B2

JP5900024B2 - 動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システム

Info

Publication number: JP5900024B2
Application number: JP2012047020A
Authority: JP
Inventors: 和仁迫水
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2016-04-06
Anticipated expiration: 2032-03-02
Also published as: JP2013183360A; US20130230100A1; US10171805B2

Description

この発明は、動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムに関し、例えば、動画像についてＤＶＣ（ＤｉｓｔｒｉｂｕｔｅｄＶｉｄｅｏＣｏｄｉｎｇ）方式で動画像データを符号化して配信する動画像配信システムに適用し得る。

近年、動画像配信システムに用いる動画像符号化方式として、非特許文献１に説明されるようなＤＶＣという符号化方式に注目が集まっている。この方式は、符号化部で符号化するべき原画像に対してＳｌｅｐｉａｎ−Ｗｏｌｆ符号化処理を行い、その符号化データと復号側で行った符号化部の原画像の予測画像とともにＳｌｅｐｉａｎ−Ｗｏｌｆ復号を行うことで画像の復号処理を行う符号化方式である。非特許文献１では、このＳｌｅｐｉａｎ−Ｗｏｌｆ理論およびＷｙｎｅｒ−Ｚｉｖ理論に基づき動画像の符号化および復号をおこなう動画像符号化装置及び動画像復号装置を備える動画像配信システムについて説明している。

次に、非特許文献１の記載技術を採用した動画像配信システムの概要について説明する。非特許文献１に記載された動画像符号化装置では、符号化するべき原画像（以下、「Ｗｙｎｅｒ−Ｚｉｖフレーム」という）を、量子化して２値（ビット）で表し、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化を行う。そして、動画像符号化装置では、その符号化結果のうちパリティビットのみが保存される。

一方、非特許文献１に記載された動画像復号装置は、動画像符号化装置に対して保存しているパリティビットの一部について送信要求を行う。そして、動画像復号装置は、受信したパリティビットと、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ（予測画像のことであり以下、「ＳＩ」とも呼ぶ）から、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号を行う。動画像復号装置は、十分な復号が行えなかった場合は、再度符号化部にパリティビットの一部の追加送信要求を行い、追加受信したパリティビットと、上述のＳＩから、再度Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号を行う。そして、動画像復号装置は、上述の処理を、十分な復号が行えるまで繰り返す。

しかし、非特許文献１に記載されたＤＶＣ方式のシステム（Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論およびＷｙｎｅｒ−Ｚｉｖ理論に基づき動画像の符号化および復号をおこなうシステム）では、原則として動画像符号化装置側で、ＳＩの生成は行われない。しかし、ＤＶＣ方式のシステムにおいて、動画像符号化装置側で、ＳＩを生成しないという制限のもとで、高い符号化効率を実現することは難しい。そのため、動画像符号化装置側でも、ＳＩを生成して符号化処理に用いる研究が行われている。動画像符号化装置側で、ＳＩを生成して符号化処理に用いる従来技術として非特許文献２、３の記載技術がある。

非特許文献２では、動画像復号装置から動画像符号化装置へのパリティビットの再送要求を不要とするために、誤り訂正に必要なパリティビットの量（以下、「符号量」とも呼ぶ）を計算する。具体的には、非特許文献２では、動画像符号化装置において、動画像復号装置側で生成されるＳＩよりも低い演算量で生成可能なＳＩを生成し、それをもとにＳＩの誤りを推定し訂正するために必要な符号量を計算することにより、フィードバックを必要としない手法を実現している。非特許文献３の記載技術のように、スケーラブル構造を有する場合には、動画像符号化装置側でＳＩを生成する際にベースレイヤの情報を用いるようにしても良い。

動画像復号装置において復号画像の品質を高めるには、動画像符号化装置で生成されるＳＩより高い、あるいは少なくとも同等の予測精度のＳＩを生成する必要があるが、予測精度のより高いＳＩを生成するには、より多くの演算量を必要とする。予測精度の高いＳＩを生成する方法として、動画像復号装置において、一旦生成したＳＩが所定の品質に満たない場合等に、さらに高品質なＳＩを再生成する処理を行うことにより、一定以上の予測精度のＳＩを得る方式が非特許文献４で提案されている。

Ｂ．Ｇｉｒｏｄ，ａＭ．Ａａｒｏｎ，Ｓ．Ｒａｎｅ，ａｎｄＤ．Ｒｅｂｏｌｌｏ−Ｍｏｎｅｄｅｒｏ， "ＤｉｓｔｒｉｂｕｔｅｄＶｉｄｅｏＣｏｄｉｎｇ，" ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，ｖｏｌ．９３，Ｊａｎ．２００５，ｐｐ．７１−８３．Ｃ．ＢｒｉｔｅｓａｎｄＦ．Ｐｅｒｅｉｒａ， "ＥｎｃｏｄｅｒｒａｔｅｃｏｎｔｒｏｌｆｏｒｔｒａｎｓｆｏｒｍｄｏｍａｉｎＷｙｎｅｒ−Ｚｉｖｖｉｄｅｏｃｏｄｉｎｇ，" ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２００７．ＩＣＩＰ２００７．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，ＩＥＥＥ，２００７，ｐｐ．４−７．」Ｍ．Ｔａｇｌｉａｓａｃｃｈｉ，Ａ．Ｍａｊｕｍｄａｒ，ａｎｄＫ．Ｒａｍｃｈａｎｄｒａｎ， "Ａｄｉｓｔｒｉｂｕｔｅｄ−ｓｏｕｒｃｅ−ｃｏｄｉｎｇｂａｓｅｄｒｏｂｕｓｔｓｐａｔｉｏ−ｔｅｍｐｏｒａｌｓｃａｌａｂｌｅｖｉｄｅｏｃｏｄｅｃ，" Ｐｒｏｃ．ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ，Ｃｉｔｅｓｅｅｒ，２００４．Ｊ．Ａｓｃｅｎｓｏ，Ｃ．Ｂｒｉｔｅｓ，ａｎｄＦ．Ｐｅｒｅｉｒａ， "Ｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｒｅｆｉｎｅｍｅｎｔｆｏｒｌｏｗｃｏｍｐｌｅｘｉｔｙｐｉｘｅｌｂａｓｅｄｄｉｓｔｒｉｂｕｔｅｄｖｉｄｅｏｃｏｄｉｎｇ，" Ｐｒｏｃｅｅｄｉｎｇｓ．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｄＶｉｄｅｏａｎｄＳｉｇｎａｌＢａｓｅｄＳｕｒｖｅｉｌｌａｎｃｅ，２００５．，ｐｐ．５９３−５９８．

従来の動画像符号化装置でＳＩを生成する場合、生成したＳＩの量子化値と、Ｗｙｎｅｒ−Ｚｉｖ画像の量子化値との間の誤りの量に応じて、動画像復号装置側に供給する符号量を増減させる。すなわち、従来の動画像符号化装置では、上述の量子化値の誤りの量が多いほど多くの符号量のパリティビットを、動画像復号装置側に供給することになる。

一方、動画像符号化装置において、上述の符号量はより少ない方が、伝送効率等の面から好ましいが、符号量を少なくすると動画像復号装置側で生成する復号画像の品質が低下する。

そのため、復号画像の品質を低下させずに符号量を少なくすることができる動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムが望まれている。

第１の本発明は、フレーム列を有する動画像信号を符号化する動画像符号化装置において、（１）上記フレーム列のうちキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、（２）非キーフレームの予測画像を表す各パラメータと、非キーフレームの原画像を表す各パラメータについて、それぞれパラメータ値を比較し、その比較結果に応じて、パラメータごとに予測画像又は原画像のいずれかのパラメータ値を選択して更新後原画像を生成する更新後原画像生成手段と、（３）非キーフレームに対する更新後原画像の誤りを訂正するための誤り訂正符号を生成する誤り訂正符号生成手段と、（４）更新後原画像及び予測画像を構成するパラメータ値を量子化する量子化手段とを有し、（５）上記誤り訂正符号生成手段は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化処理により、量子化された更新後原画像及び予測画像を用いて誤り訂正符号を生成する処理を行い、（６）上記更新後原画像生成手段は、予測画像の各パラメータと当該原画像の各パラメータについて、それぞれパラメータ値の差分を算出し、当該差分が上記量子化手段の処理により発生する量子化誤差より大きいパラメータについては、当該原画像のパラメータ値を選択して更新後原画像に適用し、当該差分が量子化誤差以下となるパラメータについては、当該予測画像のパラメータ値を選択して更新後原画像に適用することを特徴とする。

第２の本発明は、フレーム列を有する動画像信号がフレーム単位に符号化された動画像データを復号する動画像復号装置において、（１）上記動画像データに含まれるキーフレームの符号化データを復号してキーフレームを得るキーフレーム復号手段と、（２）復号されたキーフレームを利用して、上記フレーム列のうち非キーフレームの第１の予測画像を生成する第１の予測画像生成手段と、（３）復号されたキーフレームを利用して、上記動画像データを構成する非キーフレームの符号化データを生成する際に用いられたものと同様であり、かつ上記前記第１の予測画像とは生成方式の差異により内容が異なる第２の予測画像を生成する第２の予測画像生成手段と、（４）非キーフレームを表すパラメータごとに第１の予測画像又は第２の予測画像のいずれかのパラメータ値を選択して、更新後予測画像を生成する更新後予測画像生成手段と、（５）上記動画像データの非キーフレームの符号化データが、当該非キーフレームの原画像に対する予測画像の誤りを訂正する誤り訂正符号であった場合には、当該非キーフレームの更新後予測画像について、その誤り訂正符号を用いて訂正した訂正後画像を生成する誤り訂正手段とを有し、（６）上記第１の予測画像生成手段は、上記誤り訂正手段の生成した訂正後画像を利用して、同じ非キーフレームの第１の予測画像を再生成することが可能であり、（７）上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、再生成された第１の予測画像、第２の予測画像、及び、前回上記誤り訂正手段により生成された訂正後画像のパラメータ値を比較し、その比較結果に基づいて、再生成された第１の予測画像又は第２の原画像のいずれかのパラメータ値を選択して、更新後予測画像を再生成し、（８）上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、第２の予測画像のパラメータ値と訂正後画像のパラメータ値が等しく、さらに、訂正後画像のパラメータ値と再生成された第１の予測画像のパラメータ値とが異なるという条件に該当するか否かを判定し、上記条件に該当するパラメータについては、第２の予測画像のパラメータ値を選択し、上記条件に該当しないパラメータについては再生成された第１の予測画像のパラメータ値を選択することを特徴とする。

第３の本発明の動画像符号化プログラムは、フレーム列を有する動画像信号を符号化する動画像符号化装置に搭載されたコンピュータを、（１）上記フレーム列のうちキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、（２）非キーフレームの予測画像を表す各パラメータと、非キーフレームの原画像を表す各パラメータについて、それぞれパラメータ値を比較し、その比較結果に応じて、パラメータごとに予測画像又は原画像のいずれかのパラメータ値を選択して更新後原画像を生成する更新後原画像生成手段と（３）非キーフレームに対する更新後原画像の誤りを訂正するための誤り訂正符号を生成する誤り訂正符号生成手段と、（４）更新後原画像及び予測画像を構成するパラメータ値を量子化する量子化手段として機能させ、（５）上記誤り訂正符号生成手段は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化処理により、量子化された更新後原画像及び予測画像を用いて誤り訂正符号を生成する処理を行い、（６）上記更新後原画像生成手段は、予測画像の各パラメータと当該原画像の各パラメータについて、それぞれパラメータ値の差分を算出し、当該差分が上記量子化手段の処理により発生する量子化誤差より大きいパラメータについては、当該原画像のパラメータ値を選択して更新後原画像に適用し、当該差分が量子化誤差以下となるパラメータについては、当該予測画像のパラメータ値を選択して更新後原画像に適用することを特徴とする。

第４の本発明の動画像復号プログラムは、フレーム列を有する動画像信号がフレーム単位に符号化された動画像データを復号する動画像復号装置に搭載されたコンピュータを、（１）上記動画像データに含まれるキーフレームの符号化データを復号してキーフレームを得るキーフレーム復号手段と、（２）復号されたキーフレームを利用して、上記フレーム列のうち非キーフレームの第１の予測画像を生成する第１の予測画像生成手段と、（３）復号されたキーフレームを利用して、上記動画像データを構成する非キーフレームの符号化データを生成する際に用いられたものと同様であり、かつ上記前記第１の予測画像とは生成方式の差異により内容が異なる第２の予測画像を生成する第２の予測画像生成手段と、（４）非キーフレームを表すパラメータごとに第１の予測画像又は第２の予測画像のいずれかのパラメータ値を選択して、更新後予測画像を生成する更新後予測画像生成手段と、（５）上記動画像データの非キーフレームの符号化データが、当該非キーフレームの原画像に対する予測画像の誤りを訂正する誤り訂正符号であった場合には、当該非キーフレームの更新後予測画像について、その誤り訂正符号を用いて訂正した訂正後画像を生成する誤り訂正手段として機能させ、（６）上記第１の予測画像生成手段は、上記誤り訂正手段の生成した訂正後画像を利用して、同じ非キーフレームの第１の予測画像を再生成することが可能であり、（７）上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、再生成された第１の予測画像、第２の予測画像、及び、前回上記誤り訂正手段により生成された訂正後画像のパラメータ値を比較し、その比較結果に基づいて、再生成された第１の予測画像又は第２の原画像のいずれかのパラメータ値を選択して、更新後予測画像を再生成し、（８）上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、第２の予測画像のパラメータ値と訂正後画像のパラメータ値が等しく、さらに、訂正後画像のパラメータ値と再生成された第１の予測画像のパラメータ値とが異なるという条件に該当するか否かを判定し、上記条件に該当するパラメータについては、第２の予測画像のパラメータ値を選択し、上記条件に該当しないパラメータについては再生成された第１の予測画像のパラメータ値を選択することを特徴とする。

第５の本発明は、フレーム列を有する動画像信号をフレーム単位に符号化した動画像データを生成する動画像符号化装置と、上記動画像符号化装置から供給された動画像データを復号する動画像復号装置とを備える動画像配信システムにおいて、上記動画像符号化装置として第１の本発明の動画像符号化装置を適用したことを特徴とする動画像配信システム。

本発明によれば、復号画像の品質を低下させずに符号量を少なくすることができる動画像配信システムを提供することができる。

第１の実施形態に係る動画像符号化装置の機能的構成について示したブロック図である。第１の実施形態に係る動画像配信システムの全体構成について示したブロック図である。第１の実施形態に係る動画像復号装置の機能的構成について示したブロック図である。第１の実施形態に係る動画像符号化装置の動作について示したフローチャートである。第１の実施形態に係る動画像符号化装置における、画像の量子化について示した説明図である。第１の実施形態に係る動画像符号化装置で行われる更新後Ｗｙｎｅｒ−Ｚｉｖ画像の生成処理について示した説明図である。第１の実施形態の効果に関する検証結果について示した説明図（その１）である。第１の実施形態の効果に関する検証結果について示した説明図（その２）である。第１の実施形態に係る動画像復号装置で発生する場合のある動作について示した説明図である。第２の実施形態に係る動画像復号装置の機能的構成について示したブロック図である。第２の実施形態に係る動画像符号化装置の動作について示したフローチャートである。第２の実施形態の効果について示した説明図である。第３の実施形態に係る動画像符号化装置の機能的構成について示したブロック図である。第３の実施形態に係る動画像復号装置の機能的構成について示したブロック図である。第３の実施形態に係る動画像符号化装置の動作について示したフローチャートである。第３の実施形態に係る動画像復号装置の動作について示したフローチャートである。

（Ａ）第１の実施形態
以下、本発明による動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムの第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図２は、この実施形態の動画像配信システム１の全体構成を示すブロック図である。

動画像配信システム１は、動画像符号化装置１０及び動画像復号装置２０を有している。

動画像符号化装置１０は、フレーム単位（画像単位）で入力される入力動画像信号（入力映像信号）を符号化して、符号化した符号化データをストリーム化して出力する。図１に示すように、動画像符号化装置１０では、入力動画像信号を構成する各画像が、入力Ｗｙｎｅｒ−Ｚｉｖ画像と入力Ｋｅｙ画像とに分けて符号化される。そして、動画像符号化装置１０は、入力Ｗｙｎｅｒ−Ｚｉｖ画像を符号化した符号化データのストリーム（以下、「Ｗｙｎｅｒ−Ｚｉｖストリーム」と呼ぶ）と、入力Ｋｅｙ画像を符号化したデータのストリーム（以下、「Ｋｅｙストリーム」と呼ぶ）とを出力する。

動画像復号装置２０は、動画像符号化装置１０から出力された符号化データ（Ｗｙｎｅｒ−Ｚｉｖストリーム、及びＫｅｙストリーム）を復号して、復号画像（復号フレーム）を生成し、フレーム単位（画像単位）で復号動画像信号（復号映像信号）を出力するものである。動画像復号装置２０は、Ｗｙｎｅｒ−Ｚｉｖストリームを復号して得たＷｙｎｅｒ−Ｚｉｖ復号画像と、Ｋｅｙストリームを復号して得たＫｅｙ復号画像とを合わせた復号動画像信号を出力する。

次に、動画像符号化装置１０の機能的構成について図１を用いて説明する。

動画像符号化装置１０は、入力Ｗｙｎｅｒ−Ｚｉｖ画像を符号化してＷｙｎｅｒ−Ｚｉｖストリームを出力するＷｙｎｅｒ−Ｚｉｖ符号化部１１０と、入力Ｋｅｙ画像を符号化してＫｅｙストリームを出力するＫｅｙ画像符号化部１２０とを有している。

動画像符号化装置１０は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、ハードディスクなどのプログラムの実行構成に、実施形態の動画像符号化プログラムをインストールすることにより構築するようにしても良いが、その場合でも、機能的には、図１のように表すことができる。

Ｋｅｙ画像符号化部１２０は、Ｈ．２６４／ＡＶＣを初めとする既知の符号化技術（画面内符号化処理）によって入力Ｋｅｙ画像を符号化するものである。また、Ｋｅｙ画像符号化部１２０は、入力Ｋｅｙ画像に基づいて局所復号画像を生成して、ＥＳＩ生成部１１４に供給する。なお、ＥＳＩ生成部１１４は、局所復号画像からＥＳＩを生成しているが、本発明の効果は、局所復号画像からＥＳＩを生成する場合に限定されるものではない。

Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論およびＷｙｎｅｒ−Ｚｉｖ理論に基づき入力Ｗｙｎｅｒ−Ｚｉｖ画像の符号化をおこなうものである。なお、本明細書では、動画像符号化装置１０側で生成するＳＩをＥＳＩ（ＥｎｃｏｄｅｒＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ）と表わすものとする。

Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０は、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１、Ｗｙｎｅｒ−Ｚｉｖ画像量子化部１１２、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１３、ＥＳＩ生成部１１４、ＥＳＩ量子化部１１５、及びレート制御部１１６を有している。

ＥＳＩ生成部１１４は、局所復号画像からＥＳＩを生成するものである。

ＥＳＩ量子化部１１５は、ＥＳＩ生成部１１４が生成したＥＳＩを量子化（２値化）したもの（以下、「量子化後ＥＳＩ」と呼ぶ）を生成する。

Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１は、ＥＳＩを利用して入力Ｗｙｎｅｒ−Ｚｉｖ画像を更新した画像（以下、「更新後Ｗｙｎｅｒ−Ｚｉｖ画像」と呼ぶ）を生成するものである。Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１が行う補正処理の詳細については後述する。

Ｗｙｎｅｒ−Ｚｉｖ画像量子化部１１２は、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を量子化（２値化）したもの（以下、「量子化後Ｗｙｎｅｒ−Ｚｉｖ画像」と呼ぶ）を生成する。

レート制御部１１６は、量子化後ＥＳＩと量子化後Ｗｙｎｅｒ−Ｚｉｖ画像から、Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０のＳｌｅｐｉａｎ−Ｗｏｌｆ符号処理に設定する１画像（フレーム）あたりの符号量（レート）を決定し、その決定値（以下、「設定レート」と呼ぶ）を出力するものである。設定レートは、Ｗｙｎｅｒ−Ｚｉｖストリームを構成する１フレーム分の符号量となる。レート制御部１１６は、例えば、更新後Ｗｙｎｅｒ−Ｚｉｖ画像とＥＳＩとを比較し、ＥＳＩの誤りを推定し訂正するために必要な符号量を設定レートとして計算する。レート制御部１１６において設定レートを決定する方式としては、例えば、非特許文献２の記載技術を利用するようにしてもよい。

Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１３は、量子化後Ｗｙｎｅｒ−Ｚｉｖ画像をＳｌｅｐｉａｎ−Ｗｏｌｆ符号化し、設定レートに基づく符号量で、Ｗｙｎｅｒ−Ｚｉｖストリームを生成するものである。

次に、動画像復号装置２０の機能的構成について図３を用いて説明する。

動画像復号装置２０は、Ｗｙｎｅｒ−Ｚｉｖストリームを復号して、Ｗｙｎｅｒ−Ｚｉｖ復号画像を得るＷｙｎｅｒ−Ｚｉｖ復号部２１０と、Ｋｅｙストリームを復号してＫｅｙ復号画像を得るＫｅｙ画像復号部２３０を有している。

動画像復号装置２０は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、ハードディスクなどのプログラムの実行構成に、実施形態の動画像復号プログラムをインストールすることにより構築するようにしても良いが、その場合でも、機能的には、図３のように表すことができる。

Ｋｅｙ画像復号部２３０は、Ｋｅｙ画像符号化部１２０の符号化処理に対応する復号処理（画面内復号処理）によって、ＫｅｙストリームからＫｅｙ復号画像を得る。

Ｗｙｎｅｒ−Ｚｉｖ復号部２１０は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論およびＷｙｎｅｒ−Ｚｉｖ理論に基づきＷｙｎｅｒ−Ｚｉｖストリームを復号して、Ｗｙｎｅｒ−Ｚｉｖ復号画像を得るものである。なお、本明細書では、動画像復号装置２０側で生成するＳＩをＤＳＩ（ＤｅｃｏｄｅｒＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ）と表わすものとする。

Ｗｙｎｅｒ−Ｚｉｖ復号部２１０は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号部２１１、画像再構成部２１２、反復判定部２１３、ＤＳＩ生成部２１４、及びＤＳＩ量子化部２１５を有している。

ＤＳＩ生成部２１４は、Ｋｅｙ復号画像を利用してＤＳＩを生成するものである。

ＤＳＩ量子化部２１５は、ＤＳＩを画素単位で量子化（２値化）したもの（以下、「量子化後ＤＳＩ」と呼ぶ）を生成するものである。

Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号部２１１は、量子化後ＤＳＩに含まれる予測誤りをＷｙｎｅｒ−Ｚｉｖストリームを用いて訂正したもの（以下、「訂正後量子化値」と呼ぶ）を生成するものである。

画像再構成部２１２は、訂正後量子化値とＤＳＩとを用いて再構成（逆量子化の一種）した画像（再構成画像）を生成するものである。

反復判定部２１３は、再構成画像を用いてＤＳＩを再生成するかどうかを判定し、再構成する場合は、再構成画像をＷｙｎｅｒ−Ｚｉｖ復号画像として、ＤＳＩ生成部２１４に出力し、再構成しない場合は、再構成画像をＷｙｎｅｒ−Ｚｉｖ復号画像として出力する。

反復判定部２１３が、ＤＳＩの再生成を実施するか否かを判定する基準として、ＤＳＩの生成回数を利用する方法や再構成画像の品質を客観評価手法で評価する方法等を適用することができる。反復判定部２１３が、ＤＳＩ再生成の要否を判定する際に、ＤＳＩの生成回数を基準として利用する場合は、ＤＳＩの生成回数が、予め定められた生成回数に達するまで、反復判定部２１３は、Ｗｙｎｅｒ−Ｚｉｖ復号画像を出力する。

そして、ＤＳＩ生成部２１４は、Ｗｙｎｅｒ−Ｚｉｖ復号画像を与えられると、Ｗｙｎｅｒ−Ｚｉｖ復号画像の情報も利用して、さらに高品質な予測画像を生成する。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の動画像配信システム１の動作を説明する。

ここでは、動画像符号化装置１０の符号化処理の動作について、図４のフローチャートを用いて説明する。なお、第１の実施形態の動画像復号装置２０側の動作については、フローチャートを用いた説明は省略する。

まず、Ｋｅｙ画像符号化部１２０において、入力動画像から入力Ｋｅｙ画像が取得され、その入力Ｋｅｙ画像に基づいて、Ｋｅｙストリームと局所復号画像とが生成される（Ｓ１０１）。

そして、ＥＳＩ生成部１１４により、局所復号画像からＥＳＩが生成される（Ｓ１０２）。この実施形態では、ＥＳＩ生成部１１４は、局所復号画像からＥＳＩを生成するものとして説明するが、ＥＳＩを生成する元となる画像は局所復号画像に限定されない。

そして、ＥＳＩ量子化部１１５において、ＥＳＩが量子化されて、量子化後ＥＳＩが生成される（Ｓ１０３）。

そして、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１は、入力Ｗｙｎｅｒ−Ｚｉｖ画像とＥＳＩとに基づいて、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成する（Ｓ１０４）。Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、入力Ｗｙｎｅｒ−Ｚｉｖ画像とＥＳＩとで、それぞれの位置の画素の画素値について比較し、その比較結果に基づいて、それぞれの位置の画素について、更新後Ｗｙｎｅｒ−Ｚｉｖ画像で採用する画素値を決定する。すなわち、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、それぞれの位置の画素の画素値について、入力Ｗｙｎｅｒ−Ｚｉｖ画像又はＥＳＩのいずれかの画像の画素値を更新後Ｗｙｎｅｒ−Ｚｉｖ画像に反映する画素値として採用する。なお、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１において、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成する処理の詳細については後述する。

そして、Ｗｙｎｅｒ−Ｚｉｖ画像量子化部１１２において、更新後Ｗｙｎｅｒ−Ｚｉｖ画像が量子化されて、量子化後Ｗｙｎｅｒ−Ｚｉｖ画像が生成される（Ｓ１０５）。

そして、レート制御部１１６において、量子化後Ｗｙｎｅｒ−Ｚｉｖ画像と量子化後ＥＳＩとに基づいて、Ｗｙｎｅｒ−Ｚｉｖストリームに適用する設定レート（動画像復号装置２０が復号に必要とするＳｌｅｐｉａｎ−Ｗｏｌｆ符号化のレート）が決定される（Ｓ１０６）。

そして、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１３において、量子化後Ｗｙｎｅｒ−Ｚｉｖ画像がＳｌｅｐｉａｎ−Ｗｏｌｆ符号化され、設定レートに基づいたＷｙｎｅｒ−Ｚｉｖストリームが生成される（Ｓ１０７）。

次に、上述のステップＳ１０４で、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１が、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成する処理の詳細について説明する。

上述の通り、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、入力Ｗｙｎｅｒ−Ｚｉｖ画像とＥＳＩとで、それぞれの位置の画素の画素値について比較し、その比較結果に基づいて、それぞれの位置の画素について、更新後Ｗｙｎｅｒ−Ｚｉｖ画像で採用する画素値を決定する。ここでは、入力Ｗｙｎｅｒ−Ｚｉｖ画像とＥＳＩとを比較するためのパラメータとして、量子化後Ｗｙｎｅｒ−Ｚｉｖ画像及び量子化後ＥＳＩで発生する量子化誤差Ｘを用いるものとする。

具体的には、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、画素ごとに、「Ｗｙｎｅｒ−Ｚｉｖ画像の画素値と、ＥＳＩの画素値の差」が、量子化誤差Ｘよりも大きい画素には、Ｗｙｎｅｒ−Ｚｉｖ画像の画素値を採用し、「Ｗｙｎｅｒ−Ｚｉｖ画像の画素値とＥＳＩの画素値の差」が量子化誤差Ｘよりも小さい画素には、ＥＳＩの画素値を採用するものとする。

例えば、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、入力Ｗｙｎｅｒ−Ｚｉｖ画像の画素値とＥＳＩの画素値の差分が量子化誤差Ｘよりも大きい位置の画素については、入力Ｗｙｎｅｒ−Ｚｉｖ画像の画素値を採用するものとする。また、この実施形態のＷｙｎｅｒ−Ｚｉｖ画像更新部１１１では、入力Ｗｙｎｅｒ−Ｚｉｖ画像の画素値とＥＳＩの画素値の差分が量子化誤差Ｘ以下の位置の画素については、ＥＳＩの画素値を採用するものとする。

量子化誤差Ｘは、基本的に画素ごとに異なる値であり、個別に求めることが望ましいが、第１の実施形態のＷｙｎｅｒ−Ｚｉｖ画像更新部１１１では、演算量を低減するために、それぞれの画素について量子化誤差Ｘを一律の値（以下、「閾値Ｔ」と呼ぶ）とみなして処理するものとする。すなわち、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、「Ｗｙｎｅｒ−Ｚｉｖ画像の画素値と、ＥＳＩの画素値の差」と閾値Ｔとの比較結果によって、更新後Ｗｙｎｅｒ−Ｚｉｖ画像で採用する画素値を決定するものとする。

閾値Ｔの設定方法は限定されないものであるが、例えば、全ての画素の量子化誤差Ｘの平均値が、量子化ステップ幅Ｗの半分であるとみなして、閾値Ｔを量子化ステップ幅の半分と設定（Ｔ＝Ｗ／２）するようにしても良い。また、例えば、全ての画素の量子化誤差Ｘは常に最大値（量子化ステップ幅）とみなして、閾値Ｔを量子化ステップ幅Ｗと設定（Ｔ＝Ｗ）するようにしても良い。

次に、上述の量子化ステップ幅Ｗについて、図５を用いて説明する。

図５では、更新後Ｗｙｎｅｒ−Ｚｉｖ画像及びＥＳＩの各画素の画素値が０〜２５５の範囲（８ｂｉｔ相当）である場合の量子化ステップ幅Ｗについて示している。図５（ａ）に示すように、各画素の量子化値を２ビットで表すと００、０１、１０、１１の４つの値のいずれかになる。図５（ａ）に示すように、各画素の量子化値が２ビットで表わされる場合、量子化ステップ幅Ｗを、量子化前と同様に０〜２５５（１０進数）の値で表わすと、６４となる。また、図５（ｂ）に示すように、各画素の量子化値が３ビットで表わされる場合、量子化ステップ幅Ｗを、量子化前と同様に０〜２５５（１０進数）の値で表わすと、３２となる。

次に、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１が、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成する処理の具体例について図６を用いて説明する。

図６では、入力Ｗｙｎｅｒ−Ｚｉｖ画像、ＥＳＩ、更新後Ｗｙｎｅｒ−Ｚｉｖ画像のそれぞれについて、同じ位置の領域Ａ１を構成する縦３画素×横３画素（９つの画素）の画素値を示した例となっている。図６（ａ）、図６（ｂ）、図６（ｃ）は、それぞれ入力Ｗｙｎｅｒ−Ｚｉｖ画像、ＥＳＩ、更新後Ｗｙｎｅｒ−Ｚｉｖ画像の領域Ａ１における画素値をあらわしている。図６では、四角形の枠のそれぞれを１つの画素とし、当該四角形の中に図示された数字が当該画素の画素値となっている。例えば、領域Ａ１の画素ＰＸ１については、入力Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ａ））における画素値が「１２」、ＥＳＩ（図６（ｂ））における画素値が「１３」、更新後Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ｃ））における画素値が「１３」となっている。また、例えば、領域Ａ１の画素ＰＸ２については、入力Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ａ））における画素値が「１７」、ＥＳＩ（図６（ｂ））における画素値が「２４」、更新後Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ｃ））における画素値が「１７」となっている。

例えば、図６では、上述の閾値Ｔを「５」として、更新後Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ｃ））を生成している。例えば、領域Ａ１の画素ＰＸ１については、入力Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ａ））における画素値が「１２」、ＥＳＩ（図６（ｂ））における画素値が「１３」となっているため、画素ＰＸ１に関する差分は「１」となる。したがって、更新後Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ｃ））において、画素ＰＸ１については、ＥＳＩ（図６（ｂ））の画素値「１３」が採用されている。また、例えば、領域Ａ１の画素ＰＸ２については、入力Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ａ））における画素値が「１７」、ＥＳＩ（図６（ｂ））における画素値が「２４」となっているため、画素ＰＸ１に関する差分は「７」となる。したがって、更新後Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ｃ））において、画素ＰＸ１については、入力Ｗｙｎｅｒ−Ｚｉｖ画像（図６（ａ））の画素値「１７」が採用されている。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

動画像符号化装置１０では、入力Ｗｙｎｅｒ−Ｚｉｖ画像をそのままＳｌｅｐｉａｎ−Ｗｏｌｆ符号化に用いずに、ＥＳＩを利用して補正した更新後Ｗｙｎｅｒ−Ｚｉｖ画像を用いてＳｌｅｐｉａｎ−Ｗｏｌｆ符号化を行っている。Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、入力Ｗｙｎｅｒ−Ｚｉｖ画像の各画素値を量子化誤差Ｘ（閾値Ｔ）と比較し、その比較結果に応じて、一部の画素値をＥＳＩの画素値に置き換えている。したがって、更新後Ｗｙｎｅｒ−Ｚｉｖ画像では、入力Ｗｙｎｅｒ−Ｚｉｖ画像よりも、ＥＳＩとの差異が少ない画像となっている。そして、レート制御部１１６は、上述の通り量子化後Ｗｙｎｅｒ−Ｚｉｖ画像（更新後Ｗｙｎｅｒ−Ｚｉｖ画像を量子化した画像）と量子化後ＥＳＩとを比較し、量子化後ＥＳＩの誤りを推定し訂正するために必要な符号量を設定レートとして計算する。レート制御部１１６では、量子化後ＥＳＩと比較の対象となる画像（量子化値列）との差異が少ないほど、訂正すべき誤りが少なく、計算結果が低い設定レート（少ない符号量）となる。また、レート制御部１１６では、入力Ｗｙｎｅｒ−Ｚｉｖ画像よりもＥＳＩとの差異が少ない更新後Ｗｙｎｅｒ−Ｚｉｖ画像に基づく量子化後Ｗｙｎｅｒ−Ｚｉｖ画像を用いて設定レートを計算している。したがって、第１の実施形態のレート制御部１１６では、従来（入力Ｗｙｎｅｒ−Ｚｉｖ画像をそのまま量子化用いて、設定レートを計算する場合）以下の設定レートを計算結果として出力することになる。

そして、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１では、上述の通り、「Ｗｙｎｅｒ−Ｚｉｖ画像の画素値と、ＥＳＩの画素値の差」が、量子化誤差Ｘよりも大きい画素には、Ｗｙｎｅｒ−Ｚｉｖ画像の画素値を採用し、「Ｗｙｎｅｒ−Ｚｉｖ画像の画素値とＥＳＩの画素値の差」が、上述の量子化誤差よりも小さい画素には、ＥＳＩの画素値を採用するものとしている。上述の通り、更新後Ｗｙｎｅｒ−Ｚｉｖ画像は、入力Ｗｙｎｅｒ−Ｚｉｖ画像よりもＥＳＩとの差分が少なくなるように補正されている。しかし、更新後Ｗｙｎｅｒ−Ｚｉｖ画像において、補正されている画素は、量子化誤差Ｘよりも差分の少ない画素についてのみである。したがって、入力Ｗｙｎｅｒ−Ｚｉｖ画像と更新後Ｗｙｎｅｒ−Ｚｉｖ画像との間の変化を画素単位（パラメータ単位）で見た場合、その変化は量子化誤差Ｘの範囲内にとどまることになる。

一方、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１３では、量子化後ＥＳＩの誤りを訂正して量子化後Ｗｙｎｅｒ−Ｚｉｖ画像とするためのパリティビットを生成する。上述の通り、量子化後Ｗｙｎｅｒ−Ｚｉｖ画像及び量子化後ＥＳＩには、量子化誤差Ｘを含むことになる。したがって、入力Ｗｙｎｅｒ−Ｚｉｖ画像と更新後Ｗｙｎｅｒ−Ｚｉｖ画像との差分が、量子化誤差Ｘの範囲内とすれば、Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０で生成するパリティビットによる誤り訂正の結果は、入力Ｗｙｎｅｒ−Ｚｉｖ画像をそのままＷｙｎｅｒ−Ｚｉｖ符号化を行う場合と比較しても同程度の精度となる。すなわち、この実施形態の動画像符号化装置１０のように、更新後Ｗｙｎｅｒ−Ｚｉｖ画像をＷｙｎｅｒ−Ｚｉｖ符号化に用いる場合でも、入力Ｗｙｎｅｒ−Ｚｉｖ画像をそのままＷｙｎｅｒ−Ｚｉｖ符号化に用いる場合でも、動画像復号装置２０側で得られる復号品質は同程度となる。

しかし、第１の実施形態では、画素ごとの量子化誤差Ｘを閾値Ｔ（例えば、ＥＳＩの量子化ステップ幅の半分の値）とみなして一律に適用しているため、実際に更新後Ｗｙｎｅｒ−Ｚｉｖ画像をＷｙｎｅｒ−Ｚｉｖ符号化に用いる場合でも、動画像復号装置２０側で得られる復号品質は同程度となるか否かについての検証を行った。以下、第１の実施形態の効果に関する検証結果について、図７、図８を用いて説明する。

図７では、従来技術と同様に、入力Ｗｙｎｅｒ−Ｚｉｖ画像をそのまま量子化してＳｌｅｐｉａｎ−Ｗｏｌｆ符号化を行う例について説明している。一方、図８では、第１の実施形態の動画像符号化装置１０により符号化を行う例（更新後Ｗｙｎｅｒ−Ｚｉｖ画像を量子化して符号化に用いる場合）について示している。また、図７、図８では、説明を簡易とするために、各画像（入力Ｗｙｎｅｒ−Ｚｉｖ画像、更新後Ｗｙｎｅｒ−Ｚｉｖ画像、及びＥＳＩ）は、３つの画素ＰＸ１〜ＰＸ３による画素列（１×３の画素列）で構成される画像であるものとしている。

そして、図７、図８では、入力Ｗｙｎｅｒ−Ｚｉｖ画像を構成する画素列αの画素ＰＸ１〜ＰＸ３の画素値は、それぞれ７９、１１４、１６４（１０進数）となっているものとする。また、図７、図８において、ＥＳＩを構成する画素列βの各画素値は、それぞれ９７、１２９、１８８であったものとする。なお、図７、図８では、画素列α、画素列βの各画素値は０〜２５５（１０進数）であるものとして示している。

次に、図７、図８の例のそれぞれについて、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化を行う場合に必要な符号量、及び、Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０で生成される符号（パリティビット）を用いて動画像復号装置２０側で復号処理を行った場合の平均誤差（復号品質）について説明する。

まず、図７の例において、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化を行う場合に必要な符号量について説明する。図７の例では、量子化後ＥＳＩとして、画素列βを量子化ビット数２ビットで量子化した量子化値列γ１を用いるものとする。図７では、量子化ビット数２ビットで量子化された量子化値列γ１の各量子化値は先頭から０１、１０、１０（２進数）となっている。

また、図７に示すように、Ｗｙｎｅｒ−Ｚｉｖ画像の画素列αの各画素値を、量子化ビット数２ビットで量子化した量子化値列δ（量子化後Ｗｙｎｅｒ−Ｚｉｖ画像）の画素ＰＸ１〜ＰＸ３の画素値は、それぞれ０１、０１、１０（２進数）となる。

そして、量子化ビット数２ビットで量子化された量子化値列γ１（ＥＳＩ）と、量子化値列δ（入力Ｗｙｎｅｒ−Ｚｉｖ画像）の間に生じている予測誤りを訂正するのに必要な情報量は、量子化値列γ１（ＥＳＩ）と量子化値列δ（入力Ｗｙｎｅｒ−Ｚｉｖ画像）の間のビット誤り確率から条件付きエントロピーを計算し、それに量子化列δのビット数を乗じれば求めることができる。この場合、量子化値列γ１（ＥＳＩ）と、量子化値列δ（入力Ｗｙｎｅｒ−Ｚｉｖ画像）の間のビット誤り数は、６個中２個であるので、ビット誤り確率は２／６である。

そして、このビット誤り確率からｐをビット誤り確率としたときの条件付きエントロピー「−ｐｌｏｇ（ｐ）−（１−ｐ）ｌｏｇ（１−ｐ）」を求め、それに量子化列δのビット数６を乗じると、５．５ビットになる。すなわち、図７の例では、５．５ビットの符号量（パリティビット）がなければ量子化後ＥＳＩから量子化後Ｗｙｎｅｒ−Ｚｉｖ画像を得ることができないことになる。

次に、図７の例における平均誤差について説明する。

ここでは、動画像復号装置２０においてＳｌｅｐｉａｎ−Ｗｏｌｆ復号が成功し、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０が出力する訂正後量子化値が、量子化値列δ（Ｗｙｎｅｒ−Ｚｉｖ画像）と同じになったと仮定する。このとき、訂正後量子化値から、画像を再構成する方法（画像再構成部２１２の処理方法）には、いくつか提案されているが、例えば、非特許文献４のように、ＤＳＩを量子化した値と訂正後量子化値が同じであれば、ＤＳＩを再構成結果とし、異なる場合は、量子化区間のなかでＤＳＩに最も近い値を再構成結果にするという方法がある。なお、図７、図８の例では、説明を簡易にするためにＤＳＩがＥＳＩと同じであったと仮定する。

そして、図７の例では、動画像復号装置２０で生成される再構成画像の画素列ε１を構成する各画素の画素値は、９７、１２８、１８８（１０進数）になる。この場合、ε１と、原画像（入力Ｗｙｎｅｒ−Ｚｉｖ画像）の画素列αとの間の平均誤差（画素ごとの画素値の差分の平均値）を求めると、１８．７になる。

次に、図８の例について説明する。

なお、図８の例では、量子化後ＥＳＩとして、画素列βを量子化ビット数３ビットで表した量子化値列γ２を用いるものとする。図８では、量子化ビット数２ビットで量子化された量子化値列γの各量子化値は先頭から０１１、１００、１０１（２進数）となっている。図７の例と図８の例で、ＥＳＩに適用する量子化ビット数を同じとすると、誤り訂正に必要な符号量が減り、平均誤差が増える結果となり、本発明の効果がわかりにくくなる。そこで、図８では、量子化ビット数を３ビットとして、図７の例と同程度の平均誤差を、より少ない符号量で実現できることを検証している。

はじめに、Ｗｙｎｅｒ−Ｚｉｖ画像（画素列α）とＥＳＩ（画素列β）の間の画素値の差分を計算する。図８では、先頭から画素ＰＸ２の画素値の差分のみが、量子化ステップ幅の半分（２＾（８−３）／２＝１６）よりも小さい１５である。したがって、図８の例における更新後Ｗｙｎｅｒ−Ｚｉｖ画像の画素列ζでは、画素ＰＸ２のみがＥＳＩの画素値に補正され、その画素値は先頭から７９、１２９、１６４（１０進数）となる。

次に、図８の例において、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化を行う場合に必要な符号量について説明する。

図８に示すように、ＥＳＩの画素列βを、量子化ビット数３ビットで量子化した量子化値列γ２の３つの量子化値は、先頭から０１１、１００、１０１（２進数）となる。

また、更新後Ｗｙｎｅｒ−Ｚｉｖ画像の画素列ζを、量子化ビット数３ビットで量子化した量子化値列ηの３つの量子化値は、先頭から０１０、１００、１０１（２進数）となる。

そして、量子化ビット数３ビットで量子化された量子化値列γ２（量子化後ＥＳＩ）と、量子価値列η（量子化後Ｗｙｎｅｒ−Ｚｉｖ画像）の間に生じている予測誤りを訂正するのに必要な情報量は、量子化値列γ２（量子化後ＥＳＩ）と量子化値列η（量子化後Ｗｙｎｅｒ−Ｚｉｖ画像）の間のビット誤り確率から求めた条件付きエントロピーを計算すれば求めることができる。この場合、量子化値列γ２（ＥＳＩ）と、量子化値列η（更新後Ｗｙｎｅｒ−Ｚｉｖ画像）の間のビット誤り数は、９個中１個であるので、ビット誤り確率は１／９である。

そして、このビット誤り確率からｐをビット誤り確率としたときの条件付きエントロピー「−ｐｌｏｇ（ｐ）−（１−ｐ）ｌｏｇ（１−ｐ）」を求め、それに量子化列δのビット数９を乗じると、４．５ビットになる。すなわち、図８の例では、４．５ビットの符号量（パリティビット）がなければ量子化後ＥＳＩから量子化後Ｗｙｎｅｒ−Ｚｉｖ画像を得ることができないことになる。

次に、図８の例における平均誤差について説明する。

ここでは、動画像復号装置２０においてＳｌｅｐｉａｎ−Ｗｏｌｆ復号が成功し、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０が出力する訂正後量子化値に基づく画像が、量子化値列ηの画像（量子化後Ｗｙｎｅｒ−Ｚｉｖ画像）と同じになったと仮定する。このとき、訂正後量子化値から、画像を再構成する方法（画像再構成部２１２の処理方法）として、上述の図７と同様の方式を用いるものとする。

この場合、図８の例では、動画像復号装置２０で生成される再構成画像の画素列ε２を構成する各画素の画素値は、先頭から９７、１２８、１８８（１０進数）になる。この場合、ε２と、原画像（Ｗｙｎｅｒ−Ｚｉｖ画像）の画素列αとの間の平均誤差（画素ごとの画素値の差分の平均値）を求めると、１８．７になる。

以上の計算結果をまとめると、図７に示す従来技術を用いた場合には、平均誤差１８．７を実現するのに５．５ビットの符号量を要していたのに対し、第１の実施形態では、同じ平均誤差１８．７を実現するのに、４．５ビットしかしか必要としていない。すなわち、第１の実施形態のように、ＥＳＩの量子化ステップ幅の半分の値を量子化誤差Ｘの平均値とみなして、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成するための閾値Ｔとして適用しても、従来よりも少ない符号量で同等の復号品質を実現することができることがわかる。

以上のように、第１の実施例によれば、符号量あたりの画質改善量が小さい画素を対象にした符号量の増加を防止できることで、復号画像の品質を低下させずに符号量を少なくすることができる。

（Ｂ）第２の実施形態
以下、本発明による動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムの第２の実施形態を、図面を参照しながら詳述する。

第１の実施形態では、動画像復号装置２０は、ＤＳＩのみを用いてＳｌｅｐｉａｎ−Ｗｏｌｆ復号を行う例について示した。しかし、ＤＳＩとＥＳＩで、内容が異なる場合（たとえば、量子化ビット数等の生成方式が異なる）には、動画像符号化装置１０においてＳｌｅｐｉａｎ−Ｗｏｌｆ符号化に更新後Ｗｙｎｅｒ−Ｚｉｖ画像を用いることの副作用（弊害）が生じる場合がある。

通常、ＤＶＣ方式の動画像配信システムにおいて、動画像符号化装置側ではＳＩの予測精度よりも符号化に伴う演算量の低さを優先するのに対し、動画像復号装置側では、復号の演算量の低さよりもＳＩの予測精度を優先することが多い。そのため、従来の動画像配信装置において、動画像符号化装置側で生成するＳＩ（ＥＳＩ）よりも、動画像復号装置側で生成するＳＩ（ＤＳＩ）の方が高品質な内容である場合が多い。

以下、第１の実施形態において生じる可能性のある副作用について図９を用いて説明する。

図９では、任意の画素に対するＥＳＩの量子化値（Ａ）、ｎ−１回目に生成したＤＳＩ（以下、「（ｎ−１）−ｔｈＤＳＩ」とも表わす）の量子化値（Ｂ）、（ｎ−１）−ｔｈＤＳＩの訂正後（Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号部２１１による訂正後）の量子化値（Ｃ）、ｎ回目に生成したＤＳＩ（以下、「（ｎ）−ｔｈＤＳＩ」とも表わす）の量子化値（Ｄ）、ｎ−ｔｈＤＳＩの訂正後の量子化値（Ｆ）に関するそれぞれの評価結果の遷移のルートについて木構造で表わしている。

図９において、○印は、各量子化値（Ａ〜Ｄ、Ｆ）が、原画像（入力Ｗｙｎｅｒ−Ｚｉｖ画像の量子化値）と等しい場合を表している。また、図９において、×印（○の枠に×の印）は、各量子化値（Ａ〜Ｄ、Ｆ）が原画像（入力Ｗｙｎｅｒ−Ｚｉｖ画像の量子化値）と異なっている場合を表している。さらに、図９において、△印は、各量子化値（Ａ〜Ｄ、Ｆ）が原画像（入力Ｗｙｎｅｒ−Ｚｉｖ画像の量子化値）と異なっているが、動画像符号化装置１０における更新後Ｗｙｎｅｒ−Ｚｉｖ画像の量子化値とは等しい場合を表している。

図９では、ＥＳＩの量子化値Ａの評価結果（左から×、△、○のいずれか）を起点として、量子化値Ｂ、Ｃ、Ｄ、Ｆの順に評価値が遷移するルートについて木構造で示している。

ここで、図９に示すように、任意の画素についてＥＳＩの量子化値Ａの評価結果（図９の評価結果Ｖ１１）、及び（ｎ−１）−ｔｈＤＳＩの訂正後の量子化値Ｃの評価結果（図９の評価結果Ｖ１３）がいずれも△であった場合（即ち、Ａ＝Ｃの場合）のルートについて説明する。そして、このルートではその後、動画像復号装置２０において、より高品質（画像全体の平均的な品質が高品質）なＤＳＩが生成され、当該画素についてｎ−ｔｈＤＳＩの量子化値Ｄが得られ、その評価結果が○（図９の評価結果Ｖ１４）となったものとする。しかし、この場合、ｎ−ｔｈＤＳＩの量子化値Ｄは、本来ならば原画像（入力Ｗｙｎｅｒ−Ｚｉｖ画像）の値と等しいのにも関わらず、動画像復号装置２０側のＷｙｎｅｒ−Ｚｉｖ復号部２１０にとっては誤りと認識されて訂正されてしまうため、ｎ−ｔｈＤＳＩの訂正後の量子化値Ｆの段階では評価結果が△（図９の評価結果Ｖ１５）となってしまう。上述のように、第１の実施形態では、「Ａ＝Ｃ、かつ、Ｃ≠Ｄ」となる画素については、Ｗｙｎｅｒ−Ｚｉｖ復号画像における誤り数が増加してしまう場合があった。このような、Ｗｙｎｅｒ−Ｚｉｖ復号画像における誤り数の増加は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号が失敗する確率を上げるため、復号品質の低下を引き起こすことになる。

なお、図９では、「ＤＳＩの量子化値が△または○の場合は、ＤＳＩの訂正後の量子化値も△または○になる」という仮定と、「（ｎ−１）−ｔｈＤＳＩの量子化値Ｂが△または○の場合で、なおかつ（ｎ−１）−ｔｈＤＳＩの訂正後の量子化値Ｃが△または○の場合は、ｎ−ｔｈＤＳＩの量子化値Ｄも、△以上になる」という仮定のもとで図示している。そこで、第２の実施形態では、動画像復号装置側でＥＳＩも用いた処理を行うことにより、上述のような課題を解決する。

（Ｂ−１）第２の実施形態の構成
第２の実施形態の動画像配信システム１Ａの全体構成も上述の図２を用いて示すことができる。以下、第２の実施形態について第１の実施形態との差異について説明する。

第２の実施形態では、動画像復号装置２０が動画像復号装置２０Ａに置き換わっている点で第１の実施形態と異なっている。

図１０は、第２の実施形態に係る動画像復号装置２０Ａの内部構成について示したブロック図である。

第２の実施形態の動画像復号装置２０Ａでは、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０がＷｙｎｅｒ−Ｚｉｖ復号部２１０Ａに置き換わっている点で第１の実施形態と異なっている。

そして、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０Ａは、ＥＳＩ生成部２１６、ＥＳＩ量子化部２１７、量子化値更新部２１８、ＳＩ選択部２１９、及び量子化値再更新部２２０が追加されている点で第１の実施形態と異なっている。

ＥＳＩ生成部２１６は、Ｋｅｙ復号画像から、動画像符号化装置１０側と同様のＥＳＩを生成するものである。

ＥＳＩ量子化部２１７は、ＥＳＩを量子化して、量子化後ＥＳＩを生成するものである。

ＳＩ選択部２１９は、訂正後量子化値と量子化後ＥＳＩと量子化後ＤＳＩから画素ごとにいずれかの量子化値を選択するためのＳＩ選択信号を生成するものである。ＳＩ信号の詳細については後述する。

量子化値更新部２１８は、ＳＩ選択信号に基づき、量子化後ＥＳＩと量子化後ＤＳＩから更新後量子化値（量子化値の列）を生成するものである。更新後量子化値の詳細については後述する。

量子化値再更新部２２０は、ＳＩ選択信号に基づき、訂正後量子化値と量子化後ＤＳＩから再更新後量子化値（量子化値の列）を生成するものである。再更新後量子化値の詳細については後述する。そして、再更新後量子化値は、画像再構成部２１２に供給されて画像の再構成画像の生成に用いられることになる。

そして、第２の実施形態のＳｌｅｐｉａｎ−Ｗｏｌｆ復号部２１１では、更新後量子化値に含まれる予測誤りをＷｙｎｅｒ−Ｚｉｖストリームを用いて訂正し、訂正後量子化値を生成する処理を行うことになる。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の動画像配信システム１Ａの動作を説明する。

まず、動画像復号装置２０Ａの符号化処理の動作について、図１１のフローチャートを用いて説明する。

まず、Ｋｅｙ画像復号部２３０において、Ｋｅｙストリームの復号処理が行われ、Ｋｅｙ符号化し、Ｋｅｙ復号画像が生成される（Ｓ２０１）。

そして、ＥＳＩ生成部２１６において、Ｋｅｙ復号画像からＥＳＩが生成される（Ｓ２０２）。

そして、ＥＳＩ量子化部２１７において、ＥＳＩが量子化され量子化後ＥＳＩが生成される（Ｓ２０３）。

そして、ＤＳＩ生成部２１４において、Ｋｅｙ復号画像からＤＳＩが生成される（Ｓ２０４）。なお、ＤＳＩ生成部２１４にＷｙｎｅｒ−Ｚｉｖ復号画像が入力されている場合は、Ｗｙｎｅｒ−Ｚｉｖ復号画像も参照してＤＳＩを生成する。

そして、ＤＳＩ量子化部２１４において、ＤＳＩが量子化されて、量子化後ＤＳＩが生成される（Ｓ２０５）。

そして、ＳＩ選択部２１９において、訂正後量子化値と量子化後ＥＳＩと量子化後ＤＳＩから、画素ごとにＳＩ選択信号が生成される（Ｓ２０６）。ＳＩ選択部２１９は、量子化後ＥＳＩと訂正後量子化値で値が等しく、さらに、訂正後量子化値と量子化後ＤＳＩで量子化値が異なる画素については、ＳＩ選択信号としてＥＳＩ側の量子化値（量子化後ＥＳＩの量子化値）を選択する制御信号を出力し、それ以外の画素については、ＳＩ選択信号としてＤＳＩ側の量子化値（量子化後ＤＳＩの量子化値）を選択する指示信号を出力する。なお、ＳＩ選択部２１９は、訂正後量子化値が生成されていない段階では、すべての画素でＳＩ選択信号としてＤＳＩ側の量子化値を選択する指示信号を出力する。

また、ＳＩ選択部２１９は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号の符号量が少なく、予測誤りを正しく訂正できる確率が低いことが予測される場合、ＥＳＩの品質が予め定めた閾値よりも高いと判定した画素については、上記の条件を用いて、ＳＩ選択信号を生成し、ＥＳＩの品質が予め定めた閾値よりも低いと判定した画素については、ＳＩ選択信号としてＤＳＩ側の量子化値を指示するようにしてもよい（理由については後述）。この場合、ＥＳＩ生成部２１６やＥＳＩ量子化部２１７は、ＥＳＩや量子化後ＥＳＩに、ＥＳＩの品質を画素ごとに評価した情報も加えて、出力する必要がある。ＥＳＩの評価方法としては、たとえば、ＥＳＩを生成する際に計算した動きベクトルのコストによっておこなう方法を適用するようにしても良い。また、その他にも、たとえば、非特許文献３のようにスケーラブル構造を有する場合は、ベースレイヤの復号結果とＥＳＩを比較することによって、ＥＳＩの品質を評価する方法を適用するようにしても良い
そして、量子化値更新部２１８において、ＳＩ選択信号に基づき、量子化後ＥＳＩと量子化後ＤＳＩから更新後量子化値を生成する（Ｓ２０７）。

量子化値更新部２１８は、ＳＩ選択信号でＥＳＩ側の量子化値が指示されている画素については、更新後量子化値にＥＳＩ側の量子化値を設定し、ＳＩ選択信号でＤＳＩ側の量子化値が指示されている画素については、更新後量子化値にＤＳＩ側の量子化値を設定する。

そして、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号部２１１は、更新後量子化値に含まれる予測誤りを、Ｗｙｎｅｒ−Ｚｉｖストリームを用いて訂正し、訂正後量子化値を生成する（Ｓ２０８）。

そして、量子化値再更新部２２０で、ＳＩ選択信号に基づき、訂正後量子化値と量子化後ＤＳＩから再更新後量子化値が生成される（Ｓ２０９）。

量子化値再更新部２２０は、ＳＩ選択信号でＥＳＩ側の量子化値が指示されている画素については、量子化後ＤＳＩの量子化値を代入し、ＳＩ選択信号でＤＳＩ側の量子化値が指示されている画素については、訂正後量子化値を代入することで、再更新後量子化値を生成する。言い換えると、量子化値再更新部２２０は、訂正後量子化値について、ＳＩ選択信号でＥＳＩ側の量子化値が指示されている画素についてだけ量子化後ＤＳＩの量子化値に置き換える更新を行って再更新後量子化値を生成する。

そして、画像再構成部２１２において、再更新後量子化値と量子化後ＤＳＩから再構成画像が生成される（Ｓ２１０）。

そして、１つの画像（フレーム）について上述のステップＳ２０４〜Ｓ２０９の処理が終了した後、反復判定部２２０において、ＤＳＩを再生成するか否か判定され（Ｓ２１１）、ＤＳＩを再生成すると判定された場合には、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０Ａは上述のステップＳ２０４から動作することになる。

一方、上述のステップＳ２１１で、ＤＳＩを再生成しないと判定された場合、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０Ａは、最新に生成した再構成画像をＷｙｎｅｒ−Ｚｉｖ復号画像として出力する。

次に、動画像復号装置２０Ａにおいて、上述の課題が解決されていることについて説明する。

図１２は、動画像復号装置２０Ａにおいて生成される各量子化値の評価結果について、上述の図９と同様の形式で示した説明図である。

図１２では、上述の図９と比較して、（ｎ）−ｔｈＤＳＩの更新後量子化値Ｅ（量子化値更新部２１８が出力する量子化値）と、（ｎ）−ｔｈＤＳＩの再更新後量子化値Ｇ（量子化値再更新部２２０が出力する量子化値）の段（行）が追加されている。Ｅ及びＧに係る評価結果（○、×、△）が示す内容については上述の図９と同様である。

そして、図１２において、「Ａ＝Ｃ、かつ、Ｃ≠Ｄ」となる画素の評価結果の遷移ルートは、Ａの評価結果Ｖ２１（△）、Ｂの評価結果Ｖ２２（△）、Ｃの評価結果Ｖ２３（△）、Ｄの評価結果Ｖ２４（○）というルートとなる。そして、第２の実施形態（図１４）では、「Ａ＝Ｃ、かつ、Ｃ≠Ｄ」となる画素について、第１の実施形態の場合（図９の場合）と同様に、ｎ−ｔｈＤＳＩの訂正後の量子化値Ｆの段階では評価結果が△（評価結果Ｖ２６）となる。しかし、第２の実施形態では、量子化値再更新部２２０による補正により、当該画素の量子化値を、ＥＳＩの量子化値Ａに置き換えているため、最終的に出力されるｎ−ｔｈＤＳＩの再更新後の量子化値Ｇの評価結果を○（評価結果Ｖ２７）とすることができる。

したがって、図１２に示すように、「Ａ＝Ｃ、かつ、Ｃ≠Ｄ」を満たす画素については、量子化値更新部２１８において、当該画素の量子化値を、ＥＳＩの量子化値Ａと同じ値に置き換えることで、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号から見たときの誤り数増加を防止することができる。

さらに、量子化値再更新部２２０において、当該画素の量子化値を、ｎ−ｔｈＤＳＩのＤＳＩの量子化値Ｄに置き換えることで、最終出力の評価結果を○にすることもできる。

また、上述のように、量子化値更新部２１８や量子化値再更新部２２０において、量子化値の更新をおこなうことによって、以下のような影響が発生する場合がある。「Ａ＝Ｃ、かつ、Ｃ≠Ｄ」を満たす画素としては、図１２に示す評価結果Ｖ２１〜Ｖ２４のルートの他に、図１２に示す評価結果Ｖ３１〜Ｖ３４のルートも存在するからである。図１２に示す評価結果Ｖ３１〜Ｖ３４のルートでは、ＥＳＩの量子化値Ａの評価結果が×（評価結果Ｖ３１）、（ｎ−１）−ｔｈＤＳＩの訂正後の量子化値Ｃの評価結果が×（評価結果Ｖ３２）、ｎ−ｔｈＤＳＩの量子化値Ｄが○（評価結果Ｖ３４）となっている。

しかしながら、上述の評価結果Ｖ３１〜Ｖ３４のルートでは、（ｎ−１）−ｔｈＤＳＩの訂正後の量子化値Ｃは、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号によって訂正された値であり、たとえ全てのビットが正しく復号されなかったのだとしても、一部のビットは正しく復号された可能性は十分にあり、ＥＳＩの量子化値Ａと、（ｎ−１）−ｔｈＤＳＩ訂正後の量子化値Ｃとの間で等号が成立する可能性は低い。そして、ＥＳＩの量子化値Ａと訂正後の量子化値Ｃの間で等号が成立しない場合は、上記条件を満たさないため、副作用を引き起こさない。一部には、評価結果Ｖ３１〜Ｖ３４の遷移ルートでＡ＝Ｃの条件を満たす画素も発生しうるが、その画素についても、図１４に示すように、ｎ−ｔｈ再更新後の量子化値Ｇの評価結果（評価結果Ｖ３７）は○に戻るため、その影響は小さい。

また、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号の符号量が十分ではないと予想され、訂正の失敗が高い確率で発生するような状況では、更新後の量子化値Ｅにおいて、上記副作用の影響が強くなる。そのような状況では、上述のステップＳ２０６で説明したとおり、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号の符号量が少なく、予測誤りを正しく訂正できる確率が低いことが予測される場合、ＥＳＩの品質が予め定めた閾値よりも高いと判定した画素については、ＳＩ選択部２１９でＳＩ選択信号としてＤＳＩを指示することも有効である。図１２に示す通り、上述の副作用の発生する画素は、ＥＳＩの量子化値の評価結果が×となる画素である。ＥＳＩの品質が悪いと判定された画素は、ＥＳＩの量子化値Ａが×となる可能性が高く、そのような画素では上記条件を適用しないことで、上述の副作用の発生を防ぐことができる。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて、以下のような効果を奏することができる。

上述の通り、第２の実施形態によれば、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号にとっての誤り増加を防止できるとともに、再生成されたＳＩの高品質な復号結果を出力に反映することができ、復号品質が改善する。

（Ｃ）第３の実施形態
以下、本発明による動画像符号化装置及びプログラム、動画像復号装置及びプログラム、並びに、動画像配信システムの第３の実施形態を、図面を参照しながら詳述する。

（Ｃ−１）第３の実施形態の構成
第３の実施形態の動画像配信システム１Ｂの全体構成も上述の図２を用いて示すことができる。以下、第３の実施形態について第２の実施形態との差異について説明する。

第３の実施形態では、動画像符号化装置１０及び動画像復号装置２０Ａが、動画像符号化装置１０Ｂ及び動画像復号装置２０Ｂに置き換わっている点で第２の実施形態と異なっている。

図１３は、第３の実施形態に係る動画像符号化装置１０Ｂの内部構成について示したブロック図である。

動画像符号化装置１０Ｂでは、Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０がＷｙｎｅｒ−Ｚｉｖ符号化部１１０Ｂに置き換わっている点で第２の実施形態と異なっている。また、Ｗｙｎｅｒ−Ｚｉｖ符号化部１１０Ｂでは、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１がＷｙｎｅｒ−Ｚｉｖ画像更新部１１１Ｂに置き換わっている点で第２の実施形態と異なっている。

Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１Ｂは、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成する際に、ＥＳＩ側の量子化値を採用した画素の位置を示す情報（以下、「更新画素位置情報」と呼ぶ）を生成する。更新画素位置情報の形式については限定されないものであるが、例えば、更新後Ｗｙｎｅｒ−Ｚｉｖ画像においてＥＳＩ側の量子化値を採用した画素を特定（パラメータを特定）するための識別情報（例えば、座標やシーケンス番号等）の一覧を含むようにしても良い。そして、動画像符号化装置１０Ｂでは、画像（フレーム）ごとの更新画素位置情報も出力し、復号側（動画像復号装置２０Ｂ）に動画像データの一部として供給される。

図１４は、第３の実施形態に係る動画像復号装置２０Ｂの内部構成について示したブロック図である。

動画像復号装置２０Ｂでは、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０ＡがＷｙｎｅｒ−Ｚｉｖ復号部２１０Ｂに置き換わっている点で第２の実施形態と異なっている。また、Ｗｙｎｅｒ−Ｚｉｖ復号部２１０Ｂでは、ＳＩ選択部２１９がＳＩ選択部２１９Ｂに置き換わっている点で第２の実施形態と異なっている。

ＳＩ選択部２１９Ｂでは、動画像符号化装置１０Ｂから供給される更新画素位置情報を利用してＳＩ選択信号を生成する点で第２の実施形態と異なっている。

（Ｃ−２）第３の実施形態の動作
次に、以上のような構成を有する第３の実施形態の動画像配信システム１Ｂの動作を説明する。

まず、動画像符号化装置１０の符号化処理の動作について、図１５のフローチャートを用いて説明する。

図１５に示すフローチャートでは、ステップＳ１０４がステップＳ３０４に変わっていること以外は、上述の第１の実施形態の図４のフローチャートと同様であるので、ここではステップＳ１０４とステップＳ３０４との差異についてのみ説明する。

ステップＳ３０４では、Ｗｙｎｅｒ−Ｚｉｖ画像更新部１１１Ｂにおいて、更新後Ｗｙｎｅｒ−Ｚｉｖ画像を生成する際に、ＥＳＩ側の量子化値を採用した画素の位置を示す更新画素位置情報を生成して出力する処理を行う。動画像符号化装置１０Ｂにおけるその他の動作については、上述の図４の説明と同様であるので説明を省略する。

次に、動画像復号装置２０Ａの復号処理の動作について、図１６のフローチャートを用いて説明する。

図１６に示すフローチャートでは、ステップＳ２０６がステップＳ３０６に変わっていること以外は、上述の第２の実施形態の図１１のフローチャートと同様であるので、ここではステップＳ２０６とステップＳ３０６との差異についてのみ説明する。

ステップＳ３０６では、ＳＩ選択部３１５Ｂにおいて、動画像符号化装置１０Ｂから供給された更新画素位置情報を利用して、画素ごとにＳＩ選択信号が生成される。ＳＩ選択部３１５Ｂは、更新画素位置情報で指定された画素については、ＳＩ選択信号としてＥＳＩ側の量子化値を指示する制御信号を生成し、それ以外の画素については、ＳＩ選択信号としてＤＳＩ側の量子化値を指示する制御信号を生成する。動画像復号装置２０Ｂにおけるその他の動作については、上述の図１１の説明と同様であるので説明を省略する。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、第２の実施形態の効果に加えて以下のような効果を奏することができる。

動画像符号化装置１０Ｂにおいて、更新画素位置情報を生成して動画像復号装置２０Ｂに伝送することで、ＳＩ選択部２１９Ｂは推定誤り（第２の実施形態における上述の副作用）を発生させることなく、ＳＩ選択信号を生成することができる。

また、第３の実施形態ではＳＩ選択信号を生成するために、訂正後量子化値を利用する必要がないため、ＤＳＩを反復生成することは必須ではなくなる。

（Ｄ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｄ−１）上記の各実施形態では、説明を簡易とするために、符号化及び復号に用いる各画像（入力Ｗｙｎｅｒ−Ｚｉｖ、ＥＳＩ、ＤＳＩ）について、非特許文献１等のようにＤＣＴ変換等による変換処理を行わずに、各画素の画素値又は量子化値で表わしたパラメータ形式（ピクセルドメイン形式）のまま処理するものとして説明している。ただし、本発明では、各画像を表現するためのパラメータ形式は、ピクセルドメイン形式に限定されず、ＤＣＴ変換等により変換係数領域ごとの量子化値で表わしたパラメータ形式（トランスフォームドメイン形式）としても良い。トランスフォームドメイン形式の場合、上記の各実施形態の画素の画素値（量子化値）が、変換係数領域ごとの量子化値に置き換えられることになる。上記の各実施形態で、符号化及び復号に用いる各画像（入力Ｗｙｎｅｒ−Ｚｉｖ、ＥＳＩ、ＤＳＩ）について、トランスフォームドメイン形式で処理する場合には、量子化処理の前段に、トランスフォームドメイン形式のパラメータ列に変換する変換処理部を追加すれば良い。

上記の各実施形態では、各画素の画素値をパラメータとして並べたパラメータ列としてみることができる。そして、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論およびＷｙｎｅｒ−Ｚｉｖ理論に基づいたＤＶＣ方式の符号化処理及び復号処理では、符号化及び復号する対象となるパラメータ列の数や各パラメータの持つ意味は限定されない。したがって、各画像を表現するためのパラメータ列の形式（パラメータの数等）を変更したとしても、上記の各実施形態と同様の効果を奏することができる。

（Ｄ−２）上記の各実施形態において、動画像復号装置では、Ｋｅｙ画像からＥＳＩやＤＳＩを生成しているが、他時刻のＷｙｎｅｒ−Ｚｉｖ復号画像から生成しても良い。また、動画像復号装置では、非特許文献３のようにスケーラブル構造を有する場合は、ベースレイヤの情報を用いて、ＤＳＩを生成しても良い。

（Ｄ−３）上記の各実施形態では、動画像復号装置においてＤＳＩの再生成を行っているが、第１の実施形態及び第３の実施形態についてはＤＳＩの再生成処理は必須でないので省略するようにしても良い。

（Ｄ−４）上記の各実施形態の動画像符号化装置では、レート制御部による推定結果により、設定レートを決定する構成となっているが、非特許文献１のように、動画像復号装置側からのフィードバックアプローチによってレート制御する構成としても良い。フィードバックアプローチによってレート制御する場合、ＥＳＩ量子化部を省略するようにしてもよい。

（Ｄ−５）上記の各実施形態において、本発明の上述の効果を発揮できない環境である場合には、一部の構成要素の機能をオフ可能な構成とすることで、演算量の増加を抑える用にしても良い。

例えば、第１〜第３の実施形態の動画像符号化装置において、本発明の効果を発揮できない環境の場合、Ｗｙｎｅｒ−Ｚｉｖ画像更新部の機能をオフ可能としても良い。この場合、動画像符号化装置において、入力Ｗｙｎｅｒ−Ｚｉｖ画像をそのまま、Ｗｙｎｅｒ−Ｚｉｖ画像量子化部に供給するようにしても良い。

また、例えば、第２、第３の実施形態の動画像復号装置において、本発明の効果が発揮できない環境の場合、ＥＳＩ生成部、ＥＳＩ量子化部、量子化値更新部、ＳＩ選択部、及び量子化値再更新部の機能をオフ可能としても良い。この場合、訂正後量子化値がそのまま画像再構成部に供給されることになる。またこの場合、量子化後ＤＳＩがそのままＳｌｅｐｉａｎ−Ｗｏｌｆ復号部に供給されることになる。

本発明の上述の効果を発揮できない環境としては、例えば、動画像符号化装置及び又は動画像復号装置でＥＳＩ及びＤＳＩの量子化が１ビットで行われる場合が挙げられる。

また本発明の効果を発揮できない環境としては、たとえば、第２、第３の実施形態において、動画像符号化装置側と動画像復号装置側とで、ＥＳＩを生成するアルゴリズムが異なっている場合が挙げられる。動画像符号化装置と動画像復号装置との間で、相互にＥＳＩの生成アルゴリズムが同一であるか否かを確認する方法は限定されないものであるが、例えば、両装置間で対応可能なＥＳＩの生成アルゴリズムの形式情報（例えば、アルゴリズムごとに付与されたＩＤ）を交換して確認する構成としても良い。なお、動画像符号化装置及び又は動画像復号装置で、複数のＥＳＩ生成アルゴリズムに対応する場合には、両装置間で対応するＥＳＩの生成アルゴリズムの形式情報を交換して、共通して対応する生成アルゴリズムを決定して用いるネゴシエーションの処理を行うようにしても良い。

（Ｄ−６）上記の各実施形態では、動画像符号化装置と動画像復号装置はネットワーク等の通信路で接続されているものとして説明しているが、動画像符号化装置と動画像復号装置は直接通信可能な構成としなくてもよい。例えば、動画像符号化装置が生成した動画像データ（Ｗｙｎｅｒ−Ｚｉｖストリーム及びＫｅｙストリームのデータ）を、ＤＶＤやハードディスク等の媒体に記録し、オフラインで動画像復号装置に供給するようにしてもよい。

１…動画像配信システム、１０…動画像符号化装置、１１０…Ｗｙｎｅｒ−Ｚｉｖ符号化部、１１１…Ｗｙｎｅｒ−Ｚｉｖ画像更新部、１１２…Ｗｙｎｅｒ−Ｚｉｖ画像量子化部、１１３…Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部、１１４…ＥＳＩ生成部、１１５…ＥＳＩ量子化部、１１６…レート制御部、１２０…Ｋｅｙ画像符号化部、２０…動画像復号装置、２１０…Ｗｙｎｅｒ−Ｚｉｖ復号部、２１１…Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号部、２１２…画像再構成部、２１３…反復判定部、２１４…ＤＳＩ生成部、２１５…ＤＳＩ量子化部、２３０…Ｋｅｙ画像復号部。

Claims

フレーム列を有する動画像信号を符号化する動画像符号化装置において、
上記フレーム列のうちキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、
非キーフレームの予測画像を表す各パラメータと、非キーフレームの原画像を表す各パラメータについて、それぞれパラメータ値を比較し、その比較結果に応じて、パラメータごとに予測画像又は原画像のいずれかのパラメータ値を選択して更新後原画像を生成する更新後原画像生成手段と、
非キーフレームに対する更新後原画像の誤りを訂正するための誤り訂正符号を生成する誤り訂正符号生成手段と、
更新後原画像及び予測画像を構成するパラメータ値を量子化する量子化手段とを有し、
上記誤り訂正符号生成手段は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化処理により、量子化された更新後原画像及び予測画像を用いて誤り訂正符号を生成する処理を行い、
上記更新後原画像生成手段は、予測画像の各パラメータと当該原画像の各パラメータについて、それぞれパラメータ値の差分を算出し、当該差分が上記量子化手段の処理により発生する量子化誤差より大きいパラメータについては、当該原画像のパラメータ値を選択して更新後原画像に適用し、当該差分が量子化誤差以下となるパラメータについては、当該予測画像のパラメータ値を選択して更新後原画像に適用する
ことを特徴とする動画像符号化装置。
上記更新後原画像生成手段は、上記量子化手段の量子化処理で用いられる量子化ステップ幅の半分に相当する値を、量子化誤差とみなして、各パラメータのパラメータ値の選択に用いることを特徴とする請求項１に記載の動画像符号化装置。
上記更新後原画像生成手段は、上記量子化手段の量子化処理で用いられる量子化ステップ幅に相当する値を、量子化誤差とみなして、各パラメータのパラメータ値の選択に用いることを特徴とする請求項１に記載の動画像符号化装置。
上記更新後原画像生成手段が生成する更新後原画像で、予測画像のパラメータ値が選択されたパラメータを示すパラメータ識別情報を出力するパラメータ識別情報生成手段と、
上記誤り訂正符号生成手段が生成した誤り訂正符号と、上記パラメータ識別情報生成手段が生成したパラメータ識別情報を含むデータを非キーフレームに係るデータとして出力する出力手段と
をさらに備えることを特徴とする請求項１〜３のいずれかに記載の動画像符号化装置。
フレーム列を有する動画像信号がフレーム単位に符号化された動画像データを復号する動画像復号装置において、
上記動画像データに含まれるキーフレームの符号化データを復号してキーフレームを得るキーフレーム復号手段と、
復号されたキーフレームを利用して、上記フレーム列のうち非キーフレームの第１の予測画像を生成する第１の予測画像生成手段と、
復号されたキーフレームを利用して、上記動画像データを構成する非キーフレームの符号化データを生成する際に用いられたものと同様であり、かつ上記前記第１の予測画像とは生成方式の差異により内容が異なる第２の予測画像を生成する第２の予測画像生成手段と、
非キーフレームを表すパラメータごとに第１の予測画像又は第２の予測画像のいずれかのパラメータ値を選択して、更新後予測画像を生成する更新後予測画像生成手段と、
上記動画像データの非キーフレームの符号化データが、当該非キーフレームの原画像に対する予測画像の誤りを訂正する誤り訂正符号であった場合には、当該非キーフレームの更新後予測画像について、その誤り訂正符号を用いて訂正した訂正後画像を生成する誤り訂正手段とを有し、
上記第１の予測画像生成手段は、上記誤り訂正手段の生成した訂正後画像を利用して、同じ非キーフレームの第１の予測画像を再生成することが可能であり、
上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、再生成された第１の予測画像、第２の予測画像、及び、前回上記誤り訂正手段により生成された訂正後画像のパラメータ値を比較し、その比較結果に基づいて、再生成された第１の予測画像又は第２の原画像のいずれかのパラメータ値を選択して、更新後予測画像を再生成し、
上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、第２の予測画像のパラメータ値と訂正後画像のパラメータ値が等しく、さらに、訂正後画像のパラメータ値と再生成された第１の予測画像のパラメータ値とが異なるという条件に該当するか否かを判定し、上記条件に該当するパラメータについては、第２の予測画像のパラメータ値を選択し、上記条件に該当しないパラメータについては再生成された第１の予測画像のパラメータ値を選択する
ことを特徴とする動画像復号装置。
上記誤り訂正手段により生成された非キーフレームの訂正後画像について、上記更新後予測画像生成手段により、第２の予測画像のパラメータ値が適用されたパラメータのパラメータ値を、第１の予測画像のパラメータ値に置き換えた再更新後画像を生成する再更新後画像生成手段をさらに備えることを特徴とする請求項５に記載の動画像復号装置。
上記更新後予測画像生成手段は、上記動画像データに非キーフレームの符号化データとして、１又は複数のパラメータを識別するためのパラメータ識別情報が含まれている場合には、パラメータ識別情報に示されたパラメータについては、第２の予測画像のパラメータ値を選択し、パラメータ識別情報に示されていないパラメータについては再生成された第１の予測画像のパラメータ値を選択することを特徴とする請求項５又は６に記載の動画像復号装置。
フレーム列を有する動画像信号を符号化する動画像符号化装置に搭載されたコンピュータを、
上記フレーム列のうちキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、
非キーフレームの予測画像を表す各パラメータと、非キーフレームの原画像を表す各パラメータについて、それぞれパラメータ値を比較し、その比較結果に応じて、パラメータごとに予測画像又は原画像のいずれかのパラメータ値を選択して更新後原画像を生成する更新後原画像生成手段と、
非キーフレームに対する更新後原画像の誤りを訂正するための誤り訂正符号を生成する誤り訂正符号生成手段と、
更新後原画像及び予測画像を構成するパラメータ値を量子化する量子化手段として機能させ、
上記誤り訂正符号生成手段は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化処理により、量子化された更新後原画像及び予測画像を用いて誤り訂正符号を生成する処理を行い、
上記更新後原画像生成手段は、予測画像の各パラメータと当該原画像の各パラメータについて、それぞれパラメータ値の差分を算出し、当該差分が上記量子化手段の処理により発生する量子化誤差より大きいパラメータについては、当該原画像のパラメータ値を選択して更新後原画像に適用し、当該差分が量子化誤差以下となるパラメータについては、当該予測画像のパラメータ値を選択して更新後原画像に適用する
ことを特徴とする動画像符号化プログラム。
フレーム列を有する動画像信号がフレーム単位に符号化された動画像データを復号する動画像復号装置に搭載されたコンピュータを、
上記動画像データに含まれるキーフレームの符号化データを復号してキーフレームを得るキーフレーム復号手段と、
復号されたキーフレームを利用して、上記フレーム列のうち非キーフレームの第１の予測画像を生成する第１の予測画像生成手段と、
復号されたキーフレームを利用して、上記動画像データを構成する非キーフレームの符号化データを生成する際に用いられたものと同様であり、かつ上記前記第１の予測画像とは生成方式の差異により内容が異なる第２の予測画像を生成する第２の予測画像生成手段と、
非キーフレームを表すパラメータごとに第１の予測画像又は第２の予測画像のいずれかのパラメータ値を選択して、更新後予測画像を生成する更新後予測画像生成手段と、
上記動画像データの非キーフレームの符号化データが、当該非キーフレームの原画像に対する予測画像の誤りを訂正する誤り訂正符号であった場合には、当該非キーフレームの更新後予測画像について、その誤り訂正符号を用いて訂正した訂正後画像を生成する誤り訂正手段として機能させ、
上記第１の予測画像生成手段は、上記誤り訂正手段の生成した訂正後画像を利用して、同じ非キーフレームの第１の予測画像を再生成することが可能であり、
上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、再生成された第１の予測画像、第２の予測画像、及び、前回上記誤り訂正手段により生成された訂正後画像のパラメータ値を比較し、その比較結果に基づいて、再生成された第１の予測画像又は第２の原画像のいずれかのパラメータ値を選択して、更新後予測画像を再生成し、
上記更新後予測画像生成手段は、上記第１の予測画像生成手段により第１の予測画像が再生成された場合に、非キーフレームのパラメータごとに、第２の予測画像のパラメータ値と訂正後画像のパラメータ値が等しく、さらに、訂正後画像のパラメータ値と再生成された第１の予測画像のパラメータ値とが異なるという条件に該当するか否かを判定し、上記条件に該当するパラメータについては、第２の予測画像のパラメータ値を選択し、上記条件に該当しないパラメータについては再生成された第１の予測画像のパラメータ値を選択する
ことを特徴とする動画像復号プログラム。
フレーム列を有する動画像信号をフレーム単位に符号化した動画像データを生成する動画像符号化装置と、上記動画像符号化装置から供給された動画像データを復号する動画像復号装置とを備える動画像配信システムにおいて、
上記動画像符号化装置として請求項１に記載の動画像符号化装置を適用したことを特徴とする動画像配信システム。
上記動画像復号装置として請求項５に記載の動画像復号装置を適用したことを特徴とする請求項１０に記載の動画像配信システム。