JP2011077699A

JP2011077699A - 動画像符号化装置及びプログラム、並びに、動画像配信システム

Info

Publication number: JP2011077699A
Application number: JP2009225234A
Authority: JP
Inventors: Takahiro Yamazaki; 貴宏山崎
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2009-09-29
Filing date: 2009-09-29
Publication date: 2011-04-14
Anticipated expiration: 2029-09-29
Also published as: JP5333128B2; US20110075726A1; US8428124B2

Abstract

【課題】動画像の符号化後のデータについて、品質を向上させる。
【解決手段】受信装置と、配信用動画像データを受信装置に配信する動画像配信装置とを有する動画像配信システムに関する。そして、動画像配信装置に搭載された動画像符号化装置は、動画像を構成するフレーム列のうち非キーフレームの予測画像をキーフレームを利用して生成する手段と、非キーフレームの原画像に対する予測画像の誤りやすさに応じた誤り訂正符号の量を求める手段と、求めた誤り訂正符号の量に応じた誤り訂正符号を符号化データとして生成する手段と、誤りやすさに係るパラメータを計算する複数のパラメータ計算手段とを備え、非キーフレームに適用する誤り訂正符号の量は、それぞれのパラメータ計算手段が計算したパラメータを用いて求めることを特徴とする。
【選択図】図１

Description

この発明は、動画像符号化装置及びプログラム、並びに、動画像配信システムに関し、例えば、動画像についてＤＶＣ（ＤｉｓｔｒｉｂｕｔｅｄＶｉｄｅｏＣｏｄｉｎｇ）方式で動画像データを符号化して配信する動画像配信システムに適用し得る。

近年、非特許文献１に説明されるようなＤＶＣという符号化方式に注目が集まっている。

この方式は、符号化部で符号化するべき原画像に対してＳｌｅｐｉａｎ−Ｗｏｌｆ符号化処理を行い、その符号化データと復号側で行った符号化部の原画像の予測画像とともにＳｌｅｐｉａｎ−Ｗｏｌｆ復号を行うことで画像の復号処理を行う新しい符号化方式である。

符号化部で符号化するべき原画像（以下、「Ｗｙｎｅｒ−Ｚｉｖフレーム」という）を、符号化部のＷｙｎｅｒ−Ｚｉｖフレーム符号化部で、変換係数領域（ＤＣＴ）に変換した後、各帯域毎に量子化（２^ＭｋｌｅｖｅｌＱｕａｎｔｉｚｅｒ）し、その値（ｑ_ｋ）を２値で表し、各ビットの情報を、例えば１ｆｒａｍｅ分集めた情報（Ｅｘｔｒａｃｔｂｉｔ−ｐｌａｎｅｓ）毎にＳｌｅｐｉａｎ−Ｗｏｌｆ符号化（ＴｕｒｂｏＥｎｃｏｄｅｒ）を行い、その結果のうちパリティビットのみを一時保存（Ｂｕｆｆｅｒ）し、情報ビットは捨てられる。

復号部では、予測画像を生成し（Ｉｎｔｅｒｐｏｌａｔｉｏｎ／Ｅｘｔｒａｐｏｌａｔｉｏｎ）、その予測画像を変換係数領域（ＤＣＴ）に変換し、帯域毎にＳｉｄｅＩｎｆｏｒｍａｔｉｏｎとしてＳｌｅｐｉａｎ−Ｗｏｌｆ復号部（ＴｕｒｂｏＤｅｃｏｄｅｒ）に入力する。

一方、復号化部に搭載されたＳｌｅｐｉａｎ−Ｗｏｌｆ復号部（ＴｕｒｂｏＤｅｃｏｄｅｒ）は符号化部に対して、一時保存しているパリティビットのうち一部に対して送信要求（Ｒｅｑｕｅｓｔｂｉｔｓ）を行う。受信したパリティビットと上述したＳｉｄｅＩｎｆｏｒｍａｔｉｏｎからＳｌｅｐｉａｎ−Ｗｏｌｆ復号（ＴｕｒｂｏＤｅｃｏｄｅｒ）を行う。十分な復号が行えなかった場合は、再度符号化部にパリティビットの一部の追加送信要求（Ｒｅｑｕｅｓｔｂｉｔｓ）を行い、受信したパリティビットと上述したＳｉｄｅＩｎｆｏｒｍａｔｉｏｎからＳｌｅｐｉａｎ−Ｗｏｌｆ復号（ＴｕｒｂｏＤｅｃｏｄｅｒ）を行う。この処理を、十分な復号が行えるまで続ける。

その後、復号化部のＳｌｅｐｉａｎ−Ｗｏｌｆ復号（ＴｕｒｂｏＤｅｃｏｄｅｒ）の復号値とＳｉｄｅＩｎｆｏｒｍａｔｉｏｎから変換係数を再構築し、逆変換（ＩＤＣＴ）することで復号画像を得る。

このような、非特許文献１に代表されるＤＶＣの方式は、誤り訂正符号の再送要求というフィードバックを行うため、遅延が生じることや、符号化部と復号部が単独で動作できないという問題がある。

そこで、非特許文献２では、この再送要求を避けるために、誤り訂正に必要な誤り訂正符号の量を、符号化部のＷｙｎｅｒ−Ｚｉｖフレーム符号化部で計算を行う。これは、復号化部のＷｙｎｅｒ−Ｚｉｖフレーム復号部の作る予測画像を想定した予測画像をＷｙｎｅｒ−Ｚｉｖフレーム符号器側で生成し、それをもとに予測画像の誤りを推定し訂正するための必要な誤り訂正符号の量を計算することにより、フィードバックを必要としない手法を実現している。

非特許文献２における送信符号量の推定手法は、「予測画像と原画像の係数の差分の分布はラプラス分布で近似できる」というモデルを利用し、この分布モデルを用いて予測画像と原画像の間の予測誤りの起こる確率を推定する。分布モデルを用いて誤り確率を推定し、推定した確率を用いて条件付きエントロピーを計算することによって、推定した誤りを訂正するのに必要な符号量を推定する。

しかし、符号化側と復号側で生成する予測画像が異なることや、誤りの推定に用いる分布モデルは原画像と予測画像の関係を近似したものであるため、分布モデルから推定した符号量は、実際にＳｌｅｐｉａｎ−Ｗｏｌｆ復号に必要な符号量は異なることがある。

推定した符号量が復号に必要な符号量より少ない場合は、誤り訂正が正しく行われないことがあり、その結果、復号した画像に歪みとして現れることがある、という問題がある。そこで、この間題に対して、非特許文献２では、あるビットプレーンに対し、復号化部で誤り訂正を行った結果、送信された誤り訂正符号量では誤りが訂正できないと判断した場合は既に正しく訂正された上位のビットプレーンの復号結果のみを用いて復号画像を構成することで、誤りが訂正できなかったビットプレーンによる復号画像の劣化を防いでいる。

ＡｎｎｅＡａｒｏｎ，ＳｈａｎｔａｎｕＲａｎｅ，ＥｒｉｃＳｅｔｔｏｎ、ａｎｄＢｅｒｎｄＧｉｒｏｄ，"Ｔｒａｎｓｆｏｒｍ−ｄｏｍａｉｎＷｙｎｅｒ−ＺｉｖＣｏｄｅｃｆｏｒＶｉｄｅｏ"Ｉｎ：Ｐｒｏｃ，ＳＰＩＥＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＳａｎＪｏｓｅ，ＣＡ（２００４）Ｍ．Ｍｏｒｂｅｅ，Ｊ．Ｐｒａｄｅｓ−Ｎｅｂｏｔ，Ａ．Ｒｏｃａ，Ａ．Ｐｉｚｕｒｉｃａ，ａｎｄＷ．Ｐｈｉｌｉｐｓ，"Ｉｍｐｒｏｖｅｄｐｉｘｅｌ−ｂａｓｅｄｒａｔｅａｌｌｏｃａｔｉｏｎｆｏｒｐｉｘｅｌ−ｄｏｍａｉｎｄｉｓｔｒｉｂｕｔｅｄｖｉｄｅｏｃｏｄｅｒｓｗｉｔｈｏｕｔｆｅｅｄｂａｃｋｃｈａｎｎｅｌ"，ｉｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＡＣＩＶＳ，Ｄｅｌｆｔ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ，Ａｕｇｕｓｔ２００７，ＰｒｏｃｅｅｄｉｎｇｓＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＡｄｖａｎｃｅｄＣｏｎｃｅｐｔｓｆｏｒＩｎｔｅｌｌｉｇｅｎｔＶｉｓｉｏｎＳｙｓｔｅｍｓ，Ｖｏｌｕｍｅ４６７８／２００７，ｐｐ．６６３−６７４，Ｐｕｂｌｉｓｈｅｒ：ＳｐｒｉｎｇｅｒＢｅｒｌｉｎ／Ｈｅｉｄｅｌｂｅｒｇ

しかしながら、非特許文献２の方法では、あるビットプレーンに対して、符号化部で推定した符号量では正しく復号できなかったと復号側で判定された場合、より下位のビットプレーンに対しては、符号化部から誤り訂正符号を送信しているにもかかわらず復号画像を構成するのに用いないため、復号画像の結果に反映されない。そのため、この場合は、符号化側から送信された誤り訂正符号は復号画質に影響を与えない無駄なものとなってしまう。

そのため、動画像の符号化後のデータについて、品質を向上させることができる動画像符号化装置及びプログラム、並びに、動画像配信システムが望まれている。

第１の本発明は、フレーム列を有する動画像信号を符号化する動画像符号化装置において、（１）上記フレーム列のそれぞれのフレームをキーフレーム又は非キーフレームに分類するフレーム分類手段と、（２）上記フレーム列のうちキーフレームを符号化するキーフレーム符号化手段と、（３）符号化されたキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、（４）非キーフレームの原画像に対する予測画像の誤りやすさに応じて、その誤りを訂正する誤り訂正符号の量を求める符号量計算手段と、（５）上記符号量計算手段が求めた誤り訂正符号の量に応じた誤り訂正符号を、非キーフレームの符号化データとして生成する非キーフレーム符号化手段とを備え、（６）上記符号量計算手段は、（６−１）上記原画像に対する上記予測画像の誤りやすさに係るパラメータを、それぞれ異なる方式で計算する複数のパラメータ計算手段と、（６−２）それぞれの上記パラメータ計算手段が計算したパラメータを利用して、当該符号量計算手段が出力する誤り訂正符号の量を保持する誤り訂正符号量保持手段とを有することを特徴とする。

第２の本発明の動画像符号化プログラムは、コンピュータを、（１）フレーム列を有する動画像信号を構成する上記フレーム列のそれぞれのフレームを、キーフレーム又は非キーフレームに分類するフレーム分類手段と、（２）上記フレーム列のうちキーフレームを符号化するキーフレーム符号化手段と、（３）符号化されたキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、（４）非キーフレームの原画像に対する予測画像の誤りやすさに応じて、その誤りを訂正する誤り訂正符号の量を求める符号量計算手段と、（５）上記符号量計算手段が求めた誤り訂正符号の量に応じた誤り訂正符号を、非キーフレームの符号化データとして生成する非キーフレーム符号化手段として機能させ、（６）上記符号量計算手段を、（６−１）上記原画像に対する上記予測画像の誤りやすさに係るパラメータを、それぞれ異なる方式で計算する複数のパラメータ計算手段と、（６−２）それぞれの上記パラメータ計算手段が計算したパラメータを利用して、当該符号量計算手段が出力する誤り訂正符号の量を保持する誤り訂正符号量保持手段とを有する
して機能させることを特徴とする。

第３の本発明は、受信装置と、配信用動画像データを上記受信装置に配信する動画像配信装置とを有する動画像配信システムにおいて、上記動画像配信装置は、フレーム列を有する動画像信号を符号化して配信用動画像データを生成する動画像符号化装置を有し、上記動画像符号化装置として、第１の本発明の動画像符号化装置を適用したことを特徴とする動画像配信システム。

本発明によれば、動画像の符号化後のデータについて、品質を向上させることができる。

第１の実施形態に係る動画像符号化装置の機能的構成について示したブロック図である。第１の実施形態に係る動画像配信システムの全体構成について示したブロック図である。第１の実施形態に係る動画像符号化装置の動作について示したフローチャート（１）である。第１の実施形態に係る動画像符号化装置の動作について示したフローチャート（２）である。第１の実施形態に係る動画像符号化装置の動作について示したフローチャート（３）である。第２の実施形態に係る動画像符号化装置の機能的構成について示したブロック図である。第２の実施形態に係る動画像符号化装置の動作について示したフローチャート（１）である。第２の実施形態に係る動画像符号化装置の動作について示したフローチャート（２）である。第２の実施形態に係る動画像符号化装置の動作について示したフローチャート（３）である。第３の実施形態に係る動画像符号化装置の機能的構成について示したブロック図である。第３の実施形態に係る動画像符号化装置の動作について示したフローチャート（１）である。第３の実施形態に係る動画像符号化装置の動作について示したフローチャート（２）である。第３の実施形態に係る動画像符号化装置の動作について示したフローチャート（３）である。第４の実施形態に係る動画像符号化装置の機能的構成について示したブロック図である。第４の実施形態に係る動画像符号化装置の動作について示したフローチャート（１）である。第４の実施形態に係る動画像符号化装置の動作について示したフローチャート（２）である。第４の実施形態に係る動画像符号化装置の動作について示したフローチャート（３）である。

（Ａ）第１の実施形態
以下、本発明による動画像符号化装置及びプログラム、並びに、動画像配信システムの第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図２は、この実施形態の動画像配信システム１０の全体構成を示すブロック図である。なお、図２において括弧内の符号は、後述する第２〜第４の実施形態の説明において用いられるものである。

動画像配信システム１０は、動画像配信装置１０及び動画像受信装置２０を有している。動画像配信装置１０は、動画像符号化装置１００を有しており、動画像符号化装置１００により入力された映像信号を符号化して動画像データを生成し、図示しない通信部により動画像受信装置２０に向けて送出する。

動画像符号化装置１００に対して入力される映像信号は、この実施形態においては、フレーム単位の映像信号（例えば、ＣＣＤカメラから入力される映像信号等）の列（以下、「入力シーケンス」という）を適用するものとして説明する。その他にも、動画像符号化装置１００に、ビデオカメラ等によるアナログ形式の映像信号を入力して、動画像符号化装置１００がフレーム単位の画像データに変換するキャプチャを別途備えるようにしても良い。このように、動画像符号化装置１００に対して入力される映像信号の形式は限定されないものである。

図１は、動画像符号化装置１００内部の機能的構成について示したブロック図である。

動画像符号化装置１００は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、ハードディスクなどのプログラムの実行構成に、実施形態の動画像符号化プログラムをインストールすることにより構築するようにしても良いが、その場合でも、機能的には、図１のように表すことができる。また、動画像配信装置１０は、例えば、ハードウェア的な通信部の他は、通信処理やデータ処理等を実行するためのＣＰＵ、ＲＯＭ、ＲＡＭ等を有しており、ＣＰＵが実行するプログラム（実施形態の動画像符号化プログラムを含む）をインストールすることにより構築しても良く、上述したプログラムを含め、動画像配信装置１０の機能的構成を示すと図１に示すようになる。

動画像受信装置２０は、動画像復号化装置２００を有しており、動画像配信装置１０から送信された動画像データを受信し、動画像復号化装置２００により、受信した符号化された動画像データを復号化して、動画像の信号を生成して所定の出力（例えば、ディスプレイへの出力や、復号化した動画像データの記憶媒体への書き込み等、出力方法限定されないものである）を行う。

動画像受信装置２０（動画像復号化装置２００）については、既存の動画像配信システムにおける受信装置（例えば、非特許文献２における復号化方式を適用したもの）と同様のものを適用することができるので、ここでは詳しい説明は省略する。

次に、動画像符号化装置１００の構成の詳細について説明する。

動画像符号化装置１００は、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０及びキーフレーム符号化部１６０を有している。動画像符号化装置１００では、映像信号として入力されるフレームを、Ｗｙｎｅｒ−Ｚｉｖフレーム（非キーフレーム）、キーフレームのいずれかに分類して符号化し、Ｗｙｎｅｒ−ＺｉｖフレームはＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０により符号化され、キーフレームはキーフレーム符号化部１６０に符号化されて、それぞれ動画像受信装置２０に符号化した動画像データを送信する。

Ｗｙｎｅｒ−Ｚｉｖフレームとキーフレームを分類する方法としては、例えば、フレームの順序に応じて決定するようにしても良い。動画像符号化装置１００では、入力シーケンスの１番目のフレームをキーフレームとして分類し、２番目のフレームをＷｙｎｅｒ−Ｚｉｖフレームに分類するといった動作を繰り返して、入力シーケンスのフレームを交互にキーフレーム又はＷｙｎｅｒ−Ｚｉｖフレームのいずれかに分類するものとする。なお、動画像符号化装置１００において、入力シーケンスのフレームを分類する順序は限定されるものではなく、例えば、連続して同一種類のフレーム（Ｗｙｎｅｒ−Ｚｉｖフレーム又はキーフレーム）として分類するようにしても良い。また、Ｗｙｎｅｒ−Ｚｉｖフレームとキーフレームを分類する方法は、既存のＤＶＣ方式を利用した動画像符号化装置と同様の方法を適用することができる。

キーフレーム符号化部１６０は、入力シーケンスからキーフレームを得て、既存の符号化方式（例えば、非特許文献１などと同じくＪＰＥＧやＭＰＥＧのＩフレームのようなフレーム内符号化）で符号化を行い、動画像受信装置２０側へ符号化データを送信する。

ＤＶＣのフレームワークにおいては、入力されたＷｙｎｅｒ−Ｚｉｖフレームを符号化する際に画素領域で処理を行う方法や、ＤＣＴなどの変換を行い、変換係数領域で処理を行う方法がある。ここでは、動画像符号化装置１００は、非特許文献１と同じく、変換を行い変換計数領域で処理を行う方法で説明を行う例について説明するが、他の方式を用いるようにしても良い。

Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０は、量子化部１２０、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０、送信符号量推定部１４０及びＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０を有している。

量子化部１２０は、入力シーケンスからＷｙｎｅｒ−Ｚｉｖフレームを得て、変換・量子化しビットプレーン単位へ分割して、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０及び送信符号量推定部１４０に与える。

ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０は、Ｗｙｎｅｒ−Ｚｉｖフレームの前、もしくは後ろ、もしくは前後のキーフレーム画像に基づいて、Ｗｙｎｅｒ−Ｚｉｖフレーム画像の予測画像を生成し、変換・量子化し、ビットプレーンへ分割する。

送信符号量推定部１４０は、入力されたビットプレーンに対して、入力フレームである原画像とＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０で生成される予測画像を利用して、予測誤りが訂正できる符号量の推定を行う。なお、送信符号量推定部１４０の詳細については後述する。

Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０は、量子化部１２０から入力された各ビットプレーンに対し、例えば、Ｔｕｒｂｏ符号やＬＤＰＣ符号等を用いて、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化を行い、送信符号量推定部１４０で計算された符号量に応じた誤り訂正符号を受信側に与える。

次に、送信符号量推定部１４０の構成について説明する。

送信符号量推定部１４０は、分布モデルエントロピー計算部１４１、ビット誤りエントロピー計算部１４２、選択部１４３、符号化量計算部１４４を有している。なお、送信符号量推定部１４０の各部の処理については、後述する動作説明において詳述する。

分布モデルエントロピー計算部１４１は、量子化部１２０で得られたＷｙｎｅｒ−Ｚｉｖフレームの原画像のビットプレーンと、これに対応する予測画像の変換係数をＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から得て、分布モデルを利用してビットプレーン中の各ビットの誤り確率を推定したのち、その誤りに係るエントロピーを計算する。

ビット誤りエントロピー計算部１４２は、量子化部で得られたＷｙｎｅｒ−Ｚｉｖフレームの原画像のビットプレーンと、これに対応する予測画像のビットプレーンをＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から得て、異なり（誤り）を計測することにより、その誤りに係るエントロピーを計算する。

選択部１４３は、分布モデルエントロピー計算部１４１から得られる分布モデルを用いたエントロピーと、ビット誤りエントロピー計算部１４２から得られる原画像と予測画像の間の誤りから得たエントロピーを比較することで、どちらのエントロピーを符号量の計算に用いるかを選択する。

符号化量計算部１４４は、選択部１４３で選択されたエントロピーを用いて送信符号量を計算する。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の動画像配信システム１の動作、特に動画像符号化装置１００の動作を中心に説明する。

入力シーケンスはキーフレームとＷｙｎｅｒ−Ｚｉｖフレームに分けられ、それぞれの符号化・復号が行われる。ここでは、入力シーケンスをキーフレームとＷｙｎｅｒ−Ｚｉｖフレームを交互に符号化する例について説明を行う。

動画像符号化装置１００では、入力シーケンスの１フレーム目はキーフレームとして符号化が行われる。１フレーム目は、キーフレーム符号化部１６０において、非特許文献１などと同じくＪＰＥＧやＭＰＥＧのＩフレームのようなフレーム内符号化がおこなわれ、受信側に与えられる。次に、２フレーム目はＷｙｎｅｒ−Ｚｉｖフレームとして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０により符号化が行われる。ここでは、この２フレーム目のデータが、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０により符号化される場合を例として、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０の動作について説明する。

図３〜５は、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０の動作について示したフローチャートである。

まず、入力シーケンスから２フレーム目の原画像データが量子化部１２０に取り込まれたものとする（Ｓ３０１）。

次に、量子化部１２０により、ステップＳ３０１で取り込まれた２フレーム目の原画像が変換係数領域に変換（ＤＣＴ）され、帯域ごとに量子化される（Ｓ３０２）。なお、ステップＳ３０２では、各帯域の量子化された変換係数を２値化し、ビットプレーンヘ分割する。帯域毎にビットプレーン化する際に、１フレーム全体の長さでビットプレーンヘ分割してもよいし、画面内の領域ごと、といった形でグループ化した長さで区切り、ビットプレーンヘ分割してもよい。

そして、キーフレーム符号化部１６０から前または後、または両方のキーフレーム画像がＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０に入力される（Ｓ３０３）。

次に、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０において２フレーム目（Ｗｙｎｅｒ−Ｚｉｖフレーム）の予測画像が生成される（Ｓ３０４）。ステップＳ３０４における予測画像の生成には、前のキーフレームを利用する方法や、前後のキーフレーム画像の平均を取るなどの方法や、範囲の絞った動き探索などの方法を適用することができる。

次に、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０において生成した予測画像に対して、変換・量子化が行われ、ビットプレーンに分割される（Ｓ３０５）。ステップＳ３０５では、このときのビットプレーンの長さは量子化部１２０と同様の分割方法で行われる。

そして、量子化部１２０から１フレーム分の原画像の変換係数が分布モデルエントロピー計算郡１０５へ入力される（Ｓ３０６）。なお、以降のステップの処理により、分布モデルエントロピー計算部１４１では、原画像と予測画像の変換係数の差分の分布はラプラス分布で近似できるという性質を用いて、原画像と予測画像の間の予測誤りの推定が行われ、エントロピーが計算される。

次に、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から１フレーム分の予測画像の変換係数が分布モデルエントロピー計算部１４１へ入力される（Ｓ３０７）。

次に、分布モデルエントロピー計算部１４１にて、帯域ごとにラプラス分布の分布パラメータαが計算される（Ｓ３０８）。ラプラス分布の分布パラメータαと分散σ^２には以下の（１）式の関係がある。ここでは、平均（差分）が０である分布を仮定し、原画像の係数値をＸ、予測画像の係数値を、ビットプレーンの長さをＮとすると、分散σ^２は以下の（２）式のように計算できる。

次に、量子化部１２０から原画像のビットプレーンが分布モデルエントロピー計算部１４１へ入力される（Ｓ３０９）。

次に、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から予測画像のビットプレーンが分布モデルエントロピー計算部１４１へ入力される（Ｓ３１０）。

次に、分布モデルエントロピー計算部１４１にて、分布モデルを用いた誤り確率の計算が行われる（Ｓ３１１）。

ステップＳ３１１では、原画像のある係数値の確率変数をＸ、予測画像の係数の確率変数をＹとすると、予測画像の係数値の分布は、分布モデルエントロピー計算部１４１において、以下の（３）式のように表すことができる。ここで、分布モデルエントロピー計算部１４１では、入力されたピットプレーンのうちのある１ビット（ｎビット目）に注目し、予測画像と原画像とで異なり（誤り）が生じる確率を計算される。また、入力されたビットプレーンが上位からｊビットプレーン目であるとするとき、ｊビットプレーン目の原画像のビットと予測画像のビットが異なる確率Ｐ_ｒが、以下の（４）式により求められる。そして、これをビットプレーンで平均することで、平均誤り確率Ｐ_ｅが、以下の（５）式により求められる。

次に、分布モデルエントロピー計算部１４１では、平均誤り確率からエントロピーが以下の（６）式により計算される（Ｓ３１２）。ここでは、平均誤り確率Ｐ_ｅを二元対称通信路による誤りとして考えると、その誤りを訂正する符号量はエントロピーを求めることにより求められる。ここで求めたエントロピーを、ここでは「分布モデルエントロピー」と呼ぶものとする。

Ｈ（Ｐ_ｅ）＝−Ｐ_ｅｌｏｇ（Ｐ_ｅ）−（１−Ｐ_ｅ）ｌｏｇ（１−Ｐ_ｅ）…（６）
次に、分布モデルエントロピー計算部１４１で計算した分布モデルエントロピーが選択部１４３へ入力される（Ｓ３１３）。

分布モデルエントロピー計算部１４１で計算した分布モデルエントロピーでは予測画像に分布モデルの想定できる誤りよりも大きな誤りが起こった場合は、復号に必要な符号量が得られないことがある。そこで、以降のステップの処理では、ビット誤りエントロピー計算部１４２において、分布モデルとは異なる尺度で誤り率が計算され、エントロピーが計算される。

まず、量子化部１２０から原画像データのビットプレーンが、ビット誤りエントロピー計算部１４２へ入力される（Ｓ３１４）。

そして、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から予測画像のビットプレーンがビット誤りエントロピー計算部１４２へ入力される（Ｓ３１５）。

次に、ビット誤りエントロピー計算部１４２では、原画像と予測画像が比較され、誤り数ｅを得て、これを元にエントロピーが計算される。得られたｅをビットプレーン長Ｎで割ることで、ビット誤り率ｅｒｒが得られる（ｅｒｒ＝ｅ／Ｎ）（Ｓ３１６）。ビット誤りエントロピー計算部１４２では、ここで得られたビット誤り率からエントロピーＨ（ｅｒｒ）が以下の（７）式により計算される。ここでは、このエントロピーＨ（ｅｒｒ）を「ビット誤りエントロピー」と呼ぶものとする。

Ｈ（ｅｒｒ）＝−ｅｒｒｌｏｇ（ｅｒｒ）−（１−ｅｒｒ）ｌｏｇ（１−ｅｒｒ）…（７）
次に、ビット誤りエントロピー計算部１４２で得られたビット誤りエントロピーが選択部１４３へ入力される（Ｓ３１７）。

そして、選択部１４３において入力された分布モデルエントロピーＨ（Ｐ_ｅ）とビット誤りエントロピーＨ（ｅｒｒ）の比較により、分布モデルエントロピーで復号可能かが判定され、分布モデルエントロピーで復号可能な場合は分布モデルエントロピーが選択され、そうでない場合はビット誤りエントロピーが選択される（Ｓ３１８）。

分布モデルエントロピーは、分布による近似から得られた誤りを訂正するのに必要な量、つまり、モデルから得られる平均的な誤りを訂正するのに必要な情報量と考えられる。一方、ビット誤りエントロピーは実際の原画像とエンコーダで生成した予測画像から得られた誤り量を復号するのに必要な情報量であると考えられる。ビット誤りエントロピーのほうが分布モデルエントロピーよりも大きい値を示す場合は、分布の想定する平均的な誤り量よりも、実際に生じた誤りが大きいと考えることができる。この場合、分布モデルエントロピーから得られる符号量では誤りが訂正できないと考えられる。この判定には、単純に大小関係を比較し、以下の（８）式の関係が成り立つ場合は、分布モデルエントロピーでは誤りを訂正するのに必要な符号量が得られないと判定し、ビット誤りエントロピーを送信符号量の計算に用いるエントロピーに選択する。また、これ満たさない場合は、選択部１４３では、分布モデルエントロピーを送信符号量の計算に用いるエントロピーとし、これを選択する。このような判定の計算方法は、これに限らず、両者の関係に閾値を与えて比較を行ってもよい。たとえば、以下の（９）式のように、両者の差に閾値ｔを設け判定を行ってもよいし、以下の（１０）式でのように、両者の比に閾値ｔを設け判定を行ってもよい。このとき、閾値ｔは固定値でもよいし、上位ビットプレーンであるほど、復号画質に与える影響が大きいため、ビットプレーン毎に値を変えることで判定の条件を変えてもよい。

Ｈ（Ｐ_ｅ）＜Ｈ（ｅｒｒ） …（８）
Ｈ（ｅｒｒ）−Ｈ（ｐｅ）＞ｔ …（９）
Ｈ（Ｐ_ｅ）／Ｈ（ｅｒｒ）＞t …（１０）
次に、選択部１４３で選択したエントロピーが符号化量計算部１４４へ入力される（Ｓ３１９）。

次に、符号化量計算部１４４において、入力された情報量から符号量が計算される（Ｓ３２０）。

エントロピーを計算することによって得られる符号量は理論値であり、Ｔｕｒｂｏ復号やＬＤＰＣ復号といったＳｌｅｐｉａｎ−Ｗｏｌｆ復号の性能によっては理論値以上の符号量が必要となる場合があるため、補正を行い、送信する符号量が得られる。補正方法は、非特許文献２にあるように、あらかじめ多量のシーケンスを符号化・復号し、エントロピーと復号結果との関係を観測し、その関係を利用した補正を行ってもよいし、エントロピーに対して補正項ｋを加えてもよい。このときｋは固定の値であってもよいし、ビットプレーン毎に変わる値をとるなどの変動値であってもよい。また、補正方法は、入力されたエントロピーが分布モデルエントロピーかビット誤りエントロピーかによって変えてもよい。

次に、符号化量計算部１４４により、計算した送信符号量がＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０へ入力される（Ｓ３２１）。

そして、量子化部１２０から符号化を行うビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０へ入力されると（Ｓ３２２）、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０では、入力されたピットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化される（Ｓ３２３）。

次に、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０により、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化されたビットプレーンについて、送信符号量推定部１４０で得られた符号量に応じた符号量が、受信側へ送信される（Ｓ３２４）。

次に、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０では、１フレームの全てのビットプレーンを処理したか否かが判定され（Ｓ３２５）、全てのビットプレーンの処理が完了した場合には当該フレームに係る処理を終了し、そうでない場合には、上述のステップＳ３０９の処理に戻って動作する。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

動画像符号化装置１００では、分布モデルエントロピー計算部１４１、及び、ビット誤りエントロピー計算部１４２を設け、選択部１４３により、複数の計算結果を比較して最適な計算結果を選択し、その選択した計算結果を用いて送信符号量を決定しているので、一つの計算方法（例えば、従来の分布モデルを用いた計算方法）だけでは予測できない誤りが生じた場合に対しても、復号に必要な符号量を得ることができる。そのため、復号側で誤りが訂正できないと判定される頻度が少なくなり、符号化されたデータの品質を向上させ、送信した誤り訂正符号を有効に利用することができる。

（Ｂ）第２の実施形態
以下、本発明による動画像符号化装置及びプログラム、並びに、動画像配信システムの第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成
第２の実施形態の動画像配信システム１Ａの全体構成も図１を用いて説明することができる。

第２の実施形態の動画像配信システム１Ａは、動画像配信装置１０Ａ及び動画像受信装置２０を有している。動画像受信装置２０は、第１の実施形態と同様のものであるので詳しい説明を省略する。また、動画像配信装置１０Ａは、動画像符号化装置１００Ａを有している。

図６は、動画像符号化装置１００Ａ内部の機能的構成について示した説明図である。

動画像符号化装置１００Ａは、第１の実施形態のＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０がＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａに置き換わっただけであるので、その他の構成については詳しい説明を省略する。そして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａは、送信符号量推定部１４０が、送信符号量推定部１４０Ａに置き換わっただけであるので、それ以外の構成について詳しい説明は省略する。

送信符号量推定部１４０Ａは、分布モデル誤り計算部１４５、ビット誤り計算部１４６、選択部１４３Ａ、符号化量計算部１４４を有している。

分布モデル誤り計算部１４５は、量子化部１２０で得られたＷｙｎｅｒ−Ｚｉｖフレームの原画像のビットプレーンと、これに対応する予測画像の変換係数をＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から得、分布モデルを利用してビットプレーン中の各ビットの誤り確率を計算する。

ビット誤り計算部１４６は、量子化部で得られたＷｙｎｅｒ−Ｚｉｖフレームの原画像のビットプレーンと、これに対応する予測画像のビットプレーンをＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から得て、異なり（誤り）を計測し、誤り率を計算する。

選択部１４３Ａは、分布モデル誤り計算部１４５から得られる分布モデルを用いた誤り確率と、ビット誤り計算部１４６から得られる原画像と予測画像の間の異なりから得た誤り率を比較し、それぞれの誤りから得られるエントロピーのうち、どちらのエントロピーであれば復号可能な符号量を得られるかを判定し、選択された誤り率からエントロピーを計算する。

符号化量計算部１４４は、選択部１４３Ａで選択されたエントロピーを用いて送信符号量を計算する。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の動画像配信システム１Ａの動作、特に動画像符号化装置１００Ａの動作を中心に説明する。

第１の実施形態と同様に、入力シーケンスはキーフレームとＷｙｎｅｒ−Ｚｉｖフレームに分けられ、それぞれの符号化・復号が行われ、入力シーケンスをキーフレームとＷｙｎｅｒ−Ｚｉｖフレームを交互に符号化する例について説明を行う。そして、動画像符号化装置１００Ａでは、第１の実施形態と同様に、入力シーケンスの１フレーム目はキーフレームとして符号化が行われ、２フレーム目はＷｙｎｅｒ−Ｚｉｖフレームとして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａにより符号化が行われる。ここでは、この２フレーム目のデータが、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａにより符号化される場合を例として、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａの動作について説明する。

図７〜９は、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａの動作について示したフローチャートである。

まず、量子化部１２０で入力シーケンスを変換・量子化したのちビットプレーンヘ分割し、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０で、予測画像が生成される（Ｓ５０１〜Ｓ５０５）が、ステップＳ５０１〜Ｓ５０５動作は第１の実施例の動作におけるステップＳ３０１〜ステップＳ３０５と同様であるため、詳しい説明を省略する。

分布モデル誤り計算部１４５では、原画像と予測画像の変換係数の差分の分布はラプラス分布で近似できるという性質を用いて、原画像と予測画像の間の予測誤りの推定を行い、誤り確率を計算する。

そして、量子化部１２０から１フレーム分の原画像の変換係数が分布モデル誤り計算部１４５へ入力される（Ｓ５０６）。

次に、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から１フレーム分の予測画像の変換係数が分布モデル誤り計算部１４５へ入力される（Ｓ５０７）。

次に、分布モデル誤り計算部１４５にて、帯域ごとにラプラス分布の分布パラメータαが計算される（Ｓ５０８）。ラプラス分布の分布パラメータαと分散σ^２には、上述の通り上記の（１）式の関係がある。ここでは、平均（差分）が０である分布を仮定し、原画像の係数値をＸ、予測画像の係数値を、ビットプレーンの長さをＮとすると、分散は上記の（２）式のように計算できる。

次に、量子化部１２０から原画像のビットプレーンが分布モデル誤り計算部１４５へ入力される（Ｓ５０９）。

次に、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から予測画像のビットプレーンが分布モデル誤り計算部１４５へ入力される（Ｓ５１０）。

次に、分布モデル誤り計算部１４５にて、分布モデルを用いた誤り確率の計算が行われる（Ｓ５１１）。

原画像のある係数値の確率変数をＸ、予測画像の係数の確率変数をＹとすると、予測画像の係数値の分布は、第１の実施形態と同様に上記の（３）式で示される。ここで、入力されたビットプレーンのうちのある１ビット（ｎビット目）に注目し、予測画像と原画像とで異なり（誤り）が生じる確率が計算される。入力されたビットプレーンが上位からｊビットプレーン目であるとするとき、ｊビットプレーン目の原画像のビットと予測画像のビットが異なる確率Ｐ_ｒが、第１の実施形態と同様に上記の（４）式により求められる。これをビットプレーンで平均することで、平均誤り確率Ｐ_ｅが、第１の実施形態と同様に上記の（５）式により求められる。ここで得た平均誤り確率Ｐ_ｅを、ここでは、「分布モデル誤り率」と呼ぶものとする。

次に、分布モデル誤り計算部１４５で計算した分布モデル誤りが選択部１４３Ａへ入力される（Ｓ５１２）。

そして、分布モデル誤り計算部１４５から計算できるエントロピーでは予測画像に分布モデルの想定できる誤りよりも大きな誤りが起こった場合は、復号に必要な符号量が得られないことがある。そこで、ビット誤り計算部１４６では、分布モデルとは異なる尺度で誤り率が計算される。

まず、量子化部１２０から原画像のビットプレーンがビット誤り計算部１４６へ入力される（Ｓ５１３）。

そして、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から予測画像のビットプレーンがビット誤り計算部１４６へ入力される（Ｓ５１４）。

次に、ビット誤り計算部１４６では、原画像と予測画像を比較し、誤り数ｅを得て、ビットプレーン長Ｎで割ることで、ビット誤り率ｅｒｒが得られる（ｅｒｒ＝ｅ／Ｎ）（Ｓ５１５）。

次に、ビット誤り率が、ビット誤り計算部１４６から選択部１４３Ａへ入力される（Ｓ５１６）。

次に、選択部１４３Ａにおいて入力された、分布モデル誤り率Ｐ_ｅと、ビット誤り率ｅｒｒとの比較により、分布モデル誤りから得られるエントロピーで復号可能かが判定され、分布モデル誤りから得られるエントロピーで復号可能な場合は分布モデル誤りＰ_ｅからエントロピーが計算され、そうでない場合は、ビット誤り率ｅｒｒからエントロピーが計算される（Ｓ５１７）。

分布モデルから得られる誤り確率は、分布による近似から得られた誤り、つまり、モデルから得られる平均的な誤りの確率と考えられる。一方、ビット誤り率は実際の原画像とエンコーダで生成した予測画像から得られた誤り量であるため、ビット誤り率のほうが分布モデル誤りよりも大きい値を示す場合は、分布の想定する平均的な誤り量よりも、実際に生じた誤りが大きいと考えることができる。この場合、分布モデル誤りから得たエントロピーで計算した符号量では誤りが訂正できないと考えられる。この判定には、大小関係を用いて、以下の（１１）式の場合は、分布モデル誤りから得られたエントロピーでは復号可能な符号量が得られないと判定し、ビット誤りｅｒｒからエントロピーを計算するようにビット誤りｅｒｒを選択する。このような判定には上記のように大小関係を用いても、両者の関係に閾値を与えて比較を行ってもよい。たとえば、以下の（１２）式のように、両者の差に閾値ｔを設け判定を行ってもよいし、以下の（１３）式のように、両者の比にｔを設け判定を行ってもよい。

Ｐ_ｅ＜ｅｒｒ …（１１）
ｅｒｒ−Ｐ_ｅ＞ｔ …（１２）
Ｐ_ｅ／ｅｒｒ＞ｔ …（１３）
このとき、閾値ｔは固定値でもよいし、上位ビットプレーンであるほど、復号画質に与える影響が大きいため、ビットプレーン毎に値を変えることで判定の条件を変えてもよい。

次に、選択された誤り率からエントロピーが計算される（Ｓ５１８）。ステップＳ５１７で得られた誤りをＰとし、これを二元対称通信路による誤りとして考えると、その誤りを訂正する符号量は、以下の（１４）式によりエントロピーＨ（Ｐ）を求めることにより求められる。

Ｈ（Ｐ）＝−Ｐｌｏｇ（Ｐ）−（１−Ｐ）ｌｏｇ（１−Ｐ）…（１４）
次に、選択部１４３Ａで得たエントロピーが符号量計算部２０８へ入力される（Ｓ５１９）。

次に、符号化量計算部１４４において、入力された情報量から符号量が計算される（Ｓ５２０）。

エントロピーを計算することによって得られる符号量は理論値であり、Ｔｕｒｂｏ復号やＬＤＰＣ復号といったＳｌｅｐｉａｎ−Ｗｏｌｆ復号の性能によっては理論値以上の符号量が必要となる場合があるため、補正を行い、送信する符号量を得る。補正方法は、非特許文献２にあるように、あらかじめ多量のシーケンスを符号化・復号し、エントロピーと復号結果との関係を観測し、その関係を利用した補正を行ってもよいし、エントロピーに対して補正項ｋを加えてもよい。このときｋは固定の値であってもよいし、ビットプレーン毎に変わる値をとるなどの変動値であってもよい。また、補正方法は、入力されたエントロピーが分布モデル誤りから得たエントロピーかビット誤りから得たエントロピーかによって変えてもよい。

次に、符号化量計算部１４４により、計算した送信符号量がＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１０へ入力される（Ｓ５２１）。

次に、量子化部１２０から符号化を行うビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１０へ入力される（Ｓ５２２）。

次に、入力したビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化される（Ｓ５２３）。

次に、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化されたビットプレーンを送信符号量推定郡２０９で得られた符号量に応じた符号量を、動画像復号化装置２００へ送信される（Ｓ５２４）。

次に、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａでは、１フレームの全てのビットプレーンを処理したか否かが判定され（Ｓ５２５）、全てのビットプレーンの処理が完了した場合には当該フレームに係る処理を終了し、そうでない場合には、上述のステップＳ５０９の処理に戻って動作する。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて、以下のような効果を奏することができる。

動画像符号化装置１００Ａでは、分布モデル誤り計算部１４５とビット誤り計算部１４６が計算した誤り率を比較して、どちらの誤り率から得られるエントロピーであれば復号できる符号量が得られるかを判定し、選択された誤り率に対してのみエントロピーを計算するため、それぞれの誤りに対しエントロピーを計算する演算を行わないため、第１の実施形態と比較して符号化に係る処理量を軽減させることができる。

（Ｃ）第３の実施形態
以下、本発明による動画像符号化装置及びプログラム、並びに、動画像配信システムの第３の実施形態を、図面を参照しながら詳述する。

（Ｃ−１）第３の実施形態の構成
第３の実施形態の動画像配信システム１Ｂの全体構成も図２を用いて説明することができる。

第３の実施形態の動画像配信システム１Ｂは、動画像配信装置１０Ｂ及び動画像受信装置２０を有している。動画像受信装置２０は、第１の実施形態と同様のものであるので詳しい説明を省略する。また、動画像配信装置１０Ｂは、動画像符号化装置１００Ｂを有している。

図１０は、動画像符号化装置１００Ｂの機能的構成について示したブロック図である。

動画像符号化装置１００Ｂは、第１の実施形態のＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０がＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｂに置き換わっただけであるので、その他の構成については詳しい説明を省略する。そして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｂは、送信符号量推定部１４０が、送信符号量推定部１４０Ｂに置き換わっただけであるので、それ以外の構成について詳しい説明は省略する。

送信符号量推定部１４０Ｂは、分布モデルエントロピー計算部１４１、ビット誤りエントロピー計算部１４２、選択部１４３Ｂ、符号化量計算部１４４、判定テーブル１４７を有している。なお、分布モデルエントロピー計算部１４１、ビット誤りエントロピー計算部１４２、符号化量計算部１４４は、第１の実施形態と同様のものであるので詳しい説明を省略する。

判定テーブル１４７は、分布モデルエントロピー計算部１４１から得られるエントロピーと、ビット誤りエントロピー計算部１４２から得られる原画像と予測画像の間の異なりから得たエントロピーのうち、どちらのエントロピーであれば復号可能な符号量を得られるかを判定する計算をあらかじめ行っておき、その判定結果を保持するものである。

そして、選択部１４３Ｂは、判定テーブル１４７を参照し、分布モデルから得られるエントロピーと原画像と予測画像の異なりから得られるエントロピーのどちらを符号量の計算に用いるかを選択する点で、第１の実施形態のものと異なっている。

（Ｃ−２）第３の実施形態の動作
次に、以上のような構成を有する第３の実施形態の動画像配信システム１Ｂの動作、特に動画像符号化装置１００Ｂの動作を中心に説明する。

第１の実施形態と同様に、入力シーケンスはキーフレームとＷｙｎｅｒ−Ｚｉｖフレームに分けられ、それぞれの符号化・復号が行われ、入力シーケンスをキーフレームとＷｙｎｅｒ−Ｚｉｖフレームを交互に符号化する例について説明を行う。そして、動画像符号化装置１００Ｂでは、第１の実施形態と同様に、入力シーケンスの１フレーム目はキーフレームとして符号化が行われ、２フレーム目はＷｙｎｅｒ−Ｚｉｖフレームとして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ａにより符号化が行われる。ここでは、この２フレーム目のデータが、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｂにより符号化される場合を例として、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｂの動作について説明する。

図１１〜１３は、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｂの動作について示したフローチャートである。

まず、量子化部１２０で入力シーケンスを変換・量子化したのちビットプレーンヘ分割し、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０で予測画像が生成され、分布モデルエントロピー計算部１４１で分布モデルエントロピーが計算される（Ｓ７０１〜Ｓ７１２）が、ステップＳ７０１〜Ｓ７１２動作は第１の実施例の動作におけるステップＳ３０１〜ステップＳ３１２と同様であるため、詳しい説明を省略する。

そして、分布モデルエントロピー計算部１４１で計算した分布モデルエントロピーが選択部１４３Ｂへ入力される（Ｓ７１３）。

分布モデルエントロピー計算部１４１で計算した分布モデルエントロピーでは予測画像に分布モデルの想定できる誤りよりも大きな誤りが起こった場合は、復号に必要な符号量が得られないことがある。そこで、ビット誤りエントロピー計算部１４２において、分布モデルとは異なる尺度で誤り率を計算し、エントロピーを計算する。

まず、量子化部１２０から原画像のビットプレーンがビット誤りエントロピー計算部１４２へ入力される（Ｓ７１４）。

そして、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から予測画像のビットプレーンがビット誤りエントロピー計算部１４２へ入力される（Ｓ７１５）。

次に、ビット誤りエントロピー計算部１４２では、原画像と予測画像が比較され、誤り数ｅを得て、これを元にエントロピーが計算される。そして、ビット誤りエントロピー計算部１４２では、得られたｅをビットプレーン長Ｎで割ることで、ビット誤り率ｅｒｒが得られる（ｅｒｒ＝ｅ／Ｎ）（Ｓ７１６）。ここで得られたビット誤り率からエントロピーＨ（ｅｒｒ）が、上記の（７）式を用いて計算される。なお、ここでは、このエントロピーを「ビット誤りエントロピー」と呼ぶものとする。

次に、ビット誤りエントロピー計算部１４２で得られたビット誤りエントロピーが選択部１４３Ｂへ入力される（Ｓ７１７）。

次に、選択部１４３Ｂにおいて、入力された分布モデルエントロピーＨ（Ｐ_ｅ）とビット誤りエントロピーＨ（ｅｒｒ）から、判定テーブル１４７を参照することで、それぞれのエントロピーのうち、どちらのエントロピー用いて送信符号量を計算するかが判定される（Ｓ７１８）。

判定テーブル１４７には、選択部１４３Ｂに入力される分布モデルエントロピーとビット誤りエントロピーの取りうる値の組み合わせに対して、どちらのエントロピーを用いて送信符号量を計算するかという判定の計算をあらかじめ行っておき、判定結果を記録しておく。判定の計算は、たとえば、第１の実施形態でも示したように、分布モデルエントロピーとビット誤りエントロピーの大小関係から得る方法があり、上記の（８）式の場合はビット誤りエントロピーを選択するという判定結果をとる方法や、両者の関係に閾値を設けて判定を行う方法、例えば、上記の（９）式のように、両者の差に閾値ｔを設け判定した結果を用いてもよいし、上記の（１０）式のように、両者の比に閾値ｔを設け判定した結果を用いてもよい。

次に、選択部１４３Ｂで選択したエントロピーが符号化量計算部１４４へ入力される（Ｓ７１９）。

次に、符号化量計算部１４４において、入力された情報量から符号量が計算される（Ｓ７２０）。

エントロピーを計算することによって得られる符号量は理論値であり、Ｔｕｒｂｏ復号やＬＤＰＣ復号といったＳｌｅｐｉａｎ−Ｗｏｌｆ復号の性能によっては理論値以上の符号量が必要となる場合があるため、補正を行い、送信する符号量を得る。補正方法は、非特許文献２にあるように、あらかじめ多量のシーケンスを符号化・復号し、エントロピーと復号結果との関係を観測し、その関係を利用した補正を行ってもよいし、エントロピーに対して補正項ｋを加えてもよい。このときｋは固定の値であってもよいし、ビットプレーン毎に変わる値をとるなどの変動値であってもよい。また、補正方法は、入力されたエントロピーが分布モデルエントロピーかビット誤りエントロピーかによって変えてもよい。

次に、符号化量計算部１４４により、計算した送信符号量がＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１０へ入力される（Ｓ７２１）。

次に、量子化部１０３から符号化を行うビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１０へ入力される（Ｓ７２２）。

次に、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１１０において入力したビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化される（Ｓ７２３）。

次に、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化されたビットプレーンを送信符号量推定部２０９で得られた符号量に応じた符号量が、動画像受信装置２０側へ送信される（Ｓ７２４）。

次に、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｂでは、１フレームの全てのビットプレーンを処理したか否かが判定され（Ｓ７２５）、全てのビットプレーンの処理が完了した場合には当該フレームに係る処理を終了し、そうでない場合には、上述のステップＳ７０９の処理に戻って動作する。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、第１の実施形態の効果に加えて、以下のような効果を奏することができる。

動画像符号化装置１００Ｂでは、判定テーブル１４７に、あらかじめ分布モデルエントロピーと、ビット誤りエントロピーのどちらを送信符号量の計算に用いるか、という判定の計算をあらかじめ行ったものをテーブルとして保持しておくことで、選択における演算が省略されるため、第１の実施形態と比較して、符号化に係る処理量を低減させることができる。

（Ｄ）第４の実施形態
以下、本発明による動画像符号化装置及びプログラム、並びに、動画像配信システムの第４の実施形態を、図面を参照しながら詳述する。

（Ｄ−１）第４の実施形態の構成
第４の実施形態の動画像配信システム１Ｃの全体構成も図１を用いて説明することができる。

第４の実施形態の動画像配信システム１Ｃは、動画像配信装置１０及び動画像受信装置２０を有している。動画像受信装置２０は、第１の実施形態と同様のものであるので詳しい説明を省略する。また、動画像配信装置１０Ｃは、動画像符号化装置１００Ｃを有している。

図１４は、動画像符号化装置１００Ｃ内部の機能的構成について示した説明図である。

動画像符号化装置１００Ｃは、第１の実施形態のＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０がＷｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃに置き換わっただけであるので、その他の構成については詳しい説明を省略する。そして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃは、送信符号量推定部１４０が、送信符号量推定部１４０Ｃに置き換わっただけであるので、それ以外の構成について詳しい説明は省略する。

送信符号量推定部１４０Ｃは、選択部１４３Ｃ、符号化量計算部１４４、分布モデル誤り計算部１４５、ビット誤り計算部１４６、判定テーブル１４７Ｃを有している。

符号化量計算部１４４、分布モデル誤り計算部１４５、ビット誤り計算部１４６については、第２の実施形態と同様のものであるので詳しい説明は省略する。

判定テーブル１４７Ｃは、分布モデル誤り計算部１４５から得られる分布モデルを用いた誤り確率と、ビット誤り計算部１４６から得られる原画像と予測画像の間の異なりから得た誤り率に対し、それぞれの誤りから得られるエントロピーのうち、どちらのエントロピーであれば復号可能な符号量を得られるかを判定する計算をあらかじめ行っておき、さらに、判定の結果選択される計算済のエントロピーを保持しておくものである。

選択部１４３Ｃは、判定テーブル１４７Ｃを参照し、分布モデルから得られるエントロピーと原画像と予測画像の異なりから得られるエントロピーのどちらを符号量の計算に用いるかを選択する。

（Ｄ−２）第４の実施形態の動作
次に、以上のような構成を有する第４の実施形態の動画像配信システム１Ａの動作、特に動画像符号化装置１００Ｃの動作を中心に説明する。

第１の実施形態と同様に、入力シーケンスはキーフレームとＷｙｎｅｒ−Ｚｉｖフレームに分けられ、それぞれの符号化・復号が行われ、入力シーケンスをキーフレームとＷｙｎｅｒ−Ｚｉｖフレームを交互に符号化する例について説明を行う。そして、動画像符号化装置１００Ａでは、第１の実施形態と同様に、入力シーケンスの１フレーム目はキーフレームとして符号化が行われ、２フレーム目はＷｙｎｅｒ−Ｚｉｖフレームとして、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃにより符号化が行われる。ここでは、この２フレーム目のデータが、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃにより符号化される場合を例として、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃの動作について説明する。

図１５〜１７は、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃの動作について示したフローチャートである。

このうち、量子化部１２０で入力シーケンスを変換・量子化したのちビットプレーンへ分割し、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０で予測画像を生成し、分布モデル誤り計算部１４５で分布モデルから得られる誤り確率を計算される（Ｓ９０１〜Ｓ９１１）が、これらの動作は、第２の実施形態の動作におけるステップＳ５０１〜Ｓ５１１と同様であるため、詳しい説明を省略する。

次に、分布モデル誤り計算部１４５で計算した分布モデルを用いた誤り確率が、選択部１４３Ｃへ入力される（Ｓ９１２）。

分布モデル誤り計算部１４５の計算結果から計算できるエントロピーでは予測画像に分布モデルの想定できる誤りよりも大きな誤りが起こった場合は、復号に必要な符号量が得られないことがある。そこで、分布モデル誤り計算部１４５により、分布モデルとは異なる尺度で誤り率を計算する。

まず、量子化部１２０から、原画像のビットプレーンがビット誤り計算部１４６へ入力される（Ｓ９１３）。

そして、ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ生成部１５０から、予測画像のビットプレーンがビット誤り計算部１４６へ入力される（Ｓ９１４）。

次に、ビット誤り計算部１４６において、原画像と予測画像が比較され、誤り数ｅを得て、ビットプレーン長Ｎで割ることで、ビット誤り率ｅｒｒが得られる（ｅｒｒ＝ｅ／Ｎ）（Ｓ９１５）。

次に、ビット誤り計算部１４６から誤り率が選択部１４３Ｃへ入力される（Ｓ９１６）。

次に、選択部１４３Ｃにおいて、入力された分布モデル誤りとビット誤りから、判定テーブル１４７Ｃを参照することで、それぞれの誤りから得られるエントロピーのうち、どちらのエントロピー用いて送信符号量を計算するかが判定され、判定結果から得られるエントロピーが得られる（Ｓ９１７）。

なお、判定テーブル１４７Ｃには、選択部１４３Ｃに入力される、分布モデル誤り計算部１４５からの誤り確率と、ビット誤り計算部１４６からの誤り率の、取りうる値の組み合わせに対して、どちらの誤り率から得られるエントロピーを用いて送信符号量を計算するかという判定の計算をあらかじめ行っておき、判定の結果、選択されるエントロピーを記録しておく。判定の計算は、入力されたそれぞれの誤りに対して、例えば、第２の実施形態と同様に大小関係から得る方法がある。

例えば、第２の実施形態と同様に上記の（１１）式の場合はビット誤りから得られるエントロピーＨ（ｅｒｒ）を判定結果として記録しておく。他の判定方法としては、それぞれの誤りから得られるエントロピー間の関係に閾値を設ける方法、たとえば、上記の（１２）式のように、両者の差に閾値tを設け判定を行ってもよいし、上記の（１３）式のように、両者の比に閾値tを設け判定を行ってもよい。このとき、閾値tは固定値でもよいし、上位ピノトプレーンであるほど、復号画質に与える影響が大きいため、ビットプレーン毎に値を変えることで判定の条件を変えてもよい。

このような、入力された二つの誤り率に対しての判定結果のエントロピーを記録した判定テーブルを参照することにより送信符号量を計算するのに用いるエントロピーを得る。

なお、判定テーブル１４７Ｃには、選択部１４３Ｃに入力され得る値の組み合わせに対して選択されるエントロピーを記録しておくのではなく、選択部１４３Ｃに入力され得る値の組み合わせに対して、分布モデル誤り計算部１４５とビット誤り計算部１４６のどちらの計算結果を選択するかという情報だけを登録しておいて、選択された計算結果から、第２の実施形態と同様にエントロピーを計算により求めるようにしても良い。

次に、選択部１４３Ｃで選択したエントロピーが符号化量計算部１４４へ入力される（Ｓ９１８）。

次に、符号化量計算部１４４において、入力された情報から符号量が計算される（Ｓ９１９）。

エントロピーを計算することによって得られる符号量は理論値であり、Ｔｕｒｂｏ復号やＬＤＰＣ複号といったＳｌｅｐｉａｎ−Ｗｏｌｆ複号の性能によっては理論値以上の符号量が必要となる場合があるため、補正を行い、送信する符号量を得る。補正方法は、非特許文献２にあるように、あらかじめ多量のシーケンスを符号化・復号し、エントロピーと復号結果との関係を観測し、その関係を利用した補正を行ってもよいし、エントロピーに対して補正項ｋを加えてもよい．このときkは固定の値であってもよいし、ビットプレーン毎に変わる値をとるなどの変動値であってもよい。また、補正方法は、入力されたエントロピーが分布モデルエントロピーかビット誤りエントロピーかによって変えてもよい。

次に、符号化量計算部１４４により、計算した送信符号量がＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０へ入力される（Ｓ９２０）。

次に、量子化部１２０から符号化を行うビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０へ入力される（Ｓ９２１）。

次に、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部１３０において、入力されたビットプレーンがＳｌｅｐｉａｎ−Ｗｏｌｆ符号化される（Ｓ９２２）。

次に、Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化されたビットプレーンが送信符号量推定部１４０Ｃで得られた符号量に応じた符号量が、受信側へ送信される（Ｓ９２３）。

次に、Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部１１０Ｃでは、１フレームの全てのビットプレーンを処理したか否かが判定され（Ｓ９２４）、全てのビットプレーンの処理が完了した場合には当該フレームに係る処理を終了し、そうでない場合には、上述のステップＳ９０９の処理に戻って動作する。

（Ｄ−３）第４の実施形態の効果
第４の実施形態によれば、第１の実施形態の効果に加えて、以下のような効果を奏することができる。

動画像符号化装置１００Ｃでは、判定テーブル１４７Ｃにあらかじめ分布モデルエントロピーとビット誤りエントロピーのどちらを送信符号量の計算に用いるか、という選択における計算をあらかじめ行い、その結果のエントロピーをテ−ブルとして保持しておくことで、選択における演算と誤りからエントロピーを計算する演算が省略され、第１の実施形態と比較して、符号化に係る処理量を低減させることができる。

（Ｅ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｅ−１）なお、図２においては、動画像符号化装置は、動画像配信装置の一部を構成するものとして図示しているが、動画像符号化装置を、単体の装置として構築し、単に入力シーケンスから符号化データを生成して出力（ディスク装置や記憶媒体等に記憶させたり、他の装置に出力したり等、方法は限定されないものである）する装置として構築するようにしても良い。

（Ｅ−２）上記の第１及び第３の実施形態では、動画像符号化装置の送信符号量推定部は、２つのエントロピー計算部（分布モデルエントロピー計算部、ビット誤りエントロピー計算部）を有しているが、他の方法によりエントロピーを計算する手段を追加又は置き換えるようにしても良い。すなわち、送信符号量推定部において、それぞれ異なる計算方法によりエントロピーを計算する複数のエントロピー計算手段を有し、いずれかのエントロピー計算手段の計算結果を、送信符号量の計算に適用するものとして選択できれば、エントロピー計算手段の数や具体的な計算方法は限定されないものである。

これは、第２及び第４の実施形態においても同様であり、送信符号量推定部において、それぞれ異なる計算方法によりエントロピーを計算する複数のエントロピー計算手段を有し、まず、それぞれのエントロピー計算手段が計算するエントロピーに係る誤り率を算出する。そして、その誤り率に基づいて送信符号量として適用するエントロピー計算手段を選択し、選択したエントロピー計算手段により計算したエントロピーを送信符号量の計算に適用するものとして選択できれば、エントロピー計算手段の数や具体的な計算方法は限定されないものである。

１…動画像配信システム、１０…動画像配信装置１００…動画像符号化装置、２０…動画像受信装置、２００…動画像復号化装置、１００…動画像符号化装置、１１０…Ｗｙｎｅｒ−Ｚｉｖフレーム符号化部、１２０…量子化部、１３０…Ｓｌｅｐｉａｎ−Ｗｏｌｆ符号化部、１４０…送信符号量推定部、１４１…分布モデルエントロピー計算部、１４２…ビット誤りエントロピー計算部、１４３…選択部、１４４…符号化量計算部。

Claims

フレーム列を有する動画像信号を符号化する動画像符号化装置において、
上記フレーム列のそれぞれのフレームをキーフレーム又は非キーフレームに分類するフレーム分類手段と、
上記フレーム列のうちキーフレームを符号化するキーフレーム符号化手段と、
符号化されたキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、
非キーフレームの原画像に対する予測画像の誤りやすさに応じて、その誤りを訂正する誤り訂正符号の量を求める符号量計算手段と、
上記符号量計算手段が求めた誤り訂正符号の量に応じた誤り訂正符号を、非キーフレームの符号化データとして生成する非キーフレーム符号化手段とを備え、
上記符号量計算手段は、
上記原画像に対する上記予測画像の誤りやすさに係るパラメータを、それぞれ異なる方式で計算する複数のパラメータ計算手段と、
それぞれの上記パラメータ計算手段が計算したパラメータを利用して、当該符号量計算手段が出力する誤り訂正符号の量を保持する誤り訂正符号量保持手段とを有する
ことを特徴とする動画像符号化装置。
上記誤り訂正符号量保持手段は、それぞれの上記パラメータ計算手段が計算したパラメータから、当該符号量計算手段が出力する誤り訂正符号の量の計算に用いるパラメータを選択し、選択したパラメータを用いて、当該符号量計算手段が出力する誤り訂正符号の量を計算することを特徴とする請求項１に記載の動画像符号化装置。
上記符号量計算手段は、それぞれの上記パラメータ計算手段が計算し得るパラメータの値の組み合わせごとに、どの上記パラメータ計算手段が計算したパラメータを、当該符号量計算手段が出力する誤り訂正符号の量の計算に適用するかを、予め決定した判定情報を記憶する判定情報記憶手段をさらに有し、
上記誤り訂正符号量保持手段は、上記判定情報記憶手段が記憶している判定情報を利用して、当該符号量計算手段が出力する誤り訂正符号の量を求めて保持する
ことを特徴とする請求項１に記載の動画像符号化装置。
上記パラメータ計算手段は、いずれも、上記原画像に対する上記予測画像の誤り率に係るエントロピーを計算することを特徴とする請求項１〜３のいずれかに記載の動画像符号化装置。
上記パラメータ計算手段のうち、一つは、上記原画像と上記予測画像の関係を近似したモデルを用いて、エントロピーを計算することを特徴とする請求項４に記載の動画像符号化装置。
上記パラメータ計算手段のうち、一つは、上記原画像と上記予測画像とを比較し、その差異からエントロピーを計算することを特徴とする請求項４又は５に記載の動画像符号化装置。
上記パラメータ計算手段は、いずれも、上記原画像に対する上記予測画像の誤り率を計算することを特徴とする請求項１〜３のいずれかに記載の動画像符号化装置。
上記パラメータ計算手段のうち、一つは、上記原画像と上記予測画像の関係を近似したモデルを用いて、誤り率を計算することを特徴とする請求項７に記載の動画像符号化装置。
上記パラメータ計算手段のうち、一つは、上記原画像と上記予測画像とを比較し、その差異から誤り率を計算することを特徴とする請求項７又は８に記載の動画像符号化装置。
コンピュータを、
フレーム列を有する動画像信号を構成する上記フレーム列のそれぞれのフレームを、キーフレーム又は非キーフレームに分類するフレーム分類手段と、
上記フレーム列のうちキーフレームを符号化するキーフレーム符号化手段と、
符号化されたキーフレームを利用して、非キーフレームの予測画像を生成する予測画像生成手段と、
非キーフレームの原画像に対する予測画像の誤りやすさに応じて、その誤りを訂正する誤り訂正符号の量を求める符号量計算手段と、
上記符号量計算手段が求めた誤り訂正符号の量に応じた誤り訂正符号を、非キーフレームの符号化データとして生成する非キーフレーム符号化手段として機能させ、
上記符号量計算手段を、
上記原画像に対する上記予測画像の誤りやすさに係るパラメータを、それぞれ異なる方式で計算する複数のパラメータ計算手段と、
それぞれの上記パラメータ計算手段が計算したパラメータを利用して、当該符号量計算手段が出力する誤り訂正符号の量を保持する誤り訂正符号量保持手段とを有する
して機能させる
ことを特徴とする動画像符号化プログラム。
受信装置と、配信用動画像データを上記受信装置に配信する動画像配信装置とを有する動画像配信システムにおいて、
上記動画像配信装置は、フレーム列を有する動画像信号を符号化して配信用動画像データを生成する動画像符号化装置を有し、
上記動画像符号化装置として、請求項１〜９のいずれかに記載の動画像符号化装置を適用したことを特徴とする動画像配信システム。