JP5971010B2

JP5971010B2 - 動画像復号装置及びプログラム、並びに、動画像符号化システム

Info

Publication number: JP5971010B2
Application number: JP2012168411A
Authority: JP
Inventors: 和仁迫水
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-07-30
Filing date: 2012-07-30
Publication date: 2016-08-17
Anticipated expiration: 2032-07-30
Also published as: JP2014027600A; US9729871B2; US20140029666A1

Description

本発明は、動画像復号装置及びプログラム、並びに、動画像符号化システムに関し、例えば、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づいた分散映像符号化方式（ＤｉｓｔｒｉｂｕｔｅｄＶｉｄｅｏＣｏｄｉｎｇ：ＤＶＣ方式）を用いたものに適用し得るものである。

非特許文献１は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づき動画像の符号化及び復号を行う動画像符号化装置及び動画像復号装置について説明している代表的な論文である。

非特許文献１に記載の動画像復号装置は、キーストリームを入力とし、復号されたキーフレーム（復号キーフレームと呼ぶ）を出力するキーフレームデコーダと、ＷＺストリーム（ＷＺは、Ｗｙｎｅｒ−Ｚｉｖを省略したものである）を入力とし、復号されたＷＺフレーム（復号ＷＺフレームと呼ぶ）を出力するＷＺフレームデコーダとを有する。ＷＺフレームデコーダにおいては、予測画像生成部が復号キーフレームを入力としが予測画像を生成し、ＷＺ復号部が、入力された予測画像をサイド情報（補助情報；ＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ）として利用しながら、ＷＺストリームに対するＷＺ復号を行い、復号ＷＺフレームを得る。

予測画像生成部は、フレームバッファを有し、例えば、非特許文献１で採用されている双方向動き補償補間方法（ＢｉｄｉｒｅｃｔｉｏｎａｌＭｏｔｉｏｎＣｏｍｐｅｎｓａｔｅｄＩｎｔｅｒｐｏｌａｔｉｏｎ）を利用して、予測画像を生成する。双方向動き補償補間方法は、映像内の物体は等速直線運動するという仮定のもとで、予測したい時刻の前後に撮像されたフレームから、動き推定と動き補償を行って予測画像を生成する方法である。

非特許文献２は、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づき動画像の符号化及び復号を行う動画像符号化装置及び動画像復号装置に、ハッシュ（細切れ情報）という概念を追加した論文である。

非特許文献２に記載の動画像復号装置も、キーフレームデコーダと、ＷＺフレームデコーダとを有する。非特許文献２の記載技術のＷＺフレームデコーダにおいて、予測画像生成部は、入力されたハッシュ及び復号キーフレームから予測画像を生成し、ＷＺ復号部は、生成された予測画像と符号化装置側から与えられたＷＺストリ−ムを入力とし、入力された予測画像をサイド情報として利用しながら、ＷＺストリームに対するＷＺ復号を行い、復号ＷＺフレームを得る。

ここで、ハッシュは、予測画像の生成を補助するための情報である。非特許文献２では、画像をＮ×Ｎ画素毎にＤＣＴ変換（離散コサイン変換）したときのＤＣ（直流）成分とＡＣ（交流）成分の一部をハッシュとして採用している。予測画像生成部は、フレームバッファを有し、例えば、入力されたハッシュに最も近いハッシュを生成する領域を参照画像（フレームバッファ内の画像）の中から探し（動き推定）、その領域で補償することで（動き補償）、予測画像を生成する。

非特許文献２の記載方法は、ハッシュに含まれるＤＣ成分とＡＣ成分の一部で、動き推定を行えるという仮定のもとで予測画像を生成している。

Ｘ．Ａｒｔｉｇａｓ，Ｊ．Ａｓｃｅｎｓｏ，Ｍ．Ｄａｌａｉ，Ｓ．Ｋｌｏｍｐ，Ｄ．ＫｕｂａｓｏｖａｎｄＭ．Ｏｕａｒｅｔ，"ＴｈｅＤｉｓｃｏｖｅｒＣｏｄｅｃ：Ａｒｃｈｉｔｅｃｔｕｒｅ，ＴｅｃｈｎｉｑｕｅｓａｎｄＥｖａｌｕａｔｉｏｎ"，ｉｎＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ，２００７，ｖｏｌ．２００７，ｐｐ．６−９Ｊ．ＡｓｃｅｎｓｏａｎｄＦ．Ｐｅｒｅｉｒａ，"ＡｄａｐｔｉｖｅＨａｓｈ−ＢａｓｅｄＳｉｄｅＩｎｆｏｒｍａｔｉｏｎＥｘｐｌｏｉｔａｔｉｏｎｆｏｒＥｆｆｉｃｉｅｎｔＷｙｎｅｒ−ＺｉｖＶｉｄｅｏＣｏｄｉｎｇ"，ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ２００７．ＩＣＩＰ２００７，２００７

キーフレームデコーダとＷＺフレームデコーダを備える動画像復号装置では、予測画像生成部の予測画像生成方法に応じて、予測画像の画質は劣化することも生じる。

例えば、非特許文献１の記載技術のように、復号キーフレームのみから予測画像を生成する際に、物体が等速直線運動しているという仮定が成立しない場合には、予測画像の画質は劣化する。また例えば、非特許文献２の記載技術のように、復号キーフレームとハッシュを組み合わせて予測画像を生成する際に、ハッシュに含まない情報（例えば、高周波成分（高周波のＡＣ成分））が動き推定に重要となる場合には、予測画像の画質は劣化する。

予測画像の画質が劣化すれば、当然に、復号ＷＺフレームの品質を悪化させる。

そのため、原画像の性質等に拘らず、復号画像の品質を向上できる動画像復号装置及びプログラム、並びに、動画像符号化システムが望まれている。

第１の本発明は、生成された予測画像をサイド情報として用いて復号手段が符号化画像を復号する動画像復号装置において、（１）それぞれ異なる方法で予測画像を生成する複数の予測画像生成手段と、（２）上記各予測画像生成手段で生成された複数の予測画像を合成し、上記復号手段に与える予測画像を得る予測画像合成手段と、（３）キーフレームが符号化されたキーフレーム符号化画像を復号するキーフレーム復号手段とを備え、（４）上記復号手段は、上記サイド情報と、対向する動画像符号化装置から与えられた符号化データとから、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号を行って、非キーフレームが符号化された非キーフレーム符号化画像を復号するものであり、（５）上記各予測画像生成手段は、復号されたキーフレームを少なくとも用いて予測画像を生成するものあって、（６）上記各予測画像生成手段は、復号されたキーフレーム及び非キーフレームの動きベクトルの評価値を計算し、当該評価値を生成した予測画像の画質と推定し、画質情報として予測画像と共に出力し、（７）上記予測画像合成手段は、当該画質情報に基づき、画素毎に、それぞれの予測画像の画素値の中から最も画質の高い画素値を求め、求めた画素値を、合成された予測画像の画素値として設定することを特徴とする。

第２の本発明の動画像復号プログラムは、符号化画像を復号する動画像復号装置に用いられるコンピュータを、（１）それぞれ異なる方法で予測画像を生成する複数の予測画像生成手段と、（２）上記各予測画像生成手段で生成された複数の予測画像を合成し、合成予測画像を得る予測画像合成手段と、（３）生成された合成予測画像をサイド情報として用いて符号化画像を復号する復号手段と、（４）キーフレームが符号化されたキーフレーム符号化画像を復号するキーフレーム復号手段として機能させ、（５）上記復号手段は、上記サイド情報と、対向する動画像符号化装置から与えられた符号化データとから、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号を行って、非キーフレームが符号化された非キーフレーム符号化画像を復号するものであり、（６）上記各予測画像生成手段は、復号されたキーフレームを少なくとも用いて予測画像を生成するものあって、（７）上記各予測画像生成手段は、復号されたキーフレーム及び非キーフレームの動きベクトルの評価値を計算し、当該評価値を生成した予測画像の画質と推定し、画質情報として予測画像と共に出力し、（８）上記予測画像合成手段は、当該画質情報に基づき、画素毎に、それぞれの予測画像の画素値の中から最も画質の高い画素値を求め、求めた画素値を、合成された予測画像の画素値として設定することを特徴とする。

第３の本発明は、動画像符号化装置と動画像復号装置とが対向する動画像符号化システムにおいて、上記動画像復号装置として、第１の本発明の動画像復号装置を適用したことを特徴とする。

本発明によれば、原画像の性質等に拘らず、復号画像の品質を向上させることができる。

第１の実施形態に係る動画像復号装置の構成を示すブロック図である。第１の実施形態に係る動画像復号装置の動作を示すフローチャートである。第２の実施形態に係る動画像復号装置の構成を示すブロック図である。第２の実施形態における第１の予測画像生成部及び第２の予測画像生成部の第１の詳細構成例を示すブロック図である。第２の実施形態における第１の予測画像生成部及び第２の予測画像生成部の第２の詳細構成例を示すブロック図である。第２の実施形態に係る動画像復号装置の動作を示すフローチャートである。第２の実施形態の効果の説明図（その１）である。第２の実施形態の効果の説明図（その２）である。

（Ａ）第１の実施形態
以下、本発明による動画像復号装置及びプログラム、並びに、動画像符号化システムの第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る動画像復号装置の構成を示すブロック図である。第１の実施形態の動画像符号化装置は、ハードウェア的に各種回路を接続して構築されても良く、また、ＣＰＵ、ＲＯＭ、ＲＡＭなどを有する汎用的な装置が動画像復号プログラムを実行することで動画像復号装置としての機能を実現するように構築されても良い。いずれの構築方法を適用した場合であっても、第１の実施形態の動画像復号装置の機能的構成は、図１で表すことができる。

なお、第１の実施形態の動画像復号装置と、図示しない対向する動画像符号化装置とで、第１の実施形態の動画像符号化システムが構成されている。例えば、動画像符号化装置として、キーストリームとＷＺストリームとハッシュとを生成して出力する非特許文献２に記載されている装置を適用できる。また例えば、動画像符号化装置として、キーストリームとＷＺストリームとを生成して出力する非特許文献１に記載されている装置の構成に、ハッシュの生成、出力構成を追加した装置を適用できる。

図１において、第１の実施形態の動画像復号装置１００は、キーフレームデコーダ１０１及びＷＺフレームデコーダ１０２を有する。ＷＺフレームデコーダ１０２は、第１の予測画像生成部１０３、第２の予測画像生成部１０４、予測画像合成部１０５及びＷＺ復号部１０６を有する。

図示しない動画像符号化装置は、数フレームおき（一定間隔でなくても良い）のキーとなるいくつかのフレームの画像（キーフレーム）に対して、動画像符号化を適用して圧縮してキーストリームＫＳＴを生成して送出する。一方、その他のフレーム（若しくは全てのフレーム）が該当するＷＺフレーム（非キーフレーム）については、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づいた符号化を行い、得られたＷＺストリームＷＺＳＴを送出する。この第１の実施形態の場合、動画像符号化装置は、ＷＺストリームの生成処理の中で、上述したハッシュＨＳを生成し、生成したハッシュＨＳも送出する。

キーフレームデコーダ１０１には、対向する動画像符号化装置から送出されたキーストリームＫＳＴが入力される。キーフレームデコーダ１０１は、キーストリームＫＳＴに対する復号処理を行い、復号キーフレームＤＫＦＬを得るものである。復号キーフレームＤＫＦＬは、次段の装置（若しくは次のプログラム部分）に与えられると共に、ＷＺフレームデコーダ１０２内の第１の予測画像生成部１０３に与えられる。

キーフレームデコーダ１０１は、キーフレームの符号化方式に対応した復号を行うものである。キーフレームの符号化方式は任意であって良い。そのため、例えば、キーフレームデコーダ１０１がハイブリッド符号化方式に基づくデコーダで実現されていても良い。また例えば、キーフレームデコーダ１０１が、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づくものであっても良い。

ＷＺフレームデコーダ１０２には、対向する動画像符号化装置から送出されたＷＺストリームＷＺＳＴ及びハッシュＨＳと、キーフレームデコーダ１０１から出力された復号キーフレームＤＫＦＬとが入力される。ＷＺフレームデコーダ１０２は、これら入力信号を処理して、ＷＺフレームを得る（復号する）ものであり、得られた復号ＷＺフレームＤＷＺＦＬは、次段の装置（若しくは次のプログラム部分）に与えられる。

第１の予測画像生成部１０３は、復号キーフレームＤＫＦＬのみから予測画像（以下、第１の予測画像と呼ぶ）ＰＲ１を生成するものである。

第２の予測画像生成部１０４は、ハッシュＨＳと復号キーフレームＤＫＦＬとから予測画像（以下、第２の予測画像と呼ぶ）ＰＲ２を生成するものである。

予測画像合成部１０５は、第１の予測画像ＰＲ１と第２の予測画像ＰＲ２とを合成した予測画像（以下、合成予測画像と呼ぶ）ＰＲを生成するものである。

ＷＺ復号部１０６は、合成予測画像ＰＲとＷＺストリームＷＺＳＴを入力とし、合成予測画像ＰＲをサイド情報として利用しながらＷＺ復号し、得られた復号ＷＺフレームＤＷＺＦＬを出力するものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態に係る動画像復号装置１００の動作を、図２のフローチャートを参照しながら説明する。

キーフレームデコーダ１０１において、キーストリームＫＳＴを復号し、復号キーフレームＤＫＦＬを生成する（ステップＳ１０１）。

ここで、キーストリームＫＳＴは、Ｈ．２６４／ＡＶＣのような既知のハイブリッド符号化方式で圧縮されたデータを適用できるが、それに限定されるものではない。例えば、キーストリームＫＳＴ自体が、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づき動画像の符号化を行う動画像符号化装置によって圧縮されたデータであっても良い。

第１の予測画像生成部１０３において、復号キーフレームＤＫＦＬから所定の方法を用いて第１の予測画像ＰＲ１を生成する（ステップＳ１０２）。例えば、非特許文献１に記載の前後の復号キーフレームＤＫＦＬを利用する双方向動き補償補間方法を適用して、第１の予測画像ＰＲ１を生成する。

第２の予測画像生成部１０４において、ハッシュＨＳと復号キーフレームＤＫＦＬから所定の方法を用いて第２の予測画像ＰＲ２を生成する（ステップＳ１０３）。例えば、非特許文献２の記載方法を適用して第２の予測画像ＰＲ２を生成する。すなわち、入力されたハッシュＨＳに最も近いハッシュを生成する領域を参照画像（内蔵するフレームバッファ内に保存されている復号キーフレームＤＫＦＬ）の中から探し（動き推定）、その領域で補償することで（動き補償）、第２の予測画像ＰＲ２を生成する。ここで、参照画像として用いる復号キーフレームＤＫＦＬは、現時刻より過去（後）のものであっても良く、現時刻より将来（前）のものであっても良く、現時刻より過去（後）及び将来（前）のものの双方であっても良い。

予測画像合成部１０５において、第１の予測画像生成部１０３で生成された第１の予測画像ＰＲ１と、第２の予測画像生成部１０４で生成された第２の予測画像ＰＲ２とを合成した予測画像ＰＲを生成する（ステップＳ１０４）。２つの予測画像の合成方法は任意であって良い。例えば、画素毎に、第１の予測画像ＰＲ１における画素値と第２の予測画像ＰＲ２における画素値との平均値（単純平均でも、重みが固定の加重平均でも良い）を計算し、平均値を合成予測画像ＰＲの画素値とする。

ＷＺ復号部１０６で、合成予測画像をサイド情報として利用し、ＷＺ復号し、復号ＷＺフレームＤＷＺＦＬを生成する（ステップＳ１０５）。

仮に、原画像の画素値が５０、第１の予測画像ＰＲ１の画素値が４０、第２の予測画像ＰＲ２の画素値が７０であったとする。この場合、合成予測画像ＰＲの画素値は（４０＋７０）／２＝５５となる。第１の予測画像ＰＲ１の画素値と原画像の画素値の相違（差の絶対値）は１０（＝｜４０−５０｜）であり、第２の予測画像ＰＲ２の画素値と原画像の画素値の相違（差の絶対値）は２０（＝｜７０−５０｜）であるのに対し、合成予測画像ＰＲの画素値と原画像の画素値の相違（差の絶対値）は５（＝｜５５−５０｜）となり、合成予測画像ＰＲと原画像の差が最も小さい。

以上のように、概ね、合成予測画像ＰＲの品質が第１の予測画像ＰＲ１や第２の予測画像ＰＲ２の品質より良好となる。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、第１及び第２の予測画像生成部で生成された、劣化の性質が異なる第１及び第２の予測画像を合成して得た予測画像をＷＺ復号部に入力するようにしたので、ＷＺ復号部に入力されるサイド情報の品質が向上し、その結果として復号画像の品質を向上させることができる。

上述した効果は、キーフレームの符号化方式を問わずに奏することができる。

（Ｂ）第２の実施形態
次に、本発明による動画像復号装置及びプログラム、並びに、動画像符号化システムの第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成
図３は、第２の実施形態に係る動画像復号装置の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図３において、第２の実施形態に係る動画像復号装置１００Ａも、キーフレームデコーダ１０１及びＷＺフレームデコーダ１０２Ａを備え、ＷＺフレームデコーダ１０２Ａが、第１の予測画像生成部１０３Ａ、第２の予測画像生成部１０４Ａ、予測画像合成部１０５Ａ及びＷＺ復号部１０６を有するが、第１の予測画像生成部１０３Ａ、第２の予測画像生成部１０４Ａ及び予測画像合成部１０５Ａが、第１の実施形態のものとは異なっている。

第２の実施形態の第１の予測画像生成部１０３Ａは、入力されたハッシュＨＳと復号キーフレームＤＫＦＬとから、第１の予測画像ＰＲ１を生成するだけでなく、第１の予測画像ＰＲ１に関する画質情報（以下、第１の画質情報と呼ぶ）ＱＵ１を生成するものである。第１の予測画像生成部１０３Ａによる第１の予測画像ＰＲ１の生成方法は、第１の実施形態と同様である。

第２の実施形態の第２の予測画像生成部１０４Ａは、入力されたハッシュＨＳと復号キーフレームＤＫＦＬとから、第２の予測画像ＰＲ２を生成するだけでなく、第２の予測画像ＰＲ２に関する画質情報（以下、第２の画質情報と呼ぶ）ＱＵ２を生成するものである。第２の予測画像生成部１０４Ａによる第２の予測画像ＰＲ２の生成方法は、第１の実施形態と同様である。

予測画像合成部１０５Ａは、第１及び第２の画質情報ＱＵ１及びＱＵ２に基づいた、第１及び第２の予測画像ＰＲ１及びＰＲ２に対する重みを反映させるように、第１及び第２の予測画像ＰＲ１及びＰＲ２を合成し、得られた合成予測画像ＰＲをＷＺ復号部１０６に出力するものである。予測画像合成部１０５Ａによる合成方法として、例えば、第１及び第２の画質情報ＱＵ１及びＱＵ２に基づいた重みを適用した加重平均を挙げることができる。

図４は、第１の予測画像生成部１０３Ａ及び第２の予測画像生成部１０４Ａの第１の詳細構成例を示すブロック図である。

図４において、第１の予測画像生成部１０３Ａは、動きベクトル推定部２００、動き補償部２０１及び画質推定部２０２を有する。

動きベクトル推定部２００は、復号キーフレームＤＫＦＬから動きベクトルＭＢ１を推定するものである。動き補償部２０１は、動きベクトルＭＢ１と復号キーフレームＤＫＦＬから第１の予測画像ＰＲ１を生成するものである。画質推定部２０２は、ハッシュＨＳと第１の予測画像ＰＲ１から第１の画質情報ＱＵ１を求めるものである。動きベクトル推定部２００及び動き補償部２０１としては、非特許文献１に記載の予測画像の生成構成を適用できる。

図４において、第２の予測画像生成部１０４Ａは、動きベクトル推定部３００、動き補償部３０１及び画質推定部３０２を有する。

動きベクトル推定部３００は、ハッシュＨＳと復号キーフレームＤＫＦＬから動きベクトルＭＢ２を推定するものである。動き補償部３０１は、動きベクトルＭＢ２と復号キーフレームＤＫＦＬから第２の予測画像ＰＲ２を生成するものである。画質推定部３０２は、ハッシュＨＳと第２の予測画像ＰＲ２から第２の画質情報ＱＵ２を求めるものである。動きベクトル推定部３００及び動き補償部３０１としては、非特許文献２に記載の予測画像の生成構成を適用できる。

画質推定部２０２及び３０２は、同様な方法により、画質情報ＱＵ１、ＱＵ２を形成する。以下、画質推定部２０２を例にして、画質情報（第１の画質情報ＱＵ１）の形成方法を説明する。ここでの画質情報は、画質の推定値である。

画質推定部２０２は、生成された第１の予測画像ＰＲ１からハッシュＨＳＰＲ１を生成し、生成したハッシュＨＳＰＲ１と入力されたハッシュＨＳの大きさの差を画質の推定値（（第１の画質情報ＱＵ１）とする。

図５は、第１の予測画像生成部１０３Ａ及び第２の予測画像生成部１０４Ａの第２の詳細構成例を示すブロック図であり、図４との同一、対応部分には同一符号を付して示している。

図５において、第１の予測画像生成部１０３Ａは、動きベクトル推定部２００、動き補償部２０１及び画質推定部２０２を有し、画質推定部２０２が図４の詳細構成例のものと異なっている。画質推定部２０２は、入力されたハッシュＨＳと動きベクトルＭＢ１から第１の画質情報ＱＵ１を求めるものである。

第２の予測画像生成部１０４Ａは、動きベクトル推定部３００、動き補償部３０１及び画質推定部３０２を有し、画質推定部３０２が図４の詳細構成例のものと異なっている。画質推定部３０２は、入力されたハッシュＨＳと動きベクトルＭＢ２から第２の画質情報ＱＵ２を求めるものである。

図５における画質推定部２０２及び３０２は、同様な方法により、ハッシュＨＳと動きベクトルＭＢ１、ＭＢ２から画質情報ＱＵ１、ＱＵ２を形成する。以下、画質推定部２０２を例にして、画質情報（第１の画質情報ＱＵ１）の形成方法を説明する。ここでの画質情報は画質の推定値である。

ハッシュＨＳが、非特許文献２に記載のもののように、ＤＣ成分とＡＣ成分の一部であるとする。ハッシュＨＳから画像ＰＲＨＳを生成し、加えて、動きベクトルの推定に利用した参照画像と同時刻のハッシュＨＳ２から画像ＰＲＨＳ２を生成し、第１の予測画像ＰＲ１を生成するのに利用した動きベクトルＭＢ１の評価値を、ハッシュＨＳから生成された画像ＰＲＨＳとハッシュＨＳ２から生成された画像ＰＲＨＳ２との間で求め、この評価値を画質の推定値（第１の画質情報ＱＵ１）とする。なお、上記の方法より一部の性能が低下するが、上記の方法に代え、動きベクトルの推定に利用した時刻のハッシュＨＳから画像ＰＲＨＳを生成し、第１の予測画像ＰＲ１を生成するのに利用した動きベクトルＭＢ１の評価値を、ハッシュＨＳから生成された画像ＰＲＨＳと第１の予測画像ＰＲ１との間で求め、この評価値を画質の推定値（第１の画質情報ＱＵ１）とするようにしても良い。

非特許文献２の記載技術の場合、逆離散コサイン変換（ＩＤＣＴ；ＩｎｖｅｒｓｅＤＣＴ）することで、ハッシュＨＳから画像ＰＲＨＳを生成することができる。動きベクトルの評価値として、例えば、画素毎の画素値の差分絶対値の総和（ＳＡＤ；ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅｓ）や、画素毎の画素値の差分絶対値の平均（ＭＡＤ；ＭｅａｎＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ）を適用できる。

動きベクトルの推定単位（例えば、ＭｘＭ画素ブロック単位で動きベクトルを求めるとする）が、ＤＣＴ変換ブロック（例えば、ＮｘＮ画素ブロック単位でＤＣＴ変換するとする）よりも小さい場合、すなわち、Ｍ＜Ｎの場合、動きベクトルの評価値を画質情報として利用することで、ＮｘＮ画素ブロック単位で、画素の画質を推定することができる。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態に係る動画像復号装置１００Ａの動作を、図６のフローチャートを参照しながら説明する。図６において、第１の実施形態に係る図２との同一、対応ステップには同一、対応符号を付して示している。

第１の予測画像生成部１０３Ａにおいて、ハッシュＨＳと復号キーフレームＤＫＦＬから所定の方法を用いて第１の予測画像ＰＲ１と第１の画質情報ＱＵ１を生成する（ステップＳ１０２Ａ）。

第２の予測画像生成部１０４Ａにおいて、ハッシュＨＳと復号キーフレームＤＫＦＬから所定の方法を用いて第２の予測画像ＰＲ２と第２の画質情報ＱＵ２を生成する（ステップＳ１０３Ａ）。

ここで、画質情報ＱＵ１、ＱＵ２の生成方法は、図４又は図５を用いて説明した方法である。

予測画像合成部１０５において、第１の予測画像生成部１０３と第２の予測画像生成部１０４で生成された画質情報ＱＵ１、ＱＵ２を合成用のパラメータとして利用して、第１の予測画像生成部１０３と第２の予測画像生成部１０４で生成された予測画像ＰＲ１及びＰＲ２を合成し、合成後の予測画像ＰＲを得る（ステップＳ１０４Ａ）。

画質情報ＱＵ１、ＱＵ２を合成用のパラメータとして、予測画像ＰＲ１及びＰＲ２を合成する方法として、例えば、以下のような加重平均を適用できる。

第１の予測画像ＰＲ１のある１画素の画素値がＰ１で画質がＱ１、第２の予測画像ＰＲ２の同一箇所の画素の画素値がＰ２で画質がＱ２であったとする。

画質情報Ｑ１、Ｑ２が、例えば、生成した予測画像からハッシュを生成し、生成したハッシュとハッシュＨＳの大きさの差で与えられている場合、（１）式に従う加重平均により、合成予測画像ＰＲの画素値Ｐを得る。画質情報は、値が小さい方が画質が良いことを表すコストとなっている。そのため、画質情報（コスト）が小さい場合に他方の予測画像の重みを小さくし、当該画質情報に対応する予測画像の選択度合いを高めるようにすることとした。この考え方を式で表現したものが（１）式である。

Ｐ＝［Ｑ２／（Ｑ１＋Ｑ２）］＊Ｐ１＋［Ｑ１／（Ｑ１＋Ｑ２）］＊Ｐ２
…（１）
また、画質情報ＱＵ１、ＱＵ２を合成用のパラメータとして、予測画像ＰＲ１及びＰＲ２を合成する他の方法として、例えば、以下のような高画質選択を適用できる。２つの予測画像の画素値の中から、画質の高い方の画素値を選び、その選択した画素値を合成予測画像の画素値として設定する。

最後に、ＷＺ復号部１０６で、合成予測画像をサイド情報として利用し、ＷＺ復号し、復号ＷＺフレームＤＷＺＦＬを生成する（ステップＳ１０５）。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によっても、第１及び第２の予測画像生成部で生成された、劣化の性質が異なる第１及び第２の予測画像を合成して得た予測画像をＷＺ復号部に入力するようにしたので、ＷＺ復号部に入力されるサイド情報の品質が向上し、その結果として復号画像の品質を向上させることができる。

ここで、第２の実施形態においては、第１及び第２の予測画像の画質情報をも得て、各画質情報の良否を反映させて、第１及び第２の予測画像を合成するようにしたので、第１の実施形態以上に、高画質な合成予測画像を期待することができる。

以下、第１及び第２の予測画像を単純平均して合成予測画像を形成するより、第１及び第２の予測画像の画質情報を適用し、第１及び第２の予測画像を加重平均して合成予測画像を形成する方が、合成予測画像の画質が向上する場合が多くなることを、図７及び図８を参照しながら説明する。

図７は、第１及び第２の予測画像を単純平均して合成予測画像を形成する場合を示している。図８は、第１及び第２の予測画像の画質情報を適用し、第１及び第２の予測画像を加重平均して合成予測画像を形成する場合を示している。図７及び図８は、説明を簡単にするために、４×４画素の計１６画素の画像の例を示している。図７及び図８のそれぞれにおける４つの画像のうち、左上の画像が原画像を示し、右上の画像が第１の予測画像ＰＲ１を示し、左下の画像が第２の予測画像ＰＲ２を示し、右下の画像が合成予測画像ＰＲを示している。

この例の場合、第１の予測画像ＰＲ１は、原画像と比べて右上の４画素と左下の４画素が劣化しており（原画像と異なる値を取っている）、第２の予測画像ＰＲ２は、原画像と比べて左下の４画素が劣化している。この例では、２×２画素ブロック単位で劣化を発生させているが、これは説明を簡略化するためである。

それぞれの予測画像の誤差の総和を計算すると、第１の予測画像ＰＲ１は「２２」で、第２の予測画像ＰＲ２は「１６」である。

図７の合成予測画像ＰＲは、画素毎に、第１の予測画像ＰＲ１と第２の予測画像ＰＲ２の平均値を求めることで生成したものである。例えば、左下の画素の場合、第１の予測画像ＰＲ１の画素値が「２１」で、第２の予測画像ＰＲ２の画素値が「１９」であるから、その平均値の「２０」を合成予測画像ＰＲの左下の画素の値に設定している。合成予測画像ＰＲの誤差の総和を計算すると、「２４」となる。この誤差の総和は、第１の予測画像ＰＲ１や第２の予測画像ＰＲ２の誤差の総和よりも大きい。

以上のように、ある領域では、第１の予測画像ＰＲ１よりも第２の予測画像ＰＲ２の方が高品質で、別の領域では、第２の予測画像ＰＲ２よりも第１の予測画像ＰＲ１の方が高品質な場合に、第１の予測画像ＰＲ１と第２の予測画像ＰＲ２の単純平均処理によって生成される合成予測画像ＰＲの品質が、第１の予測画像ＰＲ１や第２の予測画像ＰＲ２よりも悪化する場合がある。

図８は、図４を用いて説明した画質情報の形成方法を適用した第２の実施形態の場合である。

この例では、ハッシュは、画素ブロック毎のＤＣ成分であるとする。すなわち、２×２画素ブロック毎にＤＣ成分を求め、ハッシュとする。

第２の実施形態では、原画像のハッシュと予測画像のハッシュを用いて予測画像の画質を推定し、画質に基づき画素値の加重平均を求めることで、合成予測画像ＰＲを生成する。ここで、原画像のハッシュＨＳは、対向する動画像符号化装置から与えられるデータである。予測画像ＰＲ１、ＰＲ２が劣化していた場合、予測画像ＰＲ１、ＰＲ２のハッシュは、原画像のハッシュと異なる可能性が高い。図８の場合、予測画像の劣化している領域では、予測画像のハッシュも原画像のハッシュとは異なる値となっている。ここでは、予測画像のハッシュと原画像のハッシュの差を予測画像の画質に用いる。

加重平均は、画素単位で計算するので、画質は画素単位で必要になる。この例のように、ハッシュが２×２画素ブロック毎に与えられる場合、画質（ハッシュの差）も２×２画素ブロック毎に与えられる。このような場合は、２×２画素ブロック内に含まれる４画素全てに２×２画素ブロックの画質を与える。

例えば、合成予測画像ＰＲの左下の画素の画素値を求める場合、第１の予測画像ＰＲ１の左下の画素の画質は｜２１−２３｜＝２であり、第２の予測画像ＰＲ２の左下の画素の画質は｜１９−２３｜＝４である。この画質情報を用いて、左下の画素の画素値の加重平均を求めると、［４／（２＋４）］＊２１＋［２／（２＋４）］＊１９＝２０．３３３３…が得られる。画素値は整数であるとすると、合成予測画像ＰＲの画素値は２０となる（四捨五入）。

同様の手順で、全ての画素の画素値を求めたものが、図８の合成予測画像ＰＲとなっている。その結果、得られる合成予測画像の誤差の総和は「１２」である。第１の予測画像ＰＲ１の誤差の総和は「２２」であり、第２の予測画像ＰＲ２の誤差の総和は「１６」であるから、合成予測画像ＰＲは、最も低い誤差の総和を実現できている。

（Ｃ）他の実施形態
上記各実施形態では、ＷＺフレームデコーダが、第１及び第２の予測画像生成部を備え、得られた第１及び第２の予測画像を予測画像合成部が合成すものを示したが、予測画像生成部の個数が２個に限定されず、３個以上の予測画像生成部を有するものであっても良い。但し、各予測画像生成部における予測画像の生成方法が異なっていることを要する。

上記各実施形態では、複数の予測画像の合成方法として、複数の画素値の単純平均、複数の画素値の加重平均、複数の画素値からの画質情報に応じた選択などを説明したが、合成方法は、これらに限定されるものではない。例えば、３個以上の予測画像生成部を有する場合、複数の画素値からの中央値の選択や、多数決選択などを挙げることができる。

上記各実施形態では、予測画像生成部における生成方法として、非特許文献１や非特許文献２に記載の生成方法を挙げたが、予測画像生成部における生成方法がこれらに限定されないことは勿論である。例えば、内挿補間で予測画像を生成する方法に加え、外挿補間で予測画像を生成する方法を適用するようにしても良い。また、復号で得られたＷＺフレームを利用して予測画像を生成するようにしても良い。

上記第２の実施形態においては、ハッシュから生成された画像間で、画質情報として、動きベクトルの評価値（コスト）を計算しているが、画質情報として適用できる動きベクトルの評価値（コスト）を、他の２画像間で求めるようにしても良い。例えば、下記の参考文献の記載技術のように、一度ＷＺ復号された画像がある場合、当該ＷＺ復号された画像と復号キーフレームＤＫＦＬ（参照フレーム）との間で動きベクトルの評価値（コスト）を計算することもできる。ＷＺ復号された画像と復号キーフレームＤＫＦＬは共に、ハッシュに比べて多くの情報を有しており、このような多く情報を用いて動きベクトルの評価値を計算すると、さらに高い精度で画質情報を取得することができる。

参考文献：Ｘ．ＡｒｔｉｇａｓａｎｄＬ．Ｔｏｒｒｅｓ，“ＩｔｅｒａｔｉｖｅＧｅｎｅｒａｔｉｏｎｏｆＭｏｔｉｏｎ−ＣｏｍｐｅｎｓａｔｅｄＳｉｄｅＩｎｆｏｒｍａｔｉｏｎｆｏｒＤｉｓｔｒｉｂｕｔｅｄＶｉｄｅｏＣｏｄｉｎｇ”，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ２００５，ｐ．Ｉ−８３３，２００５
上記各実施形態では、合成予測画像をＷＺ復号部に入力するものを示したが、他の処理部にも与えて処理させるようにしても良い。

上記各実施形態では、非キーフレームの符号化方式が、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づいた符号化方式であるものを示したが、復号側で予測画像を生成して利用する符号化方式であれば良く、Ｓｌｅｐｉａｎ−Ｗｏｌｆ理論及びＷｙｎｅｒ−Ｚｉｖ理論に基づいた符号化方式に限定されるものではない。

１００、１００Ａ…動画像復号装置、１０１…キーフレームデコーダ、１０２、１０２Ａ…ＷＺフレームデコーダ、１０３、１０３Ａ…第１の予測画像生成部、１０４、１０４Ａ…第２の予測画像生成部、１０５、１０５Ａ…予測画像合成部、１０６…ＷＺ復号部。

Claims

生成された予測画像をサイド情報として用いて復号手段が符号化画像を復号する動画像復号装置において、
それぞれ異なる方法で予測画像を生成する複数の予測画像生成手段と、
上記各予測画像生成手段で生成された複数の予測画像を合成し、上記復号手段に与える予測画像を得る予測画像合成手段と、
キーフレームが符号化されたキーフレーム符号化画像を復号するキーフレーム復号手段とを備え、
上記復号手段は、上記サイド情報と、対向する動画像符号化装置から与えられた符号化データとから、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号を行って、非キーフレームが符号化された非キーフレーム符号化画像を復号するものであり、
上記各予測画像生成手段は、復号されたキーフレームを少なくとも用いて予測画像を生成するものあって、
上記各予測画像生成手段は、復号されたキーフレーム及び非キーフレームの動きベクトルの評価値を計算し、当該評価値を生成した予測画像の画質と推定し、画質情報として予測画像と共に出力し、
上記予測画像合成手段は、当該画質情報に基づき、画素毎に、それぞれの予測画像の画素値の中から最も画質の高い画素値を求め、求めた画素値を、合成された予測画像の画素値として設定する
ことを特徴とする動画像復号装置。
少なくとも一つの上記予測画像生成手段は、対向する動画像符号化装置から与えられたハッシュと、復号されたキーフレームとを用いて、動き推定及び補償を行うことにより、予測画像を生成するものであって、
上記ハッシュは、予測画像の生成を補助するための情報あって、上記予測画像の原画像を画素毎に離散コサイン変換したときの直流成分と交流成分の一部である
ことを特徴とする請求項１に記載の動画像復号装置。
少なくとも一つの上記予測画像生成手段は、前後の時刻の復号キーフレームから予測画像を生成し、
少なくとも一つの他の上記予測画像生成手段は、上記ハッシュと、前の時刻、後の時刻、あるいは、前後の時刻の復号キーフレームから予測画像を生成する
ことを特徴とする請求項２に記載の動画像復号装置。
上記各予測画像生成手段は、予測画像の画質を画素毎に推定し、画質情報として出力することを特徴とする請求項１〜３のいずれかに記載の動画像復号装置。
符号化画像を復号する動画像復号装置に用いられるコンピュータを、
それぞれ異なる方法で予測画像を生成する複数の予測画像生成手段と、
上記各予測画像生成手段で生成された複数の予測画像を合成し、合成予測画像を得る予測画像合成手段と、
生成された合成予測画像をサイド情報として用いて符号化画像を復号する復号手段と、
キーフレームが符号化されたキーフレーム符号化画像を復号するキーフレーム復号手段として機能させ、
上記復号手段は、上記サイド情報と、対向する動画像符号化装置から与えられた符号化データとから、Ｓｌｅｐｉａｎ−Ｗｏｌｆ復号を行って、非キーフレームが符号化された非キーフレーム符号化画像を復号するものであり、
上記各予測画像生成手段は、復号されたキーフレームを少なくとも用いて予測画像を生成するものあって、
上記各予測画像生成手段は、復号されたキーフレーム及び非キーフレームの動きベクトルの評価値を計算し、当該評価値を生成した予測画像の画質と推定し、画質情報として予測画像と共に出力し、
上記予測画像合成手段は、当該画質情報に基づき、画素毎に、それぞれの予測画像の画素値の中から最も画質の高い画素値を求め、求めた画素値を、合成された予測画像の画素値として設定する
ことを特徴とする動画像復号プログラム。
動画像符号化装置と動画像復号装置とが対向する動画像符号化システムにおいて、
上記動画像復号装置として、請求項１に記載の動画像復号装置を適用したことを特徴とする動画像符号化システム。