JP2009111691A

JP2009111691A - 画像符号化装置及び符号化方法、画像復号化装置及び復号化方法

Info

Publication number: JP2009111691A
Application number: JP2007281605A
Authority: JP
Inventors: Masashi Takahashi; 昌史高橋; Tomokazu Murakami; 智一村上
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-10-30
Filing date: 2007-10-30
Publication date: 2009-05-21
Also published as: US20090110070A1; CN101426141A; EP2063644A2; EP2063644A3

Abstract

【課題】ブロック単位で画面内予測を行って予測差分を符号化・復号化する際に、予測方向を表すための符号量を減少させることにより圧縮効率の向上を図ることができる画像の符号化及び復号化を提供する。
【解決手段】画面内予測処理の対象となるブロックに隣接する符号化済みのブロックを利用して対象ブロックの予測方向を推定する。隣接するブロックの復号化画像のエッジ情報としてエッジの強度と角度を計算し、各予測方向に付いて、例えばニューラルネットワークを利用して計算した尤度のうち最も尤度の高い予測方向を対象ブロックにおける予測方向とすることで、予測方向を表す符号をストリームに付加する必要をなくして、符号量を大幅に削減し、圧縮効率が向上される。また、推定結果に基づいて可変長符号表を動的に作成することにより、予測方向を表す符号量を大幅に削減することもできる。
【選択図】図１

Description

本発明は動画や静止画のような画像を符号化する画像符号化技術及び画像を復号化する画像復号化技術に関する。

大容量の動画像情報をデジタルデータ化して記録、伝達する手法として、ＭＰＥＧ(Moving Picture Experts Group）方式等の符号化方式が策定され、ＭＰＥＧ−１規格、ＭＰＥＧ−２規格、ＭＰＥＧ−４規格、Ｈ．２６４／ＡＶＣ(Advanced Video Coding)規格等として国際標準の符号化方式となっている。これらの方式はデジタル衛星放送やＤＶＤ、携帯電話やデジタルカメラなどにおける符号化方式として採用され、現在、ますます利用範囲が広がり、身近なものとなってきている。

これらの規格では、符号化処理が完了した画像情報を利用して符号化対象画像をブロック単位で予測し、原画像との予測差分を符号化することによって、動画像の持つ冗長性を除いて符号量を減らしている。特にＨ．２６４／ＡＶＣでは、符号化対象ブロックの周辺画素を利用する画面内予測符号化方式を採用することにより、劇的な圧縮率の向上を実現した。

Ｈ．２６４／ＡＶＣによる上記の画面内予測符号化方式では、符号化済みのブロックに含まれる画素の中から参照画素を１つ選び、特定の予測方向に沿った画素をすべてその値で予測する。このとき、予め定義された複数の予測方向の中から画像に適したものを選択可能にすることにより、予測精度を向上させている。しかしこの場合、予測単位となるブロックごとに予測方向を表すための符号を付加する必要があり、その付加の分、符号量が増大するといった問題があった。

この問題に対しては、例えば非特許文献１にて解決を試みている。この手法では、利用できる予測方向数の少ない画面端のブロックにおいて、予測方向を表すための符号を短くすることによって、符号量を減らしている。しかし、この手法は画面端のブロックにしか適用できず、圧縮効率向上の効果は少ない。
また、特許文献１には、予測方法に関するモード情報を削減することによって、効率的な復号処理を実現することを図った画像予測復号方法が提案されている。この画像予測復号方法においては、更に、符号化対象領域に隣接する既再生の画素信号からなる隣接領域に対応する既処理のデータに基づいて、所定の複数の予測方法の中から、隣接領域の画素信号相関の高い画面内予測信号を生成する予測方法を導き出している。既処理のデータを用いて予測方法（方向）に関するモード情報を復元している。
更に、特許文献２には、イントラ映像の色相成分を空間予測符号化、復号化する方法が開示されており、ビットストリームに予測モードが含まれていない場合に、復元された上位及び側面の参照ブロックを利用して現在ブロックに対する画素値の垂直及び水平方向の変化量を計算し、その変化量によって予測方法を決めている。
Jamil-ur-Rehman and Zhang Ye, "Efficient Techniques for Signalling Intra Prediction Modes of H.264/Mpeg-4 Part 10", Proc. ICICIC2006, August,2006. 特開２００７−１１６３５１号公報（段落０００９、００２０、００２７）特開２００４−１２９２６０号公報（段落００２６）

そこで、圧縮効率を向上するため、画面内のすべてのブロックに対して予測方向を表すための符号量を減少させる点で解決すべき点がある。
本発明の目的は、予測方向を表すための符号量を減少させることにより圧縮効率を向上することにある。

本発明では、画面内予測処理の対象となるブロックに隣接する符号化済みのブロックを利用することによって対象ブロックの予測方向を推定する。例えば、対象ブロックの左側、左上側、上側、右上側に隣接する４つのブロックの復号化画像に対し、それぞれソーベルフィルタを作用させてエッジの強度と角度とを含むエッジ情報を計算する。当該計算で得られたこれら８つの強度と角度のパラメータを用いて各予測方向の尤度を計算し、最も尤度の高い予測方向を対象ブロックにおける予測方向とする。こうした予測方向を採用することにより、予測方向を表す符号をストリームに付加する必要がなくなる。

本発明は、例えばＨ．２６４／ＡＶＣのＤＣ予測など、方向に依存しない画面内予測方式にも有効であり、符号量の大幅な削減が期待できる。また、推定結果に基づいて可変長符号表を動的に作成することにより、予測方向を表す符号量を大幅に削減することもできる。その結果、圧縮効率の向上が期待できる。なお、各予測方向の尤度計算には、例えばニューラルネットワークを利用すれば効果的である。

本発明によれば、少ない符号量で高画質の映像を提供するための画像符号化技術及び復号化技術を提供することができる。

以下、本発明の実施例を、図面を参照して説明する。
図３は、Ｈ．２６４／ＡＶＣによる画面内予測符号化処理の動作を説明する概念図である。Ｈ．２６４／ＡＶＣでは、符号化対象画像に対してラスタースキャンの順序に従って符号化を実行し（３０１）、符号化対象ブロックの左、左上、上、右上に隣接する符号化済みの４つのブロックの復号化画像を用いて予測を行う。

特に、予測にはこれらのブロックに含まれる１３個の復号化された画素を利用し（３０２）、当該符号化対象ブロックに含まれる画素のうち、予測方向ベクトルを傾きとする同一直線上の画素はすべて同一画素から予測される。即ち、１３個の画素は、当該四つのブロックに含まれる画素のうち当該符号化対象ブロックに隣接して並ぶ画素であり、左ブロックについては最右側縦列の４つの画素、左上ブロックについては右下コーナの１つの画素、上ブロック及び右上ブロックについてはそれぞれ最下側で横に並ぶ４つの画素である。予測については、例えば（３０３）に示すように、予測方向ベクトルの向きが下向きである場合には、符号化対象ブロックの縦４つの画素Ｂ、Ｃ、Ｄ、Ｅはすべて上ブロックの当該予測方向ベクトル上の同一画素（画素Ｂの直上の画素を復号化した値Ａ’）を参照して予測符号化（値Ａ’と同じ値として予測する）が行われる。画素Ｂ、Ｃ、Ｄ、Ｅについて、値Ａ’との差分（予測差分）ｂ、ｃ、ｄ、ｅが計算される。

Ｈ．２６４／ＡＶＣでは、上記の下向き予測方向ベクトルに限らず、縦、横、斜めなど、８種類の予測方向（図３中、０，１，３〜８の矢印で示す方向）候補の中から最適なものをブロック単位で選択することができる。ただし、Ｈ．２６４／ＡＶＣでは、上記特定の方向に沿った予測の他に、参照画素の平均値によって符号化対象ブロックに含まれるすべての画素を予測する「ＤＣ予測」を利用することができる（３０４）。ＤＣ予測には、予測方向２が与えられる。上記９種類の番号（８方向＋ＤＣ予測）で区別して表される予測方法（以下では、「予測モード」と呼ぶ）の中からどのモードを選択したのかを示す情報は、予測差分とともに符号化される。

図４は、Ｈ．２６４／ＡＶＣによる画面内予測復号化処理の動作を説明する概念図である。復号化処理も符号化処理と同様にラスタースキャンの順序に従って復号化を実行し（４０１）、復号化済みの参照画素と予測差分を用いて符号化処理の逆手順を踏む。即ち、復号化対象ブロックにおいては、符号化の際に選択された予測モードに従い、当該予測方向に沿って、参照画素に予測差分（復号化された値）を足し合わせることによって復号化画像を取得する。例えば（４０２）では、復号化対象ブロックの予測差分ｂ’、ｃ’、ｄ’、ｅ’（それぞれ、上記図３に示されている予測差分ｂ、ｃ、ｄ、ｅが復号化され量子化誤差を含んだもの）に対して、すべて復号化済みの参照画素Ａ’との和を計算することにより、復号化画素Ｂ’、Ｃ’、Ｄ’、Ｅ’（それぞれ、上記図３のＢ、Ｃ、Ｄ、Ｅに対する復号化画素）を取得する過程を示している。

以上のように、Ｈ．２６４／ＡＶＣによる画面内予測符号化処理では、参照画素を１つだけ指定して予測方向に沿った画素をすべてその値で予測するといった単方向による方法を採用している。この場合、予測処理の単位となる符号化対象ブロックごとに、どの方向に予測を行うのかについての情報を付加する必要があった。

図５は、Ｈ．２６４／ＡＶＣによる画面内予測方式における予測モードの符号化方法について表している。Ｈ．２６４／ＡＶＣでは、符号化対象ブロックの予測モードが隣接するブロックの予測モードと相関が高いことに着目し、符号化済みの隣接ブロックにおける予測モードから符号化対象ブロックの予測モードを予測する。即ち、（５０１）に示すように、符号化対象ブロックの左側に隣接するブロックＡの予測モードＭ_Aと、同じく符号化対象ブロックの上側に隣接するブロックＢの予測モードＭ_Bを参照し、この２つの予測モードＭ_A，Ｍ_Bのうち番号（図３（図４）に示す９種類の番号）が小さい方を符号化対象ブロックにおける予測モードの予測値（隣接モード）としている（５０２）。

図５の（５０３）は、予測方法を表すビット構成の詳細を示している。Ｈ．２６４／ＡＶＣでは、符号化対象ブロックにおける予測モードが隣接モードと同じ場合には、隣接モードと同じ予測モードか否かを示すフラグ（１ビット）によって隣接モードと同じであるという情報を符号化（当該フラグとして「１」の符号）する。一方、両者が異なる場合には、同フラグにて隣接モードと異なるという情報を符号化（当該フラグとして「０」の符号）した後、実際の予測モード（９通りの予測モードのうち、隣接モードを除く８通り）を３ビットで符号化する。この場合、予測モードを表すために多くの符号を必要とし、例えば４×４画素サイズのブロック単位で画面内予測を行った場合、一つのマクロブロックあたり最大で６４ビットの符号が発生する。

図６は、本発明による予測モードの符号化に関する一実施例を示す概念図である。ここでは、（６０１）に示すように、符号化（復号化）対象ブロックに対してそれぞれ左側、上側、左上側、右上側に隣接する符号化済みの隣接ブロックＡ、Ｂ、Ｃ、Ｄの復号化画像を利用して対象ブロックの予測モードを推定する。例えば隣接ブロックＡ〜Ｄのエッジ情報を入力して対象ブロックの予測モードを出力する関数ｆを利用して予測モードを特定することにより（６０２）、予測モードを符号化する必要がなくなり、予測モードに必要なビット量は０となる（６０３）。

上記エッジの検出方法の種類については問わないが、例えば、図１４に示すソーベルフィルタを利用すれば効果的である。ソーベルフィルタを利用する場合、垂直方向用のフィルタ（１４０１）及び水平方向用のフィルタ（１４０２）の２種類を用いて各方向のエッジを検出する。また、プレウィットフィルタを利用しても良い。この場合、垂直方向用のフィルタ（１４０３）や水平方向用のフィルタ（１４０４）の他にも、斜め方向用のフィルタ（１４０５）（１４０６）が用意されている。また、より単純なフィルタの利用例として、まず特定の大きさの矩形フィルタを用意し、その中の濃度値の最大値と最小値の差を計算するＭＩＮ−ＭＡＸフィルタの利用が考えられる。

図１５は、ソーベルフィルタ（１４０１）（１４０２）を利用する場合のエッジ強度とエッジ角度を計算する方法について、その一例を示している。ここでは、符号化（復号化）対象ブロックに対してそれぞれ左側、上側、左上側、右上側に隣接する符号化済みの隣接ブロックＡ、Ｂ、Ｃ、Ｄの復号化画像に対して（１５０１）、それぞれ中心の４画素（１５０２）（画素１〜画素４）を取り出し（１５０３）、垂直方向用のフィルタ（１４０１）と水平方向用のフィルタ（１４０２）を適用させる。このとき、画素ｉ（ｉ＝１，．．，４）に水平方向用のフィルタと垂直方向用のフィルタを作用させた値をそれぞれｆ_x（ｉ）、ｆ_y（ｉ）とすると、例えばエッジ強度は（１５０４）のように、エッジ角度は（１５０５）や（１５０６）のように計算できる。

対象ブロックの予測モードを出力するための関数ｆはどのようなものでも構わないが、例えばニューラルネットワークの機械学習機能を利用することによって実現することができる。図７は、ニューラルネットワークを利用して関数ｆを実現した場合の例について示している。ニューラルネットワークとは、複数の閾値論理ユニットを入力層から出力層まで階層的に配置したネットワークのことであり、フィードフォーワード型のネットワークでは、ユニット間の結合は隣接する層間でのみ存在し、かつ入力層から出力層へ向かう一方向である。結合されたユニット間には結合の重みが与えられ、上位階層のユニットへの入力は下位階層のユニット群が出力する値と結合の重みの積和となる。学習を行う際には、出力層で所望の結果が得られるようにこれらの重みを調整する。ここでは、隣接ブロックＡ〜Ｄのエッジ強度とエッジ角度を正規化して入力した際に（７０１）、予測モードｎ（ｎ＝０，１，．．，８）の尤度がそれぞれ計算されて出力される（７０３）ように、あらかじめニューラルネットワーク（７０２）の学習を行っておく。このとき、最も高い尤度が出力されるモード番号を返す関数を上記関数ｆとして設定すれば（７０４）、図６にて示した方法による符号化及び復号化が可能になる。上記学習方法は特に問わないが、例えば誤差逆伝播法（ＢＰ法:Back Propagation method）を利用すれば大きな効果が見られる。ＢＰ法については、例えば次の文献の第３章に詳しく解説されている。
文献；石井健一郎, 上田修功, 前田英作, 村瀬洋:"わかりやすいパターン認識",オーム社, 1998．

関数ｆとしては、例えばエッジの強度や角度などを変数とする単純な多項式から、カーネル法、ＳＶＭ（Support Vector Machine）、ｋ近傍法、線形判別式分析、ベイズベット、隠れマルコフモデル、決定木学習などの機械学習手法を利用したものまで、幅広く考えられる。また、ブースティングを利用するなどの手段により、複数の識別機を組み合わせても良い。どのモデルを利用して関数ｆを実現するかについて、また、関数ｆがどのような入出力を行うのかについては規格によってあらかじめ定めておいても良いし、ストリームに関数ｆの情報を格納できるようにしても構わない。また、上記の実施例では変数として隣接ブロックにおける中心４画素のエッジの強度や角度を利用しているが、周辺ブロックの画素値平均や分散、標準偏差、符号化方法、予測モードなど、周辺ブロックの情報ならどのようなものを利用しても良いし、ＱＰ（Quantization Parameter：量子化パラメータ）や画面解像度など、符号化条件に関する画像パラメータを追加しても構わない。

図１は本発明による動画像符号化装置の一実施例を示すブロック図である。動画像符号化装置は、入力された原画像（１０１）を保持する原画像メモリ（１０２）と、入力された原画像を小領域に分割するブロック分割部（１０３）と、ブロック単位で動きを検出する動き探索部（１０４）と、画面内予測における予測方向を推定する予測モード推定部（１０５）と、ブロック単位で画面内予測を行う画面内予測部（１０６）と、動き探索部（１０４）にて検出された動き量を基にブロック単位で画面間予測を行う画面間予測部（１０７）と、画像の性質に合った予測符号化手段（予測方法及びブロックサイズ）を決定するモード選択部（１０８）と、予測差分を生成するための減算部（１０９）と、予測差分に対して符号化を行う周波数変換部（１１０）及び量子化部（１１１）と、記号の発生確率に応じた符号化を行うための可変長符号化部（１１２）と、一度符号化した予測差分を復号化するための逆量子化処理部（１１３）及び逆周波数変換部（１１４）と、復号化された予測差分を用いて復号化画像を生成するための加算部（１１５）と、復号化画像を保持して後の予測に活用するための参照画像メモリ（１１６）を有する。

原画像メモリ（１０２）は原画像（１０１）の中から一枚の画像を符号化対象画像として保持し、これをブロック分割部（１０３）にて細かなブロックに分割し、動き探索部（１０４）、画面内予測部（１０６）及び画面間予測部（１０７）に渡す。動き探索部（１０４）では、参照画像メモリ（１１６）に格納されている復号化済み画像を用いて該当ブロックの動き量を計算し、動きベクトルを画面間予測部（１０７）に渡す。予測方向推定部（１０５）では、対象ブロックの周辺に位置する符号化済みのブロックの復号化画像を参照画像メモリ（１１６）から取り出し、エッジ検出を行い対象ブロックの予測方向を特定して画面内予測部（１０６）に渡す。画面内予測部（１０６）及び画面間予測部（１０７）では画面内予測処理及び画面間予測処理をいくつかの大きさのブロック単位で実行し、モード選択部（１０８）にてどちらか最適な予測方法を選ぶ。

続いて減算部（１０９）では最適な予測符号化手段による予測差分を生成し、周波数変換部（１１０）に渡す。周波数変換部（１１０）及び量子化処理部（１１１）では、送られてきた予測差分に対して指定された大きさのブロック単位でそれぞれＤＣＴ（Discrete Cosine Transformation：離散コサイン変換）などの周波数変換及び量子化処理を行い、可変長符号化処理部（１１２）及び逆量子化処理部（１１３）に渡す。さらに可変長符号化処理部（１１２）では、周波数変換係数によって表される予測差分情報を、例えば画面内予測符号化における予測方向や画面間予測符号化における動きベクトルなど、予測復号化に必要な情報とともに、記号の発生確率に基づいて可変長符号化を行って符号化ストリームを生成する。また、逆量子化処理部（１１３）及び逆周波数変換部（１１４）では、量子化後の周波数変換係数に対して、それぞれ逆量子化及びＩＤＣＴ（Inverse DCT ：逆DCT ）などの逆周波数変換を施し、予測差分を取得して加算部（１１５）に送る。続いて加算部（１１５）により復号化画像を生成して参照画像メモリ（１１６）に格納する。なお、予測方向推定部（１０５）では、特定の予測方向の外にも、例えばＨ．２６４／ＡＶＣのＤＣ予測など、方向に依存しない画面内予測方式を推定の対象としてもよい。

図２は本発明による動画像復号化装置の一実施例を示すブロック図である。動画像復号化装置は、例えば図１に示す動画像符号化装置によって生成された符号化ストリーム（２０１）に対して可変長符号化の逆の手順を踏む可変長復号化部（２０２）と、予測差分を復号化するための逆量子化処理部（２０３）及び逆周波数変換部（２０４）と、画面内予測における予測方向を推定する予測モード推定部（２０５）と、画面内予測を行う画面内予測部（２０６）と、画面間予測を行う画面間予測部（２０７）と、復号化画像を取得するための加算部（２０８）と、復号化画像を一時的に記憶しておくための参照画像メモリ（２０９）を有する。

可変長復号化部（２０２）では、符号化ストリーム（２０１）を可変長復号化し、予測差分の周波数変換係数成分と、ブロックサイズや動きベクトルなど予測処理に必要な情報を取得する。前者の予測差分情報に対しては逆量子化処理部（２０３）に、後者の予測処理に必要な情報に対しては、予測手段に応じて画面内予測部（２０６）、又は画面間予測部（２０７）に送られる。続いて、逆量子化処理部（２０３）及び逆周波数変換部（２０４）では、予測差分情報に対してそれぞれ逆量子化と逆周波数変換を施して復号化を行う。また、予測方向推定部（２０５）では、対象ブロックの周辺に位置する符号化済みのブロックの復号化画像を参照画像メモリ（２０９）から取り出し、エッジ検出を行い対象ブロックの予測方向を特定して画面内予測部（２０６）に渡す。続いて画面内予測部（２０６）又は画面間予測部（２０７）では、可変長復号化部（２０２）から送られてきた情報を基に参照画像メモリ（２０９）を参照して予測処理を実行し、加算部（２０８）にて復号化画像を生成するとともに、復号化画像を参照画像メモリ（２０８）に格納する。このように、動画像復号化装置それ自身が、動画像符号化装置と同様に予測方向推定部（２０５）とそれに続く予測部（２０６）（２０７）を備えており、符号化ストリームから復号された信号から、動画像符号化装置の場合と同様にして対象ブロックの予測方向を特定し予測処理が実行される。したがって、符号化ストリームには予測モードを表す符号を付加する必要がなく、画像の符号化及び復号化に際して符号量を減少させることができる。

図８は、図１に示す動画像符号化装置の実施例における１フレームの符号化処理手順を示すフローチャートである。まず、符号化対象となるフレーム内に存在するすべてのブロックに対して（８０１）、以下の８１４までの各処理を繰り返すループ１の処理が行われる。ループ１の処理内では、更に、すべての符号化モードに対して処理（８０３）から処理（８０６又は８０７）までの各処理を繰り返すループ２の処理が行われる。即ち、該当ブロックに対して一度すべての符号化モード（予測方法とブロックサイズの組み合わせ）に対して予測符号化処理を行って予測差分を計算し、その中から最も符号化効率の高いものを選択する。上記予測処理方法としては、画面内予測符号化処理（８０６）や画面間予測符号化処理（８０７）を実行し、その中から最適なものを選ぶことによって、画像の性質に応じて効率良く符号化できる。ここで、画面内予測モード（８０３）である場合には、画面内予測符号化処理（８０６）を行う際には、ソーベルフィルタなどを利用して対象ブロックの周辺に位置する符号化済みのブロックに含まれるエッジを検出し（８０４）、例えば（７０４）に示す関数ｆなどを利用して予測方向を特定する（８０５）。多数の符号化モードの中から最も符号化効率の高いものを選択する際には（８０８）、例えば画質歪みと符号量の関係から最適な符号化モードを決定するＲＤ−Ｏｐｔｉｍｉｚａｔｉｏｎ方式を利用することによって、効率良く符号化できる。ＲＤ−Ｏｐｔｉｍｉｚａｔｉｏｎ方式の詳細については次の文献に記載されている。
文献３；G. Sullivan and T.Wiegand : "Rate-Distortion Optimization for Video Compression", IEEE Signal Processing Magazine, vol.15, no.6, pp.74-90, 1998.

ループ２の処理が終了すると、続いて、選ばれた符号化モードで生成された予測差分に対して周波数変換（８０９）と量子化処理（８１０）を施し、さらに可変長符号化を行うことによって符号化ストリームを生成する（８１１）。一方、量子化済みの周波数変換係数に対しては、逆量子化処理（８１２）と逆周波数変換処理（８１３）を施して予測差分を復号化し、復号化画像を生成して参照画像メモリに格納する（８１４）。以上の処理をすべてのブロックに対して完了すれば、ループ１の処理が終了し、画像１フレーム分の符号化は終了する（８１５）。

図９は、図２に示す動画像復号化装置の実施例における１フレームの復号化処理手順を示すフローチャートである。まず、１フレーム内のすべてのブロックに対して、以下の処理（９０２）から処理（９０８又は９０９）までの各処理を繰り返すループ１の処理（９０１）が行われる。即ち、入力ストリームに対して可変長復号化処理を施し（９０２）、逆量子化処理（９０３）及び逆周波数変換処理（９０４）を施して予測差分を復号化する。続いて、対象ブロックがどの方法によって予測符号化されているかに応じて、画面内予測復号化処理（９０８）又は画面間予測復号化処理（９０９）を行い、復号化画像を取得して参照画像メモリに格納する。ここで、画面内予測復号化処理（９０８）を行う際には、ソーベルフィルタなどを利用して対象ブロックの周辺に位置する復号化済みのブロックに含まれるエッジを検出し（９０６）、例えば（７０４）に示す関数ｆなどを利用して予測方向を特定する（９０７）。以上の処理をフレーム中のすべてのブロックに対して完了すれば、ループ１の処理として画像１フレーム分の復号化が終了する（９１０）。

実施例では周波数変換の一例としてＤＣＴを挙げているが、ＤＳＴ（Discrete Sine Transformation：離散サイン変換）、ＷＴ（Wavelet Transformation：ウェーブレット変換）、ＤＦＴ（Discrete Fourier Transformation：離散フーリエ変換）、ＫＬＴ（Karhunen-Loeve Transformation：カルーネン−レーブ変換）など、画素間相関除去に利用する直交変換であればどのような変換方法でも構わない。また、特に周波数変換を施さずに予測差分そのものに対して符号化を行っても構わない。さらに、可変長符号化も特に行わなくて良い。また、実施例では特に４×４画素サイズのブロック単位で輝度成分の予測を行う場合について記載しているが、例えば８×８画素サイズや１６×１６画素サイズなど、どのようなサイズのブロックに対して本発明を適用しても良いし、輝度成分以外にも、例えば色差成分に対する予測に本発明を適用しても良い。また、実施例ではＨ．２６４／ＡＶＣで定められている８方向に沿った予測を行っているが、方向数を増やしても減らしても構わない。

図１０は、本発明による予測モードの符号化に対する別の実施例を示す概念図である。本実施例でも、図６に示した実施例と同様に、対象ブロックに対してそれぞれ左側、上側、左上側、右上側の隣接する符号化済みのブロックＡ、Ｂ、Ｃ、Ｄの復号化画像を用いて対象画像の予測方向を推定する（１００１）。また、Ｈ．２６４／ＡＶＣと同様に、対象ブロックに対してそれぞれ左側と上側に隣接するブロックの予測モードのうち番号の小さい方を隣接モードとして定義する（１００２）。ここで、本実施例では、隣接ブロックＡ〜Ｄのエッジ情報と予測モード番号ｐを入力して予測モードｐの尤度を計算する関数ｇを利用し（１００２）、各モードの尤度に基づいて可変長符号表を動的に作成する。即ち、尤度が高い予測モードには短い符号を割り当て、尤度が低い予測モードには長い符号を割り当てることによって、平均符号長を小さくする。可変長符号表の作り方はどのようなものでも構わないが、例えばハフマン符号化を利用すれば効果的である。（１００４）では、対象ブロックにおける予測モードが隣接モードと同じかどうかを１ビットで表し、隣接モードと異なる場合には、隣接モードを除く８種類の予測モードに対する可変長符号表を作成し、その符号表に基づいて符号化するという実施例について説明している。また、（１００５）では、対象ブロックにおける予測モードが隣接モードと同じかどうかによらず、９種類すべての予測モードに対する可変長符号表を作成し、その符号表に基づいて符号化を行うという実施例について述べている。

対象ブロックにおける予測モードｐの尤度を出力する関数ｇはどのように実現しても構わないが、例えば図６の実施例と同様にニューラルネットワークの機械学習機能を利用することによって実現することができる。図１１は、ニューラルネットワークを利用して関数ｇを実現した場合の例について示している。ここでも図７のニューラルネットワークと同様に、隣接ブロックＡ〜Ｄのエッジ強度とエッジ角度を正規化して入力した際に（１００１）、予測モードｎ（ｎ＝０，１，．．，８）の尤度がそれぞれ計算されて出力される（１１０３）ように、予めニューラルネットワーク（１１０３）の学習を行っておく。このとき、関数ｇとして、予測モードｐ（ｐ＝０，．．，８）の尤度が出力される関数を設定すれば（１１０４）、図１０にて示した方法による符号化及び復号化が可能になる。

図１２及び図１３は、（１００５）に示す方法に基づき、ハフマン符号化を利用して予測モードを符号化した場合に、各予測モードに対して割り当てられる符号の例（可変長符号表）を示している。ここでは、隣接モードがモード８である場合について示している。Ｈ．２６４／ＡＶＣでは、対象ブロックが隣接モードと異なる場合、予測モードを符号化するためには４ビットの符号が必要であったのに対し、図１２の例では、最小で３ビット（隣接モードとの異同のための１ビット＋予測モードの番号のための２ビット（符号長ｍ＝２））に減少することができる。さらに、図１３のように予測モードの尤度に偏りがある場合には、最小で２ビット（隣接モードとの異同のための１ビット＋予測モードの番号のための１ビット（符号長ｍ＝１））にまで減少することができる。このように、推定された尤度に基づいて可変長符号表を動的に作成しても良いし、予め複数の可変長符号表を作成しておき、推定された尤度に基づいてそれらの符号表を使い分けても構わない。

本実施例は動画像を符号化する場合について述べているが、本発明は静止画像の符号化にも有効である。すなわち、図１のブロック図から動き探索部（１０４）と画面間予測部（１０７）を排除すれば、静止画像に特化した符号化装置のブロック図に相当する。また、本発明は、画像符号化装置と画像復号化装置とを組み合わせた画像処理（符号化・復号化）システム、あるいは画像符号化方法と画像復号化方法とを組み合わせた画像処理（符号化・復号化）方法としても実現し得るものである。

本発明による画像符号化装置の一実施例を示すブロック図。本発明による画像復号化装置の一実施例を示すブロック図。Ｈ．２６４／ＡＶＣで用いる画面内予測符号化処理の概念的な説明図。Ｈ．２６４／ＡＶＣで用いる画面内予測復号化処理の概念的な説明図。Ｈ．２６４／ＡＶＣで用いる予測モードの符号化処理の概念的な説明図。本実施例で用いる予測モードの符号化処理の一実施例についての概念的な説明図。予測モードの尤度計算に関する一実施例についての概念的な説明図。本実施例で用いる画像符号化装置の流れ図。本実施例で用いる画像復号化装置の流れ図。本実施例で用いる予測モードの符号化処理の一実施例を説明する概念図。予測モードの尤度計算に関する一実施例を説明する概念図。可変長符号表に関する一例を示す表。可変長符号表に関する別の一例を示す表。エッジ検出に用いるフィルタの例を示す図。エッジ情報の計算方法についての一例を示す概念図。

符号の説明

１０１…原画像１０２…原画像メモリ
１０３…ブロック分割部１０４…動き探索部
１０５…予測方向推定部１０６…画面内予測部
１０７…画面間予測部１０８…モード選択部
１０９…減算部１１０…周波数変換部
１１１…量子化処理部１１２…可変長符号化部
１１３…逆量子化処理部１１４…逆周波数変換部
１１５…加算部１１６…参照画像メモリ
２０１…符号化ストリーム２０２…可変長復号化部
２０３…逆量子化処理部２０４…逆周波数変換部
２０５…予測方向推定部２０６…画面内予測部
２０７…画面間予測部２０８…加算部
２０９…参照画像メモリ
３０１〜３０４…Ｈ．２６４／ＡＶＣによる画面内予測符号化処理の説明図
４０１〜４０２…Ｈ．２６４／ＡＶＣによる画面内予測復号化処理の説明図
５０１〜５０３…Ｈ．２６４／ＡＶＣによる予測モードの符号化処理に関する説明図
６０１〜６０３…本発明による予測モードの符号化処理に関する説明図
７０１…ニューラルネットワークへの入力７０２…ニューラルネットワーク
７０３…ニューラルネットワークの出力７０４…関数の入出力の関係
８０１〜８１５…フローチャートのブロック
９０１〜９１０…フローチャートのブロック
１００１…ニューラルネットワークへの入力１２０１…可変長符号表
１３０１…可変長符号表
１４０１〜１４０６…エッジ検出に用いるフィルタ
１５０１〜１５０６…エッジ情報の計算方法に関する説明図

Claims

ブロック単位で画面内予測を行って予測差分を計算する画面内予測符号化部と、画面内予測を行う際の予測方向を推定する予測方向推定部と、予測差分に対して符号化を行う周波数変換部及び量子化処理部と、可変長符号化を行うための可変長符号化部とを有し、
前記予測方向推定部は、符号化対象となるブロックに隣接するブロックの復号化画像から前記予測方向を推定することを特徴とする画像符号化装置。
請求項１記載の画像符号化装置において、
前記画面内予測符号化部は、前記予測差分を符号化し、前記予測方向推定部が推定した前記予測方向を符号化しないことを特徴とする画像符号化装置。
請求項１記載の画像符号化装置において、
前記可変長符号化部は、前記予測方向推定部によって得られた予測方向の推定結果に基づいて可変長符号表を動的に作成し、作成された前記可変長符号表に基づいて前記予測方向を可変長符号化することを特徴とする画像符号化装置。
請求項１記載の画像符号化装置において、
前記可変長符号化部は、前記予測方向推定部によって得られた予測方向の推定結果に基づいて、予め作成しておいた複数の可変長符号表の中から１つの予測方向を選択し、選択された前記予測方向を可変長符号化することを特徴とする画像符号化装置。
請求項１〜４のいずれか１項記載の画像符号化装置において、
前記予測方向推定部は、前記符号化対象ブロックに隣接する前記ブロックの前記復号化画像のエッジ情報等の画像パラメータに基づいて前記予測方向を推定することを特徴とする画像符号化装置。
請求項５記載の画像符号化装置において、
前記予測方向推定部は、前記画像パラメータの入力を受けて、下位階層のユニット群が出力する値と結合の重みの積和を上位階層のユニットへの入力とし、予測モードの尤度を出力するニューラルネットワークを備えており、前記尤度が最大となる前記予測モードを前記予測方向として推定することを特徴とする画像符号化装置。
ブロック単位で画面内予測を行って予測差分を符号化する画像符号化方法において、
符号化対象ブロックに隣接するブロックの復号化画像を利用して推定された予測方向に沿って画面内予測を行うことを特徴とする画像符号化方法。
請求項７記載の画像符号化方法において、
画面内予測を行う際に推定された前記予測方向を符号化しないことを特徴とする画像符号化方法。
請求項７記載の画像符号化方法において、
推定された前記予測方向に基づいて可変長符号表を動的に作成し、作成された前記可変長符号表に基づいて前記予測方向を可変長符号化することを特徴とする画像符号化方法。
請求項７記載の画像符号化方法において、
推定された前記予測方向に基づいて、予め作成しておいた複数の可変長符号表の中から１つの予測方向を選択し、選択された前記予測方向を可変長符号化することを特徴とする画像符号化方法。
請求項７〜１０のいずれか１項記載の画像符号化方法において、
前記符号化対象ブロックに隣接する前記ブロックの前記復号化画像のエッジ情報等の画像パラメータに基づいて前記予測方向を推定することを特徴とする画像符号化方法。
請求項１１記載の画像符号化方法において、
前記画像パラメータの入力を受けて、下位階層のユニット群が出力する値と結合の重みの積和を上位階層のユニットへの入力とするニューラルネットワークによって、予測モードの尤度を出力し、前記尤度が最大となる前記予測モードを前記予測方向として推定することを特徴とする画像符号化方法。
可変長符号化の逆の手順を踏む可変長復号化部と、予測差分を復号化するための逆量子化処理部及び逆周波数変換部と、画面内予測を行って復号化画像を取得するための画面内予測復号化部とを有し、
復号化対象ブロックに隣接するブロックの復号化画像を利用して、画面内予測を行う際の予測方向を推定する予測方向推定部を備えることを特徴とする画像復号化装置。
請求項１３記載の画像復号化装置において、
前記可変長復号化部は、符号化された予測方向が含まれていないブロックを含む符号化ストリームの入力を受けることを特徴とする画像復号化装置。
請求項１３記載の画像復号化装置において、
前記可変長復号化部は、前記予測方向推定部によって得られた予測方向の推定結果に基づいて可変長符号表を動的に作成し、作成された前記可変長符号表に基づいて前記予測方向を可変長復号化することを特徴とする画像復号化装置。
請求項１３記載の画像復号化装置において、
前記可変長復号化部は、前記予測方向推定部によって得られた予測方向の推定結果に基づいて、予め作成しておいた複数の可変長符号表の中から１つを選択し、選択された前記予測方向を可変長復号化することを特徴とする画像復号化装置。
請求項１１〜１４のいずれか１項記載の画像復号化装置において、
前記予測方向推定部は、前記復号化対象ブロックに隣接する前記ブロックの前記復号化画像のエッジ情報等の画像パラメータに基づいて前記予測方向を推定することを特徴とする画像復号化装置。
請求項１７記載の画像復号化装置において、
前記予測方向推定部は、前記画像パラメータの入力を受けて、下位階層のユニット群が出力する値と結合の重みの積和を上位階層のユニットへの入力とし、予測モードの尤度を出力するニューラルネットワークを備えており、前記尤度が最大となる前記予測モードを前記予測方向として推定することを特徴とする画像復号化装置。
ブロック単位で画面内予測を行って予測差分を復号化する画像復号化方法において、
復号化対象ブロックに隣接するブロックの復号化画像を利用して推定された予測方向に沿って画面内予測を行うことを特徴とする画像復号化方法。
請求項１９記載の画像復号化方法において、
画面内予測を行う際に推定された前記予測方向を復号化しないことを特徴とする画像復号化方法。
請求項１９記載の画像復号化方法において、
推定された前記予測方向に基づいて可変長符号表を動的に作成し、作成された前記可変長符号表に基づいて前記予測方向を可変長復号化することを特徴とする画像復号化方法。
請求項１９記載の画像復号化方法において、
推定された前記予測方向に基づいて、予め作成しておいた複数の可変長符号表の中から１つの予測方向を選択し、選択された前記予測方向を可変長復号化することを特徴とする画像復号化方法。
請求項１９〜２２のいずれか１項記載の画像復号化方法において、
前記復号化対象ブロックに隣接する前記ブロックの前記復号化画像のエッジ情報等の画像パラメータに基づいて前記予測方向を推定することを特徴とする画像復号化方法。
請求項２３記載の画像符号化方法において、
前記画像パラメータの入力を受けて、下位階層のユニット群が出力する値と結合の重みの積和を上位階層のユニットへの入力とするニューラルネットワークによって、予測モードの尤度を出力し、前記尤度が最大となる前記予測モードを前記予測方向として推定することを特徴とする画像復号化方法。