JP2007235377A

JP2007235377A - 画像符号化方法

Info

Publication number: JP2007235377A
Application number: JP2006052669A
Authority: JP
Inventors: Hiroo Ishii; 裕夫石井; Shigeyuki Okada; 茂之岡田; Hideki Yamauchi; 英樹山内
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2006-02-28
Filing date: 2006-02-28
Publication date: 2007-09-13

Abstract

【課題】色の変化が乏しく、比較的広い領域は、量子化による画質低下が目立つ。
【解決手段】画像補正部７０は予め、画素値があまり変化せず、比較的大きな面積を占める画像領域に対して表現上の階調を上げておく。その結果、量子化部３０で量子化されたときであっても、表現上の階調、すなわちビット数が十分に残るため、量子化による画質低下が軽減される。逆に、量子化で画質の低下が問題になりにくい画像領域については、一層のデータ削減が実現する。
【選択図】図１

Description

本発明は、画像を符号化する方法に関し、とくに静止画像または動画像に含まれるピクチャを符号化する方法に関する。

ブロードバンドネットワークが急速に発展しており、高品質な動画像を利用したサービスに期待が集まっている。また、ＤＶＤなど大容量の記録媒体が利用されており、高画質の画像を楽しむユーザ層が広がっている。動画像を通信回線で伝送したり、記録媒体に蓄積するために不可欠な技術として圧縮符号化がある。動画像圧縮符号化技術の国際標準として、ＭＰＥＧ４の規格やＨ．２６４／ＡＶＣ規格がある。また、１つのストリームにおいて高画質のストリームと低画質のストリームを併せもつＳＶＣ（Scalable Video Coding）のような次世代画像圧縮技術がある。

高解像度の動画像をストリーム配信したり、記録媒体に蓄積する場合、通信帯域を圧迫しないように、あるいは、記憶容量が大きくならないように、動画ストリームの圧縮率を高める必要がある。そのため、符号化プロセスにて行われる量子化の段階でデータを大幅に削減する方法は有効である。
特開２００５−２６０９０２号公報

しかし、量子化によるデータの削減と画質はトレードオフの関係にある。とくに、画像に含まれる、比較的変化の少ない、例えば空や壁のようなオブジェクトは、大幅な量子化によって画素値の変化が階段状になり、好ましくない縞模様が出現するなど、画質低下が目立ちやすい。

本発明はこうした状況に鑑みてなされたもので、その目的は、画質の低下を抑止しつつ符号量を削減する画像符号化技術を提供することにある。

本発明のある態様は画像符号化方法であり、ピクチャの領域ごとに、所定の画素値付近を強調する補正を実行するとともに、その補正に関する情報を前記ピクチャの符号化データに含める。所定の画素値は、その領域の画像の全体的な性質に依存して定まるものであってもよい。

「ピクチャ」は、符号化の単位であり、その概念にはフレーム、フィールド、ＶＯＰ（Video Object Plane）などを含む。「領域」は任意であるが、例えば後述のＭＰＥＧでいうマクロブロック、スライス、ピクチャ、ＲＯＩ（注目領域）などの処理単位である。「所定の画素値付近」は所定の画素値を含み、かつ幅をもつ画素値の範囲であればよい。

本発明の別の態様も画像符号化方法であり、所定の画素値付近の階調を高める補正を実行するとともに、その補正に関する情報を前記ピクチャの符号化データに含める。前記所定の画素値は、ピクチャの画素値の分布に依存して定まるものであってもよい。また、対象とする領域の代表値であってもよい。その場合、複雑な演算を利用しなくても代表値が容易に定まる。

補正に関する情報は、補正として画素値を変換ないし逆変換する際の規則を複数の規則群の中から特定する識別情報を含んでもよい。その場合、識別情報だけを符号化すれば足りるため、追加の符号量が少なくて済む。補正に関する情報は、補正として画素値を変換ないし逆変換する際の規則を記述するテーブルを含んでもよい。その場合、変換規則を詳細に記述できる。補正に関する情報は、補正として画素値を変換ないし逆変換する際の変換式を示す情報を含んでもよい。その場合も変換規則を詳細に記述できる。補正に関する情報は代表値を示す情報を含んでもよい。以上の任意の組合せを含んでもよい。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、画質を保ちながら画像の符号量を削減することができる。

図１は、実施の形態に係る符号化装置１００の構成図である。これらの構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされた画像符号化機能のあるプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。

本実施の形態の符号化装置１００は、国際標準化機関であるＩＳＯ（International Organization for Standardization）／ＩＥＣ（International Electrotechnical Commission）によって標準化されたＭＰＥＧ（Moving Picture Experts Group）シリーズの規格（ＭＰＥＧ−１、ＭＰＥＧ−２およびＭＰＥＧ−４）、電気通信に関する国際標準機関であるＩＴＵ−Ｔ（International Telecommunication Union-Telecommunication Standardization Sector）によって標準化されたＨ．２６ｘシリーズの規格（Ｈ．２６１、Ｈ．２６２およびＨ．２６３）、もしくは両方の標準化機関によって合同で標準化された最新の動画像圧縮符号化標準規格であるＨ．２６４／ＡＶＣ（両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264）に準拠して動画像の符号化を行う。

ＭＰＥＧシリーズの規格では、フレーム内符号化を行う画像フレームをＩ（Intra）フレーム、過去のフレームを参照画像として順方向のフレーム間予測符号化を行う画像フレームをＰ（Predictive）フレーム、過去と未来のフレームを参照画像として双方向のフレーム間予測符号化を行う画像フレームをＢフレームという。

一方、Ｈ．２６４／ＡＶＣでは、参照画像として利用できるフレームは、時間の先後を問わず、過去の２枚のフレームを参照画像としてもよく、未来の２枚のフレームを参照画像としてもよい。また、参照画像として利用できるフレームの枚数も問わず、３枚以上のフレームを参照画像として用いることもできる。したがって、ＭＰＥＧ−１／２／４では、Ｂフレームは双方向予測（Bi-directional prediction）フレームのことを指していたが、Ｈ．２６４／ＡＶＣでは、Ｂフレームは、参照画像の時間の先後は問わないため、双予測（Bi-predictive prediction）フレームのことを指すことに留意する。

なお、実施の形態では、符号化の単位としてフレームを例に挙げて説明するが、符号化の単位はフィールドであってもよい。また、符号化の単位はＭＰＥＧ−４におけるＶＯＰであってもよい。また、Ｉフレーム、Ｐフレーム、Ｂフレームに対応して、１フレームを水平方向に分割したスライス単位で予測符号化を行う場合は、それらのスライスをそれぞれ、Ｉスライス、Ｐスライス、Ｂスライスと呼ぶ。

符号化装置１００は、入力ストリームとしてフレーム単位で動画像の入力を受け取り、動画像を符号化し、符号化ストリームを出力する。入力された動画フレームはフレームメモリ８０に格納される。

画像補正部７０は、フレームメモリ８０に格納された動画フレームを読み出し、後述の方法で画素値を変換し、変換後の動画フレームのデータ（以下これを単に「補正後データ」と呼ぶ）を再度フレームメモリ８０へ書き戻す。画像補正部７０は変換に際し、変換支援情報保持部７２に予め記憶された情報を参照する。画像補正部７０は変換に関するＩＤ（後述）を可変長符号化部９０へ通知する。

動き補償部６０は、補正後データとしてフレームメモリ８０に格納されている過去または未来の画像フレームを参照画像として利用し、ＰフレームまたはＢフレームのマクロブロック毎に動き補償を行い、動きベクトルと予測画像を生成する。動き補償部６０は、符号化対象のＰフレームまたはＢフレームの画像と予測画像の差分を取り、差分画像をＤＣＴ部２０に供給する。また、動き補償部６０は、生成した動きベクトルを可変長符号化部９０に供給する。

ＰフレームもしくはＢフレームの符号化処理の場合は、上述のように動き補償部６０が動作するが、Ｉフレームの符号化処理の場合は、動き補償部６０は動作せず、ここでは図示しないが、Ｉフレームはフレーム内予測が行われた後、ＤＣＴ部２０に供給される。

動きベクトルは、符号化対象のフレームを所定の画素数で分割したマクロブロックの動きを示すベクトルであり、マクロブロックのそれぞれに対し、最も誤差の小さい予測マクロブロックを参照画像から検出することによって得られる。動きベクトルの検出は、対象マクロブロックとマッチングする参照画像における参照マクロブロックを１画素単位または小数画素単位で探索ことにより行われる。

ＤＣＴ部２０は、動き補償部６０から供給された画像を離散コサイン変換（ＤＣＴ）し、得られたＤＣＴ係数を量子化部３０に与える。

量子化部３０は、ＤＣＴ係数を量子化し、可変長符号化部９０に与える。可変長符号化部９０は、画像補正部７０からのＩＤと、差分画像の量子化されたＤＣＴ係数と、動き補償部６０から与えられた動きベクトルとを可変長符号化し、多重化部９２に与える。多重化部９２は、可変長符号化部９０から与えられた符号化後のＩＤとＤＣＴ係数と動きベクトルとを多重化し、符号化ストリームを生成する。多重化部９２は、符号化ストリームを生成する際、符号化されたフレームを時間順序に並べ替える処理を行う。

図２は画像補正部７０と変換支援情報保持部７２の内部構成を示す。パターン決定部１０２は、動画フレームの領域ごとに画素値の分布がパターン記憶部１１０に予め記憶されたいずれのパターンに近いかを決定する。パターン記憶部１１０には、分布のパターンがいくつか記憶されている。「領域」はどのようなものでもよいが、一例としてマクロブロックを採用できる。

パターンが決定されれば、変換テーブル決定部１０４はそのパターンに対応して予め定められた変換テーブルを変換テーブル記憶部１１２から決定し、変換テーブルのＩＤを可変長符号化部９０へ通知する。変換テーブル記憶部１１２には、パターンごとに変換テーブルが対応づけられて予め記憶されている。変換テーブルは変換前の画素値と変換後の画素値の対応を記述する。

ここで画素値の変換は、領域ごとに、その領域の画像の全体的な性質に依存して定まる所定の画素値（以下「注目画素値」と呼ぶ）付近を強調するように実行される。注目画素値として、各領域の画像において代表値を採用する。代表値として、その領域の画素値の平均値、最頻値、中央値を採用する。以下、注目画素値といえば、最頻値、平均値、中央値のいずれでもよいものとする。

例えば、領域内にいろいろなオブジェクトが含まれ、その中に「空」のような変化の乏しいオブジェクトがあるとする。その場合、空の部分のデータを量子化によって削減すると、前述のごとく階段状のノイズが目立つ。そのため本実施の形態では、予め空の部分に強調処理を施す。具体的には、後述のごとく空の部分により多くの表現ビットを与え、階調を上げておく。そうすれば、量子化が施されても有効な表現ビット数が比較的多めに残るため、階段状のノイズが軽減できる。ノイズが目立つ空のような部分は、
１．画素値があまり変化しない、または低周波成分が多い、
２．比較的大きな面積を占める、
という性質をもつため、１からは最頻値を、一方、２からは平均値や中央値を注目画素値にすると効果的である。本実施の形態では、注目画素値付近に表現ビットをより多く割り当てる。変換テーブルはその趣旨で作成されている。

変換部１０６は、変換テーブル決定部１０４が領域ごとに決定した変換テーブルに従い、動画フレームの画素値を領域ごとに変換し、補正後データを作成してこれをフレームメモリ８０へ書き戻す。

図３（ａ）から図３（ｅ）はパターン記憶部１１０に記憶されるパターンの例である。横軸Ｐは画素値、縦軸ｆは出現回数、すなわち頻度を示す。パターン決定部１０２は入力した動画フレームの領域ごとに分布を作成した後、そのパターンが図３（ａ）から図３（ｅ）のいずれに近いかを既知のパターンマッチングにより決定する。

図４は、決定されたパターンが図３（ａ）である場合にそれを拡大して示し、図５（ａ）はそのパターンに対応して予め定められた変換規則を示す。図５（ａ）で横軸Ｐｘは変換前、縦軸Ｐｙは変換後の画素値を示す。ここでは注目画素値の値自体は無視し、単にパターンマッチングで図４のパターンが定まり、図５（ａ）においても注目画素値は便宜的に定めている。この例では、画素値が取り得る範囲の中心値Ｐｃを注目画素値としている。実際には、この変換規則を画素値各点について記述することで変換テーブルが定まるが、以下、変換規則と変換テーブルは特に区別せずに説明する。

図５（ｂ）は変換後の画素値の表現密度を模式的に示す。同図のごとく、注目画素値Ｐｃ付近が密に分割され、注目画素値付近の表現上の階調が上がる。同図では、変換後最も密に表現される画素値もＰｃとしている。

図５（ａ）の変換テーブルは変換テーブル記憶部１１２に予め記憶される変換テーブルのいずれかであるから、このテーブルは単に識別用のＩＤで特定できる。たとえば、変換テーブル決定部１０４から「ＩＤ＝１」などのＩＤが可変長符号化部９０へ通知される。なお、復号側は符号化側の変換テーブルではなく、その逆変換テーブルが必要になる。そのため、符号化側の変換テーブルと復号側の逆変換テーブルは予め組として同じＩＤを与えておく。したがって、符号化側から復号側へ通知するＩＤは、「変換テーブルのＩＤ」と把握してもよいし、「逆変換テーブルのＩＤ｝と把握してもよい。

以上、実施の形態を説明した。この実施の形態によれば、量子化によって階段状のノイズが目立つ領域に対し、予め表現上の階調を上げることで量子化による画質低下を抑制できる。一方、ノイズがあまり目立たない領域、例えばもともと画素値の変化が大きいか、面積の小さい領域については、逆に表現上の階調を下げることにより、画質低下を抑制しつつデータ量の低減が可能となる。以下、変形例を挙げる。

実施の形態では、符号化側と復号側が予め変換テーブルの組を把握していたが、符号化側が新たな変換テーブルを採用する場合、ＩＤでは通知ができない。その場合、変換テーブルないし逆変換テーブル自体を符号化して送ればよい。具体的には、変換テーブル決定部１０４は変換テーブル記憶部１１２から復号側が知らないか、または、知らない可能性のある変換テーブルを特定し、そのＩＤに替えて、変換テーブル自体を可変長符号化部９０へ送ればよい。図５（ａ）では、注目画素値を便宜的に定めたが、変換テーブル自体を送る場合、実際に最頻値、平均値ないし中央値であった画素値を注目画素値として変換テーブルに反映した上でこのテーブルを通知することができる。したがって、より的確な画像補正が実現する。

実施の形態では、変換テーブルを利用したが、変換式を利用してもよい。その場合、変換テーブル記憶部１１２は変換テーブルに替えて変換式を保持し、変換テーブル決定部１０４は変換テーブルに替えてパターン決定部１０２で決定されたパターンに対応する変換式を変換テーブル記憶部１１２において決定する。決定した変換式はＩＤの形で可変長符号化部９０へ通知され、符号化データへ組み込まれる。

この変形例についても、もちろんＩＤではなく、変換式自体を復号側へ通知してもよい。変換式自体を送る場合、現実の注目画素値を反映できる。現実の注目画素値は内在的な形で符号化データに組み込まれることになる。図６は変換式が二次関数である場合の表現例を説明するもので、横軸Ｐｘは変換前、縦軸Ｐｙは変換後の画素値を示す。ここで、以下の記号を定める。

Ｐｘ：変換前の画素値
Ｐｙ：変換後の画素値
Ｔｘ：変換前の注目画素値
Ｔｙ：変換後の注目画素値
Ｍｘ：変換前の画素値の最大値
ｒａｔｅ：変換時に使用される倍率

このとき、以下のように定めれば図６の変換式が表現できる。
Ｔｙ＝Ｔｘ＊ｒａｔｅ
Ｐｙ≦Ｔｘの場合
Ｐｙ＝Ｐｘ^２／Ｔｘ＊ｒａｔｅ
Ｐｙ＞Ｔｘの場合
Ｐｙ＝｛Ｍｘ−（Ｍｘ−Ｐｘ）^２／（Ｍｘ−Ｔｘ）｝＊ｒａｔｅ

実施の形態では、図３（ａ）のパターンを説明した。図３（ｂ）から図３（ｄ）まではその調整で対応できるが、複数個所で頻度が極大になる図３（ｅ）の場合、新たな考察が必要となる。この場合、図７に示すごとく、複数個所に注目画素値Ｐ１、Ｐ２をもつ変換テーブルを準備すればよい。この例でも、ふたつの注目画素値も区間毎の最頻値と見なすことができるので、最頻値の概念に包括される。

実施の形態では符号化側を説明した。復号側は符号化側と逆の処理を行えばよいため、図示しないが、一般的なＭＰＥＧのデコーダのあとに、画素値を逆変換する画像補正部を置けばよい。

実施の形態では動画像の符号化を説明した。しかし、本発明は静止画像の符号化にも適用でき、画質低下を抑制しつつデータ量を低減する効果が得られる。

実施の形態における符号化装置の構成を示す図である。実施の形態の画像補正部と変換支援情報保持部の構成を示す図である。図３（ａ）から図３（ｅ）は、それぞれ変換支援情報保持部に保持される画素値のパターンを示す図である。パターンが図３（ａ）のものと定まったとき、それを拡大して示す図である。図５（ａ）は、図４のパターンに対応する変換規則を示し、図５（ｂ）は変換後の画素値の密度を模式的に示す図である。図３（ａ）から図３（ｄ）のパターンに対応する変換規則を示す図である。図３（ｅ）のパターンに対応する変換規則を示す図である。

符号の説明

２０ＤＣＴ部、３０量子化部、６０動き補償部、７０画像補正部、７２変換支援情報保持部、８０フレームメモリ、９０可変長符号化部、９２多重化部、１００符号化装置、１０２パターン決定部、１０４変換テーブル決定部、１１０パターン記憶部、１１２変換テーブル記憶部。

Claims

ピクチャの領域ごとに、所定の画素値付近を強調する補正を実行するとともに、その補正に関する情報を前記ピクチャの符号化データに含めることを特徴とする画像符号化方法。
所定の画素値付近の階調を高める補正を実行するとともに、その補正に関する情報を前記ピクチャの符号化データに含めることを特徴とする画像符号化方法。
請求項１または２に記載の方法において、前記所定の画素値は、対象とする領域の代表値であることを特徴とする画像符号化方法。
請求項１から３のいずれかに記載の方法において、前記補正に関する情報は、前記補正として画素値を変換ないし逆変換する際の規則を複数の規則群の中から特定する識別情報を含むことを特徴とする画像符号化方法。
請求項１から３のいずれかに記載の方法において、前記補正に関する情報は、前記補正として画素値を変換ないし逆変換する際の規則を記述するテーブルを含むことを特徴とする画像符号化方法。
請求項１から３のいずれかに記載の方法において、前記補正に関する情報は、前記補正として画素値を変換ないし逆変換する際の変換式を示す情報を含むことを特徴とする画像符号化方法。
請求項３に記載の方法において、前記補正に関する情報は、前記代表値を示す情報を含むことを特徴とする画像符号化方法。