JP2007081720A

JP2007081720A - 符号化方法

Info

Publication number: JP2007081720A
Application number: JP2005265886A
Authority: JP
Inventors: Shigeyuki Okada; 茂之岡田; Masaru Matsuda; 優松田; Hideki Yamauchi; 英樹山内
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2005-09-13
Filing date: 2005-09-13
Publication date: 2007-03-29
Also published as: US20070064791A1

Abstract

【課題】動画圧縮符号化技術では、圧縮効率を高めるために、動きベクトル情報に起因する符号量を削減する必要がある。
【解決手段】動きベクトル符号化部は、動きベクトルＭＶ_０、ＭＶ_１、ＭＶ_２の順で、符号化を実行する。まず、動きベクトル保持部から動きベクトルＭＶ_０〜ＭＶ_２を受け取る（Ｓ４０）。動きベクトル符号化部は、最も下位の階層０の動きベクトルＭＶ_０を符号化する（Ｓ４２）。続いて、階層１の動きベクトルＭＶ_１を符号化する代わりに、ＭＶ_０の１／２とＭＶ_１との差分（１／２・ＭＶ_０−ＭＶ_１）を符号化する（Ｓ４４）。さらに、階層２の動きベクトルＭＶ_２を符号化する代わりに、ＭＶ_１の１／２とＭＶ_２との差分（１／２・ＭＶ_１−ＭＶ_２）を符号化する（Ｓ４６）。
【選択図】図７

Description

本発明は、動画像を符号化する符号化方法に関する。

ブロードバンドネットワークが急速に発展しており、高品質な動画像を利用したサービスに期待が集まっている。また、ＤＶＤなど大容量の記録媒体が利用されており、高画質の画像を楽しむユーザ層が広がっている。動画像を通信回線で伝送したり、記録媒体に蓄積するために不可欠な技術として圧縮符号化がある。動画像圧縮符号化技術の国際標準として、ＭＰＥＧ４の規格やＨ．２６４／ＡＶＣ規格がある。また、ひとつのストリームにおいて高画質のストリームと低画質のストリームを併せもつＳＶＣ（Scalable Video Coding）のような次世代画像圧縮技術がある。

高解像度の動画像をストリーム配信したり、記録媒体に蓄積する場合、通信帯域を圧迫しないように、あるいは、記憶容量が大きくならないように、動画ストリームの圧縮率を高める必要がある。動画像の圧縮効果を高めるために、動き補償フレーム間予測符号化が行われる。動き補償フレーム間予測符号化では、符号化対象フレームをブロックに分割し、既に符号化された参照フレームからの動きをブロック毎に予測して動きベクトルを検出し、差分画像とともに動きベクトル情報を符号化する。

特許文献１には、動き補償解析と空間ウェーブレット変換によって、動画像を時空間サブバンドに分解する技術が記載されている。
特開２００５−８６８３４号公報

Ｈ．２６４／ＡＶＣ規格では、動き補償において、よりきめ細かな予測を行うために、動き補償のブロックサイズを可変にしたり、動き補償の画素精度を１／４画素精度まで細かくすることができるようになっており、動きベクトルに関する符号量が多くなる。また、次世代画像圧縮技術であるＳＶＣ（Scalable Video Coding）では、時間的スケーラビリティを高めるために、ＭＣＴＦ（Motion Compensated Temporal Filtering、動き補償時間方向フィルタ）技術が検討されている。これは、時間軸方向のサブバンド分割に動き補償を組み合わせたものであり、階層的な動き補償を行うため、動きベクトルの情報が非常に多くなる。このように最近の動画圧縮符号化技術では、動きベクトルに関する情報量が増えることにより動画ストリーム全体のデータ量が増大する傾向にあり、動きベクトル情報に起因する符号量を削減する技術が一層求められている。

本発明はこうした状況に鑑みてなされたもので、その目的は、動きベクトル情報に起因する符号量を削減することのできる動画像の符号化技術を提供することにある。

上記課題を解決するために、本発明のある態様は、動画像からフレームレートの異なる複数の階層を求める符号化方法において、第１の階層で求められた動きベクトルと、第１の階層より上位または下位の第２の階層で求められた動きベクトルを用いて第１の階層における動きを予測した予測ベクトルとの差分に関する情報を、動画像の符号化データに含めることを特徴とする。

この態様によると、予測ベクトルとの差分のみを符号化することによって、動きベクトル情報の符号量を削減できるので、動画像の圧縮効率が向上する。

動画像に対して動き補償フィルタリングを実施することによって、フレームレートの異なる複数の階層を求めてもよい。また、ＭＣＴＦ技術にしたがって、動画像に動き補償時間フィルタリングを実施してフレームレートの異なる複数の階層を求める符号化方法に対しても、上述の方法を適用できる。これによると、階層毎に動きベクトル情報が求められるＭＣＴＦにおいて、動きベクトルの情報の符号量を削減できるので、動画像の圧縮効率が向上する。

予測ベクトルは、複数フレームにわたって動きの速度が一定であると仮定する線形動きモデルにしたがって、第１の階層の動きベクトルを予測したものであってもよい。これによると、予測ベクトルの生成に伴う計算量を少なくできる。

第２の階層は、第１の階層に時間フィルタリングを実施して求められる第１の階層より低フレームレートの階層であってもよい。これによると、符号化データの復号時に、下位の階層の画像を生成する際に上位階層の動きベクトルが不要になるので、復号装置側で時間的スケーラビリティの優位性が損なわれることがない。

第１の階層で求められた動きベクトルの情報と、差分に関する情報のいずれかを選択的に動画像の符号化データに含めてもよい。これによると、符号化装置の計算処理量や符号化後のデータ量に応じて、より適切な方の情報を動画像の符号化データに含めることができる。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、動画像の符号化において、動きベクトル情報に起因する符号量を削減することができる。

図１は、実施の形態に係る符号化装置１００の構成図である。これらの構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされた画像符号化機能のあるプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。

本実施の形態の符号化装置１００は、国際標準化機関であるＩＳＯ（International Organization for Standardization）／ＩＥＣ（International Electrotechnical Commission）、および電気通信に関する国際標準機関であるＩＴＵ−Ｔ（International Telecommunication Union-Telecommunication Standardization Sector）によって合同で標準化された最新の動画像圧縮符号化標準規格であるＨ．２６４／ＡＶＣ（両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264）に準拠して動画像の符号化を行う。

符号化装置１００の画像取得部１０は、入力画像のＧＯＰ（Group of Pictures）を受け取り、各フレームを画像保持部６０の専用の領域に格納する。画像取得部１０は、必要に応じて各フレームをマクロブロックに分割してもよい。

ＭＣＴＦ処理部２０は、ＭＣＴＦ技術にしたがった動き補償時間フィルタリングを実施する。ＭＣＴＦ処理部２０は、画像保持部６０に格納されているフレームから動きベクトルを求め、動きベクトルを用いて時間フィルタリングを実施する。時間フィルタリングは、ハール（Haar）ウェーブレット変換を用いて実施され、この結果、各階層に高域フレームＨと低域フレームＬとを含むフレームレートの異なる複数の階層に分解される。分解された高域フレームと低域フレームは、階層毎に画像保持部６０の専用の領域に格納され、動きベクトルも階層毎に動きベクトル保持部７０の専用の領域に格納される。ＭＣＴＦ処理部２０の詳細は後述する。

ＭＣＴＦ処理部２０における処理が終了すると、画像保持部６０内のすべての階層の高域フレームと最終的な階層の低域フレームは、画像符号化部８０に送られる。また、動きベクトル保持部７０内のすべての階層の動きベクトルは、動きベクトル符号化部９０に送られる。

画像符号化部８０は、画像保持部６０から供給されたフレームに対してウェーブレット変換を用いた空間フィルタリングを施した後、符号化を実行する。符号化されたフレームは多重化部９２に送られる。動きベクトル符号化部９０は、動きベクトル保持部７０から供給された動きベクトルに対して符号化を実行し、多重化部９２に与える。符号化の方法は既知であるため、詳細な説明は省略する。

多重化部９２は、画像符号化部８０から与えられた符号化後のフレーム情報と、動きベクトル符号化部９０から与えられた符号化後の動きベクトル情報とを多重化し、符号化ストリームを生成する。

続いて、図２および図３を参照して、ＭＣＴＦ技術にしたがった時間フィルタリング処理を説明する。
ＭＣＴＦ処理部２０は、ひとつのＧＯＰ内で連続する二枚のフレームを順次取得して、高域フレームと低域フレームを生成する。二枚のフレームを、時間順に「フレームＡ」、「フレームＢ」と呼ぶことにする。

ＭＣＴＦ処理部２０は、フレームＡおよびフレームＢから動きベクトルＭＶを検出する。図２および図３では、説明を簡単にするためにフレーム単位で動きベクトルを検出しているが、マクロブロック単位で動きベクトルを検出してもよいし、ブロック（８×８画素または４×４画素）単位で動きベクトルを検出してもよい。
次に、フレームＡを動きベクトルＭＶで動き補償した画像（以下、「フレームＡ’」と表記する）を生成する。
低域フレームＬは、図２に示すように、フレームＡ’とフレームＢの平均値として定義される。
Ｌ＝１／２・（Ａ’＋Ｂ）（１）

次に、フレームＢを動きベクトルＭＶの反転値−ＭＶで動き補償した画像（以下、「フレームＢ’」と表記する）を生成する。
高域フレームＨは、図３に示すように、フレームＡとフレームＢ’の差分として定義される。
Ｈ＝Ａ−Ｂ’ （２）

式（２）を変形する。
Ａ＝Ｂ’＋Ｈ（３）
右辺、左辺とも動きベクトルＭＶだけ動き補償したとすると、次式が成り立つ。なお、「Ｈ’」は、高域フレームＨを動きベクトルＭＶで動き補償した画像を表す。
Ａ’＝Ｂ＋Ｈ’ （４）
式（２）に式（４）を代入すると、次式のようになる。
Ｌ＝１／２・（Ａ’＋Ｂ）
＝１／２・（Ｂ＋Ｈ’＋Ｂ）
＝Ｂ＋１／２・Ｈ’ （５）
つまり、低域フレームＬは、フレームＢの各画素値と、高域フレームＨ’の各画素値を１／２にしたものとを足し合わせることで生成することができる。

生成された低域フレームＬを新たにフレームＡ、フレームＢとして上述と同様の操作を繰り返すことで、次の階層の高域フレーム、低域フレーム、および動きベクトルが生成される。この操作は、生成される低域フレームがひとつになるまで再帰的に繰り返される。したがって、得られる階層の数は、ＧＯＰに含まれるフレーム数によって決まる。例えば、ＧＯＰに８フレームが含まれる場合は、一回目の操作で４つの高域フレームと４つの低域フレームが生成され（階層２）、二回目の操作で２つの高域フレームと２つの低域フレームが生成され（階層１）、三回目の操作でひとつの高域フレームとひとつの低域フレームが生成される（階層０）。

図４は、ＭＣＴＦ処理部２０の構成を示す。動きベクトル検出部２１には、画像保持部６０に格納されているフレームＡ、フレームＢが入力される。上述したように、階層２ではフレームＡ、フレームＢはＧＯＰを構成するフレームであるが、階層１以降では、直前の階層で生成された低域フレームＬがフレームＡ、フレームＢになることに注意する。

動きベクトル検出部２１は、フレームＢ内の各マクロブロックについて、誤差の最も小さい予測領域をフレームＡから探索し、マクロブロックから予測領域へのずれを示す動きベクトルＭＶを求める。動きベクトルＭＶは、動きベクトル保持部７０に格納されるとともに、動き補償部２２、２４に供給される。

動き補償部２２は、フレームＢに対して、動きベクトル検出部２１から出力された動きベクトルＭＶを反転させた（−ＭＶ）を用いてマクロブロック毎に動き補償を行い、フレームＢ’を生成する。

画像合成部２３は、フレームＡと、動き補償部２２から出力されるフレームＢ’の各画素を加算して、高域フレームＨを生成する。高域フレームＨは、画像保持部６０に格納されるとともに、動き補償部２４に供給される。動き補償部２４は、高域フレームＨについて動きベクトルＭＶを用いてマクロブロック毎に動き補償を行い、フレームＨ’を求める。求められたフレームＨ’は、処理ブロック２５によって１／２が乗じられ、画像合成部２６に供給される。

画像合成部２６は、フレームＢとフレームＨ’の各画素を加算して低域フレームＬを生成する。生成された低域フレームＬは、画像保持部６０に格納される。

図５は、ＧＯＰが８フレームで構成される場合に、各階層で出力される画像と動きベクトルを示す図である。図６は、ＭＣＴＦ技術にしたがった符号化方法を示すフローチャートである。図５と図６をともに参照して、具体例を説明する。

以下では、階層ｎの高域フレームをＨ_ｎ、低域フレームをＬ_ｎ、動きベクトルをＭＶ_ｎと表記する。図５の例では、ＧＯＰ内のフレーム１０１〜１０８のうち、フレーム１０１、１０３、１０５、１０７がフレームＡになり、フレーム１０２、１０４、１０６、１０８がフレームＢになる。

まず、画像取得部１０がフレームＡ、フレームＢを受け取り、画像保持部６０に格納する（Ｓ１０）。このとき、画像取得部１０はフレームをマクロブロックに分割してもよい。続いて、ＭＣＴＦ処理部２０は、フレームＡおよびフレームＢを画像保持部６０から読み出し、一回目の時間フィルタリング処理を実行する（Ｓ１２）。生成された高域フレームＨ_２および低域フレームＬ_２は画像保持部６０に格納され、動きベクトルＭＶ_２は動きベクトル保持部７０に格納される（Ｓ１４）。フレーム１０１〜１０８の処理が終了すると、ＭＣＴＦ処理部２０は、画像保持部６０から低域フレームＬ_２を読み出し、二回目の時間フィルタリング処理を実行する（Ｓ１６）。生成された高域フレームＨ_１および低域フレームＬ_１は画像保持部６０に格納され、動きベクトルＭＶ_１は動きベクトル保持部７０に格納される（Ｓ１８）。続いて、ＭＣＴＦ処理部２０は、画像保持部６０から二枚の低域フレームＬ_１を読み出し、三回目の時間フィルタリング処理を実行する（Ｓ２０）。生成された高域フレームＨ_０および低域フレームＬ_０は画像保持部６０に格納され、動きベクトルＭＶ_０は動きベクトル保持部７０に格納される（Ｓ２２）。

高域フレームＨ_０〜Ｈ_２、および低域フレームＬ_０は画像符号化部８０で符号化され（Ｓ２４）、動きベクトルＭＶ_０〜ＭＶ_２は動きベクトル符号化部９０で符号化される（Ｓ２６）。符号化されたフレームと動きベクトルは、多重化部９２で多重化されて、符号化ストリームとして出力される（Ｓ２８）。

高域フレームＨはフレーム間の差分であるから、符号化時のデータ量は低下する。また、図５をみれば分かるように、一回の時間フィルタリング処理を経る毎に低域フレームＬ数は１／２に減少するが、低域フレームＬは上位階層のフレーム間の平均値であるから、画質および解像度は低下していないフレーム列が得られる。したがって、フレームレートの異なる動画像をひとつのビットストリームで送信することができる。
符号化ストリームを受け取った復号装置は、下位の階層から順に復号処理を実行する。下位階層のみを復号すれば低フレームレートの動画像が得られ、上位の階層まで復号するほど、フレームレートが増加した動画像が得られる。このように、ＭＣＴＦ技術にしたがった時間フィルタリングによって、時間的スケーラビリティを実現することができる。

しかしながら、ＭＣＴＦ技術にしたがった時間フィルタリングでは、各階層で動きベクトルを符号化しなければならないので、動きベクトル情報の符号量が増大する。そこで、本実施の形態では、動きベクトル情報の符号量を削減する技術を提供する。

図７は、動きベクトル符号化部９０における動きベクトル符号化の手順を示すフローチャートである。ここでは、図５に示した階層０〜階層２で生成される動きベクトルＭＶ_０、ＭＶ_１、ＭＶ_２を例にして説明する。

動きベクトル符号化部９０は、動きベクトルＭＶ_０、ＭＶ_１、ＭＶ_２の順で、符号化を実行する。まず、動きベクトル保持部７０から動きベクトルＭＶ_０〜ＭＶ_２を受け取る（Ｓ４０）。動きベクトル符号化部９０は、最も下位の階層０の動きベクトルＭＶ_０を符号化する（Ｓ４２）。続いて、階層１の動きベクトルＭＶ_１を符号化する代わりに、ＭＶ_０の１／２とＭＶ_１との差分（１／２・ＭＶ_０−ＭＶ_１）を符号化する（Ｓ４４）。さらに、階層２の動きベクトルＭＶ_２を符号化する代わりに、ＭＶ_１の１／２とＭＶ_２との差分（１／２・ＭＶ_１−ＭＶ_２）を符号化する（Ｓ４６）。

これは、以下の考え方に基づく。図５を参照すると、階層１の二枚の低域フレームＬ_１１２３、１２７を基にして一枚の低域フレームＬ_０１３７が生成されることから、複数フレームにわたって動きの速度が一定であると仮定する線形動きモデルに従えば、階層１の動きベクトルＭＶ_１は、階層０の動きベクトルＭＶ_０の半分に近い値を有していると考えられる。したがって、ＭＶ_１をそのまま符号化する代わりに、ＭＶ_０を１／２にした予測ベクトルとの誤差を符号化すれば、動きベクトル情報の符号化量を削減することができる。階層２の動きベクトルＭＶ_２についても同様に、動きベクトルＭＶ_１を１／２にした予測ベクトルとの誤差を符号化することで、動きベクトル情報の符号化量を削減する。

同様の考え方から、階層２の動きベクトルＭＶ_２については、階層０の動きベクトルＭＶ_０を１／４にした予測ベクトルとの差分（１／４・ＭＶ_０−ＭＶ_２）を符号化してもよい。また、元のベクトルそのものの情報と、差分に関する情報のいずれかを、選択的に符号化してもよい。例えば、動きベクトル情報の符号化後のデータ量が所与のしきい値を越える場合にのみ、差分を符号化するようにしてもよい。これによると、符号化装置の計算処理量や符号化後のデータ量に応じて、より適切な方の情報を動画像の符号化データに含めることができる。

動画像の階層的符号化においては、動きベクトルの符号量自体が多くなり、動きベクトルを効率的に符号化する必要がある。本実施形態によれば、ＭＣＴＦの動きベクトル情報を下位階層の動きベクトル値から予測して、予測ベクトルとの差分を符号化することによって、動きベクトル情報自体を削減し、符号量を削減することができる。

なお、予測ベクトルは、上位階層と下位階層のフレームの枚数によって決定される。例えば、三枚の低域フレームを基にして一枚の低域フレームが生成される場合には、下位階層の動きベクトルを１／３にした予測ベクトルと、上位階層の動きベクトルとの差分を符号化する。

図８は、実施の形態に係る復号装置３００の構成図である。復号装置３００のストリーム解析部３１０には、符号化ストリームが入力される。ストリーム解析部３１０は、必要な階層に対応するデータ部分を抜き出し、さらにフレームの復号データと動きベクトルの復号データとを分離する。フレームデータは画像復号部３２０に与えられ、動きベクトルデータは動きベクトル復号部３３０に与えられる。

画像復号部３２０は、エントロピー復号化、逆ウェーブレット変換を施して、最下位階層の低域フレームＬ_０と、すべての高域フレームＨ_０〜Ｈ_２を生成する。画像復号部３２０で復号されたフレームは、画像保持部３５０の専用の領域に格納される。

動きベクトル復号部３３０は、動きベクトル情報を復号した後、最下位階層における動きベクトルＭＶ_０と、そのベクトルとの差分から、より上位の階層の動きベクトルＭＶ_１、ＭＶ_２を計算する。動きベクトル復号部３３０で復号された動きベクトルは、動きベクトル保持部３６０の専用の領域に格納される。

画像合成部３７０は、上述のＭＣＴＦ処理とは逆の手順でフレームを合成する。合成されたフレームは外部に出力されるとともに、さらに上位の階層のフレームが必要な場合は、後の処理のために合成したフレームを画像保持部３５０に格納する。

画像合成部で合成処理をする毎に、フレームレートの高い動画像の再生が可能になり、最終的には入力画像と同じフレームレートの動画像が得られる。

以上述べたように、本実施の形態の符号化装置１００によれば、動きベクトルを符号化する際に、下位階層の動きベクトルから予測された予測ベクトルと上位階層の動きベクトルとの差分値を符号化することにより、動きベクトル情報自体のデータ量を削減できる。したがって、動画像ストリーム全体の符号量を減らして圧縮効率を高めることができる。また、下位階層のフレームの復号に際しては、それより上位の階層の動きベクトルは不要であるから、復号装置側では必要なフレームレートに応じた階層までの復号をすれば十分であり、時間的スケーラビリティの優位性が損なわれることはない。

特に、ＭＣＴＦ技術を用いた動画像の符号化においては、動きベクトルの数が膨大になるので、本実施形態は有効である。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

上記では、連続する２つのフレームからひとつの低域フレームを生成するハール（Haar）ウェーブレット変換によるＭＣＴＦ処理を行う場合の動きベクトルを例として説明したが、本発明は、連続する５つのフレームからひとつの低域フレームを生成し、連続する３つのフレームからひとつの高域フレームを生成する５／３ウェーブレット変換によるＭＣＴＦ処理を行う場合の動きベクトルについても適用することができる。

上記の説明では、符号化装置１００および復号装置３００は、Ｈ．２６４／ＡＶＣに準拠して動画像の符号化および復号を行ったが、本発明は、時間的スケーラビリティをもつ階層的な動画像の符号化および復号を行う他の方式にも適用することができる。

実施の形態に係る符号化装置の構成図である。低域フレームの生成方法を示す図である。高域フレームの生成方法を示す図である。ＭＣＴＦ処理部の構成図である。各階層で出力される画像と動きベクトルを示す図である。ＭＣＴＦ技術にしたがった符号化方法を示すフローチャートである。実施の形態に係る動きベクトル符号化の手順を示すフローチャートである。実施の形態に係る復号装置の構成図である。

符号の説明

１０画像取得部、２０ＭＣＴＦ処理部、２１動きベクトル検出部、６０画像保持部、７０動きベクトル保持部、８０画像符号化部、９０動きベクトル符号化部、９２多重化部、１００符号化装置、３００復号装置、３１０ストリーム解析部、３２０画像復号部、３３０動きベクトル復号部、３５０画像保持部、３６０動きベクトル保持部、３７０画像合成部。

Claims

動画像からフレームレートの異なる複数の階層を求める符号化方法において、
第１の階層で求められた動きベクトルと、第１の階層より上位または下位の第２の階層で求められた動きベクトルを用いて前記第１の階層における動きを予測した予測ベクトルとの差分に関する情報を、動画像の符号化データに含めることを特徴とする符号化方法。
動画像に動き補償時間フィルタリングを実施してフレームレートの異なる複数の階層を求める符号化方法において、
第１の階層で求められた動きベクトルと、第１の階層より上位または下位の第２の階層で求められた動きベクトルを用いて前記第１の階層における動きを予測した予測ベクトルとの差分に関する情報を、動画像の符号化データに含めることを特徴とする符号化方法。
前記予測ベクトルは、複数フレームにわたって動きの速度が一定であると仮定する線形動きモデルにしたがって、前記第１の階層の動きベクトルを予測したものであることを特徴とする請求項１または２に記載の符号化方法。
前記第２の階層は、前記第１の階層に時間フィルタリングを実施して求められる第１の階層より低フレームレートの階層であることを特徴とする請求項３に記載の符号化方法。
前記第１の階層で求められた動きベクトルの情報と、前記差分に関する情報のいずれかを選択的に動画像の符号化データに含めることを特徴とする請求項１ないし４のいずれかに記載の符号化方法。