JP2007503151A

JP2007503151A - プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置

Info

Publication number: JP2007503151A
Application number: JP2006523778A
Authority: JP
Inventors: ハン，ウ−ジン; イム，チャン−フン; ハ，ホ−ジン; リー，ベ−グン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-08-26
Filing date: 2004-07-09
Publication date: 2007-02-15
Also published as: AU2004302413A1; US20050047503A1; AU2004302413B2; CA2536587A1; EP1665799A1; EP1665799A4; WO2005020581A1

Abstract

本発明は、プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置を提供する。本発明のビットレートのコントロール方法は、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する段階と、決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階とを含む。

Description

本発明は、プリデコーダを利用するウェーブレット基盤のスケーラブルビデオコーディングにおいて、前記プリデコーダ側で利用できる情報を利用して、ビットレートを最適にコントロールする方法及び装置に関する。

ビデオコーディング技術のレート歪曲性能は、精巧なレートコントロールアルゴリズムを使用することによって、相当部分向上できると知られている。大部分の従来技術は、最適のレート歪曲という観点で、それぞれのコーディングユニットに適切な数のビット数を割り当てるために、エンコーディング領域で生成される有用な情報を利用する。ウェーブレット基盤のスケーラブルビデオコーディングにおいては、エンコーダは、エンベッディング原則によって一つの大きいビットストリームを生成し、プリデコーダないしトランスコーダが、前記エンベッディング原則によって前記ビットストリームを任意の大きさに切り取る。ここで、前記エンベッディング原則によるエンコーディング方式で圧縮されたビットストリームの場合には、一部のビットストリームを切り取ってもデータが復元できるが、それ以外のエンコーディング方式で圧縮されたビットストリームの場合には、エンコーダで生成されたビットストリームのうち、任意に一部のビットストリームを切り取れば、データが復元できないという特徴がある。

このようなエンベッディング属性は根本的に、スケーラブルビデオコーダは、レートコントロールアルゴリズムの使用に適するようにする。しかし、スケーラブルビデオコーダでは、実際ビット割り当てがエンコーディング領域以後に行われねばならないために、エンコーダでのみ使用可能な情報を利用する伝統的なレートコントロールアルゴリズムを適用できなくなるので、スケーラブルビデオコーダに適した別途のレートコントロールアルゴリズムを創案する必要がある。

一般的にスケーラブルビデオコーディングは、前もって圧縮されたビットストリームから得られる多様な解像度、画質及び臨時レベルにおいて、部分的なデコーディングを可能にし、低画質ビデオを使用するモバイルホンから、高画質映画を使用するデジタル記録媒体まで、多様な環境で信号を効率的に表現し、かつ伝送する有望な技術として認識されている。ここで、前記臨時レベルは、秒当たりフレーム数を原データと別にする場合に、前記秒当たりフレーム数それぞれを意味する。

ビデオコーディング技術におけるスケーラビリティの具現には、多くの接近方法がある。ＭＰＥＧ−４ＦＧＳ（ＦｉｎｅＧｒａｎｕｌａｒｉｔｙＳｃａｌａｂｉｌｉｔｙ）がＳＮＲ（信号対雑音比）及び臨時的スケーラブルビデオコーディングの標準として確立されているとしても、ウェーブレットに基づいたいろいろなスケーラブルビデオのコーディング方法も、既にＳＮＲ、空間的及び臨時的スケーラビリティを具現するための潜在力を表している。前記‘臨時的’とは、時間的に配列されたいろいろなフレームのうち一部のフレームを意味し、前記‘空間的’とは、１フレームでの一部分を意味する。

モーション補償エンベッデッドゼロブロックコーディング（以下、ＭＣ−ＥＺＢＣ）は、３Ｄサブバンド／ウェーブレット変換を使用する、完全にスケーラブルなビデオコーディングシステムである。前記３Ｄサブバンド／ウェーブレット変換は、モーション補償臨時フィルタリング（ＭｏｔｉｏｎＣｏｍｐｅｎｓａｔｅｄＴｅｍｐｏｒａｌＦｉｌｔｅｒｉｎｇ；以下、ＭＣＴＦ）による臨時的コリレーション、及びウェーブレット変換による空間的コリレーションを使用する。前記ＭＣ−ＭＺＢＣに関するさらに詳細な内容は、Ｓ．−Ｔ．Ｈｓｉａｎｇの博士論文‘Ｈｉｇｈｌｙｓｃａｌａｂｌｅｓｕｂｂａｎｄ／ｗａｖｅｌｅｔｉｍａｇｅａｎｄｖｉｄｅｏｃｏｄｉｎｇ’（ＲｅｎｓｓｅｌａｅｒＰｏｌｙｔｅｃｈｎｉｃＩｎｓｔｉｔｕｔｅ，Ｎｅｗｙｏｒｋ，Ｊａｎ．２００２）を参照して分かる。

最近の実験結果によれば、ＭＣ−ＥＺＢＣは、ほぼあらゆるテスト条件でＭＰＥＧ−４ＦＧＳを凌駕すると知られている。ＭＣ−ＥＺＢＣにおいて、ＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）は、通常１６個または３２個のフレームを備えるが、あらゆるモーション軌跡に沿って、可逆モーション補償臨時フィルタによって変換される。前記フィルタリングされたフレームは、空間的重複を利用するために、ウェーブレット変換によって分解され、ＥＺＢＣアルゴリズムによってコーディングされる。一方、モーションベクトルコードストリームは、ＤＰＣＭ（ＤｉｆｆｅｒｅｎｔｉａｌＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）及び代数的コーディングの組み合わせによってエンコーディングされる。

ＥＺＢＣアルゴリズムのエンベッディング属性のために、ＭＣ−ＥＺＢＣでのビットストリームは、感知される程の重大な変形なしに任意のポイントから切り取ることができる。前記エンベッディング属性は、レートを簡単にコントロール可能にする。なぜなら、コントロールパラメータは、通常ハイブリッドコーダに使われる量子化ステップサイズというよりは、それぞれのコーディングユニットに割り当てられたビットレートであるためである。ＭＰＥＧに対するレートコントロールと比較すると、エンベッデッドェーブレットビデオコーダに対しレートコントロールに関する研究は、相対的に少なかった。Ｐ．−Ｙ．Ｃｈｅｎｇは、本人の論文である‘Ｒａｔｅｃｏｎｔｒｏｌｆｏｒａｎｅｍｂｅｄｄｅｄｗａｖｅｌｅｔｖｉｄｅｏｃｏｄｅｒ’（ＩＥＥＥＴｒａｎｓ．ＣｉｒｃｕｉｔｓＳｙｓｔ．ＶｉｄｅｏＴｅｃｈｎｏｌ．，ｖｏｌ．７，ｎｏ．４，ｐｐ．６９６〜７０２，Ａｕｇ．１９９７）で、エンベッデッドェーブレットコーダのレート歪曲性能及び、基準と予想フレーム間のフレーム依存性を利用することによって誘導されるレートコントロール方法を提案した。また、Ｃａｅｔａｎｏは、‘Ｒａｔｅｃｏｎｔｒｏｌｓｔｒａｔｅｇｙｆｏｒｅｍｂｅｄｄｅｄｗａｖｅｌｅｔｖｉｄｅｏｃｏｄｅｒｓ’（ＥｌｅｃｔｒｏｎｉｃｓＬｅｔｔｅｒｓ，ｖｏｌ．３５，ｎｏ．２１，ｐｐ．１８１５〜１８１７，Ｏｃｔ．１９９９．）で、区分的線形レート歪曲モデルを利用することによって、前記Ｃｈｅｎｇの方法をさらに改良した。そして、Ｈ．Ｊ．Ｌｅｅは、‘ＳｃａｌａｂｌｅｒａｔｅｃｏｎｔｒｏｌｆｏｒＭＰＥＧ−４ｖｉｄｅｏ’（ＩＥＥＥＴｒａｎｓ．ＣｉｒｃｕｉｔｓＳｙｓｔ．ＶｉｄｅｏＴｅｃｈｎｏｌ．，ｖｏｌ．１０，ｐｐ．８７８〜８９４，Ｓｅｐｔ．２０００．）で、ゼロツリーエントロピーウェーブレットコーディングのためのレート歪曲に基づいた最適化技術を提案した。大部分のレート歪曲最適化方法は、エンコーダで利用可能ないくつかの有用な情報を使用する。前記有用な情報には、例えば、ＭＡＤ（ＭｅａｎＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ）、ＭＳＥ（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）、そしてＰＳＮＲ（ＰｅａｋＳｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ）などがある。

図１は、レート歪曲最適化技術に基づいたビデオコデックの全体的ブロック図である。このような場合に、レートコントロール部１３０では、ユーザが最終目的とするビットレート３０を基準に、最適の量子化ステップまたはそれぞれのコーディングユニットに対する最適のビット量を選択する。それにより、エンコーダ１１０は、前記量子化ステップまたは最適のビット量を基準として原動画像１０をエンコーディングすることにより、制限された通信状況に合わせてバンド幅が制限されたビットストリーム４０を生成する。次いで、デコーダ１２０は、前記制限されたバンドを持つビットストリーム４０からイメージシーケンスを復元して、圧縮解除された動画像２０を出力する。このような従来技術で、前記レートコントロールは、エンコーダ側でのみ行われている。

レートコントロール部１３０で行われる目的ビットレート３０を基準としたレートコントロール過程を、以下でさらに詳細に説明する。ソースデータに対する推定値がラプラシアン分布を持つと仮定しよう。もし、歪曲の測定において、差関数を使用すれば、レート歪曲関数であるＲ（Ｄ）は、次の式［１］のように現れる。ここで、Ｄは、イメージを圧縮する時に発生する歪曲率を意味するものであり、元来のイメージと圧縮解除された最終イメージとの差から計算できる。

多くのレート歪曲最適化技術は、２次のレート歪曲関数を基盤とし、前記関数は、式［１］の簡略化された形態であって、次の式［２］で定義されたように現れる。

ここで、ａ及びｂは、モデルパラメータであり、Ｑ（ｉ）は、量子化インデックスであり、Ｒ（ｉ）は、ｉ番目コーディングユニットをエンコーディングするための総ビット数である。前記コーディングユニットとは、エンコーダでエンコーディングする時に処理するフレーム束の単位を意味する。前記‘Ｈ．Ｊ．Ｌｅｅ’の論文で、２次のレート歪曲関数は、新たな２つのパラメータ（ＭＡＤ及びノンテクスチャーオーバーヘッド）を導入することによって、次の式［３］のように修正できる。

ここで、Ｈ（ｉ）は、ヘッダ情報及びモーションベクトルに使われるビットを表し、Ｍ（ｉ）は、ルミナンス成分のためのモーション補償残留を利用して計算されたＭＡＤを意味する。ＭＡＤをレート歪曲関数に含める理由は、量子化ステップの選択において場面複雑性を考慮するためである。なぜなら、同じ目標ビットレートの制限においては、大きいステップは、高い複雑性を持つフレームのために使われねばならず、小さなステップは、低い複雑性を持つフレームのために使われねばならない。

前記式［３］のように変形されたレート歪曲関数は、ＭＰＥＧ−４標準で採択されている。ＭＰＥＧ−４ｖｅｒｉｆｉｃａｔｉｏｎｍｏｄｅｌ５．１では、ａ及びｂは、過去のフレームについてのポイント選択及び線形回帰分析を使用して求めることができ、Ｍ（ｉ）は、モーション補償ブロックから計算でき、これより目標量子化インデックスＱ（ｉ）が求められる。Ｑ（ｉ）を求めた後には、モデルパラメータ、すなわち、ａ及びｂは、現在フレームの情報によってアップデートされる。ＭＰＥＧ−４で使われるレートコントロールアルゴリズムが、レート歪曲性能を向上させるに効率的ではあるが、そのアルゴリズムを、プリデコーダを使用するスケーラブルビデオフレームワークに適用するためには、多少の変更が必要である。

図２は、従来技術によるウェーブレット基盤のスケーラブルビデオコデックの動作構造を示すブロック図である。従来のレートコントロールアルゴリズムが、一般的にレート歪曲性能を向上させるというが、前記アルゴリズムは、エンコーディング領域でのみ利用できる予測エラー情報を使用している。完全にスケーラブルなビデオコデックを要求する大部分のアプリケーションにおいて、エンコーダ２１０は、十分に大きいビットストリーム３５を生成し、プリデコーダ２２０ないしトランスコーダは、画質、臨時的条件及び空間的条件を考慮して、前記ビットストリーム３５から一部を切り取って、適当量のビットを持つビットストリーム４０を抽出する。次いで、デコーダ２３０は、前記一部を切り取ったビットストリーム４０からイメージシーケンスを復元して、圧縮解除された動画像２０を出力する。

図２に示すように、レートコントロールは、エンコーダ２１０の代りにプリデコーダ２２０で行われる。なぜなら、実際ビットレートは、プリデコーダ２２０で決定されるためである。しかし、従来には、プリデコーダ２２０でレートコントロールを行うアルゴリズムに関する研究がほとんどなく、ＣＢＲ（ＣｏｎｓｔａｎｔＢｉｔ−Ｒａｔｅ）方法（前記Ｓ．−Ｔ．Ｈｓｉａｎｇの論文参照）が一般的に使われていた。したがって、プリデコーダでのみ使用可能な情報を使用するレートコントロールアルゴリズムについて研究する必要がある。

前記問題点を解決するために、本発明は、ウェーブレット基盤のスケーラブルビデオコーダの性能を向上させるために、プリデコーダで使用可能な情報のみを使用する新たなレートコントロールアルゴリズムを提供することを目的とする。

そして、それぞれのコーディングユニットに同じ量のビットを割り当てる代わりに、前記コーディングユニットに最適のビット量を割り当てて、レート歪曲性能を向上させることができる方法を提供することを目的とする。

また、前記レートコントロールアルゴリズムを、現在のあらゆるウェーブレット基盤のスケーラブルビデオコーディング技術に適用することを目的とする。

前記目的を達成するために、本発明によるビットレートのコントロール方法は、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する段階と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことを特徴とする。

前記コーディングユニットに対するビット量を決定する段階は、場面複雑性関数と原フレームに対する最終フレームの歪曲とを利用して定義される、前記コーディングユニットに対するビット量に対して、前記場面複雑性関数を、前記コーディングユニットに対するビット平面数によるビット分布を利用して決定する段階と、前記原フレームと最終フレームの歪曲とを最小化する方法により、前記コーディングユニットに対するビット量を決定する段階と、を含むことが望ましい。

そして、前記コーディングユニットに対するビット量であるＲ（ｉ）は、

のように定義され、前記場面複雑性関数であるＭ（ｉ）は、ｋ個のビット平面を使用する累積されたエンコーディングされたビットＢ（ｉ，ｋ）を、線形補間法を利用して総エンコーディングされたビットをＢ_Ｔにするビット平面数Ｋ^＊を決定し、前記場面複雑性関数Ｍ（ｉ）をＢ（ｉ，Ｋ^＊）にリモデルリングし、前記計算されたＢ（ｉ，Ｋ^＊）を適用したレート歪曲関数

でＤ（ｉ）^２が最小になるＲ（ｉ）の式を求め、

の制限条件を適用して最適のビット割り当てを持つＲ（ｉ）を求めることが望ましい。

前記目的を達成するために、本発明によるスケーラブルビデオのコーディング方法は、原動画像をエンコーディングすることにより、ビットストリームを生成する段階と、前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定する段階と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことが望ましい。

前記スケーラブルビデオのコーディング方法は、前記抽出されたビットストリームから前記原画像のイメージシーケンスを復元して、圧縮解除する段階をさらに含むことが望ましい。

また、前記目的を達成するために、本発明によるビットレートのコントロール装置は、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する手段と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する手段と、を含むことを特徴とする。

また、前記目的を達成するために、本発明によるスケーラブルビデオコーディング装置は、原動画像をエンコーディングすることによりビットストリームを生成するエンコーダと、前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定するレートコントロール部と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出するプリデコーダと、を含むことが望ましい。

前記スケーラブルビデオコーディング装置は、前記抽出されたビットストリームから前記原動画像のイメージシーケンスを復元して、圧縮解除するデコーダをさらに含むことが望ましい。

また、前記目的を達成するために、プリデコーダを利用するウェーブレット基盤のスケーラブルビデオのコーディング方法は、コンピュータで読み取り可能なプログラムで、記録媒体に記録できる。

以下、図面によって、本発明による一実施例を詳細に説明する。

図３は、本発明によるウェーブレット基盤のスケーラブルビデオコデックの動作構造を示すブロック図である。スケーラブルエンコーダ３１０は、原動画像をエンコーディングすることにより、十分に大きいビットストリーム３５を生成し、レートコントロール部３４０は、ユーザの目的するビットレート３０を基準に、それぞれのコーディングユニットに対する最適のビット量を選択する。プリデコーダ３２０は、前記ビットストリーム３５を入力され、前記レートコントロール部３４０で選択された最適のビット量を基準に前記ビットストリーム３５の一部を切り取って、適当量のビットを持つビットストリーム４０を抽出する。次いで、デコーダ３３０は、前記抽出されたビットストリーム４０から動画像のイメージシーケンスを復元して、圧縮解除する。それにより、最終的に圧縮解除された動画像が生成される。

本発明は、このうち、レートコントロール部３４０での動作部分が核心をなす。前記レートコントロール部３４０での動作は、３部分に大別されるが、第１に、プリデコーダのためのレート歪曲関数を定義する過程と、第２に、プリデコーダ側の情報を利用する場面複雑性関数モデリング過程、及び第３に、前記プリデコーダのためのレート歪曲関数を利用して歪曲を最小化する、新たなレートコントロール関数を誘導する過程でなる。本発明では、場面複雑性関数として、従来のエンコーダでのみ使用可能なＭＡＤ情報の代りに、同じ数のビット平面でのビット分布に置き換える。

第一に、レート歪曲関数を定義する過程を説明する。

伝送されるビデオは、それぞれ複数のフレームを持つ複数のコーディングユニット、すなわち、複数のＧＯＰに分けられる。このようにすれば、ＧＯＰに存在するそれぞれのフレームは、ＭＣＴＦ過程のために互いに強くコリレートされている一方、それぞれのＧＯＰは、分離されてエンコーディングされ、かつ互いに独立的であるために、レートコントロールアルゴリズムを簡略化できる。まず、前記式［１］のレート歪曲関数を変形すれば、次の式［４］を得ることができる。

ここで、Ｒ（ｉ）、Ｍ（ｉ）、及びＤ（ｉ）は、それぞれｉ番目ＧＯＰ（コーディングユニット）に対する総ビット数、場面複雑性パラメータ、そして、原フレームと、デコーダで圧縮解除される最終フレームとの差値（原フレームに対する最終フレームの歪曲）を意味する。数式の簡単化のために、ノンテクスチャーオーバーヘッド、すなわち、Ｈ（ｉ）は、式［４］、そして、以下のあらゆる式で考慮しない。なぜなら、本発明でその効果が微小なためである。Ｂ_Ｔを、Ｎ個のＧＯＰで構成された全体ビデオシーケンスに対する総ビットとすれば、次の式［５］のようになる。

なお、レートコントロール問題は、前記式［４］及び式［５］の制限条件を利用して、次の式［６］のように公式化できる。

ここで、式［６］の右辺は、前記式［４］及び式［５］の条件下で、Ｄ（ｉ）^２を最小にするＲ（１）ないしＲ（Ｎ）を選択するという意味である。このように、式［６］での歪曲測定のためには、ＭＳＥが使われる。式［６］にあるＲ（ｉ）値を計算するためには、２つのパラメータ、Ｍ（ｉ）、及びＤ（ｉ）が必要であるということは、容易に分かる。従来の方法では、Ｍ（ｉ）値として、通常的にＭＡＤが使われたが、本発明では、前記ＭＡＤをＭ（ｉ）値として使用できない。なぜなら、原本データの値が分からないプリデコーダ領域では、ＭＡＤは求められないからである。したがって、本発明では、プリデコーダで使用可能な他の情報を利用して、Ｍ（ｉ）を推定せざるを得ない。

第２に、次いで、ビット分布を利用して場面複雑性を推定する過程を説明する。量子化ウェーブレット係数に使われるエンベッデッド量子化アルゴリズムは、基本的に２つのステップで構成される。前記２つのステップは、それぞれのサブバンドについての３次元表現法を確立するステップと、重要なピクセルについての進歩したビット平面コーディングを行うステップとを意味する。進歩したビット平面コーディングは、２^ｎをしきい値として持つ、連続的な近似量子化方法で考えられる。ここで、係数ｎは、ビット平面インデックスを意味する。さらに、重要なピクセルの数は、割り当てられたビットの量と直接的に関連している。重要なピクセルの数が多ければ、そのピクセルのエンコーディングに多くのビットが必要であり、重要なピクセルの数が少なければ、そのピクセルのエンコーディングに少ないビットが必要である。

図４は、ｆｏｒｅｍａｎＱＣＩＦシーケンスに対するビット分布を図示したものである。図４で明暗の強度は、一つのＧＯＰインデックスに対する総割り当てられたビットの量及び使われたビット平面の数を意味し、明るいほどビット数が高い。相対的な強度を表すために、前記強度は、与えられた数のビット平面で、あらゆるＧＯＰの和によって正規化されている。図４に示すように、割り当てられたビット数は、主に、同じ数のビット平面を持つ他のＧＯＰインデックス（ＧＯＰの時間順序配列）によって可変的である。もし、場面複雑性を、与えたイメージフレームをエンコーディングする難しさの程度と定義するならば、同じビット平面の数で、一つのＧＯＰに割り当てられたビットの量は、ＧＯＰのうち相対的な場面複雑性と強くコリレートされる。

Ｂ（ｉ，ｋ）を、ｋ個のビット平面を使用する累積されたエンコーディングされたビットとしよう。使われたビット平面の数が一定の定数値Ｋを持つとすれば、Ｂ（ｉ，ｋ）は、総割り当てられたビットを持つｉ番目ＧＯＰに対する場面複雑性についての推定値となり、前記総割り当てられたビットは、次の式［７］のように与えられる。

ここで、Ｎは、総ＧＯＰの数である。線形補間法を使用して、総エンコーディングされたビットをＢ_Ｔにする正確なポイントで、場面複雑性のさらに正確な推定値を得ることができる。Ｋ^＊を、総割り当てられたビットが正確にＢ_Ｔとなるビット平面有理数値といえば、次の式［８］のようになる。

ここで、

であり、

である。ＭＡＤ値から得られるＭ（ｉ）値と同数のビット平面でのビットの量、すなわち、Ｂ（ｉ，Ｋ^＊）間にいかなる関係を探すために、ｆｏｒｅｍａｎＱＣＩＦシーケンスに対して５１２ｋｂｐｓを持つビットストリームを生成するように、Ｒ（ｉ）値を固定した。Ｄ（ｉ）は、原本及びデコーディングされたシーケンスの間に、ＰＳＮＲ値から計算され、Ｍ（ｉ）は、前記式［４］から計算される。

図５は、αが０．１５６である時、Ｍ（ｉ）及びＢ（ｉ，Ｋ^＊）を表したものである。図５に示すように、Ｂ（ｉ，Ｋ^＊）は、Ｍ（ｉ）とよくマッチングされる。したがって、適切なα値を利用すれば、Ｂ（ｉ，Ｋ^＊）は、Ｍ（ｉ）の代置値として使われることができる。式［４］のＭ（ｉ）をＢ（ｉ，Ｋ^＊）に置き換えれば、次の式［１１］を得る。

第３に、歪曲を最小化するレートコントロールアルゴリズムを探す過程を説明する。前記式［６］のように制限された最適化問題は、ラグランジュ方法を使用することによって制限のない最適化問題に転換できる。１フレームの代りに、一つのＧＯＰについてのビット数を使用するために、Ｃｈｅｎｇ’ｓｍｅｔｈｏｄを若干変形する。この場合に、本発明の目的は、次の式［１２］を最小化することによって達成される。

ここで、Ｒ（ｉ）は、ｉ番目ＧＯＰに対して割り当てられたビットであり、Ｄ（ｉ）は、式［１１］に表されている。それぞれのＧＯＰは独立的に処理されるために、Ｄ（ｉ）は、単にＲ（ｉ）にのみ従属的である。したがって、最適のポイントで次の式［１３］を得る。

前記式［１１］を、Ｄ（ｉ）^２について整理し、それを式［１３］に代入すれば、式［１４］のようになる。

あらゆるＧＯＰに対するＲ（ｉ）の和は、Ｂ_Ｔにならねばならないために、式［１４］の右辺は、次の式［１５］を満足する。

前記式［１５］を整理し、それを式［１４］に代入すれば、最適のビット割り当ては、次の式［１６］のようになる。

但し、

である。ここで、２個の未知の変数、すなわち、α及びλは同時に除去できるという点に注目せねばならない。そして、式［１６］の右辺の２番目項を、ｉ＝１からＮまで合わせば０となる。このように、固定されたビット割り当て方法を使用する代わりに、本発明で提案された方法、すなわち、前記式［１６］の結果を利用することによって、ビデオコーダのレート歪曲性能を向上させることができる。さらに、式［１６］及び式［１７］は、単純な和であり、それぞれのＧＯＰごとに１回のみ計算されるので、レートコントロールのために付加される計算上の複雑性は、無視できるほどであるといえる。

以下では、シミュレーションを通じて、本発明で提案した方法の性能を従来の方法と比較する。両者ともに対する基礎的ビデオコーダとしては、従来のＭＣ−ＥＺＢＣ方法（前記Ｓ．−Ｔ．Ｈｓｉａｎｇの論文参照）を利用する。両者の性能を比較するための動画像ソースとしては、３０Ｈｚの秒当たりフレームレート（ＦＰＳ；ＦｒａｍｅｐｅｒＳｅｃｏｎｄ）を持つｆｏｒｅｍａｎ、ｆｏｏｔｂａｌｌ、及びｃａｎｏａシーケンスを使用する。まず、前記シーケンスをエンコーディングした後、従来のＣＢＲ方法（前記Ｓ．−Ｔ．Ｈｓｉａｎｇの論文参照）を利用したプリデコーダと、本発明で提案されたレートコントロール方法を利用したプリデコーダとをそれぞれ使用して、ビットレートを６４ｋｂｐｓから７６８ｋｂｐｓまで変化させつつ、ビットストリームを生成した。

表１は、ＣＢＲ方法と本発明で提案されたレートコントロール方法とをそれぞれ使用して求めた平均ＰＳＮＲ値を示す。ここで、ＶＢＲ−Ｄは、前記歪曲を最小化するために本発明で提案した方法を意味する。

表１に示すように、本発明で提案された方法は、従来のＣＢＲ方法より０．４ｄＢほど向上した性能を示す。そして、６４ｋｂｐｓのビットレートで、ＰＳＮＲの性能向上は非常に少なく観察される。このような傾向は、主に、非常に低いビットレートでテクスチャー情報が足りなくて発生する。これは、従来のＭＣ−ＥＺＢＣ方法下では、単にテクスチャー情報のみスケーラブル可能であるからである。

表２は、ＣＢＲ及びＶＢＲ−ＤそれぞれについてのＰＳＮＲ値の標準偏差を示す。

これによれば、ＶＢＲ−Ｄ方法が、ＰＳＮＲ曲線の標準偏差をかなり減少させていることが分かる。ＶＢＲ−Ｄ方法は、フレームＰＳＮＲの標準偏差を約２５％程度減少させる。図６は、ｆｏｏｔｂａｌｌＱＣＩＦに対するテクスチャービットレート結果を示す。ＦｏｏｔｂａｌｌＱＣＩＦは、平均５１２Ｋｂｐｓでエンコーディングされた。図６に示すように、実際平均ビットレートは、ビットレート目標値より小さい。なぜなら、モーションベクトルに関するビットレート及びヘッダ情報を含んでいないからである。さらに、ＰＳＮＲ曲線の全体的扁平度を調べるために、フレームＰＳＮＲの代りにＧＯＰ−平均ＰＳＮＲを図示した。図６に示すように、ＣＢＲのビットレートはほぼ一定であり、ＶＢＲ−Ｄのビットレートは、変化が非常に大きい。なぜなら、非常に変化が大きい場面特徴によって最適化されるからである。一方、図７に示すように、ＶＢＲ−ＤのＧＯＰ−平均ＰＳＮＲ曲線は、ＣＢＲのそれより若干扁平である。このような属性は、視覚的画質を高めるのに非常に有用である。なぜなら、視覚的画質は、良い画質を持つフレームの視覚的画質を向上させるよりは、悪い画質を持つフレームの視覚的画質を向上させることが、人間の知覚的特性を考慮する時にさらに効率的であるからである。

図８は、本発明による全体動作を示すフローチャートであり、図９は、図８のＳ８２０段階の細部段階を示すフローチャートである。まず、スケーラブルエンコーダ３１０は、原動画像をエンコーディングすることにより、十分に大きいビットストリーム３５を生成する（Ｓ８１０）。それにより、レートコントロール部３４０は、ユーザの目的とするビットレート３０を基準に、それぞれのコーディングユニットに対する最適のビット量を選択する（Ｓ８２０）。

ここで、前記Ｓ８２０段階の細部段階を説明すれば、まず、それぞれのコーディングユニットに対する総ビット数、場面複雑性関数及び原フレームと最終フレームとの差値（原フレームに対する最終フレームの歪曲）を利用して、レート歪曲関数を定義する（Ｓ９１０）。次いで、前記場面複雑性関数を、前記コーディングユニット及びビット平面数によるビット分布を利用してモデリングし、前記レート歪曲関数に前記モデリングされた場面複雑性関数を適用する（Ｓ９２０）。そして、前記モデリングされた場面複雑性関数を適用したレート歪曲関数を利用して、歪曲を最小化する新たなレートコントロール関数を誘導する（Ｓ９３０）。

プリデコーダ３２０は、前記ビットストリーム３５を入力されて、前記レートコントロール部３４０から誘導された新たなレートコントロール関数、すなわち、誘導された最適のビット量を基準に前記ビットストリーム３５の一部を切り取って、適当量のビットを持つビットストリーム４０を抽出する（Ｓ８３０）。次いで、デコーダ３３０は、前記抽出されたビットストリーム４０から動画像のイメージシーケンスを復元して、圧縮解除する（Ｓ８４０）。それにより、最終的に圧縮解除された動画像が生成される。

本発明によれば、ネットワーク環境によって変化しやすいバンド幅によって、適した大きさのビットストリームを提供できる。

本発明によれば、プリデコーダでＣＢＲを利用してレートコントロールを行う方法に比べて、可視的な画質面で平均ＰＳＮＲが０．４ｄＢ以上向上するという長所がある。

本発明によるレートコントロールアルゴリズムは、現在のあらゆるウェーブレット基盤のスケーラブルビデオコーディング技術に適用できるという長所がある。

以上、添付図を参照して本発明の実施例を説明したが、本発明が属する技術分野で当業者ならば本発明がその技術的思想や必須特徴を変更せずとも他の具体的な形に実施されうるということが理解できるであろう。したがって、前述した実施例は全ての面で例示的なものであって、限定的なものではないと理解せねばならない。

レート歪曲最適化技術に基づいたビデオコデックの全体的ブロック図である。従来技術によるウェーブレット基盤のスケーラブルビデオコデックの動作構造を示すブロック図である。本発明によるウェーブレット基盤のスケーラブルビデオコデックの動作構造を示すブロック図である。ｆｏｒｅｍａｎＱＣＩＦシーケンスに対するビット分布を示す図である。 αが０．１５６である時、Ｍ（ｉ）及びＢ（ｉ，Ｋ^＊）を示す図である。ｆｏｏｔｂａｌｌＱＣＩＦについて、テクスチャービットレートを示す図である。ｆｏｏｔｂａｌｌＱＣＩＦについて、ＧＯＰ−平均ＰＳＮＲを示す図である。本発明による全体動作を示すフローチャートである。図８のＳ８２０ステップの細部段階を示すフローチャートである。

Claims

原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する段階と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことを特徴とするビットレートのコントロール方法。
前記コーディングユニットに対するビット量を決定する段階は、場面複雑性関数と原フレームに対する最終フレームの歪曲とを利用して定義される、前記コーディングユニットに対するビット量に対して、前記場面複雑性関数を、前記コーディングユニットに対するビット平面数によるビット分布を利用して決定する段階と、前記原フレームと最終フレームの歪曲とを最小化する方法により、前記コーディングユニットに対するビット量を決定する段階と、を含むことを特徴とする請求項１に記載のビットレートのコントロール方法。
前記コーディングユニットに対するビット量であるＲ（ｉ）は、

のように定義され、前記場面複雑性関数であるＭ（ｉ）は、ｋ個のビット平面を使用する累積されたエンコーディングされたビットＢ（ｉ，ｋ）を、線形補間法を利用して総エンコーディングされたビットをＢ_Ｔにするビット平面数Ｋ^＊を決定し、前記場面複雑性関数Ｍ（ｉ）をＢ（ｉ，Ｋ^＊）にリモデルリングし、前記計算されたＢ（ｉ，Ｋ^＊）を適用したレート歪曲関数

でＤ（ｉ）^２が最小になるＲ（ｉ）の式を求め、

の制限条件を適用して最適のビット割り当てを持つＲ（ｉ）を求めることを特徴とする請求項２に記載のビットレートのコントロール方法。
原動画像をエンコーディングすることにより、ビットストリームを生成する段階と、
前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定する段階と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことを特徴とするスケーラブルビデオのコーディング方法。
前記抽出されたビットストリームから前記原画像のイメージシーケンスを復元して、圧縮解除する段階をさらに含むことを特徴とする請求項４に記載のススケーラブルビデオのコーディング方法。
前記コーディングユニットに対するビット量であるＲ（ｉ）は、

のように定義され、前記場面複雑性関数であるＭ（ｉ）は、ｋ個のビット平面を使用する累積されたエンコーディングされたビットＢ（ｉ，ｋ）を、線形補間法を利用して総エンコーディングされたビットをＢ_Ｔにするビット平面数Ｋ^＊を決定し、前記場面複雑性関数Ｍ（ｉ）をＢ（ｉ，Ｋ^＊）にリモデルリングし、前記計算されたＢ（ｉ，Ｋ^＊）を適用したレート歪曲関数

でＤ（ｉ）^２が最小になるＲ（ｉ）の式を求め、

の制限条件を適用して最適のビット割り当てを持つＲ（ｉ）を求めることを特徴とする請求項４に記載のスケーラブルビデオのコーディング方法。
前記Ｄ（ｉ）^２が最小になるＲ（ｉ）の式を求めることは、ラグランジュ方法を利用することを特徴とする請求項６に記載のスケーラブルビデオのコーディング方法。
原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する手段と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する手段と、を含むことを特徴とするビットレートのコントロール装置。
前記コーディングユニットに対するビット量を決定する手段は、場面複雑性関数と原フレームに対する最終フレームの歪曲とを利用して定義される、前記コーディングユニットに対するビット量に対して、前記場面複雑性関数を、前記コーディングユニットに対するビット平面数によるビット分布を利用して決定する手段と、前記原フレームと最終フレームの歪曲とを最小化する方法により、前記コーディングユニットに対するビット量を決定する手段と、を含むことを特徴とする請求項８に記載のビットレートのコントロール装置。
前記コーディングユニットに対するビット量であるＲ（ｉ）は、

のように定義され、前記場面複雑性関数であるＭ（ｉ）は、ｋ個のビット平面を使用する累積されたエンコーディングされたビットＢ（ｉ，ｋ）を、線形補間法を利用して総エンコーディングされたビットをＢ_Ｔにするビット平面数Ｋ^＊を決定し、前記場面複雑性関数Ｍ（ｉ）をＢ（ｉ，Ｋ^＊）にリモデルリングし、前記計算されたＢ（ｉ，Ｋ^＊）を適用したレート歪曲関数

でＤ（ｉ）^２が最小になるＲ（ｉ）の式を求め、

の制限条件を適用して最適のビット割り当てを持つＲ（ｉ）を求めることを特徴とする請求項９に記載のビットレートのコントロール装置。
原動画像をエンコーディングすることによりビットストリームを生成するエンコーダと、
前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定するレートコントロール部と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出するプリデコーダと、を含むことを特徴とするスケーラブルビデオコーディング装置。
前記抽出されたビットストリームから前記原動画像のイメージシーケンスを復元して、圧縮解除するデコーダをさらに含むことを特徴とする請求項１１に記載のスケーラブルビデオコーディング装置。
前記コーディングユニットに対するビット量であるＲ（ｉ）は、

のように定義され、前記場面複雑性関数であるＭ（ｉ）は、ｋ個のビット平面を使用する累積されたエンコーディングされたビットＢ（ｉ，ｋ）を、線形補間法を利用して総エンコーディングされたビットをＢ_Ｔにするビット平面数Ｋ^＊を決定し、前記場面複雑性関数Ｍ（ｉ）をＢ（ｉ，Ｋ^＊）にリモデルリングし、前記計算されたＢ（ｉ，Ｋ^＊）を適用したレート歪曲関数

でＤ（ｉ）^２が最小になるＲ（ｉ）の式を求め、

の制限条件を適用して最適のビット割り当てを持つＲ（ｉ）を求めることを特徴とする請求項１３に記載のスケーラブルビデオコーディング装置。
前記Ｄ（ｉ）^２が最小になるＲ（ｉ）の式を求めることは、ラグランジュ方法を利用することを特徴とする請求項６に記載のスケーラブルビデオコーディング装置。
請求項１に記載の方法をコンピュータで読み取り可能なプログラムで記録した記録媒体。