JP2007503151A - プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置 - Google Patents
プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置 Download PDFInfo
- Publication number
- JP2007503151A JP2007503151A JP2006523778A JP2006523778A JP2007503151A JP 2007503151 A JP2007503151 A JP 2007503151A JP 2006523778 A JP2006523778 A JP 2006523778A JP 2006523778 A JP2006523778 A JP 2006523778A JP 2007503151 A JP2007503151 A JP 2007503151A
- Authority
- JP
- Japan
- Prior art keywords
- bit
- amount
- bitstream
- bits
- coding unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/115—Selection of the code volume for a coding unit prior to coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/14—Coding unit complexity, e.g. amount of activity or edge presence estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/15—Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/152—Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/177—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/19—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
- H04N19/619—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding the transform being operated outside the prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本発明は、プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置を提供する。本発明のビットレートのコントロール方法は、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する段階と、決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階とを含む。
Description
本発明は、プリデコーダを利用するウェーブレット基盤のスケーラブルビデオコーディングにおいて、前記プリデコーダ側で利用できる情報を利用して、ビットレートを最適にコントロールする方法及び装置に関する。
ビデオコーディング技術のレート歪曲性能は、精巧なレートコントロールアルゴリズムを使用することによって、相当部分向上できると知られている。大部分の従来技術は、最適のレート歪曲という観点で、それぞれのコーディングユニットに適切な数のビット数を割り当てるために、エンコーディング領域で生成される有用な情報を利用する。ウェーブレット基盤のスケーラブルビデオコーディングにおいては、エンコーダは、エンベッディング原則によって一つの大きいビットストリームを生成し、プリデコーダないしトランスコーダが、前記エンベッディング原則によって前記ビットストリームを任意の大きさに切り取る。ここで、前記エンベッディング原則によるエンコーディング方式で圧縮されたビットストリームの場合には、一部のビットストリームを切り取ってもデータが復元できるが、それ以外のエンコーディング方式で圧縮されたビットストリームの場合には、エンコーダで生成されたビットストリームのうち、任意に一部のビットストリームを切り取れば、データが復元できないという特徴がある。
このようなエンベッディング属性は根本的に、スケーラブルビデオコーダは、レートコントロールアルゴリズムの使用に適するようにする。しかし、スケーラブルビデオコーダでは、実際ビット割り当てがエンコーディング領域以後に行われねばならないために、エンコーダでのみ使用可能な情報を利用する伝統的なレートコントロールアルゴリズムを適用できなくなるので、スケーラブルビデオコーダに適した別途のレートコントロールアルゴリズムを創案する必要がある。
一般的にスケーラブルビデオコーディングは、前もって圧縮されたビットストリームから得られる多様な解像度、画質及び臨時レベルにおいて、部分的なデコーディングを可能にし、低画質ビデオを使用するモバイルホンから、高画質映画を使用するデジタル記録媒体まで、多様な環境で信号を効率的に表現し、かつ伝送する有望な技術として認識されている。ここで、前記臨時レベルは、秒当たりフレーム数を原データと別にする場合に、前記秒当たりフレーム数それぞれを意味する。
ビデオコーディング技術におけるスケーラビリティの具現には、多くの接近方法がある。MPEG−4 FGS(Fine Granularity Scalability)がSNR(信号対雑音比)及び臨時的スケーラブルビデオコーディングの標準として確立されているとしても、ウェーブレットに基づいたいろいろなスケーラブルビデオのコーディング方法も、既にSNR、空間的及び臨時的スケーラビリティを具現するための潜在力を表している。前記‘臨時的’とは、時間的に配列されたいろいろなフレームのうち一部のフレームを意味し、前記‘空間的’とは、1フレームでの一部分を意味する。
モーション補償エンベッデッドゼロブロックコーディング(以下、MC−EZBC)は、3Dサブバンド/ウェーブレット変換を使用する、完全にスケーラブルなビデオコーディングシステムである。前記3Dサブバンド/ウェーブレット変換は、モーション補償臨時フィルタリング(Motion Compensated Temporal Filtering;以下、MCTF)による臨時的コリレーション、及びウェーブレット変換による空間的コリレーションを使用する。前記MC−MZBCに関するさらに詳細な内容は、S.−T.Hsiangの博士論文‘Highly scalable subband/wavelet image and video coding’(Rensselaer Polytechnic Institute,Newyork,Jan.2002)を参照して分かる。
最近の実験結果によれば、MC−EZBCは、ほぼあらゆるテスト条件でMPEG−4 FGSを凌駕すると知られている。MC−EZBCにおいて、GOP(Group Of Pictures)は、通常16個または32個のフレームを備えるが、あらゆるモーション軌跡に沿って、可逆モーション補償臨時フィルタによって変換される。前記フィルタリングされたフレームは、空間的重複を利用するために、ウェーブレット変換によって分解され、EZBCアルゴリズムによってコーディングされる。一方、モーションベクトルコードストリームは、DPCM(Differential Pulse Code Modulation)及び代数的コーディングの組み合わせによってエンコーディングされる。
EZBCアルゴリズムのエンベッディング属性のために、MC−EZBCでのビットストリームは、感知される程の重大な変形なしに任意のポイントから切り取ることができる。前記エンベッディング属性は、レートを簡単にコントロール可能にする。なぜなら、コントロールパラメータは、通常ハイブリッドコーダに使われる量子化ステップサイズというよりは、それぞれのコーディングユニットに割り当てられたビットレートであるためである。MPEGに対するレートコントロールと比較すると、エンベッデッドェーブレットビデオコーダに対しレートコントロールに関する研究は、相対的に少なかった。P.−Y.Chengは、本人の論文である‘Rate control for an embedded wavelet video coder’(IEEE Trans.Circuits Syst.Video Technol.,vol.7,no.4,pp.696〜702,Aug.1997)で、エンベッデッドェーブレットコーダのレート歪曲性能及び、基準と予想フレーム間のフレーム依存性を利用することによって誘導されるレートコントロール方法を提案した。また、Caetanoは、‘Rate control strategy for embedded wavelet video coders’(Electronics Letters,vol.35,no.21,pp.1815〜1817,Oct.1999.)で、区分的線形レート歪曲モデルを利用することによって、前記Chengの方法をさらに改良した。そして、H.J.Leeは、‘Scalable rate control for MPEG−4 video’(IEEE Trans.Circuits Syst.Video Technol.,vol.10,pp.878〜894,Sept.2000.)で、ゼロツリーエントロピーウェーブレットコーディングのためのレート歪曲に基づいた最適化技術を提案した。大部分のレート歪曲最適化方法は、エンコーダで利用可能ないくつかの有用な情報を使用する。前記有用な情報には、例えば、MAD(Mean Absolute Difference)、MSE(Mean Squared Error)、そしてPSNR(Peak Signal−to−Noise Ratio)などがある。
図1は、レート歪曲最適化技術に基づいたビデオコデックの全体的ブロック図である。このような場合に、レートコントロール部130では、ユーザが最終目的とするビットレート30を基準に、最適の量子化ステップまたはそれぞれのコーディングユニットに対する最適のビット量を選択する。それにより、エンコーダ110は、前記量子化ステップまたは最適のビット量を基準として原動画像10をエンコーディングすることにより、制限された通信状況に合わせてバンド幅が制限されたビットストリーム40を生成する。次いで、デコーダ120は、前記制限されたバンドを持つビットストリーム40からイメージシーケンスを復元して、圧縮解除された動画像20を出力する。このような従来技術で、前記レートコントロールは、エンコーダ側でのみ行われている。
レートコントロール部130で行われる目的ビットレート30を基準としたレートコントロール過程を、以下でさらに詳細に説明する。ソースデータに対する推定値がラプラシアン分布を持つと仮定しよう。もし、歪曲の測定において、差関数を使用すれば、レート歪曲関数であるR(D)は、次の式[1]のように現れる。ここで、Dは、イメージを圧縮する時に発生する歪曲率を意味するものであり、元来のイメージと圧縮解除された最終イメージとの差から計算できる。
前記式[3]のように変形されたレート歪曲関数は、MPEG−4標準で採択されている。MPEG−4 verification model 5.1では、a及びbは、過去のフレームについてのポイント選択及び線形回帰分析を使用して求めることができ、M(i)は、モーション補償ブロックから計算でき、これより目標量子化インデックスQ(i)が求められる。Q(i)を求めた後には、モデルパラメータ、すなわち、a及びbは、現在フレームの情報によってアップデートされる。MPEG−4で使われるレートコントロールアルゴリズムが、レート歪曲性能を向上させるに効率的ではあるが、そのアルゴリズムを、プリデコーダを使用するスケーラブルビデオフレームワークに適用するためには、多少の変更が必要である。
図2は、従来技術によるウェーブレット基盤のスケーラブルビデオコデックの動作構造を示すブロック図である。従来のレートコントロールアルゴリズムが、一般的にレート歪曲性能を向上させるというが、前記アルゴリズムは、エンコーディング領域でのみ利用できる予測エラー情報を使用している。完全にスケーラブルなビデオコデックを要求する大部分のアプリケーションにおいて、エンコーダ210は、十分に大きいビットストリーム35を生成し、プリデコーダ220ないしトランスコーダは、画質、臨時的条件及び空間的条件を考慮して、前記ビットストリーム35から一部を切り取って、適当量のビットを持つビットストリーム40を抽出する。次いで、デコーダ230は、前記一部を切り取ったビットストリーム40からイメージシーケンスを復元して、圧縮解除された動画像20を出力する。
図2に示すように、レートコントロールは、エンコーダ210の代りにプリデコーダ220で行われる。なぜなら、実際ビットレートは、プリデコーダ220で決定されるためである。しかし、従来には、プリデコーダ220でレートコントロールを行うアルゴリズムに関する研究がほとんどなく、CBR(Constant Bit−Rate)方法(前記S.−T.Hsiangの論文参照)が一般的に使われていた。したがって、プリデコーダでのみ使用可能な情報を使用するレートコントロールアルゴリズムについて研究する必要がある。
前記問題点を解決するために、本発明は、ウェーブレット基盤のスケーラブルビデオコーダの性能を向上させるために、プリデコーダで使用可能な情報のみを使用する新たなレートコントロールアルゴリズムを提供することを目的とする。
そして、それぞれのコーディングユニットに同じ量のビットを割り当てる代わりに、前記コーディングユニットに最適のビット量を割り当てて、レート歪曲性能を向上させることができる方法を提供することを目的とする。
また、前記レートコントロールアルゴリズムを、現在のあらゆるウェーブレット基盤のスケーラブルビデオコーディング技術に適用することを目的とする。
前記目的を達成するために、本発明によるビットレートのコントロール方法は、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する段階と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことを特徴とする。
前記コーディングユニットに対するビット量を決定する段階は、場面複雑性関数と原フレームに対する最終フレームの歪曲とを利用して定義される、前記コーディングユニットに対するビット量に対して、前記場面複雑性関数を、前記コーディングユニットに対するビット平面数によるビット分布を利用して決定する段階と、前記原フレームと最終フレームの歪曲とを最小化する方法により、前記コーディングユニットに対するビット量を決定する段階と、を含むことが望ましい。
そして、前記コーディングユニットに対するビット量であるR(i)は、
前記目的を達成するために、本発明によるスケーラブルビデオのコーディング方法は、原動画像をエンコーディングすることにより、ビットストリームを生成する段階と、前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定する段階と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことが望ましい。
前記スケーラブルビデオのコーディング方法は、前記抽出されたビットストリームから前記原画像のイメージシーケンスを復元して、圧縮解除する段階をさらに含むことが望ましい。
また、前記目的を達成するために、本発明によるビットレートのコントロール装置は、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する手段と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する手段と、を含むことを特徴とする。
また、前記目的を達成するために、本発明によるスケーラブルビデオコーディング装置は、原動画像をエンコーディングすることによりビットストリームを生成するエンコーダと、前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定するレートコントロール部と、前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出するプリデコーダと、を含むことが望ましい。
前記スケーラブルビデオコーディング装置は、前記抽出されたビットストリームから前記原動画像のイメージシーケンスを復元して、圧縮解除するデコーダをさらに含むことが望ましい。
また、前記目的を達成するために、プリデコーダを利用するウェーブレット基盤のスケーラブルビデオのコーディング方法は、コンピュータで読み取り可能なプログラムで、記録媒体に記録できる。
以下、図面によって、本発明による一実施例を詳細に説明する。
図3は、本発明によるウェーブレット基盤のスケーラブルビデオコデックの動作構造を示すブロック図である。スケーラブルエンコーダ310は、原動画像をエンコーディングすることにより、十分に大きいビットストリーム35を生成し、レートコントロール部340は、ユーザの目的するビットレート30を基準に、それぞれのコーディングユニットに対する最適のビット量を選択する。プリデコーダ320は、前記ビットストリーム35を入力され、前記レートコントロール部340で選択された最適のビット量を基準に前記ビットストリーム35の一部を切り取って、適当量のビットを持つビットストリーム40を抽出する。次いで、デコーダ330は、前記抽出されたビットストリーム40から動画像のイメージシーケンスを復元して、圧縮解除する。それにより、最終的に圧縮解除された動画像が生成される。
本発明は、このうち、レートコントロール部340での動作部分が核心をなす。前記レートコントロール部340での動作は、3部分に大別されるが、第1に、プリデコーダのためのレート歪曲関数を定義する過程と、第2に、プリデコーダ側の情報を利用する場面複雑性関数モデリング過程、及び第3に、前記プリデコーダのためのレート歪曲関数を利用して歪曲を最小化する、新たなレートコントロール関数を誘導する過程でなる。本発明では、場面複雑性関数として、従来のエンコーダでのみ使用可能なMAD情報の代りに、同じ数のビット平面でのビット分布に置き換える。
第一に、レート歪曲関数を定義する過程を説明する。
伝送されるビデオは、それぞれ複数のフレームを持つ複数のコーディングユニット、すなわち、複数のGOPに分けられる。このようにすれば、GOPに存在するそれぞれのフレームは、MCTF過程のために互いに強くコリレートされている一方、それぞれのGOPは、分離されてエンコーディングされ、かつ互いに独立的であるために、レートコントロールアルゴリズムを簡略化できる。まず、前記式[1]のレート歪曲関数を変形すれば、次の式[4]を得ることができる。
第2に、次いで、ビット分布を利用して場面複雑性を推定する過程を説明する。量子化ウェーブレット係数に使われるエンベッデッド量子化アルゴリズムは、基本的に2つのステップで構成される。前記2つのステップは、それぞれのサブバンドについての3次元表現法を確立するステップと、重要なピクセルについての進歩したビット平面コーディングを行うステップとを意味する。進歩したビット平面コーディングは、2nをしきい値として持つ、連続的な近似量子化方法で考えられる。ここで、係数nは、ビット平面インデックスを意味する。さらに、重要なピクセルの数は、割り当てられたビットの量と直接的に関連している。重要なピクセルの数が多ければ、そのピクセルのエンコーディングに多くのビットが必要であり、重要なピクセルの数が少なければ、そのピクセルのエンコーディングに少ないビットが必要である。
図4は、foreman QCIFシーケンスに対するビット分布を図示したものである。図4で明暗の強度は、一つのGOPインデックスに対する総割り当てられたビットの量及び使われたビット平面の数を意味し、明るいほどビット数が高い。相対的な強度を表すために、前記強度は、与えられた数のビット平面で、あらゆるGOPの和によって正規化されている。図4に示すように、割り当てられたビット数は、主に、同じ数のビット平面を持つ他のGOPインデックス(GOPの時間順序配列)によって可変的である。もし、場面複雑性を、与えたイメージフレームをエンコーディングする難しさの程度と定義するならば、同じビット平面の数で、一つのGOPに割り当てられたビットの量は、GOPのうち相対的な場面複雑性と強くコリレートされる。
B(i,k)を、k個のビット平面を使用する累積されたエンコーディングされたビットとしよう。使われたビット平面の数が一定の定数値Kを持つとすれば、B(i,k)は、総割り当てられたビットを持つi番目GOPに対する場面複雑性についての推定値となり、前記総割り当てられたビットは、次の式[7]のように与えられる。
図5は、αが0.156である時、M(i)及びB(i,K*)を表したものである。図5に示すように、B(i,K*)は、M(i)とよくマッチングされる。したがって、適切なα値を利用すれば、B(i,K*)は、M(i)の代置値として使われることができる。式[4]のM(i)をB(i,K*)に置き換えれば、次の式[11]を得る。
以下では、シミュレーションを通じて、本発明で提案した方法の性能を従来の方法と比較する。両者ともに対する基礎的ビデオコーダとしては、従来のMC−EZBC方法(前記S.−T.Hsiangの論文参照)を利用する。両者の性能を比較するための動画像ソースとしては、30Hzの秒当たりフレームレート(FPS;Frame per Second)を持つforeman、football、及びcanoaシーケンスを使用する。まず、前記シーケンスをエンコーディングした後、従来のCBR方法(前記S.−T.Hsiangの論文参照)を利用したプリデコーダと、本発明で提案されたレートコントロール方法を利用したプリデコーダとをそれぞれ使用して、ビットレートを64kbpsから768kbpsまで変化させつつ、ビットストリームを生成した。
表1は、CBR方法と本発明で提案されたレートコントロール方法とをそれぞれ使用して求めた平均PSNR値を示す。ここで、VBR−Dは、前記歪曲を最小化するために本発明で提案した方法を意味する。
表2は、CBR及びVBR−DそれぞれについてのPSNR値の標準偏差を示す。
図8は、本発明による全体動作を示すフローチャートであり、図9は、図8のS820段階の細部段階を示すフローチャートである。まず、スケーラブルエンコーダ310は、原動画像をエンコーディングすることにより、十分に大きいビットストリーム35を生成する(S810)。それにより、レートコントロール部340は、ユーザの目的とするビットレート30を基準に、それぞれのコーディングユニットに対する最適のビット量を選択する(S820)。
ここで、前記S820段階の細部段階を説明すれば、まず、それぞれのコーディングユニットに対する総ビット数、場面複雑性関数及び原フレームと最終フレームとの差値(原フレームに対する最終フレームの歪曲)を利用して、レート歪曲関数を定義する(S910)。次いで、前記場面複雑性関数を、前記コーディングユニット及びビット平面数によるビット分布を利用してモデリングし、前記レート歪曲関数に前記モデリングされた場面複雑性関数を適用する(S920)。そして、前記モデリングされた場面複雑性関数を適用したレート歪曲関数を利用して、歪曲を最小化する新たなレートコントロール関数を誘導する(S930)。
プリデコーダ320は、前記ビットストリーム35を入力されて、前記レートコントロール部340から誘導された新たなレートコントロール関数、すなわち、誘導された最適のビット量を基準に前記ビットストリーム35の一部を切り取って、適当量のビットを持つビットストリーム40を抽出する(S830)。次いで、デコーダ330は、前記抽出されたビットストリーム40から動画像のイメージシーケンスを復元して、圧縮解除する(S840)。それにより、最終的に圧縮解除された動画像が生成される。
本発明によれば、ネットワーク環境によって変化しやすいバンド幅によって、適した大きさのビットストリームを提供できる。
本発明によれば、プリデコーダでCBRを利用してレートコントロールを行う方法に比べて、可視的な画質面で平均PSNRが0.4dB以上向上するという長所がある。
本発明によるレートコントロールアルゴリズムは、現在のあらゆるウェーブレット基盤のスケーラブルビデオコーディング技術に適用できるという長所がある。
以上、添付図を参照して本発明の実施例を説明したが、 本発明が属する技術分野で当業者ならば本発明がその技術的思想や必須特徴を変更せずとも他の具体的な形に実施されうるということが理解できるであろう。したがって、前述した実施例は全ての面で例示的なものであって、限定的なものではないと理解せねばならない。
Claims (15)
- 原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する段階と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことを特徴とするビットレートのコントロール方法。 - 前記コーディングユニットに対するビット量を決定する段階は、場面複雑性関数と原フレームに対する最終フレームの歪曲とを利用して定義される、前記コーディングユニットに対するビット量に対して、前記場面複雑性関数を、前記コーディングユニットに対するビット平面数によるビット分布を利用して決定する段階と、前記原フレームと最終フレームの歪曲とを最小化する方法により、前記コーディングユニットに対するビット量を決定する段階と、を含むことを特徴とする請求項1に記載のビットレートのコントロール方法。
- 原動画像をエンコーディングすることにより、ビットストリームを生成する段階と、
前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定する段階と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する段階と、を含むことを特徴とするスケーラブルビデオのコーディング方法。 - 前記抽出されたビットストリームから前記原画像のイメージシーケンスを復元して、圧縮解除する段階をさらに含むことを特徴とする請求項4に記載のススケーラブルビデオのコーディング方法。
- 前記D(i)2が最小になるR(i)の式を求めることは、ラグランジュ方法を利用することを特徴とする請求項6に記載のスケーラブルビデオのコーディング方法。
- 原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を決定する手段と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出する手段と、を含むことを特徴とするビットレートのコントロール装置。 - 前記コーディングユニットに対するビット量を決定する手段は、場面複雑性関数と原フレームに対する最終フレームの歪曲とを利用して定義される、前記コーディングユニットに対するビット量に対して、前記場面複雑性関数を、前記コーディングユニットに対するビット平面数によるビット分布を利用して決定する手段と、前記原フレームと最終フレームの歪曲とを最小化する方法により、前記コーディングユニットに対するビット量を決定する手段と、を含むことを特徴とする請求項8に記載のビットレートのコントロール装置。
- 原動画像をエンコーディングすることによりビットストリームを生成するエンコーダと、
前記生成されたビットストリームのビット平面数によるビット分布を利用して場面複雑性関数を決定し、原画像をエンコーディングして生成されたビットストリームを、原フレームに対する最終フレームの歪曲が最小化するように、それぞれのコーディングユニットに対するビット量を前記場面複雑性関数で表すことによって決定するレートコントロール部と、
前記決定されたビット量を基準に前記ビットストリームの一部を切り取って、目的とする量のビットを持つビットストリームを抽出するプリデコーダと、を含むことを特徴とするスケーラブルビデオコーディング装置。 - 前記抽出されたビットストリームから前記原動画像のイメージシーケンスを復元して、圧縮解除するデコーダをさらに含むことを特徴とする請求項11に記載のスケーラブルビデオコーディング装置。
- 前記D(i)2が最小になるR(i)の式を求めることは、ラグランジュ方法を利用することを特徴とする請求項6に記載のスケーラブルビデオコーディング装置。
- 請求項1に記載の方法をコンピュータで読み取り可能なプログラムで記録した記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US49756503P | 2003-08-26 | 2003-08-26 | |
KR1020030073952A KR20050038732A (ko) | 2003-10-22 | 2003-10-22 | 프리디코더를 이용하는 스케일러블 비디오 코딩 방법 및장치 |
PCT/KR2004/001692 WO2005020581A1 (en) | 2003-08-26 | 2004-07-09 | Scalable video coding method and apparatus using pre-decoder |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007503151A true JP2007503151A (ja) | 2007-02-15 |
Family
ID=36096822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006523778A Pending JP2007503151A (ja) | 2003-08-26 | 2004-07-09 | プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050047503A1 (ja) |
EP (1) | EP1665799A4 (ja) |
JP (1) | JP2007503151A (ja) |
AU (1) | AU2004302413B2 (ja) |
CA (1) | CA2536587A1 (ja) |
WO (1) | WO2005020581A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050175109A1 (en) * | 2004-02-11 | 2005-08-11 | Anthony Vetro | Optimal bit allocation for error resilient video transcoding |
KR100621581B1 (ko) * | 2004-07-15 | 2006-09-13 | 삼성전자주식회사 | 기초 계층을 포함하는 비트스트림을 프리디코딩,디코딩하는 방법, 및 장치 |
US8755440B2 (en) * | 2005-09-27 | 2014-06-17 | Qualcomm Incorporated | Interpolation techniques in wavelet transform multimedia coding |
US9544602B2 (en) * | 2005-12-30 | 2017-01-10 | Sharp Laboratories Of America, Inc. | Wireless video transmission system |
US7401062B2 (en) * | 2006-06-13 | 2008-07-15 | International Business Machines Corporation | Method for resource allocation among classifiers in classification systems |
US8553757B2 (en) * | 2007-02-14 | 2013-10-08 | Microsoft Corporation | Forward error correction for media transmission |
US8218811B2 (en) | 2007-09-28 | 2012-07-10 | Uti Limited Partnership | Method and system for video interaction based on motion swarms |
JP5359302B2 (ja) * | 2008-03-18 | 2013-12-04 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8325800B2 (en) | 2008-05-07 | 2012-12-04 | Microsoft Corporation | Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers |
US8379851B2 (en) | 2008-05-12 | 2013-02-19 | Microsoft Corporation | Optimized client side rate control and indexed file layout for streaming media |
US8370887B2 (en) * | 2008-05-30 | 2013-02-05 | Microsoft Corporation | Media streaming with enhanced seek operation |
US8265140B2 (en) * | 2008-09-30 | 2012-09-11 | Microsoft Corporation | Fine-grained client-side control of scalable media delivery |
CN101883283B (zh) * | 2010-06-18 | 2012-05-30 | 北京航空航天大学 | 一种基于saqd域的立体视频码率控制方法 |
US10893266B2 (en) * | 2014-10-07 | 2021-01-12 | Disney Enterprises, Inc. | Method and system for optimizing bitrate selection |
US9883183B2 (en) * | 2015-11-23 | 2018-01-30 | Qualcomm Incorporated | Determining neighborhood video attribute values for video data |
WO2021007684A1 (zh) * | 2019-07-12 | 2021-01-21 | 深圳市大疆创新科技有限公司 | 码流处理方法、设备、计算机可读存储介质 |
KR102289670B1 (ko) * | 2020-04-07 | 2021-08-13 | 인하대학교 산학협력단 | 이기종 프로세서를 사용한 트랜스코딩 서버의 비디오 품질 최대화를 위한 태스크 할당 및 스케쥴링 기법 |
US20220201317A1 (en) * | 2020-12-22 | 2022-06-23 | Ssimwave Inc. | Video asset quality assessment and encoding optimization to achieve target quality requirement |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6181711B1 (en) * | 1997-06-26 | 2001-01-30 | Cisco Systems, Inc. | System and method for transporting a compressed video and data bit stream over a communication channel |
US6570922B1 (en) * | 1998-11-24 | 2003-05-27 | General Instrument Corporation | Rate control for an MPEG transcoder without a priori knowledge of picture type |
AU2002220595A1 (en) * | 2000-10-11 | 2002-04-22 | Koninklijke Philips Electronics N.V. | Scalable coding of multi-media objects |
US6925120B2 (en) * | 2001-09-24 | 2005-08-02 | Mitsubishi Electric Research Labs, Inc. | Transcoder for scalable multi-layer constant quality video bitstreams |
US20040179606A1 (en) * | 2003-02-21 | 2004-09-16 | Jian Zhou | Method for transcoding fine-granular-scalability enhancement layer of video to minimized spatial variations |
-
2004
- 2004-07-09 AU AU2004302413A patent/AU2004302413B2/en not_active Ceased
- 2004-07-09 WO PCT/KR2004/001692 patent/WO2005020581A1/en active Application Filing
- 2004-07-09 JP JP2006523778A patent/JP2007503151A/ja active Pending
- 2004-07-09 EP EP04774102A patent/EP1665799A4/en not_active Withdrawn
- 2004-07-09 CA CA002536587A patent/CA2536587A1/en not_active Abandoned
- 2004-08-25 US US10/925,030 patent/US20050047503A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
AU2004302413A1 (en) | 2005-03-03 |
US20050047503A1 (en) | 2005-03-03 |
AU2004302413B2 (en) | 2008-09-04 |
CA2536587A1 (en) | 2005-03-03 |
EP1665799A1 (en) | 2006-06-07 |
EP1665799A4 (en) | 2010-03-31 |
WO2005020581A1 (en) | 2005-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100654436B1 (ko) | 비디오 코딩 방법과 디코딩 방법, 및 비디오 인코더와디코더 | |
KR100597402B1 (ko) | 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치 | |
KR100750138B1 (ko) | 인간의 시각 특성을 이용한 영상의 부호화, 복호화 방법 및장치 | |
KR100679030B1 (ko) | 하이브리드 비트스트림의 프리디코딩 방법 및 장치 | |
JP2007503151A (ja) | プリデコーダを利用するスケーラブルビデオのコーディング方法及び装置 | |
KR100781525B1 (ko) | 가중 평균합을 이용하여 fgs 계층을 인코딩 및디코딩하는 방법 및 장치 | |
KR100596706B1 (ko) | 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치 | |
KR100703774B1 (ko) | 인트라 코딩을 선택적으로 적용하여 인트라 bl 예측모드의 비디오 신호를 인코딩 및 디코딩하는 방법 및 장치 | |
KR100763181B1 (ko) | 기초계층과 향상계층의 데이터를 바탕으로 예측 정보를코딩하여 코딩율을 향상시키는 방법 및 장치 | |
KR100714689B1 (ko) | 다 계층 구조 기반의 스케일러블 비디오 코딩 및 디코딩방법, 이를 위한 장치 | |
MXPA06006107A (es) | Metodo y aparato de codificacion y decodificacion escalables de video. | |
JP4410245B2 (ja) | ビデオをトランスコーディングする方法 | |
KR20050075483A (ko) | 비디오 코딩 및 디코딩 방법, 및 이를 위한 장치 | |
WO2006006764A1 (en) | Video decoding method using smoothing filter and video decoder therefor | |
RU2329616C2 (ru) | Способ управления расходом битов и устройство для нормализации качества визуального изображения | |
MXPA06006117A (es) | Metodo y aparato de codificacion y decodificacion escalables de video. | |
KR100703751B1 (ko) | 가상 영역의 영상을 참조하여 인코딩 및 디코딩 하는 방법및 장치 | |
KR20050049644A (ko) | 시각적 화질을 균일하게 하는 비트 레이트 컨트롤 방법 및장치 | |
KR20050038732A (ko) | 프리디코더를 이용하는 스케일러블 비디오 코딩 방법 및장치 | |
KR101107318B1 (ko) | 스케일러블 비디오 인코딩, 디코딩 방법 및 스케일러블 비디오 인코더, 디코더 | |
JP2008537866A (ja) | 量子化誤差を低減する方法および装置 | |
CN1843035A (zh) | 使用预解码器的可伸缩视频编码方法和设备 | |
AU2007221795B2 (en) | Method and apparatus for scalable video encoding and decoding | |
Umnyashkin et al. | Layered Motion Compensation for a Low Bit Rate Embedded Wavelet Video Coder | |
EP1813114A1 (en) | Method and apparatus for predecoding hybrid bitstream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090609 |