JP2008506328A

JP2008506328A - 基礎階層を利用するスケーラブルビデオコーディング方法および装置。

Info

Publication number: JP2008506328A
Application number: JP2007521391A
Authority: JP
Inventors: ハン，ウ−ジン; ハ，ホ−ジン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-07-15
Filing date: 2005-07-04
Publication date: 2008-02-28
Anticipated expiration: 2025-07-04
Also published as: CN1722838B; EP1766998A1; JP5014989B2; WO2006006778A1; CN101820541A; US20060013313A1; EP1766998A4; CN1722838A; CA2573843A1; KR100679011B1; KR20060006328A

Abstract

本発明はビデオ圧縮に関するものであって、より詳細にはスケーラブルビデオコーディングにおいて基礎階層を利用して、より効率的に時間的フィルタリングを行う方法に関するものである。
本発明によるスケーラブルビデオエンコーダでの時間的フィルタリング方法は、入力された元ビデオシーケンスに対して時間的ダウンサンプリングおよび空間的ダウンサンプリングを行い、支援される最低フレーム率および最低解像度を有するビデオシーケンスを生成する段階と、基礎階層を所定のコーデックでエンコーディングした後、デコーディングする段階と、デコーディングされた基礎階層を支援される最高解像度でアップサンプリングする段階と、元ビデオシーケンスの最上位時間的レベルに存在するフレームを前記アップサンプリングされた基礎階層を利用してフィルタリングする段階で構成されている。

Description

本発明はビデオ圧縮に関するものであって、より詳細にはスケーラブルビデオコーディングにおいて基礎階層（ｂａｓｅ−ｌａｙｅｒ）を利用して、より効率的に時間的フィルタリングを行う方法に関するものである。

インターネットを含めて情報通信技術が発達するのにともない文字、音声だけでなく画像通信が増加している。既存の文字を中心とした通信方式では消費者の多様な欲求を満足させることができず、これに伴い文字、映像、音楽など多様な形態の情報を受容することができるマルチメディアサービスが増加している。

マルチメディアデータはその量が膨大であり、大容量の保存媒体を必要とし伝送時に広い帯域幅を必要とする。例をあげれば６４０＊４８０の解像度を有する２４ｂｉｔトゥルーカラーのイメージは一フレーム当たり６４０＊４８０＊２４ｂｉｔの容量、言い換えれば約７．３７Ｍｂｉｔのデータが必要である。

これを秒当たり３０フレームで送る場合には２２１Ｍｂｉｔ／ｓｅｃの帯域幅を必要とし、９０分間上映される映画を保存すれば約１２００Ｇｂｉｔの保存空間を必要とする。

したがって、文字、映像、オーディオを含んだマルチメディアデータを伝送するためには圧縮コーディング技法を使うのが必須的である。

データを圧縮する基本的な原理はデータの重複（冗長）を除去する過程である。イメージで同じ色やオブジェクトが反復されるような空間的重複や、動映像フレームで隣接フレームがほとんど変化しない場合や、オーディオで同じ音が継続して反復するような時間的重複、または人間の視覚および知覚能力が、高い周波数に鈍感なことを考慮した審理視覚重複をなくすことによってデータを圧縮することができる。

データ圧縮の種類はソースデータの損失可否と、それぞれのフレームに対して独立的に圧縮するのか否かと、圧縮と復元に必要な時間が同一なのか可否により各々損失／無損失圧縮、フレーム内／フレーム間圧縮、対称／非対称圧縮に分けることができる。

この他にも圧縮復元遅延時間が５０ｍｓを越えない場合にはリアルタイム圧縮として分類し、フレームの解像度が多様な場合はスケーラブル圧縮として分類する。文字データや医学用データなどの場合には無損失圧縮が利用され、マルチメディアデータの場合には主に損失圧縮が利用される。一方空間的重複を除去するためにはフレーム内の圧縮が利用され、時間的重複を除去するためにはフレーム間圧縮が利用される。

マルチメディアを伝送するための伝送媒体は媒体別にその性能が異なる。現在使用される伝送媒体は秒当たり数十Ｍｂｉｔのデータを伝送することができる超高速通信網から秒当たり３８４ｋｂｉｔの伝送速度を有する移動通信網などのように多様な伝送速度を有している。

ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６３、またはＨ．２６４のような従前のビデオコーディングはモーション補償予測に基づいて、時間的重複はモーション補償および時間的フィルタリングによって、除去して空間的重複は空間的変換によって、除去する。このような方法は良い圧縮率を持っているが主アルゴリズムで再帰的接近法を使用しており真正なスケーラブルビットストリームのための柔軟性を持つことができない。

このため最近ではウェーブレット基盤（ｗａｖｅｌｅｔ−ｂａｓｅｄ）のスケーラブルビデオコーディングに対する研究が活発である。スケーラブルビデオコーディングは空間的領域、すなわち解像度の面でスケーラビリティを有するビデオコーディングを意味する。ここでスケーラビリティとは圧縮された一つのビットストリームから部分デコーディング、すなわち、多様な解像度のビデオを再生することができる特性を意味する。

このようなスケーラビリティにはビデオの解像度を調節することができる性質を意味する空間的スケーラビリティとビデオの画質を調節することができる性質を意味するＳＮＲ（信号対雑音比）スケーラビリティと、フレーム率を調節することができる時間的スケーラビリティと、これら各々を組合せたことを含む概念である。

上記のように空間的スケーラビリティはウェーブレット変換によって具現されえ、ＳＮＲスケーラビリティは量子化によって具現されえる。一方、時間的スケーラビリティを具現する方法としては最近、ＭＣＴＦ（ＭｏｔｉｏｎＣｏｍｐｅｎｓａｔｅｄＴｅｍｐｏｒａｌＦｉｌｔｅｒｉｎｇ）、ＵＭＣＴＦ（ＵｎｃｏｎｓｔｒａｉｎｅｄＭＣＴＦ）等の方法が使用されている。

図１および図２は従来のＭＣＴＦフィルタを利用して時間的スケーラビリティを具現する過程を説明する図である。このうち図１はエンコーダでの時間的フィルタリング過程を示したもので、図２はデコーダでの逆時間的フィルタリング動作を示したものである。

図２でＬフレームは低周波あるいは平均フレームを意味し、Ｈフレームは高周波あるいは差異フレームを意味する。図示されたようにコーディングは低い時間的レベルにあるフレーム対を先に時間的フィルタリングをし、低いレベルのフレームを高いレベルのＬフレームとＨフレームに転換し、転換されたＬフレーム対は改めて時間的フィルタリングを行い、さらに高い時間的レベルのフレームで転換される。

ここで、Ｈフレームは他の位置のＬフレームまたは原ビデオフレームを参照フレームとしてモーション推定を行った後、時間的フィルタリングを行い生成されるが、図１では矢印を通してＨフレームが参照する参照フレームを示している。このようにＨフレームは両方向で参照することもできるが、逆方向または順方向と一つだけ参照することもできる。

結果的に、エンコーダは最も高いレベルのＬフレーム一つと残りＨフレームを利用して空間的変換を経てビットストリームを生成する。図２で濃い色で表示されたフレームは空間的変換の対象となるフレームを意味する。

デコーダは受信したビットストリーム（２０または２５）から逆空間的変換を経た後に得られた濃い色のフレームを高いレベルから低いレベルのフレームの順序で演算してフレームを復元する。すなわち、時間的レベル３のＬフレームとＨフレームを利用して時間的レベル２のＬフレーム２個を復元し、時間的レベルのＬフレーム２個とＨフレーム２個を利用して時間的レベル１のＬフレーム４個を復元する。最終的に時間的レベル１のＬフレーム４個とＨフレーム４個を利用して原ビデオフレーム８個を復元する。

このようなスケーラビリティを支援するビデオコーディングシステム、すなわちスケーラブルビデオコーディングシステムの全体的構成は図３に図示した通りである。まず、エンコーダ４０は時間的フィルタリング、空間的変換、および量子化過程を通して入力ビデオ１０を符号化し、ビットストリーム２０を生成する。そして、プレデコーダ５０はデコーダ６０との通信環境またはデコーダ６０端での機器性能等を考慮した条件、例えば、画質、解像度またはフレーム率を抽出条件として、エンコーダ４０から受信したビットストリーム２０のうちテクスチャデータの一部を抽出することによってテクスチャデータに対するスケーラビリティを具現することができる。

デコーダ６０は前記抽出したビットストリーム２５からエンコーダ４０で行われた過程を逆に行い出力ビデオ３０を復元する。もちろん、前記抽出条件によるビットストリームの抽出は必ずプレデコーダ５０で行われなければならないというものではなくデコーダ６０で行うこともでき、また、プレデコーダ５０およびデコーダ６０すべてで行うこともできる。

以上で説明したスケーラブルビデオコーディング技術は現在ＭＰＥＧ−２１ｓｃａｌａｂｌｅｖｉｄｅｏｃｏｄｉｎｇの中心技術を成している。このコーディング技術は、時間的スケーラビリティを支援するためにＭＣＴＦ、ＵＭＣＴＦなどのような時間的フィルタリング方法を使用し、空間的スケーラビリティを支援するためにウェーブレット変換を利用した空間的変換方法を利用する。

このようなスケーラブルビデオコーディングを利用すれば、画質、解像度、フレーム率をすべてプレデコーダ５０端で変形することができる長所があり、高いビット率では圧縮率もまたかなり優秀である。しかし、ビット率が充分でない場合ＭＰＥＧ−４、Ｈ．２６４等既存のコーディング方法に比べてその性能が低下する可能性がある。

これは複合的な原因によって発生するが、まず低い解像度ではウェーブレット変換がＤＣＴ（ディスクリートコサイン変換）に比べ、その性能が落ちることに一次的な原因がある。そして、多様なビット率を支援しなければならないスケーラブルビデオコーディングの特性上、その中の一つのビット率に最適化されるようにエンコーディング過程が行われるため他のビット率ではその性能が落ちるようになることも他の原因になるといえる。

本発明は前記した問題点を考慮して創案されたもので、低いビット率と高いビット率で等しい性能をみせるスケーラブルビデオコーディング方法を提供することを目的とする。

また、本発明は支援すべきビット率のうち最も低いビット率ででは、低いビット率で高い性能をみせるコーディング方法で圧縮を行い、他のビット率ではこの結果を利用してウェーブレット基盤のスケーラブルビデオコーディングを行う方法を提供することを目的とする。

また、本発明は前記ウェーブレット基盤のスケーラブルビデオコーディング時前記最も低いビット率でコーディングある結果を利用して、モーション推定を行う方法を提供するのを目的とする。

前記した目的を達成するために、本発明によるスケーラブルビデオエンコーダでの時間的フィルタリング方法は、（ａ）入力された元ビデオシーケンスに対し時間的ダウンサンプリングおよび空間的ダウンサンプリングを行い、支援される最低フレーム率および最低解像度を有するビデオシーケンスを生成する段階、（ｂ）前記生成されたビデオシーケンスを所定のコーデックでエンコーディングした後にデコーディングする段階、（ｃ）前記デコーディングされた基礎階層を、支援される最高解像度でアップサンプリングする段階、（ｄ）前記元ビデオシーケンスの最上位時間的レベルに存在するフレームを前記アップサンプリングされた基礎階層を利用してフィルタリングする段階を含む。

また、前記した目的を達成するための、本発明によるスケーラブルビデオエンコーディング方法は、（ａ）入力された元ビデオシーケンスから、支援される最低フレーム率および最低解像度を有する基礎階層を生成する段階、（ｂ）前記基礎階層を、支援される最高解像度でアップサンプリングし前記アップサンプリングされた基礎階層を利用して入力された元ビデオシーケンスに対する時間的フィルタリングを行う段階、（ｃ）前記時間的フィルタリングによって生成されるフレームに対し空間的変換を行う段階、（ｄ）前記空間的変換によって生成される変換計数を量子化する段階、および（ｅ）前記生成された基礎階層および前記量子化された変換計数を含むビットストリームを生成する段階を含む。

また、前記した目的を達成するための、本発明によるスケーラブルビデオデコーダで時間的にフィルタリングされたフレームを復元する方法において、（ａ）前記フィルタリングされたフレームが最上位時間的レベルに存在するフレームのうち低周波フレームの場合には前記低周波フレームと対応する基礎階層と合わせることによって原フレームを復元する段階、（ｂ）前記フィルタリングされたフレームが前記最上位時間的レベルに存在するフレームのうち高周波フレームの場合にはエンコーダ側から転送されるモード情報にしたがい前記高周波フレームの各ブロック別に原フレームを復元する段階と、（ｃ）前記フィルタリングされたフレームが前記最上位以外の時間的レベルに存在するフレームの場合にはエンコーダ側から転送されるモーション情報にしたがい原フレームを復元する段階を含む。

また、前記した目的を達成するための、本発明によるスケーラブルビデオデコーディング方法は、（ａ）入力されたビットストリームを解釈して、基礎階層の情報と、それ以外階層の情報を分離して抽出する段階と、（ｂ）前記基礎階層の情報を所定のコーデックでデコーディングする段階と、（ｃ）前記デコーディングされた基礎階層のフレームを支援される最高解像度でアップサンプリングする段階と、（ｄ）前記以外階層の情報のうちテクスチャ情報を逆量子化して変換計数を出力する段階と、（ｅ）前記変換計数を空間的領域での変換計数で逆変換する段階および（ｆ）前記アップサンプリングされた基礎階層を利用して、前記空間的領域での変換計数からビデオシーケンスを復元する段階を含む。

また、前記した目的を達成するための、本発明によるスケーラブルビデオエンコーダは、入力された元ビデオシーケンスから、支援される最低フレーム率および最低解像度を有する基礎階層を生成し、前記基礎階層を、支援される最高解像度でアップサンプリングする基礎階層生成モジュールと、前記アップサンプリングされた基礎階層を利用して入力された元ビデオシーケンスに対する時間的フィルタリングを行う時間的フィルタリングモジュールと、前記時間的フィルタリングによって生成されるフレームに対し空間的変換を行う空間的変換モジュール、および前記空間的変換によって生成される変換計数を量子化する量子化モジュールを含む。

また、前記した目的を達成するための、本発明によるスケーラブルビデオデコーダは、入力されたビットストリームを解釈して基礎階層の情報と、以外階層の情報を分離して抽出するビットストリーム解釈モジュールと、前記基礎階層の情報を所定のコーデックでデコーディングする基礎階層デコーダと、前記デコーディングされた基礎階層のフレームを、支援される最高解像度でアップサンプリングする空間的アップサンプリングモジュールと、前記以外階層の情報のうちテクスチャ情報を逆量子化して変換計数を出力する逆量子化モジュールと、前記変換計数を空間的領域での変換計数で逆変換する逆空間的変換モジュール、および前記アップサンプリングされた基礎階層を利用して前記空間的領域での変換計数からビデオシーケンスを復元する逆時間的フィルタリングモジュールを含む。

本発明によれば、スケーラブルビデオコーディングにおいて、低いビット率と高いビット率で等しく高い性能を持つようにする効果がある。

また、本発明によれば、スケーラブルビデオコーディングにおいて、より正確なモーション推定を行うことができる効果がある。

以下、添付された図面を参照して、本発明の好ましい実施形態を詳細に説明する。本発明の利点および特徴、そしてそれらを達成する方法は添付される図面と共に詳細に後述されている実施形態を参照すれば明確になるだろう。

しかし本発明は以下で開示される実施形態に限定されるものではなく互いに異なる多様な形態で具現されるものであり、単に本実施形態は本発明の開示が完全なようにし、本発明が属する技術分野で通常の知識を有する者に発明の範疇を完全に知らせるために提供されているもので、本発明は請求項の範疇によって定義されるのみである。

明細書全体にかけて、同一参照符号は同一構成要素を指し示す。

本発明は、基礎階層に対してはＭＰＥＧ−４、Ｈ．２６４等低いビット率で高い性能をみせるコーディング方法で圧縮を行う。そして、この基礎階層を利用して、それより高いビット率に対するスケーラビリティを支援できるようにウェーブレット基盤のスケーラブルビデオコーディング方法を適用することによって、ウェーブレット基盤のスケーラブルビデオコーディングの長所を生かしながらも、低いビット率での性能を向上させようとする。

ここで、基礎階層というのは、スケーラブルビデオエンコーダで実際に生成されるビットストリームが有する最高フレーム率より低いフレーム率を、前記ビットストリームが持つ最高解像度より低い解像度を有するビデオシーケンスを意味する。このように、基礎階層は前記最高フレーム率および前記最高解像度より低いあるフレーム率および解像度を有すればよく、必ず前記ビットストリームが有する最低フレーム率および最低解像度を有する必要はないが、本発明の好ましい実施形態として、基礎階層は最低フレーム率および最低解像度を有するものとして説明するものである。

以下、本明細書で、このような最低フレーム率および最低解像度、または後述する最高解像度はすべて実際に生成されるビットストリームを基準として決定するもので、スケーラブルビデオエンコーダ自体が支援できる最低フレーム率や最低解像度、または最高解像度とは区別される。このような本発明の一実施形態によるスケーラブルビデオエンコーダ１００は図４に図示するものと同様である。スケーラブルビデオエンコーダ１００は基礎階層生成モジュール１１０、時間的フィルタリングモジュール１２０、モーション推定モジュール１３０、モード選択モジュール１４０、空間的変換モジュール１５０、量子化モジュール１６０、ビットストリーム生成モジュール１７０、および空間的アップサンプリングモジュール１８０を含み構成される。

基礎階層生成モジュール１１０は改めて、時間的ダウンサンプリングモジュール１１１、空間的ダウンサンプリングモジュール１１２、基礎階層エンコーダ１１３、および基礎階層デコーダ１１４を含み構成される。時間的ダウンサンプリングモジュール１１１と空間的ダウンサンプリングモジュール１１２は一つのダウンサンプリングモジュール１１５で具現されることもありえる。

入力されたビデオシーケンスは基礎階層生成モジュール１１０と時間的フィルタリングモジュール１２０に入力される。基礎階層生成モジュール１１０は入力されたビデオシーケンス、すなわち最高解像度および最高フレーム率を有する元ビデオシーケンスを時間的フィルタリングで支援される最低フレーム率および、空間的変換で支援される最低解像度を有するビデオシーケンスに変更する。

次に、このシーケンスを低いビット率で相対的に優秀な画質をみせるコーデックで圧縮した後、またこれを復元する。この復元された映像を基礎階層と定義する。この基礎階層をアップサンプリングして、改めて最高解像度を有するフレームを生成し、これをＢ−イントラ推定をする時、参照フレームで使用することができるよう時間的フィルタリングモジュール１２０に提供する。

基礎階層生成モジュール１１０の細部モジュールの動作をより詳しく察しみる。

時間的ダウンサンプリングモジュール１１１は最高フレーム率を有する元ビデオシーケンスをエンコーダ１００が支援する最低フレーム率を有するビデオシーケンスでダウンサンプリングする。

このような時間的ダウンサンプリングは従来の方法によって、行われるが、単純にフレームをスキップ（ｓｋｉｐ）という方法、スキップと同時に残余フレームにスキップされるフレームの情報を一部反映する方法などがありえ、ＭＣＴＦのように時間的分解を支援するスケーラブルフィルタリング方法を利用することもできる。

空間的ダウンサンプリングモジュール１１２は最高解像度を有する元ビデオシーケンスを、支援される最低解像度を有するビデオシーケンスでダウンサンプリングする。このような空間的ダウンサンプリングも従来の方法により行われる。これは多数のピクセルを一つのピクセルに減少させる過程であるため、多数のピクセルに対し所定の演算を行い一つのピクセルを作り出す。このような演算では平均演算、メジアン演算、ＤＣＴダウンサンプリングなど多様な方法が使用されえる。

以外にもウェーブレット変換により、最低解像度を有するフレームを抽出することもできるので、本発明では望ましく、ウェーブレット変換により、ビデオシーケンスをダウンサンプリングすることにする。なぜならば、本発明を動作させるためには空間的領域でのダウンサンプリングだけでなく空間的領域でのアップサンプリングも必要だが、ウェーブレット変換はこのようにダウン−アップサンプリングの過程で、他の方法に比べて、相対的に均衡をよく成しており、相対的に画質の損傷が少ないためである。

一方、基礎階層エンコーダ１１３は時間的および空間的に最低解像度のビデオシーケンスを低いビット率で優秀な画質をみせるコーデックによりエンコーディングする。

ここで「優秀な画質」とは同じビット率で圧縮した後復元した時、元来の映像とのわい曲が小さいことを意味する。このような画質の判断基準では主にＰＳＮＲ（ピーク信号対雑音比）が使用される。

前記コーデックとしてはＨ．２６４、ＭＰＥＧ−４のように非ウェーブレット系列のコーデックを使うのが好ましい。基礎階層エンコーダ１１３でエンコーディングされた基礎階層はビットストリーム生成モジュール１７０に提供される。

そして、基礎階層デコーダ１１４はエンコーディングされた基礎階層を基礎階層エンコーダ１１３に対応するコーデックでデコーディングして、基礎階層を復元する。このように、エンコーディング過程後改めてデコーディング過程を介するのはスケーラブルビデオデコーダ（図１３の２００）端で参照フレームから原映像を復元する過程と同一に一致させることにより、より正確な映像を復元するためである。しかし、基礎階層デコーダ１１４は必須の要素ではなく、空間的ダウンサンプリングモジュール１１３によって生成された基礎階層をそのまま次の空間的アップサンプリングモジュール１１６に提供しても本発明が動作するには問題がない。

空間的アップサンプリングモジュール１８０は空間的ダウンサンプリングモジュール１１２に対応して、最低解像度のフレームを、支援される最高解像度を有するようにアップサンプリングする。アップサンプリング過程は従来のアップサンプリングフィルタを利用して行われる。ただし、空間的ダウンサンプリングモジュール１１２で望ましくウェーブレット分解を利用したため、これに対応されるようにウェーブレット基盤のアップサンプリングフィルタを使用するのが好ましいものである。

一方、時間的フィルタリングモジュール１２０は時間軸方向でフレームを低周波フレーム（ｌｏｗ−ｐａｓｓｆｒａｍｅ）と高周波フレーム（ｈｉｇｈ−ｐａｓｓｆｒａｍｅ）で分解することによって時間的重複性を減少させる。本発明で時間的フィルタリングモジュール１２０は時間的方向でフィルタリングを行うだけでなく、Ｂ−イントラモードによる差異フィルタリング（ｄｉｆｆｅｒｅｎｃｅｆｉｌｔｅｒｉｎｇ）も行うものとする。したがって本発明での時間的フィルタリングという時間的方向のフィルタリングだけでなくＢ−イントラモードによるフィルタリングも含む概念として理解することができる。

このような低周波フレームは他のフレームを参照しないでエンコーディングされるフレームであり、高周波フレームは他の参照フレームからモーション推定を行い、その結果再構成された予測フレームとの差異から生成されるフレームだ。参照フレームを定める方法としては多様な方法が存在し、ＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）内またはそれ以外フレームを参照フレームとすることもできるが、参照フレームが増えるほどモーションベクタに対するビット量が増えるので通常前後２個のフレーム共に、またはそのうち一つだけを参照フレームとする場合が多い。本発明でも最大前後２個フレームを参照できるものとして説明するものであるが、これに限定される必要はない。

参照フレームを基準として、モーション推定を行う過程はモーション推定モジュール１３０によって行われるが、時間的フィルタリングモジュール１２０は必要な時ごとにモーション推定モジュール１３０でモーション推定を行うようにしてその結果のリターンを受けることができる。

このような時間的フィルタリング方法では、例えばＭＣＴＦ（ｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ）、ＵＭＣＴＦ（ｕｎｃｏｎｓｔｒａｉｎｅｄＭＣＴＦ）等を使用することができる。図５はＭＣＴＦ（５／３フィルタ）を利用した本発明の動作を説明する図である。ここで、一つのＧＯＰは８個のフレームで構成されるものとし、ＧＯＰ境界を越えても参照をすることができるものとする。まず、８個のフレームは時間的レベル１で、４個の低周波フレーム（Ｌ）と４個の高周波フレーム（Ｈ）に分解される。ここで、高周波フレームは自身の左右フレームのすべてを参照フレームとしたり、左右フレームのうち一つのフレームを参照フレームとすることができる。次に、低周波フレームは改めて左右の高周波フレームを利用して、自身をアップデートすることができる。

このようなアップデート過程は、低周波フレームを原フレームそのまま使用せず高周波フレームを反映してアップデートすることによって、高周波フレームに偏重されるエラーを分散させる役割をする。しかし、このようなアップデート過程は、本発明を動作するために必須の内容ではないため以下ではアップデート過程は省略して原フレームがそのまま低周波フレームとなることを形態として説明する。

次に、時間的レベル２で、時間的レベル１の４個の低周波フレームは改めて２個の低周波フレームと２個の高周波フレームに分解される。そして、最後に時間的レベル３で、時間的レベル２の２個の低周波フレームは１個の低周波フレームと１個の高周波フレームに分解される。以後最上位時間的レベルの低周波フレーム１個と残り高周波フレーム７個を符号化して伝送するようになる。

ところで、最上位時間的レベル、すなわち最低フレーム率を有するフレームに対応する区間に対しては従来の時間的フィルタリング方法とは異なった方法でフィルタリングを行う。したがって、現在ＧＯＰ内の時間的レベル３で、低周波フレーム７０および高周波フレーム８０は本発明で提案する方法によりフィルタリングされる。

基礎階層生成モジュール１１０により、最高解像度でアップサンプリングされた基礎階層はすでに支援される最低フレーム率で作られているので、低周波フレーム７０と高周波フレーム８０に各々に対応される個数で提供されている。

低周波フレーム７０は時間的方向では参照するフレームが存在しないため、低周波フレーム７０とアップサンプリングされた基礎階層（Ｂ１）との差異を求める方式で、すなわちＢ−イントラモードでコーディングされる。そして、高周波フレーム８０は左右の低周波フレームを時間的方向で参照することができるため、ブロック別に、モード選択モジュール１４０による所定のモード選択方法にしたがい、時間的に関連したフレームと基礎階層のうちどれを参照フレームとするのかが決定される。そして、時間的フィルタリングモジュール１２０により、前記ブロック別に決定された方法によりコーディングされる。このように、モード選択モジュール１４０でのモード選択過程に対しては図６を参照して後述する。本明細書でのブロックはマクロブロックでもありえ、マクロブロックを分割した大きさのサブブロックでもありえる。

今まで図５のように、最上位時間的レベルが３であり、ＧＯＰが８の場合を例え説明したが、本発明は最上位時間的レベルと、ＧＯＰの大きさはいかなる場合でも適用されえる。
例えば、ＧＯＰがそのまま８であるが、最上位時間的レベルは２の場合ならば、時間的レベル２に存在する４個のフレームのうち２個のＬフレームは差異コーディングを、２個のＨフレームはモード選択によるコーディングを行うようになる。また、時間的方向で参照フレームを定めることも図５では隣接した前後のフレームを一つずつだけ参照することができるとしたが、隣接しない前後のフレームを複数で参照する場合でも本発明が適用されえることは、ビデオコーディング分野の当業者であれば、簡単に知ることができるだろう。

モード選択モジュール１４０は最上位時間的レベルの高周波フレームに対し、所定の費用関数を利用し、時間的に関連したフレームと基礎階層のうち、どれを参照フレームとするのかをブロック別に選択（モード選択する）。図４ではモード選択モジュール１４０は時間的フィルタリングモジュール１２０と別個の構成要素として図示されているが、時間的フィルタリングモジュール１２０に含まれ構成されえる。

このモード選択方法ではＲ−Ｄ最適化（Ｒａｔｅ−Ｄｉｓｔｏｒｔｉｏｎｏｐｔｉｍｉｚａｔｉｏｎ）方法を使用することができる。もう少し具体的に図６を参照して、説明する。

図６は一実施形態として４種類モードを図式化して示したものである。まず、順方向推定モード（１）は現フレームで特定ブロックが以前フレーム（必ずしも直前フレームだけを示すものではない）のどのような部分に最もよくマッチングするのかを探した後、両位置間の変位を示すモーションベクタを求め、それに沿って時間的差分を求める。

逆方向推定モード（２）は現フレームで特定ブロックが以後フレーム（必ずしも直後フレームだけを示すものではない）のいかなる部分に最もよくマッチングするのかを探した後、両位置間の変位を示すモーションベクタを求め、それに沿って時間的差分を求める。

そして、両方向推定モード（３）は前記順方向推定モード（１）および逆方向推定モード（２）で探した二つのブロックを平均したり、加重値をおいて平均し仮想のブロックを作り、このブロックと現フレームの特定ブロックとの差異を計算して時間的フィルタリングをする方式である。したがって、両方向推定モード（３）は一つのブロック当たり二つのモーションベクタが必要になる。このような順方向、逆方向、両方向推定はすべて時間的推定（ｔｅｍｐｏｒａｌｅｓｔｉｍａｔｉｏｎ）のうち一つに該当する。実際にモード選択モジュール１４０がこのようなモーションベクタを求めるためにはモーション推定モジュール１３０を利用する。

一方、Ｂ−イントラモード（４）は空間的アップサンプリングモジュール１１６により、アップサンプリングされた基礎階層を参照フレームとし、その差異を計算する。この場合に基礎階層は現在フレームと時間的に同一なフレームであるためモーション推定過程は必要としない。本発明では時間的方向でフレーム間の差分と区分されるようにＢ−イントラモードでは差異という表現を使用した。

図６で、逆方向推定モードを選択する場合のエラー（ｍｅａｎａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅ；ＭＡＤ）をＥｂと、順方向（ｆｏｒｗａｒｄ）推定モードを選択する場合のエラーをＥｆと、両方向推定モードを使用する場合のエラーをＥｂｉと、そして、基礎階層を参照フレームとして使用する場合のエラーをＥｉという。そして、各々に消耗される追加ビット量をＢｂ、Ｂｆ、Ｂｂｉ、Ｂｉとすれば各々の費用関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）は次の（式１）のように定義される。ここで、Ｂｂ、Ｂｆ、Ｂｂｉ、Ｂｉは各方向に対しモーションベクタ、参照フレームなどを含むモーション情報を圧縮するのに所要されるビット量を意味する。ところで、Ｂ−イントラモードはモーションベクタを使用しないためＢｉは非常に小さいためＢｉは省略しても差し支えないであろう。

ここで、λはラグランジアン（ｌａｇｒａｎｇｉａｎ）計数であって、圧縮率により決定される常数値である。モード選択モジュール１４０は前記の４種類費用のうち最低のモードを選択することによって最上位時間的レベルの高周波フレームに対し最も適合したモードを選択することができるようになる。

注目することは、Ｂ−イントラの費用では他の費用とは異なりαというまた異なる常数を一つ付け加えている。これはＢ−イントラモード反映の程度を意味する常数であって、αが１ならば他の費用関数と比較して選択されるようにする場合であり、αが大きくなるほどＢ−イントラモードが選択されずらくなる。そして、αが小さくなるほどＢ−イントラモードがさらに多く選択されるようになる。極端な例として、αが０ならばＢ−イントラモードだけが選択されるようになり、αが非常に大きい値ならばＢ−イントラモードが一つも選択されなくなる。ユーザはαを調節することによってモード選択モジュール１４０でＢ−イントラモードが選択される程度を調節することができるようになる。

図７は最上位時間的レベルに存在する高周波フレームが前記費用関数にしたがい各ブロック別に異なる方式で符号化される例を示したものである。ここで一つのフレームは１６個のブロックで形成されており、ＭＢは各ブロックを示すものとする。そして、Ｆ、Ｂ、Ｂｉ、そしてＢ_{ｉｎｔｒａ}は各々順方向推定モード、逆方向推定モード、両方向推定モード、そしてＢ−イントラ推定モードでフィルタリングされることを示す。

図７でブロックＭＢ０はＣｂ、Ｃｆ、Ｃｂｉ、およびＣｉを比較した結果Ｃｆが最小値段なので順方向推定モードでフィルタリングされ、ブロックＭＢ１５はＣｉが最小値段なのでＢ−イントラモードでフィルタリングされる場合を示している。最後に、モード選択モジュール１４０は最上位時間的レベルに存在する高周波フレームに対して前記過程により選択されたモードに関する情報をビットストリーム生成モジュール１７０に提供する。

改めて図４を参照する。モーション推定モジュール１３０は時間的フィルタリングモジュール１２０またはモード選択モジュール１４０の呼出しを受けて、時間的フィルタリングモジュール１２０で決定される参照フレームを基準として現在フレームのモーション推定を行い、モーションベクタを求める。このような動き推定のために広く使用されるアルゴリズムはブロックマッチングアルゴリズムである。すなわち、与えられたブロックを参照フレームの特定探索領域内でピクセル単位で動きつつ、そのエラーが最低となる場合の変位を動きベクタとして推定するものである。モーション推定のため図７の例のように固定されたブロックを利用することもできるが、階層的可変サイズブロックマッチング法（ＨｉｅｒａｒｃｈｉｃａｌＶａｒｉａｂｌｅＳｉｚｅＢｌｏｃｋＭａｔｃｈｉｎｇ；ＨＶＳＢＭ）による階層的な方法を使用することもできる。モーション推定モジュール１３０はモーション推定結果求められるモーションベクタと参照フレーム番号などのモーション情報をビットストリーム生成モジュール１７０に提供する。

空間的変換モジュール１５０は時間的フィルタリングモジュール１２０によって、時間的重複性が除去されたフレームに対し、空間的スケーラビリティを支援する空間的変換法を使用し空間的重複性を除去する。このような空間的変換法ではウェーブレット変換が主に使用されている。空間的変換結果求められる計数を変換計数という。

ウェーブレット変換を使用する形態をより詳しく見れば、空間的変換モジュール１５０は時間的重複性が除去されたフレームに対し、ウェーブレット変換を使用し、一つのフレームを分解して低周波数サブバンドと高周波数サブバンドに区分し、各々に対するウェーブレット係数を求める。

図８は入力イメージまたはフレームをウェーブレット変換によって、サブバンドに分解する過程の例を示したもので、２段階レベルで分割したものである。ここには３つの高周波数サブバンド、すなわち水平、垂直、および対角位置のサブバンドがある。低周波数サブバンド、すなわち水平および垂直方向すべてに対して低周波数のサブバンドは「ＬＬ」と表記する。前記高周波数サブバンドは「ＬＨ」、「ＨＬ」、「ＨＨ」で表記するが、これは各々水平方向高周波数、垂直方向高周波数、そして水平および垂直方向高周波数サブバンドを意味する。そして、低周波数サブバンドは反復的にさらに分解される。括弧の中の数字はウェーブレット変換レベルを示したものである。

量子化モジュール１６０は空間的変換モジュール１５０で求めた変換計数を量子化する。量子化とは任意の実数値で表現される前記変換計数を量子化ステップで分けて、整数値だけ取った後、これを所定のインデックスでマッチングさせる作業を意味する。特に、空間的変換方法としてウェーブレット変換を利用する場合には、量子化方法として包埋量子化（ｅｍｂｅｄｄｅｄｑｕａｎｔｉｚａｔｉｏｎ）方法を利用する場合が多い。このような包埋量子化方法としてはＥＺＷ（ＥｍｂｅｄｄｅｄＺｅｒｏｔｒｅｅｓＷａｖｅｌｅｔＡｌｇｏｒｉｔｈｍ）、ＳＰＩＨＴ（ＳｅｔＰａｒｔｉｔｉｏｎｉｎｇｉｎＨｉｅｒａｒｃｈｉｃａｌＴｒｅｅｓ）、ＥＺＢＣ（ＥｍｂｅｄｄｅｄＺｅｒｏＢｌｏｃｋＣｏｄｉｎｇ）等がある。

ビットストリーム生成モジュール１７０は基礎階層エンコーダ１１３から提供されるエンコーディングされた基礎階層データと、量子化モジュール１５０により量子化された変換計数と、モード選択モジュール１４０により提供されるモード情報と、モーション推定モジュール１３０により提供されるモーション情報を無損失符号化して出力ビットストリームを生成する。このような無損失符号化方法では、算術符号化（ａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）、可変長符号化等の多様なエントロピー符号化を使用することができる。

図９は本発明の一実施形態によるビットストリーム３００の概略的構成を示したものである。ビットストリーム３００はエンコーディングされた基礎階層に対して無損失符号化したビットストリームの基礎階層ビットストリーム４００と、時間的、空間的にスケーラビリティが支援され、量子化モジュール１６０から伝えられた変換計数を無損失符号化したビットストリーム、すなわち以外階層ビットストリーム５００として構成される。

図１０で図示するように、以外階層ビットストリーム５００はシーケンスヘッダ（ｓｅｑｕｅｎｃｅｈｅａｄｅｒ）フィールド５１０とデータフィールド５２０で構成されえ、データフィールド５２０は一つ以上のＧＯＰフィールド５３０、５４０、５５０で構成される。シーケンスヘッダフィールド５１０にはフレームの横大きさ（２バイト）、縦大きさ（２バイト）、ＧＯＰの大きさ（１バイト）、フレーム率（１バイト）等映像の特徴を記録する。

そして、データフィールド５２０は映像を示すデータと、その他映像復元のために必要な情報（モーション情報、モード情報など）が記録される。

図１１は各ＧＯＰフィールド５１０、５２０、５５０の細部構造を示したものである。ＧＯＰフィールド５１０、５２０、５５０はＧＯＰヘッダ５５１と、時間的に他のフレームを参照せずエンコーディングされるフレーム、すなわちＢ−イントラモードによりコーディングされたフレームに関する情報を記録するＴ（０）フィールド５５２と、モーション情報およびモード情報が記録されるＭＶフィールド５５３と、前記他のフレームを参照して、エンコーディングされるフレームの情報を記録する「ｔｈｅｏｔｈｅｒＴ」フィールド５５４で構成される。モーション情報にはブロックの大きさと、各ブロック別モーションベクタと、モーションベクタを求めるために参照する参照フレームの番号などが含まれる。そして、モード情報は最上位時間的レベルに存在する高周波フレームに対し順方向、逆方向、両方向推定モードとＢ−イントラモードのうち、どんなモードでエンコーディングされたかを表すインデックス形態で記録される。本実施形態ではモード情報がモーションベクタと共にＭＶフィールド５５３に記録されるものとしたが、これに限る必要なく別途のモード情報フィールドに記録することもできる。ＭＶフィールド５５３には各々のフレーム別に細部的な、ＭＶ（１）ないしＭＶ（ｎ−１）フィールドが含まれる。一方、ｔｈｅｏｔｈｅｒＴフィールド５５４は各フレームの映像を示すデータが記録される細部的な、Ｔ（１）ないしＴ（ｎ−１）フィールドが含まれる。ここで、ｎはＧＯＰの大きさを意味する。

今まではエンコーダ１００で時間的フィルタリング後に空間的変換を行う場合を説明したが、これとは異なり空間的変換を行った後に時間的フィルタリングを行う方法、すなわちインバンド（ｉｎ−ｂａｎｄ）方式を使用することもできる。図１２は本発明によるエンコーダ１９０をインバンド方式で具現した例を示す図面である。インバンド方式のエンコーダ１９０は単に時間的フィルタリングと空間的変換の順序が変わっただけで本発明の具現には難しさがないことを当業者ならば知ることができるものである。このようにインバンド方式でエンコーディングされたビットストリームから原ビデオ映像を復元するためにはデコーダも同じようにインバンド方式、すなわち逆時間的フィルタリング後、逆空間的変換を行う方式にならなければならないだろう。

図１３は本発明の一実施形態によるスケーラブルビデオデコーダ２００の構成を示した図である。スケーラブルビデオデコーダ２００はビットストリーム解釈モジュール２１０、逆量子化モジュール２２０、逆空間的変換モジュール２３０、逆時間的フィルタリングモジュール２４０、空間的アップサンプリングモジュール２５０、および基礎階層デコーダ２６０を含み構成される。

まず、ビットストリーム解釈モジュール２１０はエントロピ符号化方式の逆であって、入力されたビットストリーム３００を解釈し基礎階層の情報と、以外階層の情報を分離して抽出する。ここで、基礎階層の情報は基礎階層デコーダ２６０に提供する。そして、その以外階層の情報のうちテクスチャ情報は逆量子化モジュール２２０に提供し、モーション情報およびモード情報は逆時間的フィルタリングモジュール２４０に提供する。

基礎階層デコーダ２６０はビットストリーム解釈モジュール２１０から提供された基礎階層の情報を所定のコーデックでデコーディングする。前記所定のコーデックとしてはエンコーディング時に使用されたコーデックに対応するコーデックを使用する。すなわち、基礎階層デコーダ２６０はスケーラブルビデオエンコーダ１００端での基礎階層デコーダ１１４と同一モジュールを使用する。

空間的アップサンプリングモジュール２５０は基礎階層デコーダ２６０でデコーディングされた基礎階層のフレームを最高解像度でアップサンプリングする。エンコーダ１００端での空間的ダウンサンプリングモジュール１１２に対応して最低解像度のフレームを最高解像度を有するようにアップサンプリングする。もし、空間的ダウンサンプリングモジュール１１２でウェーブレット分解を利用した場合ならば、これに対応されるようにウェーブレット基盤のアップサンプリングフィルタを使用するのが好ましいだろう。

一方、逆量子化モジュール２２０はビットストリーム解釈モジュール２１０から伝送されたテクスチャ情報を逆量子化して、変換計数を出力する。逆量子化過程はエンコーダ１００端で所定のインデックスで表現して伝達した値からこれとマッチングする量子化された計数を探す過程である。インデックスと量子化計数間のマッチング関係を示すテーブルはエンコーダ１００端から伝送されることもでき、あらかじめエンコーダとデコーダ間に約束されたものあることもあり得る。

逆空間的変換モジュール２３０は空間的変換を逆に行い、前記変換計数を空間的領域での変換計数に逆変換する。例えば、ウェーブレット方式で空間的変換された場合にはウェーブレット領域での変換計数を空間的領域での変換計数で逆変換するものだ。

逆時間的フィルタリングモジュール２４０は前記空間的領域での変換計数、すなわち差分イメージを逆時間的フィルタリングしてビデオシーケンスを構成するフレームを復元する。逆時間的フィルタリングのために逆時間的フィルタリングモジュール２４０はビットストリーム解釈モジュール２１０から提供されるモーションベクタとモード情報、そして空間的アップサンプリングモジュール２５０から提供されるアップサンプリングされた基礎階層を利用する。

デコーダ２００端で逆時間的フィルタリングはエンコーダ１００端での時間的フィルタリング過程の逆順に進行する。すなわち図５の例で逆時間的フィルタリング順序は時間的レベルの逆順に進行される。したがって、まず、最上位時間的レベルの低周波フレームおよび高周波フレームに対して逆フィルタリングならなければならない。例えば、図５のような場合に低周波フレーム７０はＢ−イントラモードによりコーディングされるため、逆時間的フィルタリングモジュール２４０は前記低周波フレーム７０と空間的アップサンプリングモジュール２５０によって提供されるアップサンプリングされた基礎階層を合わせることによって原フレームを復元する。そして、逆時間的フィルタリングモジュール２４０は高周波フレーム８０に対しては、ブロック別に前記モード情報が指示するモードにしたがい逆フィルタリングする。もし、あるブロックのモード情報がＢ−イントラモードを示したら、時間的フィルタリングモジュール２４０は前記ブロックと、対応する基礎階層のフレームの領域を前記ブロックと合わせることによって原フレームのうち該当領域を復元する。そして、あるブロックのモード情報がそれ以外のモードを示したら、時間的フィルタリングモジュール２４０は推定方向にともなうモーション情報（参照フレーム番号、およびモーションベクタなど）を利用して、原フレームのうち該当領域を復元するだろう。

逆時間的フィルタリングモジュール２４０により各ブロックに該当する全体領域が復元され一つの復元されたフレームを形成し、このようなフレームが集まり全体的に一つのビデオシーケンスを成す。ただし、以上ではデコーダ端で伝達されるビットストリームが基礎階層およびそれ以外の階層の情報を共に含むものとして説明した。しかし、もしエンコーダ１００からビットストリームを伝達されたプレデコーダ端で基礎階層だけを切出して、デコーダ２００端に伝送した場合ならば、デコーダ端に入力されるビットストリームには基礎階層の情報だけ存在するだろう。したがって、ビットストリーム解釈モジュール２１０、基礎階層デコーダ２６０を経て、復元された基礎階層のフレームがビデオシーケンスとして出力されるだろう。

今までの説明で、「モジュール」という用語はソフトウェア構成要素またはＦＰＧＡ（ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）またはＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）のようなハードウェア構成要素（ｈａｒｄｗａｒｅｃｏｍｐｏｎｅｎｔ）を意味し、モジュールはある役割を行う。しかしモジュールはソフトウェアまたはハードウェアに限定される意味ではない。モジュールはアドレッシングすることのできる保存媒体にあるように構成することもでき、一つまたはそれ以上のプロセッサーを実行させるよう構成することもできる。したがって、一例としてモジュールはソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、および変化の要素（ｖａｒｉａｂｌｅｓ）を含む。構成要素とモジュールの内で提供される機能はさらに小さい数の構成要素およびモジュールに結合したり、追加的な構成要素とモジュールにさらに分離することができる。またそれだけでなく、構成要素およびモジュールは通信システム内の一つまたはそれ以上のコンピュータを実行させるように具現され得る。

本発明を使用すれば最低ビット率、最低フレーム率では基礎階層をエンコーディングするのに使用したコーデックの性能と同一の性能を得ることができる。一方、その上位の解像度およびフレーム率では差分映像がスケーラブルビデオコーディング方法によって、効率的にコーディングされるため、低いビット率では既存方法より優秀な画質をみせ、高いビット率になるほど既存のスケーラブルビデオコーディング方法と似た性能を有するようになる。

もし、本発明のように時間的差分と基礎階層との差異のうち有利な側を選択するのではなく、単純に基礎階層との差異コーディングだけを利用するとしたら、低いビット率では優秀な画質を有しえるが高いビット率になるほど既存のスケーラブルビデオコーディング方式に比べて、はるかに低い性能を有するようになる。これは低い解像度を有する基礎階層を単純にアップサンプリングすることだけでは最高解像度の原映像を推定するのが難しいということを語っている。

したがって、本発明で提示したように最高解像度の時間的隣接フレームから予測するのがさらに有利なのか基礎階層から予測するのが有利なのかを最適に判断する方法が、ビット率に関係なく優秀な画質を有するようになるものである。

図１４はＭｏｂｉｌｅシーケンスでビット率に対するＰＳＮＲを比較したグラフである。本発明による方法を使用した結果は高いビット率では既存のスケーラブルビデオコーディング（ＳＶＣ）方法を使用した結果と類似し、低いビット率では相当に優秀な結果を示す。この中でもα＝１の場合（モードを選択する場合）はα＝０の場合（差異コーディングだけする場合）に比べて、高いビット率では多少高い性能を見せ低いビット率では多少低くい性能を見せる。しかし、両者は最低ビット率（４８ｋｂｐｓ）では互いに同一な性能を示している。

以上添付された図面を参照し、本発明の実施形態を説明したが、本発明が属する技術分野で通常の知識を有する者は本発明がその技術的思想や必須の特徴を変更せずとも他の具体的な形態で実施されるということを理解することができるものである。そのため前述した実施形態はすべての面で例示的なものであり、限定的ではないことに理解しなければならない。

エンコーダ端で従来のＭＣＴＦフィルタリング過程を示した図である。デコーダ端で従来のＭＣＴＦ逆フィルタリング過程を示した図である。従来のスケーラブルビデオコーディングシステムの全体的構成を示した図である。本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示した図である。エンコーダ端で本発明の一実施形態による時間的フィルタリング過程を説明する図である。本発明の一実施形態によるモードを図式化して示した図である。最上位時間的レベルに存在する高周波フレームが費用関数にしたがい各ブロック別に他の方式で符号化される例を示した図である。入力イメージをウェーブレット変換によって、サブバンドで分解する過程の例を示した図である。本発明の一実施形態によるビットストリームの概略的構成を示した図である。以外階層ビットストリームの概略的構成を示した図である。ＧＯＰフィールドの細部構造を示した図である。本発明の一実施形態によるエンコーダをインバンド方式で具現した例を示した図である。本発明の一実施形態によるスケーラブルビデオデコーダの構成を示した図である。Ｍｉｂｉｌｅシーケンスでビット率に対するＰＳＮＲを示したグラフである。

Claims

多階層基盤のビデオコーディング方法で基礎階層を利用して第１上位階層フレームを効率的に圧縮する方法であって、
入力された元ビデオシーケンスから前記第１上位階層フレームと同一の時間的位置を有する基礎階層フレームを生成する段階と、
前記基礎階層フレームを上位階層フレームの解像度でアップサンプリングする段階、および
前記第１上位階層フレームと異なった時間的位置を有する第２上位階層フレームと前記アップサンプリングされた基礎階層フレームを参照しブロック別に前記第１上位階層フレームの重複を除去する段階を含む上位階層フレームを効率的に圧縮する方法。
入力された元ビデオシーケンスに対し時間的ダウンサンプリングおよび空間的ダウンサンプリングを行う段階を含む請求項１に記載の上位階層フレームを効率的に圧縮する方法。
第１項において、前記生成する段階は、
前記ダウンサンプリングを行った結果を所定のコーデックでエンコーディングした後デコーディングする段階を含む請求項１に記載の上位階層フレームを効率的に圧縮する方法。
前記空間的ダウンサンプリングはウェーブレット変換により行われる請求項２に記載の上位階層フレームを効率的に圧縮する方法。
前記基礎階層を生成するのに使用されるコーディング方式は低いビット率で、ウェーブレット基盤のスケーラブルビデオコーディングに比べて、相対的に優秀な画質を示すコーディング方式である請求項１に記載の上位階層フレームを効率的に圧縮する方法。
前記除去する段階は、
前記上位フレームが低周波フレームの場合には前記アップサンプリングされた基礎階層との差異を計算してコーディングする段階、および
前記上位フレームが高周波フレームの場合には前記上位フレームを構成するブロック別に、前記時間的予測方法と前記基礎階層を利用した予測方法のうちから、所定の費用関数が最小となる方法でコーディングする段階を含む請求項１に記載の上位階層フレームを効率的に圧縮する方法。
前記所定の費用関数は、
逆方向推定の場合にはＥｂ＋λ×Ｂｂによって計算され、順方向推定の場合にはＥｆ＋λ×Ｂｆによって計算され、両方向推定の場合にはＥｂｉ＋λ×Ｂｂｉによって計算されて、基礎階層を利用した予測方法の場合にはα×Ｅｉで計算されるが、
前記λはラグランジアン計数であり、前記Ｅｂ、Ｅｆ、Ｅｂｉ、およびＥｉは各モードのエラーであり、前記Ｂｂ、Ｂｆ、およびＢｂｉは各モードに対するモーション情報を圧縮するのに所要されるビット量であり、前記αは基礎階層を利用した予測方法が反映される程度を示す量の常数である請求項６に記載の上位階層フレームを効率的に圧縮する方法。
入力された元ビデオシーケンスから、基礎階層を生成する段階と、
前記基礎階層を、時間的フィルタリングを行うフレームの解像度でアップサンプリングする段階と、
前記フレームを構成するブロック別に、時間的予測方法と前記アップサンプリングされた基礎階層を利用した予測方法のうちから一つの方法を選択し時間的フィルタリングを行う段階と、
前記時間的フィルタリングによって生成されるフレームに対して空間的変換を行う段階、および
前記空間的変換によって生成される変換計数を量子化する段階を含む、ビデオエンコーディング方法。
前記生成する段階は、
入力された元ビデオシーケンスに対し時間的ダウンサンプリングおよび空間的ダウンサンプリングを行う段階と、
前記ダウンサンプリングを行った結果を所定のコーデックでエンコーディングした後デコーディングする段階を含む、請求項８に記載のビデオエンコーディング方法。
前記時間的フィルタリングを行う段階は、
前記フレームのうち低周波フレームは前記アップサンプリングされた基礎階層との差異を計算しコーディングする段階と、
前記フレーム中、高周波フレームを構成するブロック別に、前記時間的予測方法と前記基礎階層を利用した予測方法のうち、所定の費用関数が最小となる方法でコーディングする段階を含む請求項８に記載のビデオエンコーディング方法。
時間的フィルタリングされたフレームをビデオデコーダで復元する方法において、
前記フィルタリングされたフレームが低周波フレームの場合には前記低周波フレームと基礎階層の和を求める段階と、
前記フィルタリングされたフレームが高周波フレームの場合にはエンコーダ側から伝送されるモード情報にしたがい前記高周波フレームのブロック別に復元する段階を含む、時間的にフィルタリングされたフレームを復元する方法。
前記フィルタリングされたフレームが前記最上位以外の時間的レベルに存在するフレームの場合には時間的参照フレームを利用して復元する段階をさらに含む、請求項１１に記載の時間的にフィルタリングされたフレームを復元する方法。
前記モード情報は逆方向推定モード、順方向推定モード、または両方向推定モードのうち少なくとも一つ以上の時間的推定モードと、Ｂ−イントラモードを含む、請求項１１に記載の時間的にフィルタリングされたフレームを復元する方法。
前記高周波フレームのブロック別に復元する段階は、
前記高周波フレームのブロックに対するモード情報がＢ−イントラモードの場合には前記ブロックと前記基礎階層の該当領域の和を求める段階、および
前記高周波フレームのブロックに対するモード情報が前記時間的推定モードのうち１個である場合には該当推定モードに対するモーション情報にしたがい原フレームを復元する段階を含む、請求項１３に記載の時間的にフィルタリングされたフレームを復元する方法。
入力された基礎階層を所定のコーデックでデコーディングする段階と、
前記デコーディングされた基礎階層の解像度をアップサンプリングする段階と、
前記基礎階層以外階層のテクスチャ情報を逆量子化して変換計数を出力する段階と、
前記変換計数を空間的領域で逆変換する段階、および
前記アップサンプリングされた基礎階層を利用して前記逆変換結果生成されるフレームから原フレームを復元する段階を含む、ビデオデコーディング方法。
前記原フレームを復元する段階は、
前記逆変換結果生成されるフレームが低周波フレームの場合には前記低周波フレームと基礎階層の和を求める段階、および
前記逆変換結果生成されるフレームが高周波フレームの場合にはエンコーダ側から転送されるモード情報にしたがい前記高周波フレームのブロック別に復元する段階を含む、請求項１５に記載のビデオデコーディング方法。
前記モード情報は逆方向推定モード、順方向推定モード、または両方向推定モードのうち少なくとも一つ以上の時間的推定モードと、Ｂ−イントラモードを含む、請求項１６に記載のビデオデコーディング方法。
前記高周波フレームのブロック別に復元する段階は、
前記高周波フレームのブロックに対するモード情報がＢ−イントラモードの場合には前記ブロックと前記基礎階層の該当領域の和を求める段階、および
前記高周波フレームのブロックに対するモード情報が前記時間的推定モードのうち１個である場合には該当推定モードに対するモーション情報にしたがい原フレームを復元する段階を含む、請求項１７に記載のビデオデコーディング方法。
入力された元ビデオシーケンスから、基礎階層を生成する基礎階層生成モジュールと、
前記基礎階層を、時間的フィルタリングを行うフレームの解像度でアップサンプリングする空間的アップサンプリングモジュールと、
前記フレームを構成するブロック別に、時間的予測方法と前記アップサンプリングされた基礎階層を利用した予測方法のうちから一つの方法を選択し時間的フィルタリングを行う時間的フィルタリングモジュールと、
前記時間的フィルタリングによって生成されるフレームに対し空間的変換を行う空間的変換モジュール、および
前記空間的変換によって生成される変換計数を量子化する量子化モジュールを含む、ビデオエンコーダ。
前記基礎階層生成モジュールは、
入力された元ビデオシーケンスに対し時間的ダウンサンプリングおよび空間的ダウンサンプリングを行うダウンサンプリングモジュールと、
前記ダウンサンプリングを行った結果を所定のコーデックでエンコーディングする基礎階層エンコーダと、
前記エンコーディングされた結果を前記コーデックと同じコーデックでデコーディングする基礎階層デコーダを含む、請求項１９に記載のビデオエンコーダ。
前記時間的フィルタリングモジュールは、
前記フレームのうち低周波フレームは前記アップサンプリングされた基礎階層との差異を計算して、コーディングし、
前記フレーム中、高周波フレームを構成するブロック別に前記時間的予測方法と前記基礎階層を利用した予測方法のうち、所定の費用関数が最小になる方法でコーディングする、請求項１９に記載のビデオエンコーダ。
入力された基礎階層を所定のコーデックでデコーディングする基礎階層デコーダと、
前記デコーディングされた基礎階層の解像度をアップサンプリングする空間的アップサンプリングモジュールと、
前記基礎階層以外階層のテクスチャ情報を逆量子化して変換計数を出力する逆量子化モジュールと、
前記変換計数を空間的領域で逆変換する逆空間的変換モジュール、および
前記アップサンプリングされた基礎階層を利用して前記逆変換結果生成されるフレームから原フレームを復元する逆時間的フィルタリングモジュールを含む、ビデオデコーダ。
前記逆時間的フィルタリングモジュールは
前記逆変換結果生成されるフレームが低周波フレームの場合には前記低周波フレームと基礎階層の和を求め、
前記逆変換結果生成されるフレームが高周波フレームの場合にはエンコーダ側から転送されるモード情報にしたがい前記高周波フレームのブロック別に復元する、請求項２２に記載のビデオデコーダ。
前記モード情報は逆方向推定モード、順方向推定モード、または両方向推定モードのうち少なくとも一つ以上の時間的推定モードと、Ｂ−イントラモードを含む、請求項２３に記載のビデオデコーダ。
前記逆時間的フィルタリングモジュールは
前記高周波フレームのブロックに対するモード情報がＢ−イントラモードの場合には前記ブロックと前記基礎階層の該当領域の和を求め、前記高周波フレームのブロックに対するモード情報が前記時間的推定モードのうち１個である場合には該当推定モードに対するモーション情報にしたがい原フレームを復元する、請求項２４に記載のビデオデコーダ。
多階層基盤のビデオコーディング方法で基礎階層を利用して第１上位階層フレームを効率的に圧縮する方法を実行するためのコンピュータで判読可能なプログラムを記録した記録媒体であって、
入力された元ビデオシーケンスから前記第１上位階層フレームと同じ時間的位置を有する基礎階層フレームを生成する段階と、
前記基礎階層フレームを上位階層フレームの解像度でアップサンプリングする段階、および
前記第１上位階層フレームと異なった時間的位置を有する第２上位階層フレームと前記アップサンプリングされた基礎階層フレームを参照してブロック別に前記第１上位階層フレームの重複を除去する段階を含む記録媒体。