JP4763548B2

JP4763548B2 - スケーラブルビデオコーディング及びデコーディング方法と装置

Info

Publication number: JP4763548B2
Application number: JP2006221222A
Authority: JP
Inventors: 宇鎭韓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-12-01
Filing date: 2006-08-14
Publication date: 2011-08-31
Anticipated expiration: 2024-11-30
Also published as: RU2006123465A; RU2329615C2; WO2005055606A1; AU2004310915B2; EP1538566A3; MXPA06006107A; EP1538566A2; AU2004310915A1; CN101188757A; CN101188757B; JP4647980B2; CA2547891C; JP2006333519A; JP2005168021A; CA2547891A1; CN1625265A

Description

本発明はビデオ圧縮に係り、より詳細には一定の制限された時間的レベル順による動き補償時間的フィルタリング（ＭｏｔｉｏｎＣｏｍｐｅｎｓａｔｅｄＴｅｍｐｏｒａｌＦｉｌｔｅｒｉｎｇ；以下、ＭＣＴＦ）を通じて時間的スケーラビリティを持つビデオコーディングに関する。

インターネットを含む情報通信技術が発達するにつれて文字、音声だけでなく画像通信が増加しつつある。既存の文字中心の通信方式では消費者の多様な欲求を満たすには足りなく、したがって、文字、映像、音楽など多様な形態の情報を収容できるマルチメディアサービスが増加しつつある。マルチメディアデータはその量がぼう大で大容量の保存媒体を必要とし、転送時に広い帯域幅を必要とする。例えば、６４０＊４８０の解像度を持つ２４ビットのトルーカラーのイメージは、１フレーム当り６４０＊４８０＊２４ビットの容量、言い換えれば、約７．３７メガビットのデータが必要である。これを秒当たり３０フレームで転送する場合には２２１メガビット／秒の帯域幅を必要とし、上映時間９０分の映画を保存するためには約１２００ギガビットの保存空間を必要とする。したがって、文字、映像、オーディオを含むマルチメディアデータを転送するためには圧縮コーディング技法を使用することが必須である。

データを圧縮する基本的な原理はデータの重複をなくす過程である。イメージで同じ色や客体が反復されるような空間的重複や、動映像フレームで隣接フレームがほとんど変化のない場合や、オーディオで同じ音が反復され続けるような時間的重複、または人間の視覚及び知覚能力が高い周波数に鈍感なことを考慮した心理視覚重複をなくすことによりデータを圧縮できる。データ圧縮は、ソースデータの損失有無と、それぞれのフレームに対する独立的な圧縮如何と、圧縮及び復元に必要な時間の同一如何とによってそれぞれ損失／無損失圧縮、フレーム内／フレーム間圧縮、対称／非対称圧縮に分けられる。その外にも圧縮復元遅延時間が５０ｍｓを超えない場合にはリアルタイム圧縮に分類し、フレームの解像度が多様な場合にはスケーラブル圧縮に分類する。文字データや医学用データなどの場合には無損失圧縮が利用され、マルチメディアデータの場合には主に損失圧縮が利用される。一方、空間的重複を除去するためにはフレーム内圧縮が利用され、時間的重複を除去するためにはフレーム間圧縮が利用される。

マルチメディアを転送するための転送媒体は媒体別にその性能が異なる。現在使われる転送媒体は、秒当たり数十メガビットのデータを転送できる超高速通信網をはじめとして秒当たり３８４キロビットの転送速度を持つ移動通信網まで多様な転送速度を持つ。ＭＰＥＧ−１、ＭＰＥＧ−２、Ｈ．２６３またはＨ．２６４のような従来のビデオコーディングは、モーション補償予測コーディング法に基づいて時間的重複はモーション補償により除去し、空間的重複は変換コーディングにより除去する。このような方法は良好な圧縮率を持っているが、主アルゴリズムで再帰的接近法を使用していてトルースケーラブルビットストリームのための柔軟性を持っていない。これにより、最近にはウェーブレット基盤のスケーラブルビデオコーディングについての研究が活発である。スケーラブルビデオコーディングはスケーラビリティを持つビデオコーディングを意味する。スケーラビリティとは、圧縮された一つのビットストリームから部分デコーディング、すなわち、多様なビデオを再生できる特性を意味する。スケーラビリティは、ビデオの解像度を調節できる性質を意味する空間的スケーラビリティと、ビデオの画質を調節できる性質を意味する信号対雑音比（ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ：ＳＮＲ）スケーラビリティと、フレームレートを調節できる時間的スケーラビリティと、これらそれぞれを組合わせたものとを含む概念である。

ウェーブレット基盤のスケーラブルビデオコーディングに使われている多くの技術のうち、Ｏｈｍにより提案されてＣｈｏｉ及びＷｏｏｄにより改善されたＭＣＴＦは時間的重複性を除去して時間的に柔軟なスケーラブルビデオコーディングのための核心技術である。ＭＣＴＦではＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）単位でコーディング作業を行うが、現在フレームと基準フレームとの対は動き方向に時間的フィルタリングされる。これについては図１Ａを参照して説明する。

図１Ａは、ＭＣＴＦ方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。

図１ＡでＬフレームは、低周波あるいは平均フレームを意味し、Ｈフレームは高周波あるいは差フレームを意味する。図示されたようにコーディングは、低い時間的レベルにあるフレーム対を先ず時間的フィルタリングして低いレベルのフレームを高いレベルのＬフレーム及びＨフレームに転換させ、該転換されたＬフレーム対は再び時間的フィルタリングしてさらに高い時間的レベルのフレームに転換される。エンコーダは最高レベルのＬフレーム一つ及びＨフレームを利用してウェーブレット変換を経てビットストリームを生成する。図面で濃い色で表示されたフレームは、ウェーブレット変換の対象となるフレームを意味する。整理すれば、コーディングする制限された時間的レベル順は低いレベルのフレームから高いレベルのフレームを演算する。デコーダは、ウェーブレット逆変換を経た後に得られた濃い色のフレームを高いレベルから低いレベルのフレームの順序に演算してフレームを復元する。すなわち、時間的レベル３のＬフレーム及びＨフレームを利用して時間的レベル２のＬフレーム２つを復元し、時間的レベルのＬフレーム２つ及びＨフレーム２つを利用して時間的レベル１のＬフレーム４つを復元する。最終的に時間的レベル１のＬフレーム４つ及びＨフレーム４つを利用してフレーム８つを復元する。元来のＭＣＴＦ方式のビデオコーディングは柔軟な時間的スケーラビリティを持つが、単方向動き推定及び低い時間的レートでの悪い性能などのいくつかの短所を持っている。これに対する改善方法について多くの研究があったが、その中の一つがＴｕｒａｇａとＭｉｈａｅｌａにより提案された非拘束ＭＣＴＦ（ＵｎｃｏｎｓｔｒａｉｎｅｄＭＣＴＦ；以下、ＵＭＣＴＦ）である。これについては図１Ｂを参照して説明する。

図１Ｂは、ＵＭＣＴＦ方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。

ＵＭＣＴＦは、複数の参照フレームと双方向フィルタリングを使用可能にしてさらに一般的なフレーム作業を行えるようにする。またＵＭＣＴＦ構造では、フィルタリングされていないフレーム（Ａフレーム）を適切に挿入して非二分的時間的フィルタリングを行うこともできる。フィルタリングされたＬフレームの代りにＡフレームを使用することによって低い時間的レベルで視覚的な画質がだいぶ改善される。なぜなら、Ｌフレームの視覚的な画質は不正確な動き推定のために時々相当な性能低下につながることもあるからである。多くの実験結果によれば、フレームアップデート過程を省略したＵＭＣＴＦが元来のＭＣＴＦより優秀な性能を示す。このような理由で、たとえ最も一般的な形態のＵＭＣＴＦは低域通過フィルタを適応的に選択できるとしても、アップデート過程を省略した特定形態のＵＭＣＴＦの特定形態が一般的に使われている。

画像会議のような多くのビデオアプリケーションは低い最終遅延時間を必要とする。このようなアプリケーションで低いデコーダ側遅延時間だけでなく低いエンコーダ側遅延時間も要求される。前述したＭＣＴＦとＵＭＣＴＦいずれも最も低い時間的レベルからフレームを分析するので、エンコーダ側遅延時間は最小限ＧＯＰサイズほどの時間になる。実際にＧＯＰサイズに該当する遅延時間がある場合に、ビデオコーディング方法はリアルタイムアプリケーションで使用し難い。たとえＵＭＣＴＦは未来の参照フレームを制限することによって遅延時間を減少させたとしても、アプリケーションによる遅延時間調節機能がない。それだけでなく、エンコーダ側時間的スケーラビリティは提供されない。すなわち、ＵＭＣＴＦの場合に所定の時間的レベルで止めてビットストリームを転送できない。このようなエンコーダ側時間的スケーラビリティは双方向ビデオストリーミングアプリケーションに非常に有効な機能である。すなわち、エンコーディング過程で演算能力が足りない場合には現在時間的レベルで演算を中止して直ちにビットストリームを送る必要があるが、このような点で従来の方式は限界点を持つ。

前述した問題点を鑑みる時、短い最終遅延時間を持つように画質に比較的少ない影響を及ぼしつつ遅延時間の調節が可能なビデオコーディングアルゴリズムが必要である。また、デコーダ側だけでなくエンコーダ側でも時間的スケーラビリティを持つように高い時間的レベルで低い時間的フレーム作業を行えるビデオコーディングアルゴリズムが必要である。
なお、特許文献１、特許文献２等には、スケイラブル・ビデオ・エンコーディング(scalable video encoding)に関する技術が開示されている。
国際公開第２００２／０１８８１号パンフレット国際公開第２００３／０６１２９４号パンフレット

本発明は前述した必要性を鑑みてなされたものであり、本発明は遅延時間調節が可能であり、かつエンコーダ側でも時間的スケーラビリティを持つビデオコーディング方法とデコーディング方法及びそのための装置を提供することをその技術的課題とする。

前記目的を達成するために、本発明によるビデオコーディング方法は、ビデオシーケンスを構成する複数のフレームを入力されて制限された時間的レベル順でフレームの時間的重複を除去する（ａ）段階と、前記時間的重複が除去されたフレームから変換係数を得てそれを量子化してビットストリームを生成する（ｂ）段階と、を含む。

前記（ａ）段階で、入力されるフレームはウェーブレット変換を経て空間的重複が除去されたフレームである。前記（ｂ）段階で、変換係数は前記時間的重複が除去されたフレームを空間的変換して得られる。前記空間的変換はウェーブレット変換である。

前記フレームの時間的レベルは二分的階層構造を持つ。前記制限された時間的レベル順は時間的レベルの高いフレームから時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順である。前記制限された時間的レベル順はＧＯＰサイズを周期として反復されることが望ましい。この時、ＧＯＰを構成するフレームのうち最も高い時間的レベルを持つフレームはＧＯＰの最小フレームインデックスを持つフレームであることが望ましい。

時間的重複を除去する過程はＧＯＰ単位で行われるが、ＧＯＰの最も高い時間的レベルを持つ最初のフレームをＩフレームと設定し、前記制限された時間的レベル順で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームである。望ましくは、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームである。

前記時間的重複を除去する過程で、各フレームが参照する参照フレームには各フレーム自身（現在フィルタリング中のフレーム）をさらに含み、前記時間的重複を除去する過程で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをＩフレームにコーディングすることが望ましい。

前記時間的重複を除去する過程で、各フレームが参照する参照フレームには、次のＧＯＰに属する各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームをさらに含む。

前記制限された時間的レベル順はコーディングモードによって決定される。前記コーディングモードによって決定された制限された時間的レベル順は、同一コーディングモードではＧＯＰサイズを周期として反復される順序である。ＧＯＰを構成するフレームのうち最も高い時間的レベルを持つフレームはＧＯＰの最小フレームインデックスを持つフレームであることが望ましい。

前記（ｂ）段階で、前記コーディングモードに関する情報を前記ビットストリームにさらに含めることが望ましい。

前記コーディングモードは遅延時間制御パラメータＤにより決定されるが、この場合に前記制限された時間的レベル順は、時間的フィルタリングされていない最低レベルのフレームのインデックスよりＤ超過しないインデックスを持つフレームのうち時間的レベルの高いフレームから時間的レベルの低いフレーム順であり、また同じ時間的レベル順の場合には、時間的に先立つフレームから遅いフレーム順である。前記時間的重複を除去する過程はＧＯＰ単位で行われるが、ＧＯＰ内の最高時間的レベルを持つフレームをＩフレームにコーディングし、前記制限された時間的レベル順で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームである。望ましくは、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームである。

一実施例において、前記ＧＯＰ内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームである。

前記時間的重複を除去する過程で、各フレームが参照する一つまたはそれ以上の参照フレームには各フレーム自身を含み、前記時間的重複を除去する過程で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをＩフレームにコーディングすることが望ましい。

前記時間的重複を除去する過程で、各フレームが参照する参照フレームには次のＧＯＰに属する各フレーム自身より時間的レベルが高くて時間的距離がＤ以内にある一つまたはそれ以上のフレームをさらに含むことが望ましい。

前記目的を達成するために本発明によるビデオエンコーダは、複数のフレームを入力されて制限された時間的レベル順でフレームの時間的重複を除去する時間的変換部と、前記フレームに対する空間的重複を除去する空間的変換部と、前記時間的及び空間的重複を除去する過程で得られる変換係数を量子化する量子化部と、前記量子化された変換係数を利用してビットストリームを生成するビットストリーム生成部と、を含む。

前記時間的変換部は、前記空間的変換部に先立って時間的重複を除去したフレームを前記空間的変換部に伝達し、前記空間的変換部は、時間的重複が除去されたフレームから空間的重複を除去して変換係数を得られる。この時、前記空間的変換部は、ウェーブレット変換を通じて空間的重複を除去することが望ましい。

前記空間的変換部は、前記時間的変換部に先立ってウェーブレット変換を通じて空間的重複を除去したフレームを前記時間的変換部に伝達し、前記時間的変換部は空間的重複が除去されたフレームから時間的重複を除去して変換係数を得られる。

前記時間的変換部は、入力された複数のフレームから動きベクトルを求める動き推定部と、前記動きベクトルを利用して前記入力された複数のフレームに対して所定の制限された時間的レベル順で時間的フィルタリングをする時間的フィルタリング部と、前記制限された時間的レベル順を決定するモード選択部と、を含む。前記モード選択部は、前記制限された時間的レベル順をＧＯＰサイズの周期関数で決定する。

前記モード選択部は、前記制限された時間的レベル順を時間的レベルの高いフレームから時間的レベルの低いフレーム順に、同じ時間的レベル順の場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順に決定することが望ましい。また望ましくは、前記モード選択部が決定する前記制限された時間的レベル順は、ＧＯＰサイズを周期として反復される。

前記モード選択部は、前記制限された時間的レベル順を遅延時間制御パラメータＤを参照して決定するが、この場合、前記決定される制限された時間的レベル順は、時間的重複が除去されていない最低レベルのフレームのインデックスよりＤ超過しないインデックスを持つフレームのうち最も高い時間的レベルを持つ最初のフレームから始まって時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順である。

前記時間的フィルタリング部は、前記モード選択部により選択された制限された時間的レベル順によってＧＯＰ単位で時間的重複を除去するが、ＧＯＰ内の最高時間的レベルを持つフレームをＩフレームにコーディングした後に各フレームの時間的重複を除去する時、前記時間的フィルタリング部は、現在フィルタリング中のフレームより高い時間的レベルまたは現在フィルタリング中のフレームと同じ時間的レベルを持つフレームのうち現在フィルタリング中のフレームより時間的に先立つ一つまたはそれ以上のフレームを参照して時間的重複を除去できる。望ましくは、前記時間的フィルタリング部は、各フレームの時間的重複を除去するために参照する参照フレームは、現在フィルタリング中のフレームより時間的レベルが高い一つまたはそれ以上のフレームのうち現在フィルタリング中のフレームとインデックス差の最も小さい一つまたは二つのフレームである。

望ましくは、前記ＧＯＰ内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームである。

前記時間的フィルタリング部は、現在フィルタリング中のフレームに対する時間的重複を除去する時に参照するフレーム中に前記現在フィルタリング中のフレームをさらに含みうるが、この時、前記時間的フィルタリング部は、前記現在フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをＩフレームにコーディングすることが望ましい。

前記ビットストリーム生成部は、前記制限された時間的レベル順に関する情報を含んで前記ビットストリームを生成し、前記ビットストリーム生成部は、前記変換係数を得るための時間的重複を除去する過程及び空間的重複を除去する過程の順序（重複除去順序）に関する情報を含んで前記ビットストリームを生成する。

前記目的を達成するために本発明によるビデオデコーディング方法は、ビットストリームを入力され、それを解釈してコーディングされたフレームに関する情報を抽出する（ａ）段階と、前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る（ｂ）段階と、前記コーディングされたフレームの重複除去順序の逆順に、前記変換係数を逆空間的変換しかつ制限された時間的レベル順で逆時間的変換してフレームを復元する（ｃ）段階と、を含む。

前記（ｃ）段階は、前記変換係数で作ったフレームを前記制限された時間的レベル順で逆時間的変換してから逆ウェーブレット変換してフレームを復元する。

また、前記（ｃ）段階は、前記変換係数を逆空間的変換してから前記制限された時間的レベル順で逆時間的変換してフレームを復元できるが、前記逆空間的変換は逆ウェーブレット変換方式であることが望ましい。

前記制限された時間的レベル順は、時間的レベルの高いフレームから時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順であることが望ましい。前記制限された時間的レベル順はＧＯＰサイズを周期として反復される。前記逆時間的変換過程は、ＧＯＰの時間的レベルが最も高いコーディングされたフレームから始まって前記制限された時間的レベル順で前記コーディングされたフレームを逆時間的フィルタリングする。

前記制限された時間的レベル順は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって決定するが、前記制限された時間的レベル順は、同一コーディングモードでＧＯＰサイズを周期として反復されることが望ましい。

前記コーディングモードに関する情報は遅延時間制御パラメータＤを含んでおり、前記決定される制限された時間的レベル順は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスよりＤ超過しないインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレーム順である。

前記重複除去順序は、前記入力されたビットストリームから抽出できる。

前記目的を達成するために本発明によるビデオデコーダは、入力されたビットストリームを解釈してコーディングされたフレームに関する情報を抽出するビットストリーム解釈部と、前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る逆量子化部と、逆空間的変換過程を行う逆空間的変換部と、制限された時間的レベル順で逆時間的変換過程を行う逆時間的変換部と、を含み、重複除去順序の逆順によって前記変換係数に対する逆空間的変換過程及び逆時間的変換過程によりフレームを復元する。

前記重複除去順序の逆順は、逆時間的変換過程から逆空間的変換過程であり、前記逆空間的変換部は逆ウェーブレット変換方式で逆空間的変換作業を行える。

前記重複除去順序の逆順は、逆空間的変換過程から逆時間的変換過程であり、前記逆空間的変換部は、逆ウェーブレット変換方式で逆空間的変換作業を行うことが望ましい。

望ましくは、前記制限された時間的レベル順は、時間的レベルの高いコーディングされたフレームから時間的レベルの低いコーディングされたフレーム順である。前記制限された時間的レベル順はＧＯＰサイズを周期として反復される。

前記駅時間的変換部はＧＯＰ単位で逆時間的変換過程を行うが、ＧＯＰの時間的レベルの最も高いコーディングされたフレームから始まって前記制限された時間的レベル順で前記コーディングされたフレームを逆時間的フィルタリングできる。

前記ビットストリーム解釈部は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって前記制限された時間的レベル順を決定し、前記制限された時間的レベル順は同一コーディングモードでＧＯＰサイズを周期として反復される。

記重複除去順序は前記入力されたビットストリームから抽出できる。

本発明によれば、遅延時間調節が可能であり、短い遅延時間を持つ場合にも性能の低下が著しくないビデオコーディングが可能である。また本発明によれば、変化の激しいビデオシーケンスの場合にも効率的に圧縮できる。それだけでなく本発明では遅延時間を調節しても時間的スケーラビリティに適応する。

以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。

図２は、本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。

スケーラブルビデオエンコーダは、ビデオシーケンスを構成する複数のフレームを入力されてそれを圧縮してビットストリームを生成する。そのために、スケーラブルビデオエンコーダは、複数のフレームの時間的重複を除去する時間的変換部１０と、空間的重複を除去する空間的変換部２０と、時間的及び空間的重複が除去されて生成された変換係数を量子化する量子化部３０と、量子化された変換係数及びその他の情報を含んでビットストリームを生成するビットストリーム生成部４０とを含む。

時間的変換部１０は、フレーム間動きを補償して時間的フィルタリングを行うために動き推定部１２と時間的フィルタリング部１４とモード選択部１６とを含む。

まず、動き推定部１２は、時間的フィルタリング過程の実行中のフレームの各マクロブロックとそれに対応する参照フレームの各マクロブロックとの動きベクトルを求める。動きベクトルに関する情報は時間的フィルタリング部１４に提供され、時間的フィルタリング部１４は動きベクトルに関する情報を利用して複数のフレームに対する時間的フィルタリングを行う。本実施形態で時間的フィルタリングはＧＯＰ単位で行われる。

一方、モード選択部１６は時間的フィルタリングの順序を定める。本実施形態で時間的フィルタリングは基本的にＧＯＰ内で高い時間的レベルを持つフレームから低い時間的レベルを持つフレーム順に進行し、同じ時間的レベルを持つフレームの場合には、小さなフレームインデックスを持つフレームから大きいフレームインデックスを持つフレーム順に進行する。フレームインデックスはＧＯＰを構成するフレームの時間的順序を知らせるインデックスであって、一つのＧＯＰを構成するフレームの数がｎである場合にフレームインデックスは時間的に最も先立つフレームを０として、時間的順序の最後のフレームはｎ−１のインデックスを持つ。

本実施形態でＧＯＰを構成するフレームのうち最高時間的レベルを持つフレームはフレームインデックスの最も小さなフレームを使用するが、これは例示的なものであってＧＯＰ内の他のフレームを時間的レベルの最も高いフレームとして選択することも本発明の技術的思想に含まれると解釈せねばならない。

一方、モード選択部１６は、ビデオコーディング過程で発生する遅延時間を短縮するために遅延時間限定モードにコーディングを行える。このような場合にモード選択部１６は、遅延時間制御パラメータＤ値によって時間的フィルタリング順序を、前述した時間的レベル順の高いフレームから低いフレームにする順序に制限できる。それ以外にもモード選択部１６は、エンコーディング過程で演算能力の限界などを考慮して時間的フィルタリングの順序を変更するか、または一部フレームを省略したまま時間的フィルタリングを行うこともできる。以下、詳細な説明で“制限された時間的レベル順”という用語は、このようなあらゆる要素を考慮した時間的フィルタリングの順序を意味する用語として使用するが、制限された時間的レベル順は、最高時間的レベルのフレームから時間的フィルタリングが始まるという特徴を持つ。

時間的重複が除去されたフレーム、すなわち、時間的フィルタリングされたフレームは空間的変換部２０を経て空間的重複が除去される。空間的変換部２０は空間的変換を利用して時間的フィルタリングされたフレームの空間的重複を除去するが、本実施形態ではウェーブレット変換を使用する。現在知られたウェーブレット変換は一つのフレームを４等分し、全体イメージとほぼ同じ１／４面積を持つ縮少されたイメージ（Ｌイメージ）を前記フレームの一側４分面に代え、残りの３個の４分面はＬイメージを通じて全体イメージを復元可能にする情報（Ｈイメージ）に代えられる。同じ方式でＬフレームはまた１／４面積を持つＬＬイメージ及びＬイメージを復元するための情報に代えられうる。このようなウェーブレット方式を使用するイメージ圧縮法はＪＰＥＧ２０００という圧縮方式に適用されている。ウェーブレット変換を通じてフレームの空間的重複を除去でき、またウェーブレット変換は離散コサイン変換（ＤＣＴ：ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）とは違って元来のイメージ情報が変換されたイメージに縮少された形に保存されているので、縮少されたイメージを利用して空間的スケーラビリティを持つビデオコーディングを可能にする。しかし、ウェーブレット変換方式は例示的なものであって、空間的スケーラビリティを達成しなくて済む場合ならば既存のＭＰＥＧ−２のような動映像圧縮方式に広く使われるＤＣＴ方法を使用することもできる。

時間的フィルタリングされたフレームは空間的変換を経て変換係数になるが、これは量子化部３０に伝達されて量子化される。量子化部３０は、実数型係数の変換係数を量子化して整数型変換係数に変える。すなわち、量子化を通じてイメージデータを表現するためのビット量を減らしうるが、本実施形態ではエンベディッド量子化方式を通じて変換係数に対する量子化過程を行う。エンベディッド量子化方式を通じて変換係数に対する量子化を行うことによって量子化に必要な情報量を減らすことができ、エンベディッド量子化によりＳＮＲスケーラビリティを得られる。エンベディッドとは、コーディングされたビットストリームが量子化を含むという意味を示すのに使われる。言い換えれば、圧縮されたデータは視覚的に重要な順序に生成されるか、または視覚的重要度により表示される。実際量子化（または視覚的重要度）レベルはデコーダや転送チャンネルで機能しうる。もし、転送帯域幅、保存容量、ディスプレイリソースが許容されるならば、イメージは損失なしに復元できる。しかし、そうでない場合ならばイメージは最も制限されたリソースに要求されるほどのみ量子化される。現在知られたエンベディッド量子化アルゴリズムはＥＺＷ、ＳＰＩＨＴ、ＥＺＢＣ、ＥＢＣＯＴなどがあり、本実施形態では知られたアルゴリズムのうちいかなるアルゴリズムを使用しても構わない。

ビットストリーム生成部４０は、コーディングされたイメージ情報及び動き推定部１２で得た動きベクトルに関する情報などを含んでヘッダを付けてビットストリームを生成する。本実施形態では制限された時間的レベル順に関する情報をビットストリームに含めるが、遅延時間パラメータをビットストリーム情報に入れる。

一方、空間的重複を除去する時にウェーブレット変換を使用する場合、元来変換されたフレームに元来イメージに対する形態が残っているが、これによりＤＣＴ基盤の動映像コーディング方法とは違って空間的変換を経て時間的変換を行った後に量子化してビットストリームを生成することもできる。これについての他の実施形態は図３を通じて説明する。

図３は、本発明の他の実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。

本実施形態によるスケーラブルビデオエンコーダは、ビデオシーケンスを構成する複数のフレームに対する空間的重複を除去する空間的変換部６０と、時間的重複を除去する時間的変換部７０と、フレームに対する空間的及び時間的重複が除去して得た変換係数を量子化する量子化部８０と、コーディングされたイメージ情報とその他の情報を含んでビットストリームを生成するビットストリーム生成部９０とを含む。

変換係数という用語と関連して、従来には動映像圧縮で時間的フィルタリングした後に空間的変換を行う方式が主に利用されたため、変換係数という用語は主に空間的変換により生成される値を称するものであった。すなわち、変換係数はＤＣＴにより生成された場合にＤＣＴ係数という用語で使われることもあり、ウェーブレット変換により生成された場合にウェーブレット係数という用語で使われることもあった。本発明で変換係数は、フレームに対する空間的及び時間的重複を除去して生成された値であって、量子化（エンベディッド量子化）される前の値を意味する。すなわち、図２の実施形態では従来と同じく変換係数は空間的変換を経て生成された係数を意味するが、図３の実施形態で変換係数は時間的変換を経て生成された係数を意味できるという点を留意しなければならない。

まず、空間的変換部６０は、ビデオシーケンスを構成する複数のフレームの空間的重複を除去する。この場合に、空間的変換部はウェーブレット変換を使用してフレームの空間的重複を除去する。空間的重複が除去されたフレーム、すなわち、空間的変換されたフレームは時間的変換部７０に伝達される。

時間的変換部７０は、空間的変換されたフレームに対する時間的重複を除去するが、そのために動き推定部７２と時間的フィルタリング部７４とモード選択部７６とを含む。本実施形態で時間的変換部７０の動作は、図２の実施形態と同じ方式で動作されるが、異なる点は図２の実施形態とは違って入力されるフレームは空間的変換されたフレームであるという点である。また、時間的変換部７０は空間的変換されたフレームに対して時間的重複を除去した後に量子化のための変換係数を作るという点も異なる点であるといえる。

量子化部８０は変換係数を量子化して量子化されたイメージ情報（コーディングされたイメージ情報）を作り、それをビットストリーム生成部４０に提供する。量子化は図２の実施形態と同じくエンベディッド量子化して最終的に生成されるビットストリームに対するＳＮＲスケーラビリティを得る。

ビットストリーム生成部９０は、コーディングされたイメージ情報及び動きベクトルに関する情報などを含み、ヘッダを付けてビットストリームを生成する。この時にも図２の実施形態と同じく遅延時間制御パラメータを含めうる。

一方、図２のビットストリーム生成部４０及び図３のビットストリーム生成部９０は、図２の実施形態によってビデオシーケンスをコーディングしたか、または図３の実施形態によってビデオシーケンスをコーディングしたかをデコーディング側から分かるようにビットストリームに時間的重複及び空間的重複を除去した順序に関する情報（以下、重複除去順序）を含みうる。重複除去順序をビットストリームに含む方式はいろいろな方式が可能である。いずれか一つの方式を基本に定めて他の方式は別途にビットストリームに表示することもある。例えば、図２の方式が基本的な方式である場合に図２のスケーラブルビデオエンコーダで生成されたビットストリームには重複除去順序に関する情報を表示せず、図３のスケーラブルビデオエンコーダにより生成されたビットストリームにのみ重複除去順序を含めうる。一方、重複除去順序に関する情報を図２の方式による場合や図３の方式による場合いずれにも表示することもある。

図２の実施形態によるスケーラブルビデオエンコーダと図３の実施形態によるスケーラブルビデオエンコーダとの機能をいずれも持つスケーラブルビデオエンコーダを具現し、ビデオシーケンスを図２の方式及び図３の方式でそれぞれコーディングしかつ比較して効率の優れたコーディングによるビットストリームを生成することもある。このような場合にはビットストリームに重複除去順序を含めねばならない。この時、重複除去順序はビデオシーケンス単位で決定することもあり、ＧＯＰ単位で決定することもある。前者の場合にはビデオシーケンスヘッダに重複除去順序を含めねばならず、後者の場合にはＧＯＰヘッダに重複除去順序を含めねばならない。

前記図２及び図３の実施形態はいずれもハードウェアで具現されることもあるが、ソフトウェアモジュール及びそれを実行できるコンピューティング能力を持つ装置でも具現できるということを留意しなければならない。

図４は、本発明の一実施形態によるスケーラブルビデオデコーダの構成を示す機能性ブロック図である。

スケーラブルビデオデコーダは、入力されるビットストリームを解釈してビットストリームに含まれた各構成部分を抽出するビットストリーム解釈部１００と、図２の実施形態によってコーディングされたイメージを復元する第１デコーディング部２００と、図３の実施形態によってコーディングされたイメージを復元する第２デコーディング部３００とを含む。

前記第１及び第２デコーディング部はハードウェアで具現されることもあり、ソフトウェアモジュールで具現されることもある。また、ハードウェアあるいはソフトウェアモジュールで具現される時は図４のように別途に具現されることもあるが、統合されて具現されることもある。統合されて具現された場合に、第１及び第２デコーディング部はビットストリーム解釈部１００で得た重複除去順序により、逆重複除去過程の順序のみ別にする。

一方、スケーラブルビデオデコーダは、図４のように相異なる重複除去順序によってコーディングされたイメージをいずれも復元できるように具現されることもあるが、いずれか一つの重複除去順序によってコーディングされたイメージのみを復元するように具現することもあることを留意しなければならない。

まず、ビットストリーム解釈部１００は入力されたビットストリームを解釈してコーディングされたイメージ情報（コーディングされたフレーム）を抽出して重複除去順序を決定する。重複除去順序が第１デコーディング部２００に該当する場合ならば、第１デコーディング部２００を通じてビデオシーケンスを復元し、重複除去順序が第２デコーディング部３００に該当する場合ならば第２デコーディング部３００を通じてビデオシーケンスを復元する。また、ビットストリーム解釈部１００は、ビットストリームを解釈して時間的重複を行う時にフレームの時間的フィルタリングを行う順序である制限された時間的レベル順が分かるが、本実施形態ではコーディングモードを決定する遅延時間制御パラメータ値を通じて制限された時間的レベル順が分かる。コーディングされたイメージ情報からビデオシーケンスを復元する過程については、重複除去順序が第１デコーディング部２００に該当する場合をまず説明し、それから重複除去順序が第２デコーディング部３００に該当する場合を説明する。

第１デコーディング部２００に入力されたコーディングされたフレームに関する情報は逆量子化部２１０により逆量子化されて変換係数に変わる。変換係数は逆空間的変換部２２０により逆空間的変換される。逆空間的変換はコーディングされたフレームの空間的変換と関連するが、空間的変換方式でウェーブレット変換が使われた場合に逆空間的変換は逆ウェーブレット変換を行い、空間的変換方式がＤＣＴである場合には逆ＤＣＴを行う。逆空間的変換を経て変換係数は時間的フィルタリングされたＩフレーム及びＨフレームに変換されるが、逆時間的変換部２３０は制限された時間的レベル順で逆時間的変換してビデオシーケンスを構成するフレームを復元する。制限された時間的レベル順は、ビットストリーム解釈部１００から入力されたビットストリームを解釈して分かる。逆時間的変換のために逆時間的フィルタリング部２３０は、ビットストリームを解釈して得たモーションベクトルを利用する。

第２デコーディング部３００に入力されたコーディングされたフレームに関する情報は、逆量子化部３１０により逆量子化されて変換係数に変わる。変換係数は逆時間的変換部３２０により逆時間的変換される。逆時間的変換のためのモーションベクトル及び制限された時間的レベル順は、ビットストリーム解釈部１００がビットストリームを解釈して得た情報から得られる。逆時間的変換を経たコーディングされたイメージ情報は空間的変換を経たフレーム状態に変換される。空間的変換を経た状態のフレームは、逆空間的変換部３３０で逆空間的変換されてビデオシーケンスを構成するフレームに復元される。逆空間的変換部３３０で使われる逆空間的変換は逆ウェーブレット変換方式である。

以下では、時間的スケーラビリティを最大限維持しつつ遅延時間を制御可能にするために制限された時間的レベル順で時間的変換を行う過程についてさらに詳細に説明する。

本発明は継承的時間的近似及び参照（ＳｕｃｃｅｓｓｉｖｅＴｅｍｐｏｒａｌＡｐｐｒｏｘｉｍａｔｉｏｎａｎｄＲｅｆｅｒｅｎｃｉｎｇ；以下、ＳＴＡＲ）アルゴリズムを通じて時間的スケーラビリティをエンコーディング側及びデコーディング側いずれにも持つようにし、容易に遅延時間問題を制御できる。

図５は、ＳＴＡＲアルゴリズムの基本的概念を説明するための図面である。

ＳＴＡＲアルゴリズムの基本概念は次の通りである。各時間的レベルのあらゆるフレームはノードとして表現される。そして参照関係は矢印で表示される。各時間的レベルには必要なフレームのみ位置できる。例えば、最高時間的レベルでＧＯＰのフレームのうちただ一つのフレームだけ位置できる。本実施形態ではＦ（０）フレームが最高の時間的レベルを持つ。次の時間的レベルで、時間的分析が継承的に実行されて既にコーディングされたフレームインデックスを持つ元来のフレームにより高周波成分を持つエラーフレームが予測される。ＧＯＰサイズが８である場合に０番フレームを最高の時間的レベルでＩフレームにコーディングし、４番フレームは次の時間的レベルで０番フレームの元来のフレームを使用してインターフレーム（Ｈフレーム）にコーディングする。それから、２番と６番フレームを０番と４番の元来のフレームを使用してインターフレームにコーディングする。最後に１、３、５、７フレームを、０、２、４、６番フレームを利用してインターフレームにコーディングする。

デコーディング過程は０番フレームを先にデコーディングする。それから０番を参照して４番フレームをデコーディングする。同じ方式で０番と４番フレームを参照して２番と６番フレームをデコーディングする。最後に１、３、５、７フレームを０、２、４、６番フレームを利用してデコーディングする。

図５に図示されたようにエンコーディング側とデコーディング側いずれも同じ時間的処理過程を持つ。このような特性はエンコーディング側に時間的スケーラビリティを提供できる。すなわち、エンコーディング側ではいかなる時間的レベルで止めてもデコーディング側では該当時間的レベルまでデコーディングできる。すなわち、時間的レベルの高いフレームからコーディングを行うためにエンコーディング側でも時間的スケーラビリティを達成可能になる。例えば、もし６番フレームまでコーディングが終わった状態でコーディング過程を止めるならば、デコーディング側はコーディングされた０番フレームを参照して４番フレームを復元し、４番フレームを参照して２番と６番フレームを復元できる。このような場合にデコーディング側では０、２、４、６番フレームをビデオに出力可能になる。エンコーディング側の時間的スケーラビリティを維持するためには時間的レベルの最も高いフレーム（本実施形態ではＦ（０））は、他のフレームとの演算を必要とするＬフレームではないＩフレームにコーディングせねばならない。

これを従来の方法と比較すれば、従来のＭＣＴＦまたはＵＭＣＴＦ基盤のスケーラブルビデオコーディングアルゴリズムがデコーディング側で時間的スケーラビリティを持つことができるが、エンコーディング側では時間的スケーラビリティを持ち難い。すなわち、図１Ａ及び図１Ｂの場合を参照すれば、デコーディング側でデコーディング過程を行うためには時間的レベル３のＬまたはＡフレームがなければならないが、ＭＣＴＦ及びＵＭＣＴＦアルゴリズムの場合にはエンコーディング過程がいずれも終わって初めて最高の時間的レベルのＬまたはＡフレームを得られる。しかし、デコーディング過程ではいかなる時間的レベルでもデコーディング過程を止めうる。

エンコーディング側とデコーディング側のいずれでも時間的スケーラビリティを維持するための条件について説明する。

Ｆ（ｋ）はフレームインデックスがｋであるフレームを意味し、Ｔ（ｋ）はフレームインデックスがｋであるフレームの時間的レベルを意味するとしよう。時間的スケーラビリティが成立されるためにはいずれかの時間的レベルのフレームをコーディングする時、それより低い時間的レベルを持つフレームを参照してはならない。例えば、４番フレームが２番フレームを参照してはならないが、もし参照することが許容されるならば０番及び４番フレームでエンコーディングを止められなくなる（すなわち、２番フレームをコーディングして初めて４番フレームをコーディングできる）。フレームＦ（ｋ）が参照できる参照フレームの集合Ｒ_ｋは数式１により定められる。

ここで、ｌはフレームインデックスを意味する。

一方、（Ｔ（ｌ）＝Ｔ（ｋ））ａｎｄ（ｌ＜＝ｋ）は、フレームＦ（ｋ）は時間的フィルタリング過程で自身を参照して時間的フィルタリングを行うこと（イントラモード）を意味するが、これについては後述する。

ＳＴＡＲアルゴリズムを利用したエンコーディング及びデコーディング過程を整理すれば次の通りである。

＜エンコーディング過程＞
１．ＧＯＰの最初のフレームをＩフレームにエンコーディングする。
２．その後、次の時間的レベルのフレームに対して、モーション推定をして数式１による参照フレームを参照してコーディングする。同じ時間的レベルを持つ場合には左側から右側に（低いフレームインデックスのフレームから高いフレームインデックスのフレーム順に）コーディング過程を行う。
３．ＧＯＰのあらゆるフレームをコーディングし終わるまで２の過程を反復実行してからあらゆるフレームに対するコーディングが終わるまでその次のＧＯＰをコーディングする。

＜デコーディング過程＞
１．ＧＯＰの最初のフレームをデコーディングする。
２．次の時間的レベルのフレームを既にデコーディングされたフレームのうち適当なフレームを参照してデコーディングする。同じ時間的レベルを持つ場合には左側から右側に（低いフレームインデックスのフレームから高いフレームインデックスのフレーム順に）デコーディング過程を行う。
３．ＧＯＰのあらゆるフレームをデコーディングし終わるまで２の過程を反復実行してから、あらゆるフレームに対するデコーディングが終わるまでその次のＧＯＰをデコーディングする。

図５で、フレームの内部に表示された文字Ｉはフレームがイントラコーディングされたこと（他のフレームを参照せず）を表示し、文字Ｈは該当フレームが高周波サブバンドであることを表示する。高周波サブバンドは一つまたはそれ以上のフレームを参照してコーディングされるフレームを意味する。

一方、図５でＧＯＰのサイズが８である場合にフレームの時間的レベルは０、４、（２、６）、（１、３、５、７）順にしたが、これは例示的なものであって、１、５、（３、７）、（０、２、４、６）である場合もエンコーディング側及びデコーディング側時間的スケーラビリティは全く問題がない。同じく、時間的レベルの順序が２、６、（０、４）、（１、３、５、７）である場合も可能である。すなわち、エンコーディング側及びデコーディング側の時間的スケーラビリティを満たすように時間的レベルに位置するフレームはいかなるインデックスのフレームになっても構わない。

しかし、０、５、（２、６）、（１、３、４、７）の時間的レベル順を持つように具現した場合にエンコーディング側及びデコーディング側の時間的スケーラビリティは満足できるが、このような場合にはフレーム間の間隔が不均一になるのであまり望ましくはない。

図６を参照して時間的フィルタリングのためのフレーム間の可能な連結の例を説明する。図６は、ＳＴＡＲアルゴリズムで可能なフレーム間の連結を示す図面である。

数式１を参照すれば、フレームＦ（ｋ）は多くのフレームを参照できることが分かる。このような特性はＳＴＡＲアルゴリズムが多い参照フレームを使用可能にする。本実施形態でＧＯＰのサイズが８である場合に可能なフレーム間の連結を示している。いずれかのフレームで自身から出発して自身に連結された矢印はイントラモードにより予測されたことを示す。同じ時間的レベルでＨフレーム位置にあるものを含んで以前にコーディングされたフレームインデックスを持つあらゆる元来のフレームは参照フレームとして使われうる。しかし、従来の方法でＨフレームの位置にある元来のフレームは同じレベルにあるフレームのうちＡフレームまたはＬフレームのみ参照できるので、これもまた本実施形態と従来方法との差別点といえる。例えば、Ｆ（５）はＦ（３）とＦ（１）とを参照できる。

たとえ多重参照フレームを使用する時には時間的フィルタリングのためのメモリ使用量及びプロセシング遅延時間を増加させるとしても、多重参照フレームを使用することは有意義である。

前述したが、本実施形態を含む以下の説明で一つのＧＯＰ内で最高の時間的レベルを持つフレームは最も少ないフレームインデックスを持つフレームであると説明されるが、これは例示的なものであって最高の時間的レベルを持つフレームが他のインデックスを持つフレームである場合にも可能であるという点を留意する必要がある。

便宜上、あるフレームをコーディングするための参照フレームの数を双方向予測のための２つに限定して説明し、実験結果で単方向予測のためには一つに限定する。

図７は、双方向予測及びクロスＧＯＰ最適化を使用したＳＴＡＲコーディングアルゴリズムの場合を示す。

ＳＴＡＲアルゴリズムは他のＧＯＰのフレームを参照してフレームをコーディングできるが、これをクロスＧＯＰ最適化という。ＵＭＣＴＦの場合にもこれを支援できるが、クロスＧＯＰ最適化の可能な理由は、ＵＭＣＴＦ及びＳＴＡＲコーディングアルゴリズムは時間的フィルタリングされていないＡまたはＩフレームを使用する構造であるからである。図５及び図６の実施形態で７番フレームの予測エラーは０番、４番、及び６番フレームの予測エラーを合わせた値である。しかし、７番フレームが次のＧＯＰの０番フレーム（現ＧＯＰで計算すれば８番フレーム）を参照すれば、このような予測エラーの累積現象は確実に減少できる。さらに、次のＧＯＰの０番フレームはイントラコーディングされるフレームであるために７番フレームの質は明らかに改善されうる。

図８は、本発明の他の実施形態による非二分的時間的フィルタリングでフレーム間の連結を示す図面である。

ＵＭＣＴＦコーディングアルゴリズムがＡフレームを任意的に挿入することによって非二分的時間的フィルタリングを支援できるように、ＳＴＡＲアルゴリズムもまたグラフィック構造を簡単に変えることにより非二分的時間的フィルタリングを支援できる。本実施形態は１／３及び１／６時間的フィルタリングを支援する場合を示す。ＳＴＡＲアルゴリズムではグラフ構造を変えることにより容易に任意の比率を持つフレームレートを得られる。

ＳＴＡＲアルゴリズムの特性（長所）として、エンコーディング側及びデコーディング側の時間的レベルの処理順序が同一であるという点と、多重参照フレームを支援するという点と、クロスＧＯＰ最適化を支援するという点とを前述した。このような特性のうち一部は従来の方法によっても制限的に達成できたものであるが、従来の方法によっては遅延時間を制御し難い。従来の方法で遅延時間を短縮する方法にはＧＯＰサイズを縮める方法があるが、この場合に性能は目立って悪くなる。ＳＴＡＲアルゴリズムを使用する場合に、遅延時間制御パラメータＤという概念を導入して非常に容易にビデオシーケンスからエンコーディング及びデコーディングを経て再びビデオシーケンスに復元されるまでの遅延時間を制御できる。

図９ないし図１２を参照して遅延時間を限定した場合にＳＴＡＲアルゴリズムについて説明する。

遅延時間制御のための数式１による時間的スケーラビリティ条件は若干修正されねばならないが、これは数式２により定められる。

ここでＲ_ｋ ^Ｄは許容される遅延時間をＤに限定する場合において現在コーディングされるフレームが参照できる参照フレームの集合を意味する。数式２の意味を解釈すれば、時間的レベルの高いフレームであってもいつでも参照フレームになるわけではなく、現在コーディングされるフレームよりフレームインデックスがＤを超過しないフレームでなければならないということを意味する。これと関連して一つ留意すべき点は、数式２を解釈する時にＤはＦ（ｋ）をコーディングするために最大限に許容される遅延時間を意味するという点である。すなわち、図７を参照すれば、２番フレームをコーディングするためには４番フレームが必要であり、したがってＤが２であれば十分であると考えられるが、１番フレームをコーディングするためには２番フレームが必要であり、２番フレームは４番フレームを必要とするためにＤは３になるという点を留意しなければならない。もちろん、１番フレームが２番フレームを参照せず、５番フレームが６番フレームを参照しない場合ならばＤ値は２で済む。整理すれば、図７のような構造を持つコーディングを行うためにはＤを３に設定せねばならない。

数式２による場合にも前述したマルチプル参照フレームやクロスＧＯＰ最適化が適用できるということを留意しなければならない。このような遅延時間制御は直接的でかつ具現が簡単であるという長所を持つ。

ＳＴＡＲアルゴリズムによるこのような接近法の主要な利点のうち一つは、デコーディング側で時間的スケーラビリティを全く損しないという点である。従来の方法のようにＧＯＰのサイズを縮める場合には最大時間的レベルの大きさが縮小されるためにデコーディング側で時間的スケーラビリティが弱くなる。例えば、ＧＯＰサイズが８である場合にデコーディング側で選択可能なフレームレート比率は１、１／２、１／４、１／８であるが、Ｄを３に限定するためにＧＯＰサイズを４とした場合にフレームレート比率は１、１／２、１／４が選択可能である。ＧＯＰサイズが２である場合には１、１／２のみ選択可能である。また、ＧＯＰのサイズを縮めるということは、前述したようにビデオエンコーディングの効率を急激に減らすという短所を持っている。これに対し、ＳＴＡＲアルゴリズムの場合には極端にＤを０に限定した場合にもデコーディング側の時間的スケーラビリティには全く影響を与えない。ただし、この場合においてエンコーディング側のスケーラビリティに損傷があるだけである。すなわち、ＧＯＰサイズが８であり、Ｄが０である場合において、エンコーディング側でＧＯＰ単位で処理できるフレームの数が２にプロセシング能力が制限される場合であれば、０番と１番フレームをコーディングしてデコーディング側に転送せねばならない。この場合にデコーディング側ではフレームレート比率が１／４であるビデオシーケンスを復元できるが、この時に復元されるビデオフレームは時間的間隔が不均一になる。

それぞれの遅延時間を別にした場合の例を図９、１０、１１、１２を通じて説明する。

図９は、本発明の他の実施形態による遅延時間制御パラメータが０である場合の時間的フィルタリングでフレーム間の連結を示す図面である。

本実施形態は、双方向予測及びクロスＧＯＰ最適化を支援し、かつＤ値を０に限定した場合の遅延時間が制限されたＳＴＡＲアルゴリズムの時間的構造を示す。遅延時間制御パラメータが０であるため、クロスＧＯＰ最適化は自動的に非活性化され、あらゆるフレームは時間的に後のフレーム（フレームインデックスの小さなフレーム）のみを参照する。したがって、フレーム転送順序は０、１、２、３、４、５、６、７になる。すなわち、一つのフレームが処理されて直ちにデコーディング側に伝えられうる。この場合において、Ｉフレームバッファリング遅延時間だけ存在する。このような特性はデコーディング側でも維持されるが、デコーダはフレームが到達するやいなやデコーディングを始めうる。すなわち、最終遅延時間はデコーディング側演算デレーを含んで単に２フレーム（６７ｍｓ＠３０Ｈｚ）である。しかし、このような場合に性能はＤ値を０より大きく設定した場合より多少落ちる。

図１０は、本発明の他の実施形態による遅延時間制御パラメータが１である場合の時間的フィルタリングでフレーム間の連結を示す図面である。

この場合において、クロスＧＯＰ最適化特性は自動的に活性化される。最低の時間的レベルのあらゆるフレームは良方予測を使用して予測でき、ＧＯＰの最後のフレームは次のＧＯＰの最初のフレームを参照できる。このような場合にフレームのコーディング順序は０、２、１、４、３、６、５、７、８（次のフレームの０）である。エンコーダ側で単に２フレームをバッファリングするための遅延時間及びデコーダ側の演算遅延時間が必要なだけである。総遅延時間は３フレーム（１００ｍｓ＠３０Ｈｚ）であり、大部分のフレームのための双方向予測及び最後のフレームでのクロスＧＯＰ最適化が可能になる。

図１１は、本発明の他の実施形態による遅延時間制御パラメータが３である場合の時間的フィルタリングでフレーム間の連結を示す図面である。

Ｄが３である場合には図１１に図示されたように２番フレームは４番フレームを参照でき、６番フレームはは次のＧＯＰの最初のフレームを参照できる。

Ｄが２ではなく３を必要とする理由は、２番フレームをコーディングするためには４番フレームが必要なので２フレームほどの遅延時間であれば十分であるが、１番フレームをコーディングするためには２番フレームが必要であり、２番フレームは２フレームほどの遅延時間を必要として総３フレームの遅延時間を必要とする。遅延時間が３である場合に８番フレーム（次のフレームの０番フレーム）から４番フレームへの参照を除外したあらゆるフレームの参照が可能である。この時のコーディング順序は０、４、２、１、３、８（次のＧＯＰの０番）、６、５、７になる。もし、Ｄが４である場合であれば図７の形態が可能である。ＧＯＰサイズを１６に拡張した場合を図１２に示す。

図１２は、本発明の他の実施形態によるＧＯＰサイズが１６である時、遅延時間制御パラメータが３である場合の時間的フィルタリングでフレーム間の連結を示す図面である。この場合にフレームのコーディング順序（転送順序と同一）は０、４、２、１、３、８、６、５、７、１２、１０、９、１１、１６（次のＧＯＰの０番フレーム）、１４、１３、１５になる。

ＳＴＡＲアルゴリズムにおいて最終遅延時間は単に一つのパラメータＤにより制御されるという点を留意せねばならない。このような特徴は遅延時間制御を単純化させ、最終遅延時間の観点でコーディング効率のいわゆる優雅な低下の結果をもたらす。このような一つのフレームワークで“柔軟な遅延時間”は非常に有用である。なぜなら、コーディングシステムの重要な変化なしにアプリケーションの性質によって最終遅延時間を容易に調節できるからである。すなわち、単方向ビデオストリームで、最終遅延時間は重要な問題とならない。したがって、Ｄ値を最大（ＧＯＰサイズの１／２）に設定できる。一方、双方向ＴＶ会議システムで最終遅延時間は非常に重要な問題となる。このような場合において、最終遅延時間を２より小さく設定すればコーディング効率を若干落としただけでも非常に小さな最終遅延時間を達成できる。最終遅延時間と遅延時間制御パラメータＤとの関係は表１に図示される。

表１の最終遅延時間は数式３のように表現できる。

Ｔは最終遅延時間を表す値であって、その単位は１フレーム時間である。

最終遅延時間によるピーク信号対雑音比（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ：ＰＳＮＲ）の低下に対する実験結果については後述する。

図１３は順方向、逆方向、双方向、及びイントラ予測モードを説明するための図面である。

ＳＴＡＲアルゴリズムは基本的にマルチモード時間的予測を支援する。図１３に図示されたように順方向(1)、逆方向(2)、双方向(3)、及びイントラ(4)予測が支援される。従来には前の３つのモードはスケーラブルビデオコーディングにおいて既に支援されていたが、ＳＴＡＲアルゴリズムではイントラ予測を含んで速い変化があるビデオシーケンスのコーディング効率を改善させた。

まず、インターマクロブロック予測モードの決定について説明する。ＳＴＡＲアルゴリズムは双方向予測及びマルチプル参照フレームを許容するために、順方向、逆方向、及び双方向予測を容易に具現できる。比としてよく知られたＨＶＢＳＭアルゴリズムを使用することもあるが、本発明の実施形態では固定されたブロックサイズモーション推定を使用した。Ｅ（ｋ，−１）をｋ番目の順方向予測での絶対差の和（ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ：以下、ＳＡＤ）とし、Ｂ（ｋ，−１）を純方向予測のモーションベクトルを量子化するのに割当てられる総ビットと仮定しよう。同じく、Ｅ（ｋ，＋１）をｋ番目逆方向予測でのＳＡＤといい、Ｂ（ｋ，＋１）を逆方向予測のモーションベクトルを量子化するのに割当てられる総ビットとし、Ｅ（ｋ，＊）をｋ番目双方向予測でのＳＡＤとし、Ｂ（ｋ，＊）を双方向予測のモーションベクトルを量子化するのに割当てられる総ビットと仮定しよう。順方向、逆方向、及び双方向予測モードのためのコストは数式４で説明できる。

ここで、Ｃ_ｆ、Ｃ_ｂ、及びＣ_ｂｉはそれぞれ順方向、逆方向、及び双方向予測モードのためのコストを意味する。

λはラグランジュ係数であるが、モーションとテクスチャー（イメージ）ビット間のバランスを制御するのに使われる。スケーラブルビデオエンコーダで最終ビットレートが分からないので、λは目的アプリケーションで主に使われるビデオシーケンス及びビットレートの特性に対して最適化されねばならない。数式４に定義された式により最小コストを計算することによって最も最適化されたインターマクロブロック予測モードを決定できる。

次にイントラ予測モード決定について説明する。

いくつかのビデオシーケンスで、場面は非常に速く変化する。極端の場合に、隣接フレームと全く時間的重複性を持たない一つのフレームを見つけることもある。このような問題を克服するために、ＭＣ−ＥＺＢＣで具現されたコーディング方法は“適応的ＧＯＰサイズ特徴”を支援する。適応的ＧＯＰサイズ特徴は連結されていないピクセルの数が既定の基準値（全体ピクセルの３０％程度）より大きい場合に時間的フィルタリングを中断して該当フレームをＬフレームにコーディングする。このような方式をＳＴＡＲアルゴリズムに適用することもできるが、本実施形態ではさらに柔軟な方式で標準ハイブリッドエンコーダで使われたイントラモードの概念を導入した。一般的に、ＳＴＡＲアルゴリズムによるＣＯＤＥＣを含んでオープンループＣＯＤＥＣは予測ドリフトのために隣接のマクロブロック情報を使用できない。一方、ハイブリッドＣＯＤＥＣはマルチプルイントラ予測モードを使用できる。したがって、本実施形態ではイントラ予測モードのためにＤＣ予測を使用する。このモードであるマクロブロックは自身のＹ、Ｕ、及びＶコンポーネントのためのＤＣ値によりイントラ予測される。もし、イントラ予測モードのコストが前記の最も良いインター予測モードでのコストより小さな場合ならばイントラ予測モードを選択する。このような場合において、元来のピクセルとＤＣ値の差をコーディングし、モーションベクトルの代りに３つのＤＣ値の差をコーディングする。イントラ予測モードのコストは数式５で定義できる。

ここで、Ｅ（ｋ，０）はｋ番目イントラ予測でのＳＡＤ（元来のルミネセンス値とＤＣ値との差のＳＡＤ）であり、Ｂ（ｋ，０）は３個のＤＣ値をコーディングするための総ビットである。

もし、Ｃ_ｉが数式４により計算された値より小さな場合ならば、イントラ予測モードにコーディングする。結論的にいえば、もし、モードマクロブロックが単に一つのＤＣ値のセットでイントラ予測モードにコーディングされた場合ならば、Ｉフレームに変更する。一方、ビデオシーケンスの間間で任意の地点を見ようとする時、あるいは自動的にビデオ編集をしようとする時はビデオシーケンスにＩフレームの数が多いことが良いが、この場合にＩフレーム変更による方法は一つの良い方法になりうる。

一方、あらゆるマクロブロックがたとえイントラ予測モードにコーディングされていない場合でも、一定の比率（例えば９０％）以上がイントラ予測モードにコーディングされた場合にはＩフレームに転換すれば前記任意の地点を見ようとする場合や自動的にビデオ編集しようとする目的はさらに容易に達成される。

ＳＴＡＲアルゴリズムは多重モードの時間的予測を具現できる方法を提供するが、他の方法、例えばＭＣ−ＥＺＢＣやあるいは他のＣＯＤＥＣの方法を採用することもある。最初のフレームを除外したあらゆるマクロブロックは前記４形態のモードのうちいかなるモードによってもコーディングできる。当業者ならば、ＳＴＡＲアルゴリズムに先立って図示された図面の“Ｈフレーム”はインター予測及びイントラ予測マクロブロックの混合された形に理解できる。それだけでなく、Ｈフレームの位置にあるフレームがＩフレームに変更されてコーディングされうるということも分かる。このような柔軟性は、変化の速いビデオシーケンス及びフェードイン・フェードアウトフレームで特に有効である。

図１４は、本発明の他の実施形態による時間的フィルタリングで４個の予測モードを含むフレーム間の連結を示す図面である。

Ｉ＋Ｈは、フレームがイントラ予測マクロブロック及びインター予測マクロブロックいずれも含んで構成されるということを意味し、Ｉは予測なしにその自体フレームにコーディングされたことを意味する。たとえＧＯＰの開始フレーム（最高の時間的レベルを持つフレーム）でイントラ予測が使われることもあるが、図１４の実施形態はこれを使用しなかった。これは元来のフレームに基づいたウェーブレット変換ほど効率的でないからである。

図１５Ａ及び図１５Ｂは、それぞれ変化の激しいビデオシーケンスと、変化のほとんどないビデオシーケンスとでマルチプルモードで予測した場合の例を示す。％は予測モードの比率を意味する。Ｉはイントラ予測の比率（ただし、ＧＯＰの最初のフレームは予測を使用せず）、ＢＩは双方向予測の比率、Ｆは順方向予測の比率、Ｂは逆方向予測の比率を意味する。

図１５Ａを説明すれば、１番フレームは０番フレームとほぼ類似しているためにＦの比率が７８％で圧倒的であることが分かり、２番フレームは０番と４番との中間程度（すなわち、０番を明るくしたイメージ）に近いのでＢＩが８７％で圧倒的であることが分かる。４番フレームは他のフレームと完全に異なるのでＩに１００％コーディングされ、５番フレームは４番とは全く違って６番と類似しているのでＢが９４％であることが分かる。

図１５Ｂを説明すれば、全体的にあらゆるフレームが類似していることが分かるが、実際にほぼ類似したフレームの場合にはＢＩが最も優れた性能を示す。したがって、図１５Ｂでは全体的にＢＩの比率が高いということが分かる。

ＳＴＡＲアルゴリズムの性能を確認するためにいくつかのシミュレーションを実行した。ＳＴＡＲアルゴリズムは時間的フィルタリング過程に適用した。モーション推定のために公知のダイアモンドファストサーチの１種を使用したが、サブブロックサイズを４から１６まで４単位としてマルチモードパーティションを使用した。ＭＣ−ＥＺＢＣは性能比教のために使用した。エンベディッド量子化で本発明の具現はＥＺＢＣアルゴリズムを使用した。

実験対象としてＦｏｒｅｍａｎ及びＭｏｂｉｌｅＣＩＦの最初の６４フレームを使用した。本発明の主要関心事は時間的変換を改善することであるため、空間的スケーラビリティテストは行わなかった。両実験対象は十分のビットレートでコーディングされ、ビットストリームはそれぞれビットレート２０４８、１０２４、５１２、２５６、１２８ｋｂｐｓで転送されるように切断した後にデコーディングした。

性能測定は加重値のあるＰＳＮＲを使用し、加重値のあるＰＳＮＲは数式６により定義される。

マルチプル参照の場合を除外した前記のあらゆる特徴がＳＴＡＲアルゴリズムの性能を測定するために含まれた。最後に、ＧＯＰレベルに基づいた一定のビットレート割当てをＳＴＡＲアルゴリズムのために使用した。一方、ＭＣ−ＥＺＢＣは可変的ビットレート割当てを使用した。可変的ビットレート割当てをＳＴＡＲアルゴリズムに適用する場合はさらに優秀な性能を示すことができる。

図１６及び図１７は、それぞれＦｏｒｅｍａｎＣＩＦシーケンスをコーディングした場合のＰＳＮＲの結果と、ＭｏｂｉｌｅＣＩＦシーケンスをコーディングした場合のＰＳＮＲの結果とを示すグラフである。

２０４８ｋｂｐｓ及び１０２４ｋｂｐｓのために３０Ｈｚのフレームレートが使われ、５１２ｋｂｐｓ及び２５６ｋｂｐｓのために１５Ｈｚのフレームレートが使われ、１２８ｋｂｐｓのために７．５Ｈｚのフレームレートが使われた。ＳＴＡＲアルゴリズムは双方向予測及びクロスＧＯＰ最適化を使用し、二つのアルゴリズムともＧＯＰサイズは１６であり、１／４ピクセルモーション正確ドが使われた。さらに、双方向予測を使用したＭＣＴＦアルゴリズムをＳＴＡＲアルゴリズムで具現したＣＯＤＥＣに具現し、他の部分を変更しなかった。実験ではこれをＭＣＴＦ方式という。このようにした理由は時間的フィルタリングの効率性のみを判断するためである。図示されたようにＳＴＡＲアルゴリズムの性能がＭＣ−ＥＺＢＣ及びＭＣＴＦ方式よりＦｏｒｅｍａｎＣＩＦシーケンスで１ｄＢ優れたことが分かる。ＭＣＴＦの性能はＭＣ−ＥＺＢＣと類似している。しかし、ＭｏｂｉｌｅシーケンスでＳＴＡＲの性能はＭＣ−ＥＺＢＣとほぼ同じく、ＭＣＴＦよりはＳＴＡＲの性能が良かった。これは、ＭＣ−ＥＺＢＣに使われた可変ビット割当て及び可変サイズブロックマッチング技術のためであると見られ、ＳＴＡＲアルゴリズムにそれを適用する場合にはＭＣ−ＥＺＢＣより良い結果が出ると考えられる。一方、ＳＴＡＲがＭＣＴＦより約３．５ｄＢも高い性能を見せたが、これは、ＳＴＡＲアルゴリズムがＭＣＴＦより優秀なコーディングアルゴリズムということを示す結果である。結論的に、ＳＴＡＲは時間的フィルタリング観点でＭＣＴＦよりは確実に優秀であり、ＭＣ−ＥＺＢＣでは類似した性能を持つといえる。

少ない遅延時間モードの性能を比較するために、多様な最終遅延時間に対するいくつかの実験を行った。ＳＴＡＲアルゴリズムのために遅延時間制御パラメータＤを０から８まで変更した。これは、ＭＣ−ＥＺＢＣのためのＧＯＰサイズを２から１６まで対応する値であって、最終遅延時間１００ｍｓから５６７ｍｓまでに該当する。多様な最終遅延時間条件を測定するために時間的スケーラビリティを実験で使用せず、ビットレートは２０４８ｋｂｐｓから２５６ｋｂｐｓまでが使われた。ＳＴＡＲアルゴリズムでイントラ予測モードは使われなかったが、これは時間的変換構造のみを比較するためである。

図１８は、最大遅延時間５６７ｍｓをセットしたＦｏｒｅｍａｎＣＩＦシーケンスに比べて最終遅延時間条件を変化させたＦｏｒｅｍａｎＣＩＦシーケンスのＰＳＮＲ値が落ちたことを示す。図示されたように、ＰＳＮＲ値はＧＯＰサイズを縮小せねばならないＭＣ−ＥＺＢＣで急激に減少することが分かる。特に、ＧＯＰサイズが２である場合にこのような現象は目立つ。ＧＯＰサイズが４である場合にも最終遅延時間は１５０ｍｓを超えるということが分かる。一方、ＳＴＡＲアルゴリズムではＰＳＮＲ値があまり落ちない。最終遅延時間が６７ｍｓである場合にさえ、ＰＳＮＲ値が落ちた程度は１．３ｄＢに過ぎず、良好な遅延時間モード（１００ｍｓ）でＰＳＮＲ値の低下は単に０．８ｄＢである。両アルゴリズム間の最大ＰＳＮＲ値の減少の差は３．６ｄＢもする。

図１９は、ＭｏｂｉｌｅＣＩＦシーケンスのための最大遅延時間のセットと比較したＰＳＮＲ低下を示す。ＭＣ−ＥＺＢＣにあってＰＳＮＲ低下は前記のＦｏｒｅｍａｎＣＩＦシーケンスを使用した場合よりさらに激しくなる。ＳＴＡＲアルゴリズムの場合に最長の遅延時間及び最短の遅延時間でＰＳＮＲ低下は２．３ｄＢであるが、ＭＣ−ＥＺＢＣの場合には６．９ｄＢもする。１００ｍｓでのＰＳＮＲ低下は、ＳＴＡＲの場合に１．７ｄＢであるが、ＭＣ−ＥＺＢＣの場合には６．９ｄＢである。両アルゴリズム間のＰＳＮＲ低下の最大差が出る地点は１００ｍｓ地点であり、５．１ｄＢの差がある。それだけでなく、ＳＴＡＲアルゴリズムの場合には最短の遅延時間を持つ場合にも完全な時間的スケーラビリティを支援するが、ＭＣ−ＥＺＢＣの場合には１レベルの時間的スケーラビリティのみ支援する。ＰＳＮＲ値の差は表２で整理する。

速めに変化するビデオシーケンスに対する比較は図２０を通じて説明する。

図２０は、動きの激しい映画“マトリック２”の一部を４種の予測モードを使用してコーディングした場合と、そうでない場合とのＰＳＮＲの結果を示すグラフである。

但し、１６フレームで構成された一つのＧＯＰを使用して実験した。速い動き、場面転換、空フレーム、及びフェードイン・フェードアウトのあるフレームセグメントを選択した。ＳＴＡＲアルゴリズムはイントラ予測をした場合とそうでない場合とで実験し、ＭＣ−ＥＺＢＣを実験比較対象に含めた。適応的ＧＯＰサイズ特徴をテストするために、ＭＣ−ＥＺＢＣで“ａｄａｐｔ＿ｆｌａｇ”を活性化させた場合とそうでない場合とを含む。

図示されたように、イントラ予測の効果は非常に優秀であることが分かる。イントラ予測を適用した場合とそうでない場合とに５ｄＢの差が生じ、ＭＣ−ＥＺＢＣでは適応的ＧＯＰを使用した場合とそうでない場合とに１０ｄＢの性能差が生じた。イントラ予測を使用したＳＴＡＲの場合に、適応的ＧＯＰを使用したＭＣ−ＥＺＢＣに比べて１．５ｄＢほどの性能差を示した。これは、ＳＴＡＲアルゴリズムの場合にさらに柔軟なマクロブロック基盤のイントラ予測を使用したからである。

当業者ならば本発明がその技術的思想や必須な特徴を変更せずに他の具体的な形態に実施されうるということが理解できる。したがって、以上で記述した実施形態はあらゆる面で例示的なものであり、限定的ばものではないと理解すべきである。本発明の範囲は、詳細な説明より特許請求の範囲によって現れ、特許請求の範囲の意味及び範囲そしてその均等な概念から導出されるあらゆる変更または変形された形態が本発明の範囲に含まれると解釈されねばならない。

本発明はスケーラブルビデオコーディングアルゴリズムに係り、マルチメディア装置に適用できる。

ＭＣＴＦ方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。ＵＭＣＴＦ方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。本発明の他の実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。ＳＴＡＲアルゴリズムの基本的概念を説明するための図面である。ＳＴＡＲアルゴリズムで可能なフレーム間の連結を示す図面である。本発明の一実施形態によるＧＯＰ間の参照を示す図面である。本発明の他の実施形態による非二分的時間的フィルタリングでフレーム間の連結を示す図面である。本発明の他の実施形態による遅延時間制御パラメータが０である場合の時間的フィルタリングでフレーム間の連結を示す図面である。本発明の他の実施形態による遅延時間制御パラメータが１である場合の時間的フィルタリングでフレーム間の連結を示す図面である。本発明の他の実施形態による遅延時間制御パラメータが３である場合の時間的フィルタリングでフレーム間の連結を示す図面である。本発明の他の実施形態によるＧＯＰサイズが１６である時、遅延時間制御パラメータが３である場合の時間的フィルタリングでフレーム間の連結を示す図面である。順方向、逆方向、双方向、及びイントラ予測モードを説明するための図面である。本発明の他の実施形態による時間的フィルタリングで４個の予測モードを含むフレーム間の連結を示す図面である。変化の激しいビデオシーケンスで図１４の実施形態によってビデオコーディングした場合の例を示す図面である。変化の少ないビデオシーケンスで図１４の実施形態によってビデオコーディングした場合の例を示す図面である。各ビデオコーディング方式でＦｏｒｅｍａｎＣＩＦシーケンスをコーディングした場合のＰＳＮＲの結果を示すグラフである。各ビデオコーディング方式でＭｏｂｉｌｅＣＩＦシーケンスをコーディングした場合のＰＳＮＲの結果を示すグラフである。各ビデオコーディング方式で相異なる遅延時間でＦｏｒｅｍａｎＣＩＦシーケンスをコーディングした場合のＰＳＮＲの結果を示すグラフである。各ビデオコーディング方式で相異なる遅延時間でＭｏｂｉｌｅＣＩＦシーケンスをコーディングした場合のＰＳＮＲの結果を示すグラフである。動きの激しい映画（マトリックス２）の一部を４種の予測モードを使用してコーディングした場合とそうでない場合とのＰＳＮＲの結果を示すグラフである。

符号の説明

１０時間的変換部
１２動き推定部
１４時間的フィルタリング部
１６モード選択部
２０空間的変換部
３０量子化部
４０ビットストリーム生成部

Claims

ビデオシーケンスを構成する複数のフレームを入力し、時間的レベルの高いフレームから時間的レベルの低いフレームの順番に、フレームの時間的重複を除去する処理を実行する（ａ）段階と、
前記時間的重複が除去されたフレームから変換係数を得てそれを量子化してビットストリームを生成する（ｂ）段階と、を含み、
前記（ａ）段階は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記時間的重複を除去する処理を実行するビデオコーディング方法。
前記（ａ）段階で、入力されるフレームはウェーブレット変換を経て空間的重複が除去されたフレームであることを特徴とする請求項１に記載のビデオコーディング方法。
前記（ｂ）段階で、変換係数は前記時間的重複が除去されたフレームを空間的変換して得ることを特徴とする請求項１に記載のビデオコーディング方法。
前記空間的変換はウェーブレット変換であることを特徴とする請求項３に記載のビデオコーディング方法。
前記（ａ）段階において、複数の前記フレームは、１つの時間的レベルを１つの階層として、二分木階層構造に設定されることを特徴とする請求項１に記載のビデオコーディング方法。
前記（ａ）段階における順番は、複数の前記フレームの時間的レベルが同一である場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番であることを特徴とする請求項１に記載のビデオコーディング方法。
前記（ａ）段階における順番は、ＧＯＰサイズを周期として反復されることを特徴とする請求項６に記載のビデオコーディング方法。
ＧＯＰを構成するフレームのうち最も高い時間的レベルを持つフレームはＧＯＰの最小フレームインデックスを持つフレームであることを特徴とする請求項７に記載のビデオコーディング方法。
前記（ａ）段階はＧＯＰ単位で行われるが、ＧＯＰの最も高い時間的レベルを持つ最初のフレームをＩフレームと設定し、前記順番で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームであることを特徴とする請求項８に記載のビデオコーディング方法。
各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームであることを特徴とする請求項９に記載のビデオコーディング方法。
前記（ａ）段階で、各フレームが参照する参照フレームには各フレーム自身である現在フィルタリング中のフレームをさらに含むことを特徴とする請求項９に記載のビデオコーディング方法。
前記（ａ）段階で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをＩフレームにコーディングすることを特徴とする請求項１１に記載のビデオコーディング方法。
前記（ａ）段階で、各フレームが参照する参照フレームには、次のＧＯＰに属する各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームをさらに含むことを特徴とする請求項９に記載のビデオコーディング方法。
前記（ａ）段階の処理を実行するか否かは、コーディングモードによって規定されており、
前記コーディングモードは、
前記（ａ）段階の処理を実行するコーディングモードと、
前記（ａ）段階の処理を実行せずに、前記（ａ）段階の処理とは異なる処理でフレームの時間的重複を除去する処理を実行するコーディングモードと
を有することを特徴とする請求項１に記載のビデオコーディング方法。
前記（ａ）段階の処理を実行するコーディングモードでは、前記時間的重複を除去する処理をＧＯＰサイズを周期として反復することを特徴とする請求項１４に記載のビデオコーディング方法。
ＧＯＰを構成するフレームのうち最も高い時間的レベルを持つフレームはＧＯＰの最小フレームインデックスを持つフレームであることを特徴とする請求項１５に記載のビデオコーディング方法。
前記（ｂ）段階で、前記コーディングモードに関する情報を前記ビットストリームにさらに含めることを特徴とする請求項１５に記載のビデオコーディング方法。
前記（ｂ）段階で、空間的重複除去及び時間的重複除去の順序に関する情報である重複除去順序を前記ビットストリームにさらに含めることを特徴とする請求項１５に記載のビデオコーディング方法。
前記コーディングモードは、コーディングにおいて許容される遅延時間を示す遅延時間制御パラメータＤにより決定され、
前記（ａ）段階のフレームの順番は、時間的フィルタリングされていない最低レベルのフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つフレームのうち時間的レベルの高いフレームから時間的レベルの低いフレームの順番であり、同じ時間的レベルを複数のフレームが持つ場合には、時間的に先立つフレームから遅いフレームの順番であることを特徴とする請求項１５に記載のビデオコーディング方法。
前記時間的重複を除去する段階はＧＯＰ単位で行われるが、ＧＯＰ内の最高時間的レベルを持つフレームをＩフレームにコーディングし、前記順番で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームであることを特徴とする請求項１９に記載のビデオコーディング方法。
各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームであることを特徴とする請求項２０に記載のビデオコーディング方法。
前記ＧＯＰ内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームであることを特徴とする請求項２０に記載のビデオコーディング方法。
前記（ａ）段階で、各フレームが参照する一つまたはそれ以上の参照フレームには各フレーム自身であるフィルタリング中のフレームを含むことを特徴とする請求項２０に記載のビデオコーディング方法。
前記（ａ）段階で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをＩフレームにコーディングすることを特徴とする請求項２３に記載のビデオコーディング方法。
前記（ａ）段階で、各フレームが参照する参照フレームには次のＧＯＰに属する各フレーム自身より時間的レベルが高くて時間的距離がＤ以内にある一つまたはそれ以上のフレームをさらに含むことを特徴とする請求項２０に記載のビデオコーディング方法。
複数のフレームを入力し、時間的レベルの高いフレームから時間的レベルの低いフレームの順番に、フレームの時間的重複を除去する時間的変換部と、
前記フレームに対する空間的重複を除去する空間的変換部と、
前記時間的及び空間的重複を除去する過程で得られる変換係数を量子化する量子化部と、
前記量子化された変換係数を利用してビットストリームを生成するビットストリーム生成部と、を含み、
前記時間的変換部は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記時間的重複を除去するビデオエンコーダ。
前記時間的変換部は、前記空間的変換部に先立って時間的重複を除去したフレームを前記空間的変換部に伝達し、前記空間的変換部は、時間的重複が除去されたフレームから空間的重複を除去して変換係数を得ることを特徴とする請求項２６に記載のビデオエンコーダ。
前記空間的変換部は、ウェーブレット変換を通じて空間的重複を除去することを特徴とする請求項２７に記載のビデオエンコーダ。
前記空間的変換部は、前記時間的変換部に先立ってウェーブレット変換を通じて空間的重複を除去したフレームを前記時間的変換部に伝達し、前記時間的変換部は空間的重複が除去されたフレームから時間的重複を除去して変換係数を得ることを特徴とする請求項２６に記載のビデオエンコーダ。
前記時間的変換部は、入力された複数のフレームから動きベクトルを求める動き推定部と、前記動きベクトルを利用して前記入力された複数のフレームに対して前記順番で時間的フィルタリングをする時間的フィルタリング部と、前記順番を決定するモード選択部と、を含むことを特徴とする請求項２６に記載のビデオエンコーダ。
前記モード選択部は、前記順番をＧＯＰサイズの周期関数で決定することを特徴とする請求項３０に記載のビデオエンコーダ。
前記モード選択部は、複数の前記フレームの時間的レベルが同一である場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番に決定することを特徴とする請求項３０に記載のビデオエンコーダ。
前記モード選択部が決定する前記順番は、ＧＯＰサイズを周期として反復されることを特徴とする請求項３２に記載のビデオエンコーダ。
前記モード選択部は、コーディングにおいて許容される遅延時間を示す遅延時間制御パラメータＤを参照して前記順番を決定するが、この場合、前記順番は、時間的重複が除去されていない最低レベルのフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つフレームのうち最も高い時間的レベルを持つ最初のフレームから始まって時間的レベルの低いフレームにいく順番であり、同じ時間的レベルを複数のフレームが持つ場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番であることを特徴とする請求項３０に記載のビデオエンコーダ。
前記時間的フィルタリング部は、前記モード選択部により選択された前記順番によってＧＯＰ単位で時間的重複を除去するが、ＧＯＰ内の最高時間的レベルを持つフレームをＩフレームにコーディングした後に各フレームの時間的重複を除去する時、前記時間的フィルタリング部は、現在フィルタリング中のフレームより高い時間的レベルまたは現在フィルタリング中のフレームと同じ時間的レベルを持つフレームのうち現在フィルタリング中のフレームより時間的に先立つ一つまたはそれ以上のフレームを参照して時間的重複を除去することを特徴とする請求項３４に記載のビデオエンコーダ。
前記時間的フィルタリング部は、各フレームの時間的重複を除去するために参照する参照フレームは、現在フィルタリング中のフレームより時間的レベルが高い一つまたはそれ以上のフレームのうち現在フィルタリング中のフレームとインデックス差の最も小さい一つまたは二つのフレームであることを特徴とする請求項３５に記載のビデオエンコーダ。
前記ＧＯＰ内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームであることを特徴とする請求項３５に記載のビデオエンコーダ。
前記時間的フィルタリング部は、現在フィルタリング中のフレームに対する時間的重複を除去する時に参照するフレーム中に前記現在フィルタリング中のフレームをさらに含むことを特徴とする請求項３５に記載のビデオエンコーダ。
前記時間的フィルタリング部は、前記現在フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをＩフレームにコーディングすることを特徴とする請求項３８に記載のビデオエンコーダ。
前記ビットストリーム生成部は、前記順番に関する情報を含んだ前記ビットストリームを生成することを特徴とする請求項２６に記載のビデオエンコーダ。
前記ビットストリーム生成部は、前記変換係数を得るための時間的重複を除去する過程及び空間的重複を除去する過程の重複除去順序に関する情報を含んだ前記ビットストリームを生成することを特徴とする請求項２６に記載のビデオエンコーダ。
ビットストリームを入力され、前記ビットストリームに含まれるコーディングされたフレームを構成する情報を抽出する（ａ）段階と、
前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る（ｂ）段階と、
前記コーディングされたフレームの重複除去順序の逆順に、前記変換係数を逆空間的変換しかつ時間的レベルの高いフレームから時間的レベルの低いフレームの順番に逆時間的変換してフレームを復元する（ｃ）段階と、を含み、
前記（ｃ）段階は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記逆時間的変換する処理を実行するビデオデコーディング方法。
前記（ｃ）段階は、前記変換係数で作ったフレームを前記順番で逆時間的変換してから逆ウェーブレット変換してフレームを復元することを特徴とする請求項４２に記載のビデオデコーディング方法。
前記（ｃ）段階は、前記変換係数を逆空間的変換してから前記順番で逆時間的変換してフレームを復元することを特徴とする請求項４２に記載のビデオデコーディング方法。
前記逆空間的変換は逆ウェーブレット変換方式であることを特徴とする請求項４４に記載のビデオデコーディング方法。
前記順番は、同じ時間的レベルのフレームが複数ある場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番であることを特徴とする請求項４２に記載のビデオデコーディング方法。
前記順番はＧＯＰサイズを周期として反復されることを特徴とする請求項４６に記載のビデオデコーディング方法。
前記逆時間的変換過程は、ＧＯＰの時間的レベルが最も高いコーディングされたフレームから始まって前記順番で前記コーディングされたフレームを逆時間的フィルタリングすることを特徴とする請求項４７に記載のビデオデコーディング方法。
前記順番は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって決定することを特徴とする請求項４２に記載のビデオデコーディング方法。
前記順番は、同一コーディングモードでＧＯＰサイズを周期として反復されることを特徴とする請求項４９に記載のビデオデコーディング方法。
前記コーディングモードに関する情報は、コーディングにおいて許容される遅延時間を示す遅延時間制御パラメータＤを含んでおり、
前記順番は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレームへいく順番であり、同じ時間的レベルを複数のフレームが持つ場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレームの順番であることを特徴とする請求項４９に記載のビデオデコーディング方法。
前記重複除去順序は、前記入力されたビットストリームから抽出することを特徴とする請求項４２に記載のビデオデコーディング方法。
入力されたビットストリームに含まれるコーディングされたフレームを構成する情報を抽出するビットストリーム解釈部と、
前記コーディングされたフレームを構成する情報を逆量子化して変換係数を得る逆量子化部と、
逆空間的変換過程を行う逆空間的変換部と、
時間的レベルの高いコーディングされたフレームから時間的レベルの低いコーディングされたフレームの順番に逆時間的変換過程を行う逆時間的変換部と、を含み、
重複除去順序の逆順によって前記変換係数に対する逆空間的変換過程及び逆時間的変換過程によりフレームを復元するとともに、
前記逆時間的変換部は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記逆時間的変換過程を行うビデオデコーダ。
前記重複除去順序の逆順は、逆時間的変換過程から逆空間的変換過程であり、前記逆空間的変換部は逆ウェーブレット変換方式で逆空間的変換作業を行うことを特徴とする請求項５３に記載のビデオデコーダ。
前記重複除去順序の逆順は、逆空間的変換過程から逆時間的変換過程であることを特徴とする請求項５３に記載のビデオデコーダ。
前記逆空間的変換部は、逆ウェーブレット変換方式で逆空間的変換作業を行うことを特徴とする請求項５５に記載のビデオデコーダ。
前記順番はＧＯＰサイズを周期として反復されることを特徴とする請求項５３に記載のビデオデコーダ。
前記逆時間的変換部はＧＯＰ単位で逆時間的変換過程を行うが、ＧＯＰの時間的レベルの最も高いコーディングされたフレームから始まって前記順番で前記コーディングされたフレームを逆時間的フィルタリングすることを特徴とする請求項５７に記載のビデオデコーダ。
前記ビットストリーム解釈部は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって前記順番を決定することを特徴とする請求項５３に記載のビデオデコーダ。
前記順番は同一コーディングモードでＧＯＰサイズを周期として反復されることを特徴とする請求項５９に記載のビデオデコーダ。
前記コーディングモードに関する情報はコーディングにおいて許容される遅延時間を示す遅延時間制御パラメータＤを含んでおり、
前記順番は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレームの順番であり、同じ時間的レベルを複数のフレームが持つ場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレームの順番であることを特徴とする請求項５９に記載のビデオデコーダ。
前記重複除去順序は、前記入力されたビットストリームから抽出された情報に基づいて設定することを特徴とする請求項５３に記載のビデオデコーダ。
請求項１ないし２５と請求項４２ないし５２のうちいずれか１項による方法を実行するためのコンピュータ可読プログラムを記録した記録媒体。