JP4763548B2 - スケーラブルビデオコーディング及びデコーディング方法と装置 - Google Patents

スケーラブルビデオコーディング及びデコーディング方法と装置 Download PDF

Info

Publication number
JP4763548B2
JP4763548B2 JP2006221222A JP2006221222A JP4763548B2 JP 4763548 B2 JP4763548 B2 JP 4763548B2 JP 2006221222 A JP2006221222 A JP 2006221222A JP 2006221222 A JP2006221222 A JP 2006221222A JP 4763548 B2 JP4763548 B2 JP 4763548B2
Authority
JP
Japan
Prior art keywords
frame
temporal
order
frames
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006221222A
Other languages
English (en)
Other versions
JP2006333519A (ja
Inventor
宇鎭 韓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020040002076A external-priority patent/KR100596706B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2006333519A publication Critical patent/JP2006333519A/ja
Application granted granted Critical
Publication of JP4763548B2 publication Critical patent/JP4763548B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/64Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
    • H04N19/647Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission using significance based coding, e.g. Embedded Zerotrees of Wavelets [EZW] or Set Partitioning in Hierarchical Trees [SPIHT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明はビデオ圧縮に係り、より詳細には一定の制限された時間的レベル順による動き補償時間的フィルタリング(Motion Compensated Temporal Filtering;以下、MCTF)を通じて時間的スケーラビリティを持つビデオコーディングに関する。
インターネットを含む情報通信技術が発達するにつれて文字、音声だけでなく画像通信が増加しつつある。既存の文字中心の通信方式では消費者の多様な欲求を満たすには足りなく、したがって、文字、映像、音楽など多様な形態の情報を収容できるマルチメディアサービスが増加しつつある。マルチメディアデータはその量がぼう大で大容量の保存媒体を必要とし、転送時に広い帯域幅を必要とする。例えば、640*480の解像度を持つ24ビットのトルーカラーのイメージは、1フレーム当り640*480*24ビットの容量、言い換えれば、約7.37メガビットのデータが必要である。これを秒当たり30フレームで転送する場合には221メガビット/秒の帯域幅を必要とし、上映時間90分の映画を保存するためには約1200ギガビットの保存空間を必要とする。したがって、文字、映像、オーディオを含むマルチメディアデータを転送するためには圧縮コーディング技法を使用することが必須である。
データを圧縮する基本的な原理はデータの重複をなくす過程である。イメージで同じ色や客体が反復されるような空間的重複や、動映像フレームで隣接フレームがほとんど変化のない場合や、オーディオで同じ音が反復され続けるような時間的重複、または人間の視覚及び知覚能力が高い周波数に鈍感なことを考慮した心理視覚重複をなくすことによりデータを圧縮できる。データ圧縮は、ソースデータの損失有無と、それぞれのフレームに対する独立的な圧縮如何と、圧縮及び復元に必要な時間の同一如何とによってそれぞれ損失/無損失圧縮、フレーム内/フレーム間圧縮、対称/非対称圧縮に分けられる。その外にも圧縮復元遅延時間が50msを超えない場合にはリアルタイム圧縮に分類し、フレームの解像度が多様な場合にはスケーラブル圧縮に分類する。文字データや医学用データなどの場合には無損失圧縮が利用され、マルチメディアデータの場合には主に損失圧縮が利用される。一方、空間的重複を除去するためにはフレーム内圧縮が利用され、時間的重複を除去するためにはフレーム間圧縮が利用される。
マルチメディアを転送するための転送媒体は媒体別にその性能が異なる。現在使われる転送媒体は、秒当たり数十メガビットのデータを転送できる超高速通信網をはじめとして秒当たり384キロビットの転送速度を持つ移動通信網まで多様な転送速度を持つ。MPEG−1、MPEG−2、H.263またはH.264のような従来のビデオコーディングは、モーション補償予測コーディング法に基づいて時間的重複はモーション補償により除去し、空間的重複は変換コーディングにより除去する。このような方法は良好な圧縮率を持っているが、主アルゴリズムで再帰的接近法を使用していてトルースケーラブルビットストリームのための柔軟性を持っていない。これにより、最近にはウェーブレット基盤のスケーラブルビデオコーディングについての研究が活発である。スケーラブルビデオコーディングはスケーラビリティを持つビデオコーディングを意味する。スケーラビリティとは、圧縮された一つのビットストリームから部分デコーディング、すなわち、多様なビデオを再生できる特性を意味する。スケーラビリティは、ビデオの解像度を調節できる性質を意味する空間的スケーラビリティと、ビデオの画質を調節できる性質を意味する信号対雑音比(Signal to Noise Ratio:SNR)スケーラビリティと、フレームレートを調節できる時間的スケーラビリティと、これらそれぞれを組合わせたものとを含む概念である。
ウェーブレット基盤のスケーラブルビデオコーディングに使われている多くの技術のうち、Ohmにより提案されてChoi及びWoodにより改善されたMCTFは時間的重複性を除去して時間的に柔軟なスケーラブルビデオコーディングのための核心技術である。MCTFではGOP(Group Of Picture)単位でコーディング作業を行うが、現在フレームと基準フレームとの対は動き方向に時間的フィルタリングされる。これについては図1Aを参照して説明する。
図1Aは、MCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。
図1AでLフレームは、低周波あるいは平均フレームを意味し、Hフレームは高周波あるいは差フレームを意味する。図示されたようにコーディングは、低い時間的レベルにあるフレーム対を先ず時間的フィルタリングして低いレベルのフレームを高いレベルのLフレーム及びHフレームに転換させ、該転換されたLフレーム対は再び時間的フィルタリングしてさらに高い時間的レベルのフレームに転換される。エンコーダは最高レベルのLフレーム一つ及びHフレームを利用してウェーブレット変換を経てビットストリームを生成する。図面で濃い色で表示されたフレームは、ウェーブレット変換の対象となるフレームを意味する。整理すれば、コーディングする制限された時間的レベル順は低いレベルのフレームから高いレベルのフレームを演算する。デコーダは、ウェーブレット逆変換を経た後に得られた濃い色のフレームを高いレベルから低いレベルのフレームの順序に演算してフレームを復元する。すなわち、時間的レベル3のLフレーム及びHフレームを利用して時間的レベル2のLフレーム2つを復元し、時間的レベルのLフレーム2つ及びHフレーム2つを利用して時間的レベル1のLフレーム4つを復元する。最終的に時間的レベル1のLフレーム4つ及びHフレーム4つを利用してフレーム8つを復元する。元来のMCTF方式のビデオコーディングは柔軟な時間的スケーラビリティを持つが、単方向動き推定及び低い時間的レートでの悪い性能などのいくつかの短所を持っている。これに対する改善方法について多くの研究があったが、その中の一つがTuragaとMihaelaにより提案された非拘束MCTF(Unconstrained MCTF;以下、UMCTF)である。これについては図1Bを参照して説明する。
図1Bは、UMCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。
UMCTFは、複数の参照フレームと双方向フィルタリングを使用可能にしてさらに一般的なフレーム作業を行えるようにする。またUMCTF構造では、フィルタリングされていないフレーム(Aフレーム)を適切に挿入して非二分的時間的フィルタリングを行うこともできる。フィルタリングされたLフレームの代りにAフレームを使用することによって低い時間的レベルで視覚的な画質がだいぶ改善される。なぜなら、Lフレームの視覚的な画質は不正確な動き推定のために時々相当な性能低下につながることもあるからである。多くの実験結果によれば、フレームアップデート過程を省略したUMCTFが元来のMCTFより優秀な性能を示す。このような理由で、たとえ最も一般的な形態のUMCTFは低域通過フィルタを適応的に選択できるとしても、アップデート過程を省略した特定形態のUMCTFの特定形態が一般的に使われている。
画像会議のような多くのビデオアプリケーションは低い最終遅延時間を必要とする。このようなアプリケーションで低いデコーダ側遅延時間だけでなく低いエンコーダ側遅延時間も要求される。前述したMCTFとUMCTFいずれも最も低い時間的レベルからフレームを分析するので、エンコーダ側遅延時間は最小限GOPサイズほどの時間になる。実際にGOPサイズに該当する遅延時間がある場合に、ビデオコーディング方法はリアルタイムアプリケーションで使用し難い。たとえUMCTFは未来の参照フレームを制限することによって遅延時間を減少させたとしても、アプリケーションによる遅延時間調節機能がない。それだけでなく、エンコーダ側時間的スケーラビリティは提供されない。すなわち、UMCTFの場合に所定の時間的レベルで止めてビットストリームを転送できない。このようなエンコーダ側時間的スケーラビリティは双方向ビデオストリーミングアプリケーションに非常に有効な機能である。すなわち、エンコーディング過程で演算能力が足りない場合には現在時間的レベルで演算を中止して直ちにビットストリームを送る必要があるが、このような点で従来の方式は限界点を持つ。
前述した問題点を鑑みる時、短い最終遅延時間を持つように画質に比較的少ない影響を及ぼしつつ遅延時間の調節が可能なビデオコーディングアルゴリズムが必要である。また、デコーダ側だけでなくエンコーダ側でも時間的スケーラビリティを持つように高い時間的レベルで低い時間的フレーム作業を行えるビデオコーディングアルゴリズムが必要である。
なお、特許文献1、特許文献2等には、スケイラブル・ビデオ・エンコーディング(scalable video encoding)に関する技術が開示されている。
国際公開第2002/01881号パンフレット 国際公開第2003/061294号パンフレット
本発明は前述した必要性を鑑みてなされたものであり、本発明は遅延時間調節が可能であり、かつエンコーダ側でも時間的スケーラビリティを持つビデオコーディング方法とデコーディング方法及びそのための装置を提供することをその技術的課題とする。
前記目的を達成するために、本発明によるビデオコーディング方法は、ビデオシーケンスを構成する複数のフレームを入力されて制限された時間的レベル順でフレームの時間的重複を除去する(a)段階と、前記時間的重複が除去されたフレームから変換係数を得てそれを量子化してビットストリームを生成する(b)段階と、を含む。
前記(a)段階で、入力されるフレームはウェーブレット変換を経て空間的重複が除去されたフレームである。前記(b)段階で、変換係数は前記時間的重複が除去されたフレームを空間的変換して得られる。前記空間的変換はウェーブレット変換である。
前記フレームの時間的レベルは二分的階層構造を持つ。前記制限された時間的レベル順は時間的レベルの高いフレームから時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順である。前記制限された時間的レベル順はGOPサイズを周期として反復されることが望ましい。この時、GOPを構成するフレームのうち最も高い時間的レベルを持つフレームはGOPの最小フレームインデックスを持つフレームであることが望ましい。
時間的重複を除去する過程はGOP単位で行われるが、GOPの最も高い時間的レベルを持つ最初のフレームをIフレームと設定し、前記制限された時間的レベル順で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームである。望ましくは、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームである。
前記時間的重複を除去する過程で、各フレームが参照する参照フレームには各フレーム自身(現在フィルタリング中のフレーム)をさらに含み、前記時間的重複を除去する過程で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをIフレームにコーディングすることが望ましい。
前記時間的重複を除去する過程で、各フレームが参照する参照フレームには、次のGOPに属する各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームをさらに含む。
前記制限された時間的レベル順はコーディングモードによって決定される。前記コーディングモードによって決定された制限された時間的レベル順は、同一コーディングモードではGOPサイズを周期として反復される順序である。GOPを構成するフレームのうち最も高い時間的レベルを持つフレームはGOPの最小フレームインデックスを持つフレームであることが望ましい。
前記(b)段階で、前記コーディングモードに関する情報を前記ビットストリームにさらに含めることが望ましい。
前記コーディングモードは遅延時間制御パラメータDにより決定されるが、この場合に前記制限された時間的レベル順は、時間的フィルタリングされていない最低レベルのフレームのインデックスよりD超過しないインデックスを持つフレームのうち時間的レベルの高いフレームから時間的レベルの低いフレーム順であり、また同じ時間的レベル順の場合には、時間的に先立つフレームから遅いフレーム順である。前記時間的重複を除去する過程はGOP単位で行われるが、GOP内の最高時間的レベルを持つフレームをIフレームにコーディングし、前記制限された時間的レベル順で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームである。望ましくは、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームである。
一実施例において、前記GOP内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームである。
前記時間的重複を除去する過程で、各フレームが参照する一つまたはそれ以上の参照フレームには各フレーム自身を含み、前記時間的重複を除去する過程で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをIフレームにコーディングすることが望ましい。
前記時間的重複を除去する過程で、各フレームが参照する参照フレームには次のGOPに属する各フレーム自身より時間的レベルが高くて時間的距離がD以内にある一つまたはそれ以上のフレームをさらに含むことが望ましい。
前記目的を達成するために本発明によるビデオエンコーダは、複数のフレームを入力されて制限された時間的レベル順でフレームの時間的重複を除去する時間的変換部と、前記フレームに対する空間的重複を除去する空間的変換部と、前記時間的及び空間的重複を除去する過程で得られる変換係数を量子化する量子化部と、前記量子化された変換係数を利用してビットストリームを生成するビットストリーム生成部と、を含む。
前記時間的変換部は、前記空間的変換部に先立って時間的重複を除去したフレームを前記空間的変換部に伝達し、前記空間的変換部は、時間的重複が除去されたフレームから空間的重複を除去して変換係数を得られる。この時、前記空間的変換部は、ウェーブレット変換を通じて空間的重複を除去することが望ましい。
前記空間的変換部は、前記時間的変換部に先立ってウェーブレット変換を通じて空間的重複を除去したフレームを前記時間的変換部に伝達し、前記時間的変換部は空間的重複が除去されたフレームから時間的重複を除去して変換係数を得られる。
前記時間的変換部は、入力された複数のフレームから動きベクトルを求める動き推定部と、前記動きベクトルを利用して前記入力された複数のフレームに対して所定の制限された時間的レベル順で時間的フィルタリングをする時間的フィルタリング部と、前記制限された時間的レベル順を決定するモード選択部と、を含む。前記モード選択部は、前記制限された時間的レベル順をGOPサイズの周期関数で決定する。
前記モード選択部は、前記制限された時間的レベル順を時間的レベルの高いフレームから時間的レベルの低いフレーム順に、同じ時間的レベル順の場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順に決定することが望ましい。また望ましくは、前記モード選択部が決定する前記制限された時間的レベル順は、GOPサイズを周期として反復される。
前記モード選択部は、前記制限された時間的レベル順を遅延時間制御パラメータDを参照して決定するが、この場合、前記決定される制限された時間的レベル順は、時間的重複が除去されていない最低レベルのフレームのインデックスよりD超過しないインデックスを持つフレームのうち最も高い時間的レベルを持つ最初のフレームから始まって時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順である。
前記時間的フィルタリング部は、前記モード選択部により選択された制限された時間的レベル順によってGOP単位で時間的重複を除去するが、GOP内の最高時間的レベルを持つフレームをIフレームにコーディングした後に各フレームの時間的重複を除去する時、前記時間的フィルタリング部は、現在フィルタリング中のフレームより高い時間的レベルまたは現在フィルタリング中のフレームと同じ時間的レベルを持つフレームのうち現在フィルタリング中のフレームより時間的に先立つ一つまたはそれ以上のフレームを参照して時間的重複を除去できる。望ましくは、前記時間的フィルタリング部は、各フレームの時間的重複を除去するために参照する参照フレームは、現在フィルタリング中のフレームより時間的レベルが高い一つまたはそれ以上のフレームのうち現在フィルタリング中のフレームとインデックス差の最も小さい一つまたは二つのフレームである。
望ましくは、前記GOP内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームである。
前記時間的フィルタリング部は、現在フィルタリング中のフレームに対する時間的重複を除去する時に参照するフレーム中に前記現在フィルタリング中のフレームをさらに含みうるが、この時、前記時間的フィルタリング部は、前記現在フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをIフレームにコーディングすることが望ましい。
前記ビットストリーム生成部は、前記制限された時間的レベル順に関する情報を含んで前記ビットストリームを生成し、前記ビットストリーム生成部は、前記変換係数を得るための時間的重複を除去する過程及び空間的重複を除去する過程の順序(重複除去順序)に関する情報を含んで前記ビットストリームを生成する。
前記目的を達成するために本発明によるビデオデコーディング方法は、ビットストリームを入力され、それを解釈してコーディングされたフレームに関する情報を抽出する(a)段階と、前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る(b)段階と、前記コーディングされたフレームの重複除去順序の逆順に、前記変換係数を逆空間的変換しかつ制限された時間的レベル順で逆時間的変換してフレームを復元する(c)段階と、を含む。
前記(c)段階は、前記変換係数で作ったフレームを前記制限された時間的レベル順で逆時間的変換してから逆ウェーブレット変換してフレームを復元する。
また、前記(c)段階は、前記変換係数を逆空間的変換してから前記制限された時間的レベル順で逆時間的変換してフレームを復元できるが、前記逆空間的変換は逆ウェーブレット変換方式であることが望ましい。
前記制限された時間的レベル順は、時間的レベルの高いフレームから時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレーム順であることが望ましい。前記制限された時間的レベル順はGOPサイズを周期として反復される。前記逆時間的変換過程は、GOPの時間的レベルが最も高いコーディングされたフレームから始まって前記制限された時間的レベル順で前記コーディングされたフレームを逆時間的フィルタリングする。
前記制限された時間的レベル順は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって決定するが、前記制限された時間的レベル順は、同一コーディングモードでGOPサイズを周期として反復されることが望ましい。
前記コーディングモードに関する情報は遅延時間制御パラメータDを含んでおり、前記決定される制限された時間的レベル順は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスよりD超過しないインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレーム順である。
前記重複除去順序は、前記入力されたビットストリームから抽出できる。
前記目的を達成するために本発明によるビデオデコーダは、入力されたビットストリームを解釈してコーディングされたフレームに関する情報を抽出するビットストリーム解釈部と、前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る逆量子化部と、逆空間的変換過程を行う逆空間的変換部と、制限された時間的レベル順で逆時間的変換過程を行う逆時間的変換部と、を含み、重複除去順序の逆順によって前記変換係数に対する逆空間的変換過程及び逆時間的変換過程によりフレームを復元する。
前記重複除去順序の逆順は、逆時間的変換過程から逆空間的変換過程であり、前記逆空間的変換部は逆ウェーブレット変換方式で逆空間的変換作業を行える。
前記重複除去順序の逆順は、逆空間的変換過程から逆時間的変換過程であり、前記逆空間的変換部は、逆ウェーブレット変換方式で逆空間的変換作業を行うことが望ましい。
望ましくは、前記制限された時間的レベル順は、時間的レベルの高いコーディングされたフレームから時間的レベルの低いコーディングされたフレーム順である。前記制限された時間的レベル順はGOPサイズを周期として反復される。
前記駅時間的変換部はGOP単位で逆時間的変換過程を行うが、GOPの時間的レベルの最も高いコーディングされたフレームから始まって前記制限された時間的レベル順で前記コーディングされたフレームを逆時間的フィルタリングできる。
前記ビットストリーム解釈部は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって前記制限された時間的レベル順を決定し、前記制限された時間的レベル順は同一コーディングモードでGOPサイズを周期として反復される。
前記コーディングモードに関する情報は遅延時間制御パラメータDを含んでおり、前記決定される制限された時間的レベル順は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスよりD超過しないインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレーム順であり、同じ時間的レベル順の場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレーム順である。
記重複除去順序は前記入力されたビットストリームから抽出できる。
本発明によれば、遅延時間調節が可能であり、短い遅延時間を持つ場合にも性能の低下が著しくないビデオコーディングが可能である。また本発明によれば、変化の激しいビデオシーケンスの場合にも効率的に圧縮できる。それだけでなく本発明では遅延時間を調節しても時間的スケーラビリティに適応する。
以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。
図2は、本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。
スケーラブルビデオエンコーダは、ビデオシーケンスを構成する複数のフレームを入力されてそれを圧縮してビットストリームを生成する。そのために、スケーラブルビデオエンコーダは、複数のフレームの時間的重複を除去する時間的変換部10と、空間的重複を除去する空間的変換部20と、時間的及び空間的重複が除去されて生成された変換係数を量子化する量子化部30と、量子化された変換係数及びその他の情報を含んでビットストリームを生成するビットストリーム生成部40とを含む。
時間的変換部10は、フレーム間動きを補償して時間的フィルタリングを行うために動き推定部12と時間的フィルタリング部14とモード選択部16とを含む。
まず、動き推定部12は、時間的フィルタリング過程の実行中のフレームの各マクロブロックとそれに対応する参照フレームの各マクロブロックとの動きベクトルを求める。動きベクトルに関する情報は時間的フィルタリング部14に提供され、時間的フィルタリング部14は動きベクトルに関する情報を利用して複数のフレームに対する時間的フィルタリングを行う。本実施形態で時間的フィルタリングはGOP単位で行われる。
一方、モード選択部16は時間的フィルタリングの順序を定める。本実施形態で時間的フィルタリングは基本的にGOP内で高い時間的レベルを持つフレームから低い時間的レベルを持つフレーム順に進行し、同じ時間的レベルを持つフレームの場合には、小さなフレームインデックスを持つフレームから大きいフレームインデックスを持つフレーム順に進行する。フレームインデックスはGOPを構成するフレームの時間的順序を知らせるインデックスであって、一つのGOPを構成するフレームの数がnである場合にフレームインデックスは時間的に最も先立つフレームを0として、時間的順序の最後のフレームはn−1のインデックスを持つ。
本実施形態でGOPを構成するフレームのうち最高時間的レベルを持つフレームはフレームインデックスの最も小さなフレームを使用するが、これは例示的なものであってGOP内の他のフレームを時間的レベルの最も高いフレームとして選択することも本発明の技術的思想に含まれると解釈せねばならない。
一方、モード選択部16は、ビデオコーディング過程で発生する遅延時間を短縮するために遅延時間限定モードにコーディングを行える。このような場合にモード選択部16は、遅延時間制御パラメータD値によって時間的フィルタリング順序を、前述した時間的レベル順の高いフレームから低いフレームにする順序に制限できる。それ以外にもモード選択部16は、エンコーディング過程で演算能力の限界などを考慮して時間的フィルタリングの順序を変更するか、または一部フレームを省略したまま時間的フィルタリングを行うこともできる。以下、詳細な説明で“制限された時間的レベル順”という用語は、このようなあらゆる要素を考慮した時間的フィルタリングの順序を意味する用語として使用するが、制限された時間的レベル順は、最高時間的レベルのフレームから時間的フィルタリングが始まるという特徴を持つ。
時間的重複が除去されたフレーム、すなわち、時間的フィルタリングされたフレームは空間的変換部20を経て空間的重複が除去される。空間的変換部20は空間的変換を利用して時間的フィルタリングされたフレームの空間的重複を除去するが、本実施形態ではウェーブレット変換を使用する。現在知られたウェーブレット変換は一つのフレームを4等分し、全体イメージとほぼ同じ1/4面積を持つ縮少されたイメージ(Lイメージ)を前記フレームの一側4分面に代え、残りの3個の4分面はLイメージを通じて全体イメージを復元可能にする情報(Hイメージ)に代えられる。同じ方式でLフレームはまた1/4面積を持つLLイメージ及びLイメージを復元するための情報に代えられうる。このようなウェーブレット方式を使用するイメージ圧縮法はJPEG2000という圧縮方式に適用されている。ウェーブレット変換を通じてフレームの空間的重複を除去でき、またウェーブレット変換は離散コサイン変換(DCT:Discrete Cosine Transform)とは違って元来のイメージ情報が変換されたイメージに縮少された形に保存されているので、縮少されたイメージを利用して空間的スケーラビリティを持つビデオコーディングを可能にする。しかし、ウェーブレット変換方式は例示的なものであって、空間的スケーラビリティを達成しなくて済む場合ならば既存のMPEG−2のような動映像圧縮方式に広く使われるDCT方法を使用することもできる。
時間的フィルタリングされたフレームは空間的変換を経て変換係数になるが、これは量子化部30に伝達されて量子化される。量子化部30は、実数型係数の変換係数を量子化して整数型変換係数に変える。すなわち、量子化を通じてイメージデータを表現するためのビット量を減らしうるが、本実施形態ではエンベディッド量子化方式を通じて変換係数に対する量子化過程を行う。エンベディッド量子化方式を通じて変換係数に対する量子化を行うことによって量子化に必要な情報量を減らすことができ、エンベディッド量子化によりSNRスケーラビリティを得られる。エンベディッドとは、コーディングされたビットストリームが量子化を含むという意味を示すのに使われる。言い換えれば、圧縮されたデータは視覚的に重要な順序に生成されるか、または視覚的重要度により表示される。実際量子化(または視覚的重要度)レベルはデコーダや転送チャンネルで機能しうる。もし、転送帯域幅、保存容量、ディスプレイリソースが許容されるならば、イメージは損失なしに復元できる。しかし、そうでない場合ならばイメージは最も制限されたリソースに要求されるほどのみ量子化される。現在知られたエンベディッド量子化アルゴリズムはEZW、SPIHT、EZBC、EBCOTなどがあり、本実施形態では知られたアルゴリズムのうちいかなるアルゴリズムを使用しても構わない。
ビットストリーム生成部40は、コーディングされたイメージ情報及び動き推定部12で得た動きベクトルに関する情報などを含んでヘッダを付けてビットストリームを生成する。本実施形態では制限された時間的レベル順に関する情報をビットストリームに含めるが、遅延時間パラメータをビットストリーム情報に入れる。
一方、空間的重複を除去する時にウェーブレット変換を使用する場合、元来変換されたフレームに元来イメージに対する形態が残っているが、これによりDCT基盤の動映像コーディング方法とは違って空間的変換を経て時間的変換を行った後に量子化してビットストリームを生成することもできる。これについての他の実施形態は図3を通じて説明する。
図3は、本発明の他の実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。
本実施形態によるスケーラブルビデオエンコーダは、ビデオシーケンスを構成する複数のフレームに対する空間的重複を除去する空間的変換部60と、時間的重複を除去する時間的変換部70と、フレームに対する空間的及び時間的重複が除去して得た変換係数を量子化する量子化部80と、コーディングされたイメージ情報とその他の情報を含んでビットストリームを生成するビットストリーム生成部90とを含む。
変換係数という用語と関連して、従来には動映像圧縮で時間的フィルタリングした後に空間的変換を行う方式が主に利用されたため、変換係数という用語は主に空間的変換により生成される値を称するものであった。すなわち、変換係数はDCTにより生成された場合にDCT係数という用語で使われることもあり、ウェーブレット変換により生成された場合にウェーブレット係数という用語で使われることもあった。本発明で変換係数は、フレームに対する空間的及び時間的重複を除去して生成された値であって、量子化(エンベディッド量子化)される前の値を意味する。すなわち、図2の実施形態では従来と同じく変換係数は空間的変換を経て生成された係数を意味するが、図3の実施形態で変換係数は時間的変換を経て生成された係数を意味できるという点を留意しなければならない。
まず、空間的変換部60は、ビデオシーケンスを構成する複数のフレームの空間的重複を除去する。この場合に、空間的変換部はウェーブレット変換を使用してフレームの空間的重複を除去する。空間的重複が除去されたフレーム、すなわち、空間的変換されたフレームは時間的変換部70に伝達される。
時間的変換部70は、空間的変換されたフレームに対する時間的重複を除去するが、そのために動き推定部72と時間的フィルタリング部74とモード選択部76とを含む。本実施形態で時間的変換部70の動作は、図2の実施形態と同じ方式で動作されるが、異なる点は図2の実施形態とは違って入力されるフレームは空間的変換されたフレームであるという点である。また、時間的変換部70は空間的変換されたフレームに対して時間的重複を除去した後に量子化のための変換係数を作るという点も異なる点であるといえる。
量子化部80は変換係数を量子化して量子化されたイメージ情報(コーディングされたイメージ情報)を作り、それをビットストリーム生成部40に提供する。量子化は図2の実施形態と同じくエンベディッド量子化して最終的に生成されるビットストリームに対するSNRスケーラビリティを得る。
ビットストリーム生成部90は、コーディングされたイメージ情報及び動きベクトルに関する情報などを含み、ヘッダを付けてビットストリームを生成する。この時にも図2の実施形態と同じく遅延時間制御パラメータを含めうる。
一方、図2のビットストリーム生成部40及び図3のビットストリーム生成部90は、図2の実施形態によってビデオシーケンスをコーディングしたか、または図3の実施形態によってビデオシーケンスをコーディングしたかをデコーディング側から分かるようにビットストリームに時間的重複及び空間的重複を除去した順序に関する情報(以下、重複除去順序)を含みうる。重複除去順序をビットストリームに含む方式はいろいろな方式が可能である。いずれか一つの方式を基本に定めて他の方式は別途にビットストリームに表示することもある。例えば、図2の方式が基本的な方式である場合に図2のスケーラブルビデオエンコーダで生成されたビットストリームには重複除去順序に関する情報を表示せず、図3のスケーラブルビデオエンコーダにより生成されたビットストリームにのみ重複除去順序を含めうる。一方、重複除去順序に関する情報を図2の方式による場合や図3の方式による場合いずれにも表示することもある。
図2の実施形態によるスケーラブルビデオエンコーダと図3の実施形態によるスケーラブルビデオエンコーダとの機能をいずれも持つスケーラブルビデオエンコーダを具現し、ビデオシーケンスを図2の方式及び図3の方式でそれぞれコーディングしかつ比較して効率の優れたコーディングによるビットストリームを生成することもある。このような場合にはビットストリームに重複除去順序を含めねばならない。この時、重複除去順序はビデオシーケンス単位で決定することもあり、GOP単位で決定することもある。前者の場合にはビデオシーケンスヘッダに重複除去順序を含めねばならず、後者の場合にはGOPヘッダに重複除去順序を含めねばならない。
前記図2及び図3の実施形態はいずれもハードウェアで具現されることもあるが、ソフトウェアモジュール及びそれを実行できるコンピューティング能力を持つ装置でも具現できるということを留意しなければならない。
図4は、本発明の一実施形態によるスケーラブルビデオデコーダの構成を示す機能性ブロック図である。
スケーラブルビデオデコーダは、入力されるビットストリームを解釈してビットストリームに含まれた各構成部分を抽出するビットストリーム解釈部100と、図2の実施形態によってコーディングされたイメージを復元する第1デコーディング部200と、図3の実施形態によってコーディングされたイメージを復元する第2デコーディング部300とを含む。
前記第1及び第2デコーディング部はハードウェアで具現されることもあり、ソフトウェアモジュールで具現されることもある。また、ハードウェアあるいはソフトウェアモジュールで具現される時は図4のように別途に具現されることもあるが、統合されて具現されることもある。統合されて具現された場合に、第1及び第2デコーディング部はビットストリーム解釈部100で得た重複除去順序により、逆重複除去過程の順序のみ別にする。
一方、スケーラブルビデオデコーダは、図4のように相異なる重複除去順序によってコーディングされたイメージをいずれも復元できるように具現されることもあるが、いずれか一つの重複除去順序によってコーディングされたイメージのみを復元するように具現することもあることを留意しなければならない。
まず、ビットストリーム解釈部100は入力されたビットストリームを解釈してコーディングされたイメージ情報(コーディングされたフレーム)を抽出して重複除去順序を決定する。重複除去順序が第1デコーディング部200に該当する場合ならば、第1デコーディング部200を通じてビデオシーケンスを復元し、重複除去順序が第2デコーディング部300に該当する場合ならば第2デコーディング部300を通じてビデオシーケンスを復元する。また、ビットストリーム解釈部100は、ビットストリームを解釈して時間的重複を行う時にフレームの時間的フィルタリングを行う順序である制限された時間的レベル順が分かるが、本実施形態ではコーディングモードを決定する遅延時間制御パラメータ値を通じて制限された時間的レベル順が分かる。コーディングされたイメージ情報からビデオシーケンスを復元する過程については、重複除去順序が第1デコーディング部200に該当する場合をまず説明し、それから重複除去順序が第2デコーディング部300に該当する場合を説明する。
第1デコーディング部200に入力されたコーディングされたフレームに関する情報は逆量子化部210により逆量子化されて変換係数に変わる。変換係数は逆空間的変換部220により逆空間的変換される。逆空間的変換はコーディングされたフレームの空間的変換と関連するが、空間的変換方式でウェーブレット変換が使われた場合に逆空間的変換は逆ウェーブレット変換を行い、空間的変換方式がDCTである場合には逆DCTを行う。逆空間的変換を経て変換係数は時間的フィルタリングされたIフレーム及びHフレームに変換されるが、逆時間的変換部230は制限された時間的レベル順で逆時間的変換してビデオシーケンスを構成するフレームを復元する。制限された時間的レベル順は、ビットストリーム解釈部100から入力されたビットストリームを解釈して分かる。逆時間的変換のために逆時間的フィルタリング部230は、ビットストリームを解釈して得たモーションベクトルを利用する。
第2デコーディング部300に入力されたコーディングされたフレームに関する情報は、逆量子化部310により逆量子化されて変換係数に変わる。変換係数は逆時間的変換部320により逆時間的変換される。逆時間的変換のためのモーションベクトル及び制限された時間的レベル順は、ビットストリーム解釈部100がビットストリームを解釈して得た情報から得られる。逆時間的変換を経たコーディングされたイメージ情報は空間的変換を経たフレーム状態に変換される。空間的変換を経た状態のフレームは、逆空間的変換部330で逆空間的変換されてビデオシーケンスを構成するフレームに復元される。逆空間的変換部330で使われる逆空間的変換は逆ウェーブレット変換方式である。
以下では、時間的スケーラビリティを最大限維持しつつ遅延時間を制御可能にするために制限された時間的レベル順で時間的変換を行う過程についてさらに詳細に説明する。
本発明は継承的時間的近似及び参照(Successive Temporal Approximation and Referencing;以下、STAR)アルゴリズムを通じて時間的スケーラビリティをエンコーディング側及びデコーディング側いずれにも持つようにし、容易に遅延時間問題を制御できる。
図5は、STARアルゴリズムの基本的概念を説明するための図面である。
STARアルゴリズムの基本概念は次の通りである。各時間的レベルのあらゆるフレームはノードとして表現される。そして参照関係は矢印で表示される。各時間的レベルには必要なフレームのみ位置できる。例えば、最高時間的レベルでGOPのフレームのうちただ一つのフレームだけ位置できる。本実施形態ではF(0)フレームが最高の時間的レベルを持つ。次の時間的レベルで、時間的分析が継承的に実行されて既にコーディングされたフレームインデックスを持つ元来のフレームにより高周波成分を持つエラーフレームが予測される。GOPサイズが8である場合に0番フレームを最高の時間的レベルでIフレームにコーディングし、4番フレームは次の時間的レベルで0番フレームの元来のフレームを使用してインターフレーム(Hフレーム)にコーディングする。それから、2番と6番フレームを0番と4番の元来のフレームを使用してインターフレームにコーディングする。最後に1、3、5、7フレームを、0、2、4、6番フレームを利用してインターフレームにコーディングする。
デコーディング過程は0番フレームを先にデコーディングする。それから0番を参照して4番フレームをデコーディングする。同じ方式で0番と4番フレームを参照して2番と6番フレームをデコーディングする。最後に1、3、5、7フレームを0、2、4、6番フレームを利用してデコーディングする。
図5に図示されたようにエンコーディング側とデコーディング側いずれも同じ時間的処理過程を持つ。このような特性はエンコーディング側に時間的スケーラビリティを提供できる。すなわち、エンコーディング側ではいかなる時間的レベルで止めてもデコーディング側では該当時間的レベルまでデコーディングできる。すなわち、時間的レベルの高いフレームからコーディングを行うためにエンコーディング側でも時間的スケーラビリティを達成可能になる。例えば、もし6番フレームまでコーディングが終わった状態でコーディング過程を止めるならば、デコーディング側はコーディングされた0番フレームを参照して4番フレームを復元し、4番フレームを参照して2番と6番フレームを復元できる。このような場合にデコーディング側では0、2、4、6番フレームをビデオに出力可能になる。エンコーディング側の時間的スケーラビリティを維持するためには時間的レベルの最も高いフレーム(本実施形態ではF(0))は、他のフレームとの演算を必要とするLフレームではないIフレームにコーディングせねばならない。
これを従来の方法と比較すれば、従来のMCTFまたはUMCTF基盤のスケーラブルビデオコーディングアルゴリズムがデコーディング側で時間的スケーラビリティを持つことができるが、エンコーディング側では時間的スケーラビリティを持ち難い。すなわち、図1A及び図1Bの場合を参照すれば、デコーディング側でデコーディング過程を行うためには時間的レベル3のLまたはAフレームがなければならないが、MCTF及びUMCTFアルゴリズムの場合にはエンコーディング過程がいずれも終わって初めて最高の時間的レベルのLまたはAフレームを得られる。しかし、デコーディング過程ではいかなる時間的レベルでもデコーディング過程を止めうる。
エンコーディング側とデコーディング側のいずれでも時間的スケーラビリティを維持するための条件について説明する。
F(k)はフレームインデックスがkであるフレームを意味し、T(k)はフレームインデックスがkであるフレームの時間的レベルを意味するとしよう。時間的スケーラビリティが成立されるためにはいずれかの時間的レベルのフレームをコーディングする時、それより低い時間的レベルを持つフレームを参照してはならない。例えば、4番フレームが2番フレームを参照してはならないが、もし参照することが許容されるならば0番及び4番フレームでエンコーディングを止められなくなる(すなわち、2番フレームをコーディングして初めて4番フレームをコーディングできる)。フレームF(k)が参照できる参照フレームの集合Rは数式1により定められる。
ここで、lはフレームインデックスを意味する。
一方、(T(l)=T(k))and(l<=k)は、フレームF(k)は時間的フィルタリング過程で自身を参照して時間的フィルタリングを行うこと(イントラモード)を意味するが、これについては後述する。
STARアルゴリズムを利用したエンコーディング及びデコーディング過程を整理すれば次の通りである。
<エンコーディング過程>
1.GOPの最初のフレームをIフレームにエンコーディングする。
2.その後、次の時間的レベルのフレームに対して、モーション推定をして数式1による参照フレームを参照してコーディングする。同じ時間的レベルを持つ場合には左側から右側に(低いフレームインデックスのフレームから高いフレームインデックスのフレーム順に)コーディング過程を行う。
3.GOPのあらゆるフレームをコーディングし終わるまで2の過程を反復実行してからあらゆるフレームに対するコーディングが終わるまでその次のGOPをコーディングする。
<デコーディング過程>
1.GOPの最初のフレームをデコーディングする。
2.次の時間的レベルのフレームを既にデコーディングされたフレームのうち適当なフレームを参照してデコーディングする。同じ時間的レベルを持つ場合には左側から右側に(低いフレームインデックスのフレームから高いフレームインデックスのフレーム順に)デコーディング過程を行う。
3.GOPのあらゆるフレームをデコーディングし終わるまで2の過程を反復実行してから、あらゆるフレームに対するデコーディングが終わるまでその次のGOPをデコーディングする。
図5で、フレームの内部に表示された文字Iはフレームがイントラコーディングされたこと(他のフレームを参照せず)を表示し、文字Hは該当フレームが高周波サブバンドであることを表示する。高周波サブバンドは一つまたはそれ以上のフレームを参照してコーディングされるフレームを意味する。
一方、図5でGOPのサイズが8である場合にフレームの時間的レベルは0、4、(2、6)、(1、3、5、7)順にしたが、これは例示的なものであって、1、5、(3、7)、(0、2、4、6)である場合もエンコーディング側及びデコーディング側時間的スケーラビリティは全く問題がない。同じく、時間的レベルの順序が2、6、(0、4)、(1、3、5、7)である場合も可能である。すなわち、エンコーディング側及びデコーディング側の時間的スケーラビリティを満たすように時間的レベルに位置するフレームはいかなるインデックスのフレームになっても構わない。
しかし、0、5、(2、6)、(1、3、4、7)の時間的レベル順を持つように具現した場合にエンコーディング側及びデコーディング側の時間的スケーラビリティは満足できるが、このような場合にはフレーム間の間隔が不均一になるのであまり望ましくはない。
図6を参照して時間的フィルタリングのためのフレーム間の可能な連結の例を説明する。図6は、STARアルゴリズムで可能なフレーム間の連結を示す図面である。
数式1を参照すれば、フレームF(k)は多くのフレームを参照できることが分かる。このような特性はSTARアルゴリズムが多い参照フレームを使用可能にする。本実施形態でGOPのサイズが8である場合に可能なフレーム間の連結を示している。いずれかのフレームで自身から出発して自身に連結された矢印はイントラモードにより予測されたことを示す。同じ時間的レベルでHフレーム位置にあるものを含んで以前にコーディングされたフレームインデックスを持つあらゆる元来のフレームは参照フレームとして使われうる。しかし、従来の方法でHフレームの位置にある元来のフレームは同じレベルにあるフレームのうちAフレームまたはLフレームのみ参照できるので、これもまた本実施形態と従来方法との差別点といえる。例えば、F(5)はF(3)とF(1)とを参照できる。
たとえ多重参照フレームを使用する時には時間的フィルタリングのためのメモリ使用量及びプロセシング遅延時間を増加させるとしても、多重参照フレームを使用することは有意義である。
前述したが、本実施形態を含む以下の説明で一つのGOP内で最高の時間的レベルを持つフレームは最も少ないフレームインデックスを持つフレームであると説明されるが、これは例示的なものであって最高の時間的レベルを持つフレームが他のインデックスを持つフレームである場合にも可能であるという点を留意する必要がある。
便宜上、あるフレームをコーディングするための参照フレームの数を双方向予測のための2つに限定して説明し、実験結果で単方向予測のためには一つに限定する。
図7は、双方向予測及びクロスGOP最適化を使用したSTARコーディングアルゴリズムの場合を示す。
STARアルゴリズムは他のGOPのフレームを参照してフレームをコーディングできるが、これをクロスGOP最適化という。UMCTFの場合にもこれを支援できるが、クロスGOP最適化の可能な理由は、UMCTF及びSTARコーディングアルゴリズムは時間的フィルタリングされていないAまたはIフレームを使用する構造であるからである。図5及び図6の実施形態で7番フレームの予測エラーは0番、4番、及び6番フレームの予測エラーを合わせた値である。しかし、7番フレームが次のGOPの0番フレーム(現GOPで計算すれば8番フレーム)を参照すれば、このような予測エラーの累積現象は確実に減少できる。さらに、次のGOPの0番フレームはイントラコーディングされるフレームであるために7番フレームの質は明らかに改善されうる。
図8は、本発明の他の実施形態による非二分的時間的フィルタリングでフレーム間の連結を示す図面である。
UMCTFコーディングアルゴリズムがAフレームを任意的に挿入することによって非二分的時間的フィルタリングを支援できるように、STARアルゴリズムもまたグラフィック構造を簡単に変えることにより非二分的時間的フィルタリングを支援できる。本実施形態は1/3及び1/6時間的フィルタリングを支援する場合を示す。STARアルゴリズムではグラフ構造を変えることにより容易に任意の比率を持つフレームレートを得られる。
STARアルゴリズムの特性(長所)として、エンコーディング側及びデコーディング側の時間的レベルの処理順序が同一であるという点と、多重参照フレームを支援するという点と、クロスGOP最適化を支援するという点とを前述した。このような特性のうち一部は従来の方法によっても制限的に達成できたものであるが、従来の方法によっては遅延時間を制御し難い。従来の方法で遅延時間を短縮する方法にはGOPサイズを縮める方法があるが、この場合に性能は目立って悪くなる。STARアルゴリズムを使用する場合に、遅延時間制御パラメータDという概念を導入して非常に容易にビデオシーケンスからエンコーディング及びデコーディングを経て再びビデオシーケンスに復元されるまでの遅延時間を制御できる。
図9ないし図12を参照して遅延時間を限定した場合にSTARアルゴリズムについて説明する。
遅延時間制御のための数式1による時間的スケーラビリティ条件は若干修正されねばならないが、これは数式2により定められる。
ここでR は許容される遅延時間をDに限定する場合において現在コーディングされるフレームが参照できる参照フレームの集合を意味する。数式2の意味を解釈すれば、時間的レベルの高いフレームであってもいつでも参照フレームになるわけではなく、現在コーディングされるフレームよりフレームインデックスがDを超過しないフレームでなければならないということを意味する。これと関連して一つ留意すべき点は、数式2を解釈する時にDはF(k)をコーディングするために最大限に許容される遅延時間を意味するという点である。すなわち、図7を参照すれば、2番フレームをコーディングするためには4番フレームが必要であり、したがってDが2であれば十分であると考えられるが、1番フレームをコーディングするためには2番フレームが必要であり、2番フレームは4番フレームを必要とするためにDは3になるという点を留意しなければならない。もちろん、1番フレームが2番フレームを参照せず、5番フレームが6番フレームを参照しない場合ならばD値は2で済む。整理すれば、図7のような構造を持つコーディングを行うためにはDを3に設定せねばならない。
数式2による場合にも前述したマルチプル参照フレームやクロスGOP最適化が適用できるということを留意しなければならない。このような遅延時間制御は直接的でかつ具現が簡単であるという長所を持つ。
STARアルゴリズムによるこのような接近法の主要な利点のうち一つは、デコーディング側で時間的スケーラビリティを全く損しないという点である。従来の方法のようにGOPのサイズを縮める場合には最大時間的レベルの大きさが縮小されるためにデコーディング側で時間的スケーラビリティが弱くなる。例えば、GOPサイズが8である場合にデコーディング側で選択可能なフレームレート比率は1、1/2、1/4、1/8であるが、Dを3に限定するためにGOPサイズを4とした場合にフレームレート比率は1、1/2、1/4が選択可能である。GOPサイズが2である場合には1、1/2のみ選択可能である。また、GOPのサイズを縮めるということは、前述したようにビデオエンコーディングの効率を急激に減らすという短所を持っている。これに対し、STARアルゴリズムの場合には極端にDを0に限定した場合にもデコーディング側の時間的スケーラビリティには全く影響を与えない。ただし、この場合においてエンコーディング側のスケーラビリティに損傷があるだけである。すなわち、GOPサイズが8であり、Dが0である場合において、エンコーディング側でGOP単位で処理できるフレームの数が2にプロセシング能力が制限される場合であれば、0番と1番フレームをコーディングしてデコーディング側に転送せねばならない。この場合にデコーディング側ではフレームレート比率が1/4であるビデオシーケンスを復元できるが、この時に復元されるビデオフレームは時間的間隔が不均一になる。
それぞれの遅延時間を別にした場合の例を図9、10、11、12を通じて説明する。
図9は、本発明の他の実施形態による遅延時間制御パラメータが0である場合の時間的フィルタリングでフレーム間の連結を示す図面である。
本実施形態は、双方向予測及びクロスGOP最適化を支援し、かつD値を0に限定した場合の遅延時間が制限されたSTARアルゴリズムの時間的構造を示す。遅延時間制御パラメータが0であるため、クロスGOP最適化は自動的に非活性化され、あらゆるフレームは時間的に後のフレーム(フレームインデックスの小さなフレーム)のみを参照する。したがって、フレーム転送順序は0、1、2、3、4、5、6、7になる。すなわち、一つのフレームが処理されて直ちにデコーディング側に伝えられうる。この場合において、Iフレームバッファリング遅延時間だけ存在する。このような特性はデコーディング側でも維持されるが、デコーダはフレームが到達するやいなやデコーディングを始めうる。すなわち、最終遅延時間はデコーディング側演算デレーを含んで単に2フレーム(67ms@30Hz)である。しかし、このような場合に性能はD値を0より大きく設定した場合より多少落ちる。
図10は、本発明の他の実施形態による遅延時間制御パラメータが1である場合の時間的フィルタリングでフレーム間の連結を示す図面である。
この場合において、クロスGOP最適化特性は自動的に活性化される。最低の時間的レベルのあらゆるフレームは良方予測を使用して予測でき、GOPの最後のフレームは次のGOPの最初のフレームを参照できる。このような場合にフレームのコーディング順序は0、2、1、4、3、6、5、7、8(次のフレームの0)である。エンコーダ側で単に2フレームをバッファリングするための遅延時間及びデコーダ側の演算遅延時間が必要なだけである。総遅延時間は3フレーム(100ms@30Hz)であり、大部分のフレームのための双方向予測及び最後のフレームでのクロスGOP最適化が可能になる。
図11は、本発明の他の実施形態による遅延時間制御パラメータが3である場合の時間的フィルタリングでフレーム間の連結を示す図面である。
Dが3である場合には図11に図示されたように2番フレームは4番フレームを参照でき、6番フレームはは次のGOPの最初のフレームを参照できる。
Dが2ではなく3を必要とする理由は、2番フレームをコーディングするためには4番フレームが必要なので2フレームほどの遅延時間であれば十分であるが、1番フレームをコーディングするためには2番フレームが必要であり、2番フレームは2フレームほどの遅延時間を必要として総3フレームの遅延時間を必要とする。遅延時間が3である場合に8番フレーム(次のフレームの0番フレーム)から4番フレームへの参照を除外したあらゆるフレームの参照が可能である。この時のコーディング順序は0、4、2、1、3、8(次のGOPの0番)、6、5、7になる。もし、Dが4である場合であれば図7の形態が可能である。GOPサイズを16に拡張した場合を図12に示す。
図12は、本発明の他の実施形態によるGOPサイズが16である時、遅延時間制御パラメータが3である場合の時間的フィルタリングでフレーム間の連結を示す図面である。この場合にフレームのコーディング順序(転送順序と同一)は0、4、2、1、3、8、6、5、7、12、10、9、11、16(次のGOPの0番フレーム)、14、13、15になる。
STARアルゴリズムにおいて最終遅延時間は単に一つのパラメータDにより制御されるという点を留意せねばならない。このような特徴は遅延時間制御を単純化させ、最終遅延時間の観点でコーディング効率のいわゆる優雅な低下の結果をもたらす。このような一つのフレームワークで“柔軟な遅延時間”は非常に有用である。なぜなら、コーディングシステムの重要な変化なしにアプリケーションの性質によって最終遅延時間を容易に調節できるからである。すなわち、単方向ビデオストリームで、最終遅延時間は重要な問題とならない。したがって、D値を最大(GOPサイズの1/2)に設定できる。一方、双方向TV会議システムで最終遅延時間は非常に重要な問題となる。このような場合において、最終遅延時間を2より小さく設定すればコーディング効率を若干落としただけでも非常に小さな最終遅延時間を達成できる。最終遅延時間と遅延時間制御パラメータDとの関係は表1に図示される。
表1の最終遅延時間は数式3のように表現できる。
Tは最終遅延時間を表す値であって、その単位は1フレーム時間である。
最終遅延時間によるピーク信号対雑音比(Peak Signal to Noise Ratio:PSNR)の低下に対する実験結果については後述する。
図13は順方向、逆方向、双方向、及びイントラ予測モードを説明するための図面である。
STARアルゴリズムは基本的にマルチモード時間的予測を支援する。図13に図示されたように順方向(1)、逆方向(2)、双方向(3)、及びイントラ(4)予測が支援される。従来には前の3つのモードはスケーラブルビデオコーディングにおいて既に支援されていたが、STARアルゴリズムではイントラ予測を含んで速い変化があるビデオシーケンスのコーディング効率を改善させた。
まず、インターマクロブロック予測モードの決定について説明する。STARアルゴリズムは双方向予測及びマルチプル参照フレームを許容するために、順方向、逆方向、及び双方向予測を容易に具現できる。比としてよく知られたHVBSMアルゴリズムを使用することもあるが、本発明の実施形態では固定されたブロックサイズモーション推定を使用した。E(k,−1)をk番目の順方向予測での絶対差の和(Sum of Absolute Difference:以下、SAD)とし、B(k,−1)を純方向予測のモーションベクトルを量子化するのに割当てられる総ビットと仮定しよう。同じく、E(k,+1)をk番目逆方向予測でのSADといい、B(k,+1)を逆方向予測のモーションベクトルを量子化するのに割当てられる総ビットとし、E(k,*)をk番目双方向予測でのSADとし、B(k,*)を双方向予測のモーションベクトルを量子化するのに割当てられる総ビットと仮定しよう。順方向、逆方向、及び双方向予測モードのためのコストは数式4で説明できる。
ここで、C、C、及びCbiはそれぞれ順方向、逆方向、及び双方向予測モードのためのコストを意味する。
λはラグランジュ係数であるが、モーションとテクスチャー(イメージ)ビット間のバランスを制御するのに使われる。スケーラブルビデオエンコーダで最終ビットレートが分からないので、λは目的アプリケーションで主に使われるビデオシーケンス及びビットレートの特性に対して最適化されねばならない。数式4に定義された式により最小コストを計算することによって最も最適化されたインターマクロブロック予測モードを決定できる。
次にイントラ予測モード決定について説明する。
いくつかのビデオシーケンスで、場面は非常に速く変化する。極端の場合に、隣接フレームと全く時間的重複性を持たない一つのフレームを見つけることもある。このような問題を克服するために、MC−EZBCで具現されたコーディング方法は“適応的GOPサイズ特徴”を支援する。適応的GOPサイズ特徴は連結されていないピクセルの数が既定の基準値(全体ピクセルの30%程度)より大きい場合に時間的フィルタリングを中断して該当フレームをLフレームにコーディングする。このような方式をSTARアルゴリズムに適用することもできるが、本実施形態ではさらに柔軟な方式で標準ハイブリッドエンコーダで使われたイントラモードの概念を導入した。一般的に、STARアルゴリズムによるCODECを含んでオープンループCODECは予測ドリフトのために隣接のマクロブロック情報を使用できない。一方、ハイブリッドCODECはマルチプルイントラ予測モードを使用できる。したがって、本実施形態ではイントラ予測モードのためにDC予測を使用する。このモードであるマクロブロックは自身のY、U、及びVコンポーネントのためのDC値によりイントラ予測される。もし、イントラ予測モードのコストが前記の最も良いインター予測モードでのコストより小さな場合ならばイントラ予測モードを選択する。このような場合において、元来のピクセルとDC値の差をコーディングし、モーションベクトルの代りに3つのDC値の差をコーディングする。イントラ予測モードのコストは数式5で定義できる。
ここで、E(k,0)はk番目イントラ予測でのSAD(元来のルミネセンス値とDC値との差のSAD)であり、B(k,0)は3個のDC値をコーディングするための総ビットである。
もし、Cが数式4により計算された値より小さな場合ならば、イントラ予測モードにコーディングする。結論的にいえば、もし、モードマクロブロックが単に一つのDC値のセットでイントラ予測モードにコーディングされた場合ならば、Iフレームに変更する。一方、ビデオシーケンスの間間で任意の地点を見ようとする時、あるいは自動的にビデオ編集をしようとする時はビデオシーケンスにIフレームの数が多いことが良いが、この場合にIフレーム変更による方法は一つの良い方法になりうる。
一方、あらゆるマクロブロックがたとえイントラ予測モードにコーディングされていない場合でも、一定の比率(例えば90%)以上がイントラ予測モードにコーディングされた場合にはIフレームに転換すれば前記任意の地点を見ようとする場合や自動的にビデオ編集しようとする目的はさらに容易に達成される。
STARアルゴリズムは多重モードの時間的予測を具現できる方法を提供するが、他の方法、例えばMC−EZBCやあるいは他のCODECの方法を採用することもある。最初のフレームを除外したあらゆるマクロブロックは前記4形態のモードのうちいかなるモードによってもコーディングできる。当業者ならば、STARアルゴリズムに先立って図示された図面の“Hフレーム”はインター予測及びイントラ予測マクロブロックの混合された形に理解できる。それだけでなく、Hフレームの位置にあるフレームがIフレームに変更されてコーディングされうるということも分かる。このような柔軟性は、変化の速いビデオシーケンス及びフェードイン・フェードアウトフレームで特に有効である。
図14は、本発明の他の実施形態による時間的フィルタリングで4個の予測モードを含むフレーム間の連結を示す図面である。
I+Hは、フレームがイントラ予測マクロブロック及びインター予測マクロブロックいずれも含んで構成されるということを意味し、Iは予測なしにその自体フレームにコーディングされたことを意味する。たとえGOPの開始フレーム(最高の時間的レベルを持つフレーム)でイントラ予測が使われることもあるが、図14の実施形態はこれを使用しなかった。これは元来のフレームに基づいたウェーブレット変換ほど効率的でないからである。
図15A及び図15Bは、それぞれ変化の激しいビデオシーケンスと、変化のほとんどないビデオシーケンスとでマルチプルモードで予測した場合の例を示す。%は予測モードの比率を意味する。Iはイントラ予測の比率(ただし、GOPの最初のフレームは予測を使用せず)、BIは双方向予測の比率、Fは順方向予測の比率、Bは逆方向予測の比率を意味する。
図15Aを説明すれば、1番フレームは0番フレームとほぼ類似しているためにFの比率が78%で圧倒的であることが分かり、2番フレームは0番と4番との中間程度(すなわち、0番を明るくしたイメージ)に近いのでBIが87%で圧倒的であることが分かる。4番フレームは他のフレームと完全に異なるのでIに100%コーディングされ、5番フレームは4番とは全く違って6番と類似しているのでBが94%であることが分かる。
図15Bを説明すれば、全体的にあらゆるフレームが類似していることが分かるが、実際にほぼ類似したフレームの場合にはBIが最も優れた性能を示す。したがって、図15Bでは全体的にBIの比率が高いということが分かる。
STARアルゴリズムの性能を確認するためにいくつかのシミュレーションを実行した。STARアルゴリズムは時間的フィルタリング過程に適用した。モーション推定のために公知のダイアモンドファストサーチの1種を使用したが、サブブロックサイズを4から16まで4単位としてマルチモードパーティションを使用した。MC−EZBCは性能比教のために使用した。エンベディッド量子化で本発明の具現はEZBCアルゴリズムを使用した。
実験対象としてForeman及びMobile CIFの最初の64フレームを使用した。本発明の主要関心事は時間的変換を改善することであるため、空間的スケーラビリティテストは行わなかった。両実験対象は十分のビットレートでコーディングされ、ビットストリームはそれぞれビットレート2048、1024、512、256、128kbpsで転送されるように切断した後にデコーディングした。
性能測定は加重値のあるPSNRを使用し、加重値のあるPSNRは数式6により定義される。
マルチプル参照の場合を除外した前記のあらゆる特徴がSTARアルゴリズムの性能を測定するために含まれた。最後に、GOPレベルに基づいた一定のビットレート割当てをSTARアルゴリズムのために使用した。一方、MC−EZBCは可変的ビットレート割当てを使用した。可変的ビットレート割当てをSTARアルゴリズムに適用する場合はさらに優秀な性能を示すことができる。
図16及び図17は、それぞれForeman CIFシーケンスをコーディングした場合のPSNRの結果と、Mobile CIFシーケンスをコーディングした場合のPSNRの結果とを示すグラフである。
2048kbps及び1024kbpsのために30Hzのフレームレートが使われ、512kbps及び256kbpsのために15Hzのフレームレートが使われ、128kbpsのために7.5Hzのフレームレートが使われた。STARアルゴリズムは双方向予測及びクロスGOP最適化を使用し、二つのアルゴリズムともGOPサイズは16であり、1/4ピクセルモーション正確ドが使われた。さらに、双方向予測を使用したMCTFアルゴリズムをSTARアルゴリズムで具現したCODECに具現し、他の部分を変更しなかった。実験ではこれをMCTF方式という。このようにした理由は時間的フィルタリングの効率性のみを判断するためである。図示されたようにSTARアルゴリズムの性能がMC−EZBC及びMCTF方式よりForeman CIFシーケンスで1dB優れたことが分かる。MCTFの性能はMC−EZBCと類似している。しかし、MobileシーケンスでSTARの性能はMC−EZBCとほぼ同じく、MCTFよりはSTARの性能が良かった。これは、MC−EZBCに使われた可変ビット割当て及び可変サイズブロックマッチング技術のためであると見られ、STARアルゴリズムにそれを適用する場合にはMC−EZBCより良い結果が出ると考えられる。一方、STARがMCTFより約3.5dBも高い性能を見せたが、これは、STARアルゴリズムがMCTFより優秀なコーディングアルゴリズムということを示す結果である。結論的に、STARは時間的フィルタリング観点でMCTFよりは確実に優秀であり、MC−EZBCでは類似した性能を持つといえる。
少ない遅延時間モードの性能を比較するために、多様な最終遅延時間に対するいくつかの実験を行った。STARアルゴリズムのために遅延時間制御パラメータDを0から8まで変更した。これは、MC−EZBCのためのGOPサイズを2から16まで対応する値であって、最終遅延時間100msから567msまでに該当する。多様な最終遅延時間条件を測定するために時間的スケーラビリティを実験で使用せず、ビットレートは2048kbpsから256kbpsまでが使われた。STARアルゴリズムでイントラ予測モードは使われなかったが、これは時間的変換構造のみを比較するためである。
図18は、最大遅延時間567msをセットしたForeman CIFシーケンスに比べて最終遅延時間条件を変化させたForeman CIFシーケンスのPSNR値が落ちたことを示す。図示されたように、PSNR値はGOPサイズを縮小せねばならないMC−EZBCで急激に減少することが分かる。特に、GOPサイズが2である場合にこのような現象は目立つ。GOPサイズが4である場合にも最終遅延時間は150msを超えるということが分かる。一方、STARアルゴリズムではPSNR値があまり落ちない。最終遅延時間が67msである場合にさえ、PSNR値が落ちた程度は1.3dBに過ぎず、良好な遅延時間モード(100ms)でPSNR値の低下は単に0.8dBである。両アルゴリズム間の最大PSNR値の減少の差は3.6dBもする。
図19は、Mobile CIFシーケンスのための最大遅延時間のセットと比較したPSNR低下を示す。MC−EZBCにあってPSNR低下は前記のForeman CIFシーケンスを使用した場合よりさらに激しくなる。STARアルゴリズムの場合に最長の遅延時間及び最短の遅延時間でPSNR低下は2.3dBであるが、MC−EZBCの場合には6.9dBもする。100msでのPSNR低下は、STARの場合に1.7dBであるが、MC−EZBCの場合には6.9dBである。両アルゴリズム間のPSNR低下の最大差が出る地点は100ms地点であり、5.1dBの差がある。それだけでなく、STARアルゴリズムの場合には最短の遅延時間を持つ場合にも完全な時間的スケーラビリティを支援するが、MC−EZBCの場合には1レベルの時間的スケーラビリティのみ支援する。PSNR値の差は表2で整理する。
速めに変化するビデオシーケンスに対する比較は図20を通じて説明する。
図20は、動きの激しい映画“マトリック2”の一部を4種の予測モードを使用してコーディングした場合と、そうでない場合とのPSNRの結果を示すグラフである。
但し、16フレームで構成された一つのGOPを使用して実験した。速い動き、場面転換、空フレーム、及びフェードイン・フェードアウトのあるフレームセグメントを選択した。STARアルゴリズムはイントラ予測をした場合とそうでない場合とで実験し、MC−EZBCを実験比較対象に含めた。適応的GOPサイズ特徴をテストするために、MC−EZBCで“adapt_flag”を活性化させた場合とそうでない場合とを含む。
図示されたように、イントラ予測の効果は非常に優秀であることが分かる。イントラ予測を適用した場合とそうでない場合とに5dBの差が生じ、MC−EZBCでは適応的GOPを使用した場合とそうでない場合とに10dBの性能差が生じた。イントラ予測を使用したSTARの場合に、適応的GOPを使用したMC−EZBCに比べて1.5dBほどの性能差を示した。これは、STARアルゴリズムの場合にさらに柔軟なマクロブロック基盤のイントラ予測を使用したからである。
当業者ならば本発明がその技術的思想や必須な特徴を変更せずに他の具体的な形態に実施されうるということが理解できる。したがって、以上で記述した実施形態はあらゆる面で例示的なものであり、限定的ばものではないと理解すべきである。本発明の範囲は、詳細な説明より特許請求の範囲によって現れ、特許請求の範囲の意味及び範囲そしてその均等な概念から導出されるあらゆる変更または変形された形態が本発明の範囲に含まれると解釈されねばならない。
本発明はスケーラブルビデオコーディングアルゴリズムに係り、マルチメディア装置に適用できる。
MCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。 UMCTF方式のスケーラブルビデオコーディング及びデコーディング過程での時間的分解過程のフローを示す図面である。 本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。 本発明の他の実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。 本発明の一実施形態によるスケーラブルビデオエンコーダの構成を示す機能性ブロック図である。 STARアルゴリズムの基本的概念を説明するための図面である。 STARアルゴリズムで可能なフレーム間の連結を示す図面である。 本発明の一実施形態によるGOP間の参照を示す図面である。 本発明の他の実施形態による非二分的時間的フィルタリングでフレーム間の連結を示す図面である。 本発明の他の実施形態による遅延時間制御パラメータが0である場合の時間的フィルタリングでフレーム間の連結を示す図面である。 本発明の他の実施形態による遅延時間制御パラメータが1である場合の時間的フィルタリングでフレーム間の連結を示す図面である。 本発明の他の実施形態による遅延時間制御パラメータが3である場合の時間的フィルタリングでフレーム間の連結を示す図面である。 本発明の他の実施形態によるGOPサイズが16である時、遅延時間制御パラメータが3である場合の時間的フィルタリングでフレーム間の連結を示す図面である。 順方向、逆方向、双方向、及びイントラ予測モードを説明するための図面である。 本発明の他の実施形態による時間的フィルタリングで4個の予測モードを含むフレーム間の連結を示す図面である。 変化の激しいビデオシーケンスで図14の実施形態によってビデオコーディングした場合の例を示す図面である。 変化の少ないビデオシーケンスで図14の実施形態によってビデオコーディングした場合の例を示す図面である。 各ビデオコーディング方式でForeman CIFシーケンスをコーディングした場合のPSNRの結果を示すグラフである。 各ビデオコーディング方式でMobile CIFシーケンスをコーディングした場合のPSNRの結果を示すグラフである。 各ビデオコーディング方式で相異なる遅延時間でForeman CIFシーケンスをコーディングした場合のPSNRの結果を示すグラフである。 各ビデオコーディング方式で相異なる遅延時間でMobile CIFシーケンスをコーディングした場合のPSNRの結果を示すグラフである。 動きの激しい映画(マトリックス2)の一部を4種の予測モードを使用してコーディングした場合とそうでない場合とのPSNRの結果を示すグラフである。
符号の説明
10 時間的変換部
12 動き推定部
14 時間的フィルタリング部
16 モード選択部
20 空間的変換部
30 量子化部
40 ビットストリーム生成部

Claims (63)

  1. ビデオシーケンスを構成する複数のフレームを入力し、時間的レベルの高いフレームから時間的レベルの低いフレームの順番に、フレームの時間的重複を除去する処理を実行する(a)段階と、
    前記時間的重複が除去されたフレームから変換係数を得てそれを量子化してビットストリームを生成する(b)段階と、を含み、
    前記(a)段階は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記時間的重複を除去する処理を実行するビデオコーディング方法。
  2. 前記(a)段階で、入力されるフレームはウェーブレット変換を経て空間的重複が除去されたフレームであることを特徴とする請求項1に記載のビデオコーディング方法。
  3. 前記(b)段階で、変換係数は前記時間的重複が除去されたフレームを空間的変換して得ることを特徴とする請求項1に記載のビデオコーディング方法。
  4. 前記空間的変換はウェーブレット変換であることを特徴とする請求項3に記載のビデオコーディング方法。
  5. 前記(a)段階において、複数の前記フレームは、1つの時間的レベルを1つの階層として、二分木階層構造に設定されることを特徴とする請求項1に記載のビデオコーディング方法。
  6. 前記(a)段階における順番は、複数の前記フレームの時間的レベルが同一である場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番であることを特徴とする請求項1に記載のビデオコーディング方法。
  7. 前記(a)段階における順番は、GOPサイズを周期として反復されることを特徴とする請求項6に記載のビデオコーディング方法。
  8. GOPを構成するフレームのうち最も高い時間的レベルを持つフレームはGOPの最小フレームインデックスを持つフレームであることを特徴とする請求項7に記載のビデオコーディング方法。
  9. 前記(a)段階はGOP単位で行われるが、GOPの最も高い時間的レベルを持つ最初のフレームをIフレームと設定し、前記順番で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームであることを特徴とする請求項8に記載のビデオコーディング方法。
  10. 各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームであることを特徴とする請求項9に記載のビデオコーディング方法。
  11. 前記(a)段階で、各フレームが参照する参照フレームには各フレーム自身である現在フィルタリング中のフレームをさらに含むことを特徴とする請求項9に記載のビデオコーディング方法。
  12. 前記(a)段階で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをIフレームにコーディングすることを特徴とする請求項11に記載のビデオコーディング方法。
  13. 前記(a)段階で、各フレームが参照する参照フレームには、次のGOPに属する各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームをさらに含むことを特徴とする請求項9に記載のビデオコーディング方法。
  14. 前記(a)段階の処理を実行するか否かは、コーディングモードによって規定されており、
    前記コーディングモードは、
    前記(a)段階の処理を実行するコーディングモードと、
    前記(a)段階の処理を実行せずに、前記(a)段階の処理とは異なる処理でフレームの時間的重複を除去する処理を実行するコーディングモードと
    を有することを特徴とする請求項1に記載のビデオコーディング方法。
  15. 前記(a)段階の処理を実行するコーディングモードでは、前記時間的重複を除去する処理をGOPサイズを周期として反復することを特徴とする請求項14に記載のビデオコーディング方法。
  16. GOPを構成するフレームのうち最も高い時間的レベルを持つフレームはGOPの最小フレームインデックスを持つフレームであることを特徴とする請求項15に記載のビデオコーディング方法。
  17. 前記(b)段階で、前記コーディングモードに関する情報を前記ビットストリームにさらに含めることを特徴とする請求項15に記載のビデオコーディング方法。
  18. 前記(b)段階で、空間的重複除去及び時間的重複除去の順序に関する情報である重複除去順序を前記ビットストリームにさらに含めることを特徴とする請求項15に記載のビデオコーディング方法。
  19. 前記コーディングモードは、コーディングにおいて許容される遅延時間を示す遅延時間制御パラメータDにより決定され、
    前記(a)段階のフレームの順番は、時間的フィルタリングされていない最低レベルのフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つフレームのうち時間的レベルの高いフレームから時間的レベルの低いフレームの順番であり、同じ時間的レベルを複数のフレームが持つ場合には、時間的に先立つフレームから遅いフレームの順番であることを特徴とする請求項15に記載のビデオコーディング方法。
  20. 前記時間的重複を除去する段階はGOP単位で行われるが、GOP内の最高時間的レベルを持つフレームをIフレームにコーディングし、前記順番で各フレームに対する時間的重複を除去するが、各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より高いか、または各フレーム自身と同じ時間的レベルを持つフレームのうち各フレーム自身よりフレームインデックスの小さな一つまたはそれ以上のフレームであることを特徴とする請求項19に記載のビデオコーディング方法。
  21. 各フレームの時間的重複を除去するために参照する参照フレームは、各フレーム自身より時間的レベルの高い一つまたはそれ以上のフレームのうちフレームインデックス差の最も小さい一つまたは二つのフレームであることを特徴とする請求項20に記載のビデオコーディング方法。
  22. 前記GOP内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームであることを特徴とする請求項20に記載のビデオコーディング方法。
  23. 前記(a)段階で、各フレームが参照する一つまたはそれ以上の参照フレームには各フレーム自身であるフィルタリング中のフレームを含むことを特徴とする請求項20に記載のビデオコーディング方法。
  24. 前記(a)段階で、前記フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをIフレームにコーディングすることを特徴とする請求項23に記載のビデオコーディング方法。
  25. 前記(a)段階で、各フレームが参照する参照フレームには次のGOPに属する各フレーム自身より時間的レベルが高くて時間的距離がD以内にある一つまたはそれ以上のフレームをさらに含むことを特徴とする請求項20に記載のビデオコーディング方法。
  26. 複数のフレームを入力し、時間的レベルの高いフレームから時間的レベルの低いフレームの順番に、フレームの時間的重複を除去する時間的変換部と、
    前記フレームに対する空間的重複を除去する空間的変換部と、
    前記時間的及び空間的重複を除去する過程で得られる変換係数を量子化する量子化部と、
    前記量子化された変換係数を利用してビットストリームを生成するビットストリーム生成部と、を含み、
    前記時間的変換部は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記時間的重複を除去するビデオエンコーダ。
  27. 前記時間的変換部は、前記空間的変換部に先立って時間的重複を除去したフレームを前記空間的変換部に伝達し、前記空間的変換部は、時間的重複が除去されたフレームから空間的重複を除去して変換係数を得ることを特徴とする請求項26に記載のビデオエンコーダ。
  28. 前記空間的変換部は、ウェーブレット変換を通じて空間的重複を除去することを特徴とする請求項27に記載のビデオエンコーダ。
  29. 前記空間的変換部は、前記時間的変換部に先立ってウェーブレット変換を通じて空間的重複を除去したフレームを前記時間的変換部に伝達し、前記時間的変換部は空間的重複が除去されたフレームから時間的重複を除去して変換係数を得ることを特徴とする請求項26に記載のビデオエンコーダ。
  30. 前記時間的変換部は、入力された複数のフレームから動きベクトルを求める動き推定部と、前記動きベクトルを利用して前記入力された複数のフレームに対して前記順番で時間的フィルタリングをする時間的フィルタリング部と、前記順番を決定するモード選択部と、を含むことを特徴とする請求項26に記載のビデオエンコーダ。
  31. 前記モード選択部は、前記順番をGOPサイズの周期関数で決定することを特徴とする請求項30に記載のビデオエンコーダ。
  32. 前記モード選択部は、複数の前記フレームの時間的レベルが同一である場合にはフレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番に決定することを特徴とする請求項30に記載のビデオエンコーダ。
  33. 前記モード選択部が決定する前記順番は、GOPサイズを周期として反復されることを特徴とする請求項32に記載のビデオエンコーダ。
  34. 前記モード選択部は、コーディングにおいて許容される遅延時間を示す遅延時間制御パラメータDを参照して前記順番を決定するが、この場合、前記順番は、時間的重複が除去されていない最低レベルのフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つフレームのうち最も高い時間的レベルを持つ最初のフレームから始まって時間的レベルの低いフレームにいく順番であり、同じ時間的レベルを複数のフレームが持つ場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番であることを特徴とする請求項30に記載のビデオエンコーダ。
  35. 前記時間的フィルタリング部は、前記モード選択部により選択された前記順番によってGOP単位で時間的重複を除去するが、GOP内の最高時間的レベルを持つフレームをIフレームにコーディングした後に各フレームの時間的重複を除去する時、前記時間的フィルタリング部は、現在フィルタリング中のフレームより高い時間的レベルまたは現在フィルタリング中のフレームと同じ時間的レベルを持つフレームのうち現在フィルタリング中のフレームより時間的に先立つ一つまたはそれ以上のフレームを参照して時間的重複を除去することを特徴とする請求項34に記載のビデオエンコーダ。
  36. 前記時間的フィルタリング部は、各フレームの時間的重複を除去するために参照する参照フレームは、現在フィルタリング中のフレームより時間的レベルが高い一つまたはそれ以上のフレームのうち現在フィルタリング中のフレームとインデックス差の最も小さい一つまたは二つのフレームであることを特徴とする請求項35に記載のビデオエンコーダ。
  37. 前記GOP内の最高時間的レベルを持つフレームは最小フレームインデックスを持つフレームであることを特徴とする請求項35に記載のビデオエンコーダ。
  38. 前記時間的フィルタリング部は、現在フィルタリング中のフレームに対する時間的重複を除去する時に参照するフレーム中に前記現在フィルタリング中のフレームをさらに含むことを特徴とする請求項35に記載のビデオエンコーダ。
  39. 前記時間的フィルタリング部は、前記現在フィルタリング中のフレームで自身を参照する部分の比率が一定値を超える場合に、前記フィルタリング中のフレームをIフレームにコーディングすることを特徴とする請求項38に記載のビデオエンコーダ。
  40. 前記ビットストリーム生成部は、前記順番に関する情報を含んだ前記ビットストリームを生成することを特徴とする請求項26に記載のビデオエンコーダ。
  41. 前記ビットストリーム生成部は、前記変換係数を得るための時間的重複を除去する過程及び空間的重複を除去する過程の重複除去順序に関する情報を含んだ前記ビットストリームを生成することを特徴とする請求項26に記載のビデオエンコーダ。
  42. ビットストリームを入力され、前記ビットストリームに含まれるコーディングされたフレームを構成する情報を抽出する(a)段階と、
    前記コーディングされたフレームに関する情報を逆量子化して変換係数を得る(b)段階と、
    前記コーディングされたフレームの重複除去順序の逆順に、前記変換係数を逆空間的変換しかつ時間的レベルの高いフレームから時間的レベルの低いフレームの順番に逆時間的変換してフレームを復元する(c)段階と、を含み、
    前記(c)段階は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記逆時間的変換する処理を実行するビデオデコーディング方法。
  43. 前記(c)段階は、前記変換係数で作ったフレームを前記順番で逆時間的変換してから逆ウェーブレット変換してフレームを復元することを特徴とする請求項42に記載のビデオデコーディング方法。
  44. 前記(c)段階は、前記変換係数を逆空間的変換してから前記順番で逆時間的変換してフレームを復元することを特徴とする請求項42に記載のビデオデコーディング方法。
  45. 前記逆空間的変換は逆ウェーブレット変換方式であることを特徴とする請求項44に記載のビデオデコーディング方法。
  46. 前記順番は、同じ時間的レベルのフレームが複数ある場合には、フレームインデックスの小さなフレームからフレームインデックスの大きいフレームの順番であることを特徴とする請求項42に記載のビデオデコーディング方法。
  47. 前記順番はGOPサイズを周期として反復されることを特徴とする請求項46に記載のビデオデコーディング方法。
  48. 前記逆時間的変換過程は、GOPの時間的レベルが最も高いコーディングされたフレームから始まって前記順番で前記コーディングされたフレームを逆時間的フィルタリングすることを特徴とする請求項47に記載のビデオデコーディング方法。
  49. 前記順番は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって決定することを特徴とする請求項42に記載のビデオデコーディング方法。
  50. 前記順番は、同一コーディングモードでGOPサイズを周期として反復されることを特徴とする請求項49に記載のビデオデコーディング方法。
  51. 前記コーディングモードに関する情報は、コーディングにおいて許容される遅延時間を示す遅延時間制御パラメータDを含んでおり、
    前記順番は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレームへいく順番であり、同じ時間的レベルを複数のフレームが持つ場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレームの順番であることを特徴とする請求項49に記載のビデオデコーディング方法。
  52. 前記重複除去順序は、前記入力されたビットストリームから抽出することを特徴とする請求項42に記載のビデオデコーディング方法。
  53. 入力されたビットストリームに含まれるコーディングされたフレームを構成する情報を抽出するビットストリーム解釈部と、
    前記コーディングされたフレームを構成する情報を逆量子化して変換係数を得る逆量子化部と、
    逆空間的変換過程を行う逆空間的変換部と、
    時間的レベルの高いコーディングされたフレームから時間的レベルの低いコーディングされたフレームの順番に逆時間的変換過程を行う逆時間的変換部と、を含み、
    重複除去順序の逆順によって前記変換係数に対する逆空間的変換過程及び逆時間的変換過程によりフレームを復元するとともに、
    前記逆時間的変換部は、現在フレームより時間的レベルが高いフレームを少なくとも参照フレームとして選定して、前記逆時間的変換過程を行うビデオデコーダ。
  54. 前記重複除去順序の逆順は、逆時間的変換過程から逆空間的変換過程であり、前記逆空間的変換部は逆ウェーブレット変換方式で逆空間的変換作業を行うことを特徴とする請求項53に記載のビデオデコーダ。
  55. 前記重複除去順序の逆順は、逆空間的変換過程から逆時間的変換過程であることを特徴とする請求項53に記載のビデオデコーダ。
  56. 前記逆空間的変換部は、逆ウェーブレット変換方式で逆空間的変換作業を行うことを特徴とする請求項55に記載のビデオデコーダ。
  57. 前記順番はGOPサイズを周期として反復されることを特徴とする請求項53に記載のビデオデコーダ。
  58. 前記逆時間的変換部はGOP単位で逆時間的変換過程を行うが、GOPの時間的レベルの最も高いコーディングされたフレームから始まって前記順番で前記コーディングされたフレームを逆時間的フィルタリングすることを特徴とする請求項57に記載のビデオデコーダ。
  59. 前記ビットストリーム解釈部は、前記入力されたビットストリームからコーディングモードに関する情報を抽出し、前記コーディングモードに関する情報によって前記順番を決定することを特徴とする請求項53に記載のビデオデコーダ。
  60. 前記順番は同一コーディングモードでGOPサイズを周期として反復されることを特徴とする請求項59に記載のビデオデコーダ。
  61. 前記コーディングモードに関する情報はコーディングにおいて許容される遅延時間を示す遅延時間制御パラメータDを含んでおり、
    前記順番は、逆時間的変換されていない最低レベルのコーディングされたフレームのインデックスが示す時間から前記遅延時間を超過しない期間内の時間を示すインデックスを持つコーディングされたフレームのうち最も高い時間的レベルを持つコーディングされたフレームから始まって時間的レベルの低いフレームの順番であり、同じ時間的レベルを複数のフレームが持つ場合には、フレームインデックスの小さなコーディングされたフレームからフレームインデックスの大きいコーディングされたフレームの順番であることを特徴とする請求項59に記載のビデオデコーダ。
  62. 前記重複除去順序は、前記入力されたビットストリームから抽出された情報に基づいて設定することを特徴とする請求項53に記載のビデオデコーダ。
  63. 請求項1ないし25と請求項42ないし52のうちいずれか1項による方法を実行するためのコンピュータ可読プログラムを記録した記録媒体。
JP2006221222A 2003-12-01 2006-08-14 スケーラブルビデオコーディング及びデコーディング方法と装置 Expired - Fee Related JP4763548B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US52582703P 2003-12-01 2003-12-01
US60/525,827 2003-12-01
KR1020040002076A KR100596706B1 (ko) 2003-12-01 2004-01-12 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
KR2004-002076 2004-01-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004347757A Division JP4647980B2 (ja) 2003-12-01 2004-11-30 スケーラブルビデオコーディング及びデコーディング方法と装置

Publications (2)

Publication Number Publication Date
JP2006333519A JP2006333519A (ja) 2006-12-07
JP4763548B2 true JP4763548B2 (ja) 2011-08-31

Family

ID=36616552

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004347757A Expired - Fee Related JP4647980B2 (ja) 2003-12-01 2004-11-30 スケーラブルビデオコーディング及びデコーディング方法と装置
JP2006221222A Expired - Fee Related JP4763548B2 (ja) 2003-12-01 2006-08-14 スケーラブルビデオコーディング及びデコーディング方法と装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2004347757A Expired - Fee Related JP4647980B2 (ja) 2003-12-01 2004-11-30 スケーラブルビデオコーディング及びデコーディング方法と装置

Country Status (8)

Country Link
EP (1) EP1538566A3 (ja)
JP (2) JP4647980B2 (ja)
CN (2) CN101188757B (ja)
AU (1) AU2004310915B2 (ja)
CA (1) CA2547891C (ja)
MX (1) MXPA06006107A (ja)
RU (1) RU2329615C2 (ja)
WO (1) WO2005055606A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1908292A4 (en) * 2005-06-29 2011-04-27 Nokia Corp METHOD AND DEVICE FOR THE UPDATE STEP IN VIDEO CODING USING MOTION COMPENSATED TIME FILTERING
US8352929B2 (en) 2005-08-06 2013-01-08 Microsoft Corporation Method for preventing software reverse engineering, unauthorized modification, and runtime data interception
WO2007024232A1 (en) 2005-08-26 2007-03-01 Thomson Licensing Trick play using temporal layering
KR101125819B1 (ko) * 2005-10-11 2012-03-27 노키아 코포레이션 효율적인 규모가변적 스트림 조정을 위한 시스템 및 방법
US9602840B2 (en) 2006-02-06 2017-03-21 Thomson Licensing Method and apparatus for adaptive group of pictures (GOP) structure selection
MX2008012360A (es) * 2006-03-27 2008-10-09 Samsung Electronics Co Ltd Metodo de asignar prioridad para controlar la velocidad binaria de un flujo de bits, metodo para controlar la velocidad binaria de un flujo de bits, metodo de decodificacion de video y aparato que usa el mismo.
WO2007125574A1 (ja) * 2006-04-27 2007-11-08 Media Global Links Co., Ltd. 映像伝送装置
CN101257628B (zh) * 2008-03-20 2010-06-02 武汉大学 一种实现视频码流帧率可调整的压缩方法
WO2010010942A1 (ja) * 2008-07-25 2010-01-28 ソニー株式会社 画像処理装置および方法
TWI440363B (zh) * 2009-02-19 2014-06-01 Sony Corp Image processing apparatus and method
TWI463878B (zh) * 2009-02-19 2014-12-01 Sony Corp Image processing apparatus and method
TWI405469B (zh) * 2009-02-20 2013-08-11 Sony Corp Image processing apparatus and method
KR101452860B1 (ko) 2009-08-17 2014-10-23 삼성전자주식회사 영상의 부호화 방법 및 장치, 영상 복호화 방법 및 장치
KR101510108B1 (ko) * 2009-08-17 2015-04-10 삼성전자주식회사 영상의 부호화 방법 및 장치, 그 복호화 방법 및 장치
WO2012008039A1 (ja) * 2010-07-15 2012-01-19 株式会社 東芝 画像符号化方法及び画像復号化方法
EP3404918A1 (en) * 2010-09-30 2018-11-21 Samsung Electronics Co., Ltd. Video decoding method for decoding hierarchical-structure symbols
KR101383775B1 (ko) * 2011-05-20 2014-04-14 주식회사 케이티 화면 내 예측 방법 및 장치
CN102209242B (zh) * 2011-05-26 2012-11-07 大连理工大学 基于功耗模型的最优化可伸缩视频传输和解码系统
US9654785B2 (en) 2011-06-09 2017-05-16 Qualcomm Incorporated Enhanced intra-prediction mode signaling for video coding using neighboring mode
JP5474887B2 (ja) * 2011-08-01 2014-04-16 株式会社ソニー・コンピュータエンタテインメント 動画データ生成装置、動画像表示装置、動画データ生成方法、動画像表示方法、および動画像ファイルのデータ構造
GB2559226B (en) * 2011-09-09 2018-11-28 Kt Corp Method for deriving a temporal predictive motion vector
LT3599766T (lt) * 2011-12-15 2020-11-25 Tagivan Ii Llc Skaisčio-spalvio koduotų blokų žymų (cbf) signalų perdavimas vaizdo kodavime
HUE049811T2 (hu) 2012-04-15 2020-10-28 Samsung Electronics Co Ltd Videodekódoló berendezés, amely paraméter aktualizálást használ entrópiakódolt transzformáció együttható debinarizálására és kódolási eljárás, amely ugyanazt használja binarizálásra
WO2014024491A1 (ja) * 2012-08-09 2014-02-13 パナソニック株式会社 画像復号方法、画像符号化方法、画像復号装置、画像符号化装置および画像符号化復号装置
US9426462B2 (en) * 2012-09-21 2016-08-23 Qualcomm Incorporated Indication and activation of parameter sets for video coding
US9491456B2 (en) * 2012-09-24 2016-11-08 Qualcomm Incorporated Coded picture buffer removal times signaled in picture and sub-picture timing supplemental enhancement information messages
JP6300033B2 (ja) * 2012-12-26 2018-03-28 ソニー株式会社 画像処理装置および方法
MY189391A (en) * 2013-01-04 2022-02-09 Samsung Electronics Co Ltd Method for entropy-encoding slice segment and apparatus therefor, and method for entropy-decoding slice segment and apparatus therefor
RU2622875C2 (ru) * 2015-05-18 2017-06-20 федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) Способ префиксной дедупликации цифровых данных
RU2631992C2 (ru) * 2016-02-25 2017-09-29 Кабусики Кайся Тосиба Способ кодирования изображения и способ декодирования изображения
CN113259673B (zh) * 2021-07-05 2021-10-15 腾讯科技(深圳)有限公司 伸缩性视频编码方法、装置、设备及存储介质
WO2024000532A1 (zh) * 2022-06-30 2024-01-04 北京小米移动软件有限公司 一种ai模型的传输方法及其装置
CN116366868B (zh) * 2023-05-31 2023-08-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种并发视频包过滤方法、系统及储存介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0654315A (ja) * 1992-07-31 1994-02-25 Canon Inc 動画像符号化方法及び装置
CA2126467A1 (en) * 1993-07-13 1995-01-14 Barin Geoffry Haskell Scalable encoding and decoding of high-resolution progressive video
JP3307143B2 (ja) * 1995-03-20 2002-07-24 松下電器産業株式会社 画像符号化方法及び画像符号化装置
JP3098939B2 (ja) * 1995-07-14 2000-10-16 シャープ株式会社 動画像符号化装置及び動画像復号装置
JP3841246B2 (ja) * 1998-07-24 2006-11-01 Kddi株式会社 ビデオ階層符号化装置
JP4018335B2 (ja) * 2000-01-05 2007-12-05 キヤノン株式会社 画像復号装置及び画像復号方法
KR20020026177A (ko) * 2000-04-11 2002-04-06 요트.게.아. 롤페즈 비디오 엔코딩 및 디코딩 방법
US6907075B2 (en) * 2000-06-30 2005-06-14 Koninklijke Philips Electronics N.V. Encoding method for the compression of a video sequence
US20030202599A1 (en) * 2002-04-29 2003-10-30 Koninklijke Philips Electronics N.V. Scalable wavelet based coding using motion compensated temporal filtering based on multiple reference frames

Also Published As

Publication number Publication date
RU2006123465A (ru) 2008-01-20
RU2329615C2 (ru) 2008-07-20
WO2005055606A1 (en) 2005-06-16
AU2004310915B2 (en) 2008-05-22
EP1538566A3 (en) 2010-05-26
MXPA06006107A (es) 2006-08-11
EP1538566A2 (en) 2005-06-08
AU2004310915A1 (en) 2005-06-16
CN101188757A (zh) 2008-05-28
CN101188757B (zh) 2010-06-16
JP4647980B2 (ja) 2011-03-09
CA2547891C (en) 2014-08-12
JP2006333519A (ja) 2006-12-07
JP2005168021A (ja) 2005-06-23
CA2547891A1 (en) 2005-06-16
CN1625265A (zh) 2005-06-08

Similar Documents

Publication Publication Date Title
JP4763548B2 (ja) スケーラブルビデオコーディング及びデコーディング方法と装置
KR100596706B1 (ko) 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
KR100597402B1 (ko) 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
KR100703724B1 (ko) 다 계층 기반으로 코딩된 스케일러블 비트스트림의비트율을 조절하는 장치 및 방법
JP5026965B2 (ja) ベースレイヤを含むビットストリームをプリデコーディング、デコーディングする方法及び装置
KR100654436B1 (ko) 비디오 코딩 방법과 디코딩 방법, 및 비디오 인코더와디코더
KR100834750B1 (ko) 엔코더 단에서 스케일러빌리티를 제공하는 스케일러블비디오 코딩 장치 및 방법
JP4685849B2 (ja) スケーラブルビデオコーディング及びデコーディング方法、並びにその装置
US7944975B2 (en) Inter-frame prediction method in video coding, video encoder, video decoding method, and video decoder
KR100679035B1 (ko) 인트라 bl 모드를 고려한 디블록 필터링 방법, 및 상기방법을 이용하는 다 계층 비디오 인코더/디코더
WO2005074293A1 (en) Video coding apparatus and method for inserting key frame adaptively
KR20050090308A (ko) 가변 gop 사이즈를 갖는 스케일러블 비디오 코딩방법및 이를 위한 스케일러블 비디오 인코더
KR20070088334A (ko) 비디오 트랜스코딩 방법 및 장치
JP2007527642A (ja) 低複雑度ノイズ低減を行うビデオ・エンコーダ
EP1803302A1 (en) Apparatus and method for adjusting bitrate of coded scalable bitsteam based on multi-layer
JP2009531941A (ja) ビットストリームのビット率の調節のための優先権の割当て方法、ビットストリームのビット率の調節方法、ビデオデコーディング方法およびその方法を用いた装置
AU2007221795B2 (en) Method and apparatus for scalable video encoding and decoding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110411

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110609

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4763548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees