JP4660408B2 - 符号化方法 - Google Patents

符号化方法 Download PDF

Info

Publication number
JP4660408B2
JP4660408B2 JP2006086162A JP2006086162A JP4660408B2 JP 4660408 B2 JP4660408 B2 JP 4660408B2 JP 2006086162 A JP2006086162 A JP 2006086162A JP 2006086162 A JP2006086162 A JP 2006086162A JP 4660408 B2 JP4660408 B2 JP 4660408B2
Authority
JP
Japan
Prior art keywords
layer
image
unit
frame
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006086162A
Other languages
English (en)
Other versions
JP2007266748A (ja
Inventor
次男 森
満 鈴木
茂之 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2006086162A priority Critical patent/JP4660408B2/ja
Publication of JP2007266748A publication Critical patent/JP2007266748A/ja
Application granted granted Critical
Publication of JP4660408B2 publication Critical patent/JP4660408B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、画像を符号化する符号化方法、特に動画像を階層的に符号化する符号化方法に関する。
ブロードバンドネットワークが急速に発展しており、高品質な動画像を利用したサービスに期待が集まっている。また、DVDなど大容量の記録媒体が利用されており、高画質の画像を楽しむユーザ層が広がっている。動画像を通信回線で伝送したり、記録媒体に蓄積するために不可欠な技術として圧縮符号化がある。動画像圧縮符号化技術の国際標準として、MPEG4の規格やH.264/AVC規格がある。また、1つのストリームで、符号量に応じて、異なる画質(たとえば高画質と低画質)、異なる解像度(たとえば高解像度と低解像度)、異なるフレームレート(たとえば高フレームレートと低フレームレート)の画像の圧縮および伸長を実現することのできる、H.264/AVCの拡張として規格化が進められているSVC(Scalable Video Coding)のような次世代画像圧縮技術がある。
次世代画像圧縮技術であるSVCでは、動画像を複数の異なる解像度、フレームレート、画質で再生することができるように、空間スケーラビリティ、時間スケーラビリティ、SNRスケーラビリティなどの各種スケーラビリティをもたせて動画像を符号化する。これらのスケーラビリティを任意に組み合わせて符号化することも可能であり、SVCのスケーラビリティ機能は柔軟性に富んでいる。
特許文献1には、画像を階層的にサブバンド分解して画像を圧縮符号化するための装置および方法が開示されている。
特表平8−506226号公報
SVCでは、動画像を階層的に符号化できるが、基本レイヤの上に拡張レイヤを1つずつ積み重ねて符号化するため、復号の時も、基本レイヤを最初に復号し、一つずつ階層を上にたどりながら拡張レイヤを復号することになる。これは、階層が上がるにつれて、低画質から高画質、低解像度から高解像度、あるいは低フレームレートから高フレームレートなど順に再生品質が高まるように階層的に符号化することなどを想定したものである。現段階で検討されているSVCの階層符号化では、階層を飛び越えることなどは許されないため、自由度が制限されており、柔軟性に欠けるところがある。
本発明はこうした状況に鑑みてなされたもので、その目的は、より柔軟で自由度のある階層符号化が可能な符号化技術を提供することにある。
上記課題を解決するために、本発明のある態様の符号化方法は、動画像の階層的符号化のためにルートを起点としてノードを連結したツリー構造を設定し、前記ツリー構造をルートからたどるパス毎に前記動画像を複数のレイヤに分けて階層的に符号化し、前記パス上のノードに対応づけて各レイヤの符号化データを格納した前記動画像の符号化ストリームを生成する。
この態様によると、単一の動画ストリームにおいて、ツリー構造のパス単位で階層符号化データを格納することができる。また、単一の動画ストリームにおいて、ツリー構造のパスを指定することで、指定されたパスに応じた階層符号化データを用いて動画像を再生することができる。
前記ツリー構造に関する情報を前記動画像の符号化ストリームに含めてもよい。前記動画像の各レイヤの符号化単位毎に前記ツリー構造のいずれのノードの符号化データであるかを識別するための識別情報を設けて前記動画像の符号化ストリームに含めてもよい。
ここで、動画像の各レイヤの符号化単位は、ピクチャもしくはピクチャ内をさらに分割したスライスであってもよい。ここでピクチャは符号化の単位であり、その概念にはフレーム、フィールド、VOP(Video Object Plane)などを含む。
前記ツリー構造のパス毎に空間解像度、フレームレートおよびSN比のいずれかのスケーラビリティをもたせて前記動画像を階層的に符号化したデータを格納してもよい。
本発明の別の態様の符号化方法は、動画像を階層的に符号化する際、同一の階層レベルに前記動画像の1つ以上の異なる種類の符号化データを格納し、各階層レベルに格納される前記符号化データの種類を識別するための識別情報を前記動画像の符号化ストリームに含める。これによれば、下位階層から上位階層に進みながら、各階層においていずれかの種類の符号化データを選択することでパスが形成され、そのパス上の符号化データを用いて動画像を階層的に復号することができる。各パス上には、いろいろな種類のスケーラビリティをもたせて動画像を階層的に符号化したデータを格納してもよい。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、動画像の階層符号化の自由度を高め、いろいろな種類の階層符号化が可能となる。
図1は、実施の形態に係る符号化装置200の構成図である。これらの構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされた画像符号化機能のあるプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。
本実施の形態の符号化装置200は、次世代画像圧縮技術であるSVC(Scalable Video Coding)に準拠して、動画像に空間(spatial)スケーラビリティ、時間(temporal)スケーラビリティ、SNR(signal to noise ratio)スケーラビリティなどをもたせて符号化する「スケーラブル符号化」を行う。
SVCでは、スケーラビリティを階層符号化により実現しており、空間解像度、フレームレートおよびSN比などの動画像の再生品質の異なる画像データをレイヤに分けて符号化し、再生品質レベルがそれぞれ異なる複数のレイヤからなる符号化ストリームを生成する。このようにしてスケーラブル階層符号化された動画像は、任意の再生品質レベルを選択して復号することができるというスケーラビリティをもつ。たとえば下位層の符号化データだけを復号すると、低い再生品質レベルで動画像が再生され、上位層の符号化データを含めて復号すると、高い再生品質レベルで動画像が再生される。
図1では、基本レイヤ、第1拡張レイヤ、第2拡張レイヤの3つのレイヤを符号化する場合を例に挙げて構成と動作を説明するが、拡張レイヤの個数は任意である。
符号化装置200は、基本レイヤ、第1拡張レイヤ、第2拡張レイヤの符号化データをそれぞれ生成する基本レイヤ符号化部100、第1拡張レイヤ符号化部110、第2拡張レイヤ符号化部120をもち、入力画像の必要なデータが基本レイヤ符号化部100、第1拡張レイヤ符号化部110、第2拡張レイヤ符号化部120にそれぞれ入力される。
基本レイヤ符号化部100、第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120は、各レイヤにおいて入力された動画像のフレームを符号化する。ただし、拡張レイヤについては、下位レイヤとの差分が符号化される。
本実施の形態では、動画像の階層符号化にあたって、ルートを起点としてノードを連結したツリー(木)構造を設定し、ツリー構造をルートからたどるパス毎に動画像を複数のレイヤに分けて階層的に符号化し、パス上のノードに対応づけて各レイヤの符号化データを格納することができる。
レイヤ構造設定部130は、動画像のレイヤ構造を設定する。レイヤ構造はツリー構造で規定され、レイヤの数と種類、ツリー構造におけるレイヤ間のつながりなどが設定される。レイヤ構造設定部130は、設定したレイヤ構造の情報をスケーラビリティ制御部140に与える。
スケーラビリティ制御部140は、レイヤ構造設定部130により設定されたツリー構造にもとづいて基本レイヤ符号化部100、第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120を制御する。
たとえば、基本レイヤをルートとして、第1拡張レイヤと第2拡張レイヤが基本レイヤの上位に位置するツリー構造の場合、第1拡張レイヤでは基本レイヤとの差分が符号化され、第2拡張レイヤでも基本レイヤとの差分が符号化される。このために、スケーラビリティ制御部140は、基本レイヤ符号化部100により符号化された基本レイヤの符号化データもしくはその中間データが第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120に入力されるように制御し、第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120がそれぞれ基本レイヤの符号化データもしくは中間データとの差分のみを符号化するように制御する。
基本レイヤ符号化部100、第1拡張レイヤ符号化部110、第2拡張レイヤ符号化部120は、それぞれ基本レイヤ、第1拡張レイヤ、第2拡張レイヤの符号化データを出力し、ストリーム結合部160に与える。
スケーラビリティ制御部140は、ツリー構造の情報とツリー構造におけるノードとレイヤの対応関係の情報をヘッダ生成部150に与える。ヘッダ生成部150は、ツリー構造を特定するための情報とレイヤ数、レイヤ種別などのレイヤ情報を含むヘッダ情報を生成し、ヘッダ情報をストリーム結合部160に与える。
ストリーム結合部160は、基本レイヤ、第1拡張レイヤ、第2拡張レイヤのデータを結合してストリームデータを生成し、ストリームのヘッダ部にヘッダ生成部150により生成されたヘッダ情報を格納し、動画像の符号化ストリームを生成し、出力する。
基本レイヤ符号化部100、第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120の構成と動作は基本的には同じであるから、ここでは基本レイヤ符号化部100の構成と動作を代表して説明する。なお、第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120では、スケーラビリティの方式によってさまざまな符号化方法を採用することが可能であり、それに伴って適宜、構成に変更を加えてもよい。
本実施の形態の基本レイヤ符号化部100は、国際標準化機関であるISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)によって標準化されたMPEG(Moving Picture Experts Group)シリーズの規格(MPEG−1、MPEG−2およびMPEG−4)、電気通信に関する国際標準機関であるITU−T(International Telecommunication Union-Telecommunication Standardization Sector)によって標準化されたH.26xシリーズの規格(H.261、H.262およびH.263)、もしくは両方の標準化機関によって合同で標準化された最新の動画像圧縮符号化標準規格であるH.264/AVC(両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264)に準拠して動画像の符号化を行う。
MPEGシリーズの規格では、フレーム内符号化を行うフレームをI(Intra)フレーム、過去のフレームを参照フレームとして順方向のフレーム間予測符号化を行うフレームをP(Predictive)フレーム、過去と未来のフレームを参照フレームとして双方向のフレーム間予測符号化を行うフレームをBフレームという。
一方、H.264/AVCでは、参照フレームとして利用できるフレームは、時間の先後を問わず、過去の2枚のフレームを参照フレームとしてもよく、未来の2枚のフレームを参照フレームとしてもよい。また、参照フレームとして利用できるフレームの枚数も問わず、3枚以上のフレームを参照フレームとして用いることもできる。したがって、MPEG−1/2/4では、Bフレームは双方向予測(Bi-directional prediction)フレームのことを指していたが、H.264/AVCでは、Bフレームは、参照フレームの時間の先後は問わないため、双予測(Bi-predictive prediction)フレームのことを指すことに留意する。
なお、実施の形態では、符号化の単位としてフレームを例に挙げて説明するが、符号化の単位はフィールドであってもよい。また、符号化の単位はMPEG−4におけるVOPであってもよい。
基本レイヤ符号化部100は、フレーム単位で動画像の入力を受け取り、動画像を符号化し、符号化ストリームを出力する。
ブロック生成部10は、入力された動画像のフレームをマクロブロックに分割する。フレームの左上から右下方向の順にマクロブロックが形成される。ブロック生成部10は生成したマクロブロックを差分器12と動き補償予測部60に供給する。
差分器12は、ブロック生成部10から供給されるフレームがIフレームであれば、そのままDCT部20に出力するが、PフレームまたはBフレームであれば、動き補償予測部60から供給される予測フレームとの差分を計算してDCT部20に供給する。
動き補償予測部60は、フレームバッファ80に格納されている過去または未来のフレームを参照フレームとして利用し、ブロック生成部10から入力されたPフレームまたはBフレームのマクロブロック毎に動き補償を行い、動きベクトルと予測フレームを生成する。動き補償予測部60は、生成した動きベクトルを可変長符号化部90に供給し、予測フレームを差分器12と加算器14に供給する。
差分器12は、ブロック生成部10から出力される現在の符号化対象フレームと、動き補償予測部60から出力される予測フレームとの差分を求め、DCT部20に出力する。DCT部20は、差分器12から与えられた差分フレームを離散コサイン変換(DCT)し、DCT係数を量子化部30に与える。
量子化部30は、DCT係数を量子化し、可変長符号化部90に与える。可変長符号化部90は、動き補償予測部60から与えられた動きベクトルとともに差分フレームの量子化されたDCT係数を可変長符号化し、符号化ストリームを生成する。可変長符号化部90は、符号化ストリームを生成する際、符号化されたフレームを時間順序に並べ替える処理を行う。
量子化部30は、フレームの量子化されたDCT係数を逆量子化部40に供給する。逆量子化部40は、与えられた量子化データを逆量子化し、逆DCT部50に与え、逆DCT部50は、与えられた逆量子化データを逆離散コサイン変換する。これにより、符号化されたフレームが復元される。復元されたフレームは加算器14に入力される。
加算器14は、逆DCT部50から供給されるフレームがIフレームであれば、そのままフレームバッファ80に格納する。加算器14は、逆DCT部50から供給されるフレームがPフレームまたはBフレームであれば、それは差分フレームであるため、逆DCT部50から供給された差分フレームと動き補償予測部60から供給される予測フレームとを加算することにより、元のフレームを再構築し、フレームバッファ80に格納する。
フレームバッファ80に格納された再構築フレームは、動き補償予測部60による動き補償の参照フレームとして利用される。
PフレームもしくはBフレームの符号化処理の場合は、上述のように動き補償予測部60が動作するが、Iフレームの符号化処理の場合は、動き補償予測部60は動作せず、ここでは図示しないが、フレーム内予測が行われる。
動き補償予測部60は、ブロック生成部10から与えられた符号化対象フレームのマクロブロック(「対象マクロブロック」という)に対して、フレームバッファ80に格納された再構築フレームを参照フレームとして、参照フレーム内をマクロブロック単位で探索し、対象マクロブロックとの差分が最も小さいマクロブロックを参照マクロブロックとして選択する。これにより、対象マクロブロックから参照マクロブロックへの動きを示す動きベクトルが定まる。
図2(a)〜(b)は、レイヤ構造設定部130により設定される動画像のレイヤ構造を説明する図である。
本実施の形態では、ツリー構造で動画像の階層構造が設定されるが、比較のため、図2(a)にツリー構造でない動画像の階層構造を示す。通常、動画像の階層構造は、同図のようにレイヤ1、レイヤ2、レイヤ3の順にレイヤの符号化データが積み重ねられる。レイヤ1は基本レイヤ、レイヤ2とレイヤ3は拡張レイヤである。レイヤ2では、レイヤ1の符号化データとの差分が符号化され、レイヤ3では、レイヤ2の符号化データとの差分が符号化される。レイヤ1のみ取り出して復号するか、レイヤ1だけでなくレイヤ2も取り出して復号するか、レイヤ1からレイヤ3までを取り出して復号するかのいずれかである。途中の階層を飛ばして、レイヤ1とレイヤ3を取り出しても復号することはできない。
それに対して、本実施の形態では、図2(b)のようなツリー構造をもった階層構造を設定することができる。最下位の基本レイヤであるレイヤ1のすぐ上の階層に、2つの拡張レイヤとしてレイヤ2aとレイヤ2bが設けられる。このツリー階層構造には、ルートからたどるパスとして、レイヤ1−レイヤ2aの第1パスと、レイヤ1−レイヤ2bの第2パスの2つのパスがある。レイヤ2aでは、レイヤ1の符号化データとの差分が符号化され、レイヤ2bでは、レイヤ1の符号化データとの差分が符号化される。
このように、ツリー階層構造をもたせて符号化された動画像のストリームには、レイヤ1とレイヤ2aを組み合わせた第1階層符号化データと、レイヤ1とレイヤ2bを組み合わせた第2階層符号化データの2種類の符号化データが含まれている。このツリー階層構造において、レイヤ1、レイヤ2aの順でたどる第1パスを指定すると、第1階層符号化データによって階層的な復号が可能であり、レイヤ1、レイヤ2bの順でたどる第2パスを指定すると、第2階層符号化データによって階層的な復号が可能である。
図3(a)〜(c)は、アスペクト比の異なる複数の画像を含む動画像をツリー構造をもたせて階層符号化する例を説明する図である。1つの動画像ストリーム内にアスペクト比の異なる複数の動画ストリームをもたせることで、パーソナルコンピュータのディスプレイ、携帯電話の液晶ディスプレイ、デジタルハイビジョン放送におけるテレビモニタなどのアスペクト比に合わせて動画を再生することができる。
図3(a)は、動画像に含まれる横長画像710と縦長画像720を示す。横長画像710と縦長画像720を別々に符号化して2つの動画ストリームを生成すると、全体の符号量が大きくなり、動画ストリームの管理や配信も複雑になる。
図3(b)に示すように、横長画像710と縦長画像720には共通領域700があるため、本実施の形態の符号化装置200では、共通領域700を基本レイヤで符号化し、横長画像710の共通領域700以外の固有領域710a、710bを第1拡張レイヤで符号化し、縦長画像720の共通領域700以外の固有領域720a、720bを第2拡張レイヤで符号化する。
図3(c)は、横長画像710と縦長画像720を含む動画像のツリー階層構造を示す。レイヤ1には、共通領域700の符号化データが格納され、レイヤ2aには、横長画像710の符号化データ、レイヤ2bには、縦長画像720の符号化データが格納される。レイヤ2aでは下位のレイヤ1との差分が符号されるため、レイヤ2aには横長画像710の内、図3(b)に示した左右の固有領域710a、710bの符号化データが格納される。また、レイヤ2cでは下位のレイヤ1との差分が符号されるため、レイヤ2bには縦長画像720の内、図3(b)に示した上下の固有領域720a、720bの符号化データが格納される。
図4は、アスペクト比の異なる複数の画像を含む動画像のツリー階層構造の別の例を示す図である。ここでも、図3(a)で説明した横長画像710と縦長画像720を含む動画像を例に説明する。図3(c)と同様に、レイヤ1には横長画像710と縦長画像720の共通領域700の符号化データが格納され、レイヤ2aには横長画像710の左右の固有領域710a、710bの符号化データが格納され、レイヤ2bには縦長画像720の上下の固有領域720a、720bの符号化データが格納される。
図4では、レイヤ2aの上位にさらにレイヤ3aが設けられ、横長画像710の高解像度の符号化データが格納され、横長画像710について空間スケーラビリティをもたせる。横長画像710を高解像度で再生するためには、共通領域700についても高解像度の符号化データを必要とするため、レイヤ3aには、高解像度の横長画像710の共通領域700について、レイヤ1の低解像度の共通領域700との差分データが格納され、横長画像710の固有領域710a、710bについて、レイヤ2aの低解像度の固有領域710a、710bとの差分データが格納される。
図4のツリー階層構造では、レイヤ1−レイヤ2a−レイヤ3aからなる第1の階層符号化データと、レイヤ1−レイヤ2bからなる第2の階層符号化データの2種類を利用して復号することができる。レイヤ1だけを選択して復号すると、共通領域700だけの動画が再生される。第1の階層符号化データを指定して、レイヤ1とレイヤ2aを用いて復号すると、低解像度の横長画像710が再生され、レイヤ1、レイヤ2aおよびレイヤ3aを用いて復号すると、高解像度の横長画像710が再生される。第2の階層符号化データを指定して、レイヤ1とレイヤ2bを用いて復号すると、低解像度の縦長画像720が再生される。
なお、図4では、基本レイヤに共通領域700の画像を基本データとして格納し、拡張レイヤに横長画像710、縦長画像720の差分データをオブションデータとして格納したが、基本レイヤに低解像度の横長画像710を基本データとして格納し、拡張レイヤに低解像度の横長画像710との差分を取る形で横長画像710および縦長画像720をオプションデータとして格納してもよい。
図5は、ツリー階層構造の別の例を説明する図である。レイヤ1の1つ上にはレイヤ2aとレイヤ2bが設けられ、レイヤ2aの1つ上にはレイヤ3aとレイヤ3bが設けられ、レイヤ2bの1つ上にはレイヤ3cが設けられる。さらにレイヤ3bとレイヤ3cの上には共通するレイヤ4が設けられる。
同図のツリー階層構造では、レイヤ1−レイヤ2a−レイヤ3a、レイヤ1−レイヤ2a−レイヤ3b−レイヤ4、レイヤ1−レイヤ2b−レイヤ3c−レイヤ4の3つのパスを選択可能であり、それぞれのパスに沿ってレイヤを積み重ねることによりスケーラビリティをもたせて動画像を再生することができる。
ツリー構造は、連結されたノード対の集合で表すことができる。図5のツリー構造は、{(レイヤ1,レイヤ2a)、(レイヤ1,レイヤ2b)、(レイヤ2a,レイヤ3a)、(レイヤ2a,レイヤ3b)、(レイヤ2b,レイヤ3c)、(レイヤ3b,レイヤ4)、(レイヤ3c,レイヤ4)}と表される。
図6(a)〜(b)は、フレームレートと走査方式との異なる画像を含む動画像のレイヤ構造を説明する図である。この例では、動画像は、毎秒60フレームのインタレース走査方式の符号化データと、毎秒60フレームのプログレッシブ走査方式の符号化データと、毎秒120フレームのインタレース走査方式の符号化データを含む。
図6(a)は、比較のため、通常の階層符号化による動画像のデータ構造を示す。レイヤ1には、60fps(フレーム/秒)のインタレース走査方式の符号化データが格納され、レイヤ2には、60fpsのプログレッシブ走査方式の符号化データが格納され、レイヤ3には、120fpsのインタレース走査方式の符号化データが格納される。レイヤ2では、60fpsのプログレッシブ走査方式による画像とレイヤ1の60fpsのインタレース走査方式の画像の差分が符号化される。レイヤ3では、120fpsのインタレース走査方式の画像とレイヤ2の60fpsのプログレッシブ走査方式の画像の差分が符号化される。
図6(b)は、ツリー構造をもたせて階層符号化した場合の動画像のデータ構造を示す。レイヤ1をルートとして、1つ上にレイヤ2aとレイヤ2bがノードとしてルートに連結されたツリー構造が設定される。レイヤ1には、60fpsのインタレース走査方式の符号化データが格納され、レイヤ2aには、60fpsのプログレッシブ走査方式の符号化データが格納され、レイヤ2bには、120fpsのインタレース走査方式の符号化データが格納される。レイヤ2aでは、60fpsのプログレッシブ走査方式による画像とレイヤ1の60fpsのインタレース走査方式の画像の差分が符号化される。レイヤ2bでは、120fpsのインタレース走査方式の画像とレイヤ1の60fpsのインタレース走査方式の画像の差分が符号化される。
図6(b)のツリー階層構造においてレイヤ1−レイヤ2aのパスを選択すると、60fpsのインタレース走査方式の動画から60fpsのプログレッシブ走査方式の動画へとスケーラビリティをもたせて段階的に復号することができる。また、レイヤ1−レイヤ2bのパスを選択すると、60fpsのインタレース走査方式の動画から120fpsのインタレース走査方式の動画へとスケーラビリティをもたせて段階的に復号することができる。
図7は、動画像のツリー階層構造のさらに別の例を説明する図である。この例では、動画像は、空間解像度スケーラビリティ、フレームレートスケーラビリティ、およびSNRスケーラビリティをもたせて階層符号化される。基本レイヤ(レイヤ1)には、低解像度、低フレームレート、低SN比の画像の符号化データが格納される。基本レイヤの上位には、3つのパスに分けて、2つの拡張レイヤが設けられている。
第1パスについて、レイヤ2aには中解像度画像の差分符号化データ、レイヤ3aには高解像画像の差分符号化データが格納されている。第2パスについて、レイヤ2bには中フレームレートの差分符号化データ、レイヤ3bには高フレームレートの差分符号化データが格納されている。第3パスについて、レイヤ2cには中SN比の差分符号化データ、レイヤ3cには高SN比の差分符号化データが格納されている。
図7のツリー階層構造において、いずれかのパスを選択することにより、空間解像度スケーラビリティ、フレームレートスケーラビリティ、およびSNRスケーラビリティのいずれかを選択して、動画像を各種のスケーラビリティをもたせて段階的に復号することができる。
動画像のツリー階層構造のさらに別の例として、空間解像度スケーラビリティ、フレームレートスケーラビリティ、SNRスケーラビリティなど複数種類のスケーラビリティ構造を混ぜ合わせたデータ構造にしてもよい。
たとえば、基本レイヤ(レイヤ1)に、低解像度、低フレームレート、低SN比の画像の符号化データを格納し、基本レイヤの1つ上に2つのパスに分けてレイヤ2a、2bを設け、第1パスのレイヤ2aには中解像度の画像(フレームレートとSN比はレイヤ1と同じで低レベル)の差分符号化データを格納し、第2パスのレイヤ2bには中フレームレートの画像(解像度とSN比はレイヤ1と同じで低レベル)の差分符号化データを格納する。
第1パスのレイヤ2aの1つ上にレイヤ3aを設け、そのレイヤ3aには中解像度で中フレームレートの画像(SN比は低レベル)の差分符号化データを格納する。第1パスのレイヤ3aの画像はすぐ下のレイヤ2aの画像に比べてフレームレートが1段階上がっている。一方、第2パスのレイヤ2bの上位にはレイヤ3bを設け、そのレイヤ3bには中フレームレートで中解像度の画像(SN比は低レベル)の差分符号化データを格納する。第2パスのレイヤ3bの画像はすぐ下のレイヤ2bの画像に比べて空間解像度が1段階上がっている。第1パスのレイヤ3aの画像も第2パスのレイヤ3bの画像も中解像度、中フレームレート、低SN比の画像であり、両者は結果的には同じものである。
第1パスのレイヤ3aと第2パスのレイヤ3bの1つ上に両パスに共通してレイヤ4を設け、高解像度、中フレームレートの画像(SN比は低レベル)の差分符号化データを格納する。レイヤ4の画像はすぐ下のレイヤ3a、3bの画像に比べて空間解像度が1段階上がっている。
このような4階層からなるツリー階層構造において、第1パスを選択すると、レイヤ1の低解像度、低フレームレート、低SN比の画像から始まって、レイヤ2aに進めば、空間解像度を低から中に上げた画像、レイヤ3aに進めば、さらにフレームレートを低から中に上げた画像、レイヤ4に進めば、空間解像度を中から高に上げた画像へと段階的に再生品質を高めていくことができる。また、第2パスを選択すると、レイヤ1の低解像度、低フレームレート、低SN比の画像から始まって、レイヤ2bに進めば、フレームレートを低から中に上げた画像、レイヤ3bに進めば、さらに空間解像度を低から中に上げた画像、レイヤ4に進めば、空間解像度を中から高に上げた画像へと段階的に再生品質を高めていくことができる。この例では、パスによって、空間解像度とフレームレートのいずれかを選択的に上げていくことができる。
このように、空間解像度スケーラビリティ、フレームレートスケーラビリティ、SNRスケーラビリティなど複数種類のスケーラビリティ構造を混ぜ合わせて複数のパスで階層的に符号化することで、再生時には選択したパスに応じた各種のスケーラビリティを適用しながら再生画質を高めていくことができる。
図8(a)〜(d)は、ツリー階層構造をもつ動画像の符号化ストリームのデータフォーマットを説明する図である。図8(a)に示すように、動画像の符号化ストリーム600のヘッダ部には、シーケンスパラメータセット(SPS)610とピクチャパラメータセット(PPS)620が格納される。ヘッダ部につづいて、第1フレームの基本レイヤ、第1拡張レイヤ、第2拡張レイヤのスライスの符号化データ630が格納される。第1フレームの後には、同様に第2フレーム以降の各レイヤのスライスの符号化データが格納される。
シーケンスパラメータセットとピクチャパラメータセットにはそれぞれ一意に番号が付けられており、スライスのヘッダには、参照するピクチャパラメータセットの番号が含まれ、ピクチャパラメータセットには、参照するシーケンスパラメータセットの番号が含まれている。これにより、各スライスが属するシーケンスとそのスライスに適用されるべきピクチャパラメータが特定されるようになっている。H.264/AVCでは、ストリーム上のパラメータセットの配置の自由度は高いので、同図に示した以外のいろいろなフォーマットがありうる。
シーケンスパラメータセット610には、H.264/AVCで規定されるパラメータ以外に、図8(b)に示すように、ツリー構造情報612が含まれる。ツリー構造情報612は、ツリー構造を特定する情報であり、ルートに位置する基本レイヤと、ルートを起点として連なるノードに位置する拡張レイヤについて、レイヤ間の連結関係が規定されている。
ピクチャパラメータセット620には、図8(c)に示すように、PPS番号622とレイヤタイプ624が含まれる。PPS番号622は、当該ピクチャパラメータセットを一意に特定するための番号であり、スライスでピクチャパラメータセットを指定するために使われる。レイヤタイプ624は、ツリー構造におけるレイヤの種類を識別するフラグであり、図3(a)〜(c)のツリー階層構造の例では、横長画像、縦長画像の区別を示す情報である。
ピクチャパラメータセット620は、一般にはレイヤの数だけ生成され、各レイヤのスライスは、当該レイヤで参照すべきピクチャパラメータセットを利用して符号化される。もっとも複数のレイヤで同一のピクチャパラメータセットを共有してもよい。
スライスの符号化データ630のヘッダ部には、図8(d)に示すように、参照PPS番号632が格納される。この参照PPS番号632により、当該スライスに適用されるピクチャパラメータセット620が一意に特定される。
図9は、図3(a)〜(c)で説明した横長画像と縦長画像を含む動画像の符号化ストリーム600のデータフォーマットを示す。
図9(a)に示すように、動画像の符号化ストリーム600のヘッダ部には、シーケンスパラメータセット(SPS)610、第1、第2、第3のピクチャパラメータセット(PPS0、PPS1、PPS2)620a、620b、620cが格納され、データ部には、基本レイヤのスライス符号化データ630a、第1拡張レイヤのスライス符号化データ630b、第2拡張レイヤのスライス符号化データ630cが格納される。
シーケンスパラメータセット610には、図9(b)に示すように、ツリー構造情報612として{(レイヤ1(共通),レイヤ2a(横長))、(レイヤ1(共通),レイヤ2b(縦長)}が格納される。
図9(c)〜(e)に示すように、第1のピクチャパラメータセット(PPS0)620aには、PPS番号622aとしてPPS#0が格納され、レイヤタイプ624aとして共通領域であることを示す情報が格納される。第2のピクチャパラメータセット(PPS1)620bには、PPS番号622bとしてPPS#1が格納され、レイヤタイプ624bとして横長画像であることを示す情報が格納される。第3のピクチャパラメータセット(PPS2)620cには、PPS番号622cとしてPPS#2が格納され、レイヤタイプ624cとして縦長画像であることを示す情報が格納される。
基本レイヤのスライス符号化データ630aは、共通領域を符号化したものであるから、図9(f)に示すように、参照PPS番号642には、共通領域に対応する図9(c)のピクチャパラメータセット(PPS0)620aを参照するためにPPS#0が格納される。
第1拡張レイヤのスライス符号化データ630bは、横長画像を差分符号化したものであるから、図9(g)に示すように、参照PPS番号652には、横長画像に対応する図9(d)のピクチャパラメータセット(PPS1)620bを参照するためにPPS#1が格納される。
第2拡張レイヤのスライス符号化データ630cは、縦長画像を差分符号化したものであるから、図9(h)に示すように、参照PPS番号662には、縦長画像に対応する図9(e)のピクチャパラメータセット(PPS2)620cを参照するためにPPS#2が格納される。
図10は、実施の形態に係る復号装置500の構成図である。これらの機能ブロックもハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現することができる。
復号装置500は、SVCに準拠して、動画像に空間スケーラビリティ、時間スケーラビリティ、SNRスケーラビリティなどのスケーラビリティをもたせて復号する「スケーラブル復号」を行う。
図10の復号装置500は、図1の符号化装置200に対応して、基本レイヤ、第1拡張レイヤ、第2拡張レイヤの3つのレイヤで動画像を復号する構成であるが、拡張レイヤの個数は任意である。
復号装置500は、ツリー構造をもたせて階層符号化された動画像の符号化ストリームの入力を受け取り、符号化ストリームを復号して出力画像を生成する。
ストリーム分離部430は、入力された符号化ストリームから基本レイヤ、第1拡張レイヤ、第2拡張レイヤの符号化データを分離して取り出し、それぞれ基本レイヤ復号部400、第1拡張レイヤ復号部410、第2拡張レイヤ復号部420に与える。
また、ストリーム分離部430は、入力された符号化ストリームのヘッダをヘッダ解析部440に与える。ヘッダ解析部440は、ヘッダ情報を解析して、ツリー構造情報をスケーラビリティ制御部460に与える。
レイヤ指定部450は、ツリー階層構造のルートからたどるパスと、パス上の複数のレイヤをどこまで復号するかを指定する情報をユーザから受け取る。ユーザは、たとえば、横長画像、縦長画像のいずれかのモードを選択するなど、モード設定により、ツリー階層構造のパスと復号すべきレイヤ数を指定してもよい。
レイヤ指定部450は、指定されたパスと復号すべきレイヤの情報をスケーラビリティ制御部460に与える。
スケーラビリティ制御部460は、ツリー階層構造の指定されたパスにおいて指定されたレイヤまでの符号化データを復号するように、基本レイヤ復号部400、第1拡張レイヤ復号部410および第2拡張レイヤ復号部420を制御する。指定されたレイヤだけを復号すればよいため、スケーラビリティ制御部460は、不要なレイヤのストリームを読み飛ばすように全体を制御する。
基本レイヤ復号部400、第1拡張レイヤ復号部410および第2拡張レイヤ復号部420は、各レイヤの符号化データを復号して、各レイヤの画像データを再生する。ただし、拡張レイヤについては、下位レイヤとの差分画像が復号される。
基本レイヤ復号部400、第1拡張レイヤ復号部410および第2拡張レイヤ復号部420により復号されたデータは画像合成部470に入力される。画像合成部470は、各レイヤの画像を合成して最終的な画像を生成し、出力する。
基本レイヤ復号部400、第1拡張レイヤ復号部410および第2拡張レイヤ復号部420の構成と動作は基本的に同じであるから、ここでは、基本レイヤ復号部400の構成と動作を代表して説明する。なお、第1拡張レイヤ復号部410および第2拡張レイヤ復号部420では、スケーラビリティの方式によってさまざまな復号方法を採用することが可能であり、それに伴って適宜、構成に変更を加えてもよい。
可変長復号部310は、入力された符号化ストリームを可変長復号し、復号された画像データを逆量子化部320に供給し、動きベクトル情報を動き補償部360に供給する。
逆量子化部320は、可変長復号部310により復号された画像データを逆量子化し、逆DCT部330に供給する。逆量子化部320により逆量子化された画像データはDCT係数である。逆DCT部330は、逆量子化部320により逆量子化されたDCT係数を逆離散コサイン変換(IDCT)することにより、元の画像データを復元する。逆DCT部330により復元された画像データは、加算器312に供給される。
加算器312は、逆DCT部330から供給された画像データが、Iフレームである場合、そのIフレームの画像データをそのまま出力するとともに、PフレームやBフレームの予測フレームを生成するための参照フレームとして、フレームバッファ380に格納する。
加算器312は、逆DCT部330から供給された画像データが、Pフレームである場合、その画像データは差分フレームであるから、逆DCT部330から供給された差分フレームと動き補償部360から供給される予測フレームを加算することにより、元の画像データを復元し、出力する。
動き補償部360は、可変長復号部310から供給される動きベクトル情報と、フレームバッファ380に格納された参照フレームを用いて、PフレームまたはBフレームの予測フレームを生成し、加算器312に供給する。
動き補償部360は、可変長復号部310から復号対象フレームの動きベクトルを取得し、復号対象フレームの対象マクロブロックに対して、動きベクトルが参照する参照マクロブロックを特定し、参照マクロブロックの画素データを用いて、動き補償された予測フレームを生成し、加算器312に与える。
以上述べたように、本実施の形態によれば、動画像をスケーラビリティをもたせて階層的に符号化する際、ルートを起点としてノードを連結したツリー構造を設定し、そのツリー構造をルートからたどるパス毎に動画像を複数のレイヤに分けて階層的に符号化することができる。
ツリー構造を設定することにより、ツリー構造のパス毎に各レイヤの符号化データを階層的に格納された単一の符号化ストリームを生成することができ、符号量を削減することができる。また、単一の符号化ストリーム内に複数の種類の階層符号化データが格納されているため、動画ストリームの管理や配信が簡単になり、またユーザにとっても利便性が高まる。
復号の際、符号化ストリームからツリー構造の情報を取得し、ツリー構造においてパスを指定することで、指定したパスの各レイヤに格納された符号化データを用いて動画像を階層的に復号することができる。
たとえば、横長画像と縦長画像という2種類の画像をツリー構造の2つのパスに分けて階層的に符号化し、単一の符号化ストリームを生成することができる。横長画像と縦長画像のストリームを別々に生成するよりも、符号量、利便性などの面で有利である。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
なお、実施の形態では、DCTをベースにしたMPEGシリーズ、H.26xシリーズ、H.264/AVCの規格を例に説明したが、本発明は、これらの規格に限らず、他の動画像の圧縮規格にも適用可能である。たとえば、本発明は、Motion−JPEG2000にも適用可能である。Motion−JPEG2000に適用する場合は、ヘッダ部分にツリー構造情報を含むデータ構造をとる。
実施の形態に係る符号化装置の構成図である。 図1のレイヤ構造設定部により設定される動画像のレイヤ構造を説明する図である。 アスペクト比の異なる複数の画像を含む動画像をツリー構造をもたせて階層符号化する例を説明する図である。 アスペクト比の異なる複数の画像を含む動画像のツリー階層構造の別の例を示す図である。 動画像のツリー階層構造の別の例を説明する図である。 フレームレートと走査方式との異なる画像を含む動画像のレイヤ構造を説明する図である。 動画像のツリー階層構造のさらに別の例を説明する図である。 ツリー階層構造をもつ動画像の符号化ストリームのデータフォーマットを説明する図である。 横長画像と縦長画像を含む動画像の符号化ストリームのデータフォーマットを示す図である。 実施の形態に係る復号装置の構成図である。
符号の説明
10 ブロック生成部、 20 DCT部、 30 量子化部、 40 逆量子化部、 50 逆DCT部、 60 動き補償予測部、 80 フレームバッファ、 90 可変長符号化部、 100 基本レイヤ符号化部、 110 第1拡張レイヤ符号化部、 120 第2拡張レイヤ符号化部、 130 レイヤ構造設定部、 140 スケーラビリティ制御部、 150 ヘッダ生成部、 160 ストリーム結合部、 200 符号化装置、 310 可変長復号部、 320 逆量子化部、 330 逆DCT部、 360 動き補償部、 380 フレームバッファ、 400 基本レイヤ復号部、 410 第1拡張レイヤ復号部、 420 第2拡張レイヤ復号部、 430 ストリーム分離部、 440 ヘッダ解析部、 450 レイヤ指定部、 460 スケーラビリティ制御部、 470 画像合成部、 500 復号装置。

Claims (3)

  1. 動画像の階層的符号化のためにルートを起点としてノードを連結したツリー構造を設定し、前記ツリー構造をルートからたどるパス毎に前記動画像を複数のレイヤに分けて階層的に符号化し、前記パス上のノードに対応づけて各レイヤの符号化データを格納した前記動画像の符号化ストリームを生成し、
    前記ツリー構造に関する情報を前記動画像の符号化ストリームに含めることを特徴とする符号化方法。
  2. 前記動画像の各レイヤの符号化単位毎に前記ツリー構造のいずれのノードの符号化データであるかを識別するための識別情報を設けて前記動画像の符号化ストリームに含めることを特徴とする請求項1に記載の符号化方法。
  3. 前記ツリー構造のパス毎に空間解像度、フレームレートおよびSN比のいずれかのスケーラビリティをもたせて前記動画像を階層的に符号化したデータを格納することを特徴とする請求項1または2に記載の符号化方法。
JP2006086162A 2006-03-27 2006-03-27 符号化方法 Expired - Fee Related JP4660408B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006086162A JP4660408B2 (ja) 2006-03-27 2006-03-27 符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006086162A JP4660408B2 (ja) 2006-03-27 2006-03-27 符号化方法

Publications (2)

Publication Number Publication Date
JP2007266748A JP2007266748A (ja) 2007-10-11
JP4660408B2 true JP4660408B2 (ja) 2011-03-30

Family

ID=38639341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006086162A Expired - Fee Related JP4660408B2 (ja) 2006-03-27 2006-03-27 符号化方法

Country Status (1)

Country Link
JP (1) JP4660408B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369415B2 (en) * 2008-03-06 2013-02-05 General Instrument Corporation Method and apparatus for decoding an enhanced video stream
US9167246B2 (en) 2008-03-06 2015-10-20 Arris Technology, Inc. Method and apparatus for decoding an enhanced video stream
JP5395621B2 (ja) * 2009-11-05 2014-01-22 株式会社メガチップス 画像生成方法および画像再生方法
CN104661033B (zh) * 2009-12-10 2018-02-06 Sk电信有限公司 使用树形结构的解码装置
MX349418B (es) 2010-08-17 2017-07-28 Samsung Electronics Co Ltd Metodo y aparato de codificacion de video que utiliza unidad de transformacion de estructura arborescente variable y metodo y aparato de decodificacion de video.
KR20160104678A (ko) * 2014-01-02 2016-09-05 브이아이디 스케일, 인크. Hevc 확장 규격을 위한 서브 비트스트림 추출 프로세스

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002044671A (ja) * 2001-06-11 2002-02-08 Sharp Corp 動画像復号装置
JP2003504921A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ウェーブレットに基づく画像の階層注視及び注視型符号化

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504921A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ウェーブレットに基づく画像の階層注視及び注視型符号化
JP2002044671A (ja) * 2001-06-11 2002-02-08 Sharp Corp 動画像復号装置

Also Published As

Publication number Publication date
JP2007266748A (ja) 2007-10-11

Similar Documents

Publication Publication Date Title
KR100888963B1 (ko) 영상 신호의 스케일러블 인코딩 및 디코딩 방법
US8842732B2 (en) Encoding apparatus, encoding method, and program of same
JP4703449B2 (ja) 符号化方法
US20070025444A1 (en) Coding Method
US8218619B2 (en) Transcoding apparatus and method between two codecs each including a deblocking filter
JP2007174568A (ja) 符号化方法
CN104396249A (zh) 可伸缩视频编码的双向预测的方法和设备
WO2006110013A1 (en) Method for scalably encoding and decoding video signal
JP2006279573A (ja) 符号化装置と方法、ならびに復号装置と方法
US9172958B2 (en) Apparatus and method for coding picture data
JP2007081720A (ja) 符号化方法
JP2008011455A (ja) 符号化方法
JP2007266749A (ja) 符号化方法
JP2007235314A (ja) 符号化方法
JP4660408B2 (ja) 符号化方法
JP2007036888A (ja) 符号化方法
KR20060063619A (ko) 영상 신호의 인코딩 및 디코딩 방법
JP4209134B2 (ja) 圧縮ビットストリームをアップサンプリングする方法および装置
JP2007266750A (ja) 符号化方法
JP2007036889A (ja) 符号化方法
Francois et al. Interlaced coding in SVC
JP2004056616A (ja) 符号化信号復号装置、符号化信号復号方法および符号化信号復号プログラム
JP2007235299A (ja) 画像符号化方法
JP5382032B2 (ja) 復号装置および復号方法
Akramullah et al. Video Coding Standards

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101228

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4660408

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees