JP2008527870A - 画像データストリームをスケーラブル符号化および復号するための装置および方法、信号、コンピュータプログラム、および画像品質適応モジュール - Google Patents

画像データストリームをスケーラブル符号化および復号するための装置および方法、信号、コンピュータプログラム、および画像品質適応モジュール Download PDF

Info

Publication number
JP2008527870A
JP2008527870A JP2007550726A JP2007550726A JP2008527870A JP 2008527870 A JP2008527870 A JP 2008527870A JP 2007550726 A JP2007550726 A JP 2007550726A JP 2007550726 A JP2007550726 A JP 2007550726A JP 2008527870 A JP2008527870 A JP 2008527870A
Authority
JP
Japan
Prior art keywords
level
image
layer
data
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007550726A
Other languages
English (en)
Other versions
JP5042856B2 (ja
Inventor
アモヌ,イザベル
カマス,ナタリー
パトゥ,ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2008527870A publication Critical patent/JP2008527870A/ja
Application granted granted Critical
Publication of JP5042856B2 publication Critical patent/JP5042856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/34Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/37Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability with arrangements for assigning different transmission priorities to video input data or to video coded data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

画像列を符号化するための符号化方法であって、各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有するデータストリームを生成する。本方法は、レベルn+1の、前記レイヤの少なくとも1つのレイヤを、前記レベルnレイヤに基づいて予測符号化するとともに、レベルnの各データレイヤを、基本サブストリームと、場合によっては、前記画像を少なくとも1つの上位品質で再生することを可能にする少なくとも1つのエンハンスメント・サブストリームの形で符号化する。本方法は更に、前記レベルnの少なくとも1つのデータレイヤに対し、前記レベルn解像度において前記画像を前記上位品質より高い品質で再生することを可能にする少なくとも1つのシングル・サブストリームを符号化する。前記レベルnレイヤの前記シングル・サブストリームは、前記レベルn以外のレベルのレイヤの予測符号化には使用されない。

Description

本発明は、画像または動画像列を符号化および復号するための技術に関する。より具体的には、本発明は、画像のスケーラブル符号化・復号技術、すなわち画像を適応性のある画像品質と可変な空間/時間解像度で符号化および復号するための技術に関する。
現在のところ、多くのデータ伝送システムは、多種多様なタイプのデータアクセス方式を利用する複数のカスタマにサービス提供するという意味で混成的(heterogeneous)である。例えばワールドワイドなインタネットはPC型端末からも無線電話機からもアクセス可能である。より一般に、ネットワークにアクセスするための帯域幅、カスタマ端末の処理能力およびそれらのスクリーンサイズはユーザごとに大きく変わる。つまり、第1のカスタマは、例えば、強力なPCからADSLビットレート1024kbpsで自由にインタネットにアクセスする場合があるが、その一方で、第2のカスタマは、同じデータに同時刻に、モデムと繋がったPDA(personal digital assistant)型端末を使って、低ビットレートでアクセスしようとする場合がある。
それゆえこれらの異なるユーザにはビットレートと画像解像度の両点で変わるユーザ要件に適応したデータストリームが提供される必要がある。この必要性は、多種多様なアクセス・処理能力を有するカスタマにとって利用可能な全ての用途、特に以下の用途である、
・UMTS(Universal Mobile Telecommunication Service)型無線通信端末、ADSLアクセス方式のPCまたはテレビ受像機で利用可能なVOD(Video On Demand)。
・セッションモビリティ(例えば、テレビ受像機で開始されたビデオセッションのPDAにおける再開、またはGPRS(General packet radio service)で開始されたセッションのUMTS型携帯電話機における再開)。
・セッション継続性(新しいアプリケーションと帯域幅を共有するコンテクストにおける)。
・単一のビデオ符号化で標準品位(SD:standard definition)のカスタマから高品位(HD:high definition)のカスタマまでサービスを提供しなければならない高品位テレビ。
・単一の符号化がUMTSアクセスやインタネットアクセスを有するカスタマ達のニーズを満足しなればならないビデオ会議。
・その他
により広範に当てはまる。
これらの異なる要件を満足するため、適応性のある画像品質と可変な空間時間解像度を可能にするスケーラブル(scalable)画像符号化アルゴリズムが開発されている。この符号器は各レイヤが自分より上位のレイヤに埋め込まれたレイヤの階層構造を有する圧縮ストリームを生成する。例えば、第1のデータレイヤはPDA型端末によって復号することができる256kbps(キロビット/秒)ストリームを搬送し、第2の補完的なデータレイヤは、第1のストリームを補完して、より性能の高いPC型端末によって復号することができる256kbpsより高い解像度のストリームを搬送する。これら2つの埋込レイヤ(embedded layers)を搬送するのに必要なビットレートは、本例では、512kbpsである。
これらのスケーラブル・ビデオ符号化アルゴリズムの一部はMPEG−21ワーキンググループのコンテクストにおけるMPEG(Moving Picture Expert Group)標準によって現在採用されている。
特に、MPEG−21ワーキンググループによって最近選ばれたモデルであるSVC(Scalable Video Coding)モデルはSVM(Scalable Video Model)と呼ばれ、AVC(Advanced Video Coding)型ソリューションに準拠したスケーラブル符号器に基づく。このモデルは2004年10月にスペイン国パルマ・デ・マリョルカ(Palma de Majorca)で公表された"Scalable Video Model 3.0"と題された文書N6716 ISO/IEC JTC 1/SC 29/WG 11に詳細に記載されている。MPEG−21ワーキンググループは空間時間次元と品質において平均的な粗さ(average-grained)のスケーラブル・ストリームを供給するための標準(standard)を提案することを目的としている。
(2.1 MPEG−21SVM符号器)
(2.1.1 符号器の主な特性)
図1にピラミッド構造を有する符号器の構造を示す。ビデオ入力コンポーネント10は2部分から成る(ダイアディック:dyadic)サブサンプリング操作(間引き率2の2Dデシメーション11、間引き率4の2Dデシメーション12)を受ける。次にサブサンプリングされたストリームの各ストリームはMCTF(motion-compensated temporal filtering、動き補償時間方向フィルタ)型時間方向分割13を受ける。低解像度版の動画像列は、低空間解像度r0(この基本レベルはAVCコンパチブルである)に対する最大復号可能ビットレートに相当する所与のビットレートR_r0_maxまで符号化14される。
上位レベルは次に、前回再構築されたオーバサンプリングされたレベルを差し引き、その残差(あるいは誤差)を以下の形で符号化することによって符号化15、16される。
・基本レベル(base level)。
・場合によっては、ビットプレーンのマルチラン(multi-run)符号化(以下、“fine-grain scalability”の頭文字をとってFGSと呼ぶ)によって得られる1つ以上のエンハンスメントレベル(enhancement level、拡張レベル、上位レベル)。予測残差(あるいは予測誤差)は解像度riに対する復号可能な最大ビットレートに相当するビットレートR_ri_maxまで符号化される。
より具体的には、MCTFフィルタリング・ブロック13は時間方向ウェーブレット・フィルタリングを実行する。すなわち、それらのブロックはウェーブレット・フィルタリングの前に動き(motion)の意味で信号を再編成する。それらは動き符号化ブロック14〜16に供給される動き(motion)に関する情報17と、予測モジュール19に供給されるテクスチャ情報18を配信する。予測モジュール19から出力された予測データは下位レベルからの補間(interpolation)20の実行に役立つ。それらは信号の精細レベルに作用する空間変換・エントロピー符号化ブロック21にも供給される。多重化モジュール22は生成された異なるサブストリームを1つのトータル圧縮データストリームに多重化する。
図2に図1のスケーラブル符号器を使って得られた結果を、異なるスケーラブル解像度(CIF(Common Interface Format)/QCIF(Quarter Common Interface Format)、CIFはTVの1/2フォーマットに相当し、QCIFはTVの1/4フォーマットに相当する)または異なる時間解像度(7.5−30Hz、1秒あたりの画像数)に対して表されたビットレート/歪曲線(bit-rate/distortion curves)の形で示す。y軸はPSNR(Peak Signal to Noise Ratio)を示し、x軸はビットレートkbps(kbits/s)を示す。従って、曲線23は時間解像度が7.5HzのQCIF空間解像度に対応し、曲線24は15HzにおけるQCIF解像度に対応し、曲線25は15HzにおけるCIF解像度に対応し、そして曲線26は30HzにおけるCIF解像度に対応する。
(2.1.2 符号器における情報レイヤの生成)
図3にSVM符号器で実行される情報の予測(prediction)/抽出(extraction)のメカニズムを示す。以下、符号化する際に実行される予測をより詳しく説明する。この予測は、所与のレベルnの空間解像度のレイヤを、それより低いレベルの空間解像度のレイヤからのデータから予測することによって、符号化することにある。
より具体的に、図3に、それぞれビットレート/歪曲線30(QCIFフォーマット)と31(CIFフォーマット)に関連するQCIFとCIFフォーマットの空間解像度レイヤの2つの連続するレイヤの生成を例示する。当業者であれば、この例を空間レイヤ数が3以上(n>2)のより一般的な場合に拡張することに困難は感じないであろう。既に述べたように、x軸はビットレート(kbps)を表し、y軸はPSNR(dB)を表す。
各空間解像度レイヤごとに、符号器は2つのサブストリームの形で情報を符号化する。1つはBL(base layer)と称される基本サブストリーム(base sub-stream)であり、もう1つはEL(enhancement layer)と称される段階的エンハンスメント・サブストリームまたはサブレイヤ(gradual enhancement sub-stream or sub-layer)である。
QCIFフォーマットが時間周波数およびビットレートの値の全てのレンジで最初に符号化される。1つの基本レベル(BL)301と2つの可能なエンハンスメントレベル(EL)−1つは符号302のFGS1、もう1つは符号303のFGS2(FGSは“fine grain scalable”の頭文字)−が存在する。エンハンスメント・レイヤELは従って2回のラン(run)FGS1・302およびFGS2・303を有する。中間精細ポイントは復号するときにFGS1とFGS2の間のデータパケットをカットすることによって得られることがある。
QCIFフォーマットは最大ビットレートポイント304まで符号化され、そのポイントは後でCIFフォーマットの符号化の際に予測のための参照ポイントとして利用される。このポイントは、システムが一般に最適に機能するためのベストなポイントでなければならない。
次にCIFフォーマットはQCIF曲線の最高ポイント304(すなわちこの曲線の最大ビットレートポイント)を予測変数(predictor)として使用することによって符号化される。CIF情報も2つのサブストリーム−基本サブストリーム(BL)と2度のラン(FGS1およびFGS2)で構成されるエンハンスメント・サブストリーム(EL)−で符号化される。
図3は、最大QCIFビットレートポイント304から開始してCIF空間解像度レベルの基本レイヤ(BL)311を加えることによって、CIF参照ポイント312に到達することを示している。このポイントは復号で達成可能な最小ビットレートポイント313ではない。この参照ポイント312から始めて、エンハンスメント・レイヤEL314(FGS1)および315(FGS2)のおかげで、他のより高いCIFビットレートポイント、最大CIFビットレート316まで到達することができる。
図4は任意の不特定レベルn−1およびnの空間レイヤ(n:整数)に対して符号器で行われる情報の処理の順序をまとめたものである。BLは、ある空間解像度レベルの、基本品質(base quality)サブレイヤを表し、ELは拡張品質(enhancement quality)サブレイヤを表す。最初に、レベルn−1の基本サブレイヤBLが符号化41され、次にn−1レベルのエンハンスメント・サブレイヤELが符号化され、次にnレベル空間解像度の基本サブストリームBLが符号化43され、そしてこのnレベルのエンハンスメント・サブストリームELが符号化44される。この後もより高いレベルの空間解像度に対して同じ手続きが実行される。
(2.2 MPEG−21SVMエクストラクタ)
ここでは画像品質適応モジュールとも呼ばれるエクストラクタ(extractor)は、符号器によって生成されたトータルデータストリームの中から所与の空間時間解像度レベルおよび所与のビットレートに対応する部分を復号器のために抽出するためのツールである。
(2.2.1 スケーラブル・ストリーム・エクストラクタの一般的な機能)
スケーラブル符号器には2つのタイプが存在する。
・互いに埋め込まれた(これは例えばJPEG2000標準によって提案されたビデオ符号器に当てはまる)、復号ポイントの間の特別な関係を指定しない非予測“自然にスケーラブルな”符号器(例えばウェーブレット変換に基づく)。
・埋込経路を構築する必要がある予測SVM型符号器。より具体的には、圧縮ストリーム抽出を実行するため、SVMのエクストラクタは、図5に示したような、互いに埋め込まれた事前に指定された経路をたどる。
図5において、x軸はHzで表された時間解像度を示し、y軸はビットレート(高H、低L)を示し、z軸は空間解像度(QCIFまたはCIF)を示す。符号器によって生成されるトータルデータストリーム50は、各立方体が所与の空間時間解像度および所与のビットレートに対応する複数の立方体で表現される1セットのサブストリームから成る。従って、7.5HzにおけるQCIF空間解像度レベルから最高ビットレートを抽出するには、エクストラクタは抽出経路:CIF30H→CIF15H→QCIF15H→QCIF7.5Hを辿(たど)らねばならない(例えばCIF30Hは、時間周波数30HzのCIF空間解像度フォーマットにおける、高ビットレートレベルHのストリームを表していることに注意する)。
同様に、7.5HzにおけるQCIFの最低ビットレートを抽出するには、エクストラクタは経路:CIF30H→CIF15H→CIF15L→QCIF15L→QCIF7.5Lを辿(たど)らねばならない。
(2.2.2 MPEG−21SVMエクストラクタの動作)
MPEG−21SVMエクストラクタは次のように働く。ビデオストリームを所与のビットレートRtにおいて空間時間解像度St−Ttで復号するため、トータルストリームからサブストリームが次のように抽出される。全てのレベルの空間解像度(基本レベルから目標解像度Stまで)の基本品質レイヤ(BLn−1,BLn,...)が空間解像度Stに対する最小復号可能ビットレートに相当するRminを費やして抽出される。基本品質サブストリームの抽出の後、許されたビットレートはRt=Rt−Rminになる。
エクストラクタは次に下位の空間解像度の時間方向サブバンドを1つずつ調べ、各サブバンドの異なるエンハンスメント・レイヤELを抽出する。それは下位空間解像度の時間方向サブバンド上にループを作り、次に各時間方向サブバンドのエンハンスメント・レイヤ上にループを作る。
Rfを時間方向サブバンドから品質レイヤを抽出するのに必要なビットレートとする。許されたビットレートRt>Rfの場合、議論されるサブバンドのレイヤが抽出され、ビットレートはRt=Rt−Rfとなる。それ以外の場合は、議論されるサブバンドのレイヤはトランケート(truncate)され、抽出は終了する。
下位空間解像度の時間方向サブバンドの全てのレイヤが抽出し終わった場合、エクストラクタは空間解像度レベルStのサブバンドを調べる。エクストラクタはFGS品質レイヤ上に、そして次に時間方向サブバンド上にループを作る。Rfsは全ての時間方向サブバンドに対して品質qレイヤを抽出するために必要なビットレートを表す。許されたビットレートRt>Rfの場合、全てのサブバンドの品質qレイヤが抽出され、ビットレートはRt=Rt−Rfsとなる。それ以外の場合は、全てのサブバンドの品質qレイヤはトランケート(truncate)され、抽出は終了する。
図6に、エクストラクタまたは画像品質適応モジュールによる情報の処理の順序を示す。レベルnの空間解像度nにおける抽出では、エクストラクタは、最初にレベル0からレベルnまでの全ての空間レベル(QCIF、CIFなど)の全ての基本品質BLレベルを1つずつ調べ、次に、下位の空間レベル(EL0)からレベルn(EL n)までの拡張品質レイヤELを調べる。
抽出メカニズムは、ビットレート/歪曲線30および31を使って、予測メカニズムとの関連で既に述べた図3によって同じく示すことができる。ここでは以下、復号におけるビットレートの異なるポイントを生成するためにこれらの曲線に沿ってSVM MPEG−21のエクストラクタが辿る経路を議論する。
従って、QCIFフォーマットにおけるビットレートポイントを生成するため、エクストラクタは、最初にQCIFレベルから基本レイヤ301を取り出す。QCIF最小ポイント305から、QCIF最小ポイント305より高く、最大ビットレートポイント304(これはCIFフォーマットより高い空間解像度レイヤの予測に用いられるもの)より低い任意のビットレートを抽出することが可能である。このために、FGS1・302とFGS2・303で構成されるエンハンスメント・レイヤまたはサブストリーム(EL)は割り当てられたビットレートに従ってカットされる。
CIFフォーマットにおけるビットレートを生成するには、要求されるビットレートが参照ポイント312より高いかまたはこの参照ポイントより低いかに応じて2つのアプローチが可能である。
目標ビットレートがCIF参照ポイント312のビットレートを下回る場合、エクストラクタは2つのQCIFおよびCIF空間レベルの基本レイヤBL301および311を取り出し、その結果、最小CIFビットレートポイント313がもたらされる。残りのビットレートに応じて、エクストラクタはQCIF空間解像度レベルのエンハンスメント・レイヤEL302および303をトランケート(truncate、切り捨て)する。
要求されるビットレートがCIF参照ポイント312のビットレートを上回る場合、エクストラクタはCIFおよびQCIFレベルの基本レイヤBL301および311、QCIFレベルのエンハンスメント・レイヤEL302および303を取り出し、CIFエンハンスメント・レイヤ314、315を残りのビットレートに応じてカットする。
(3.従来技術の欠点)
MPEG−21ワーキンググループのSVMモデルの符号化/復号技術は様々な欠点を有する。この技術に関連する抽出メカニズムには多くの欠点がある。
最初に、エクストラクタにおける情報の処理の順序(すなわち、空間解像度の全ての基本レイヤBL、次に、空間基本レベルから必要とされる空間レベルまで行くエンハンスレイヤEL)によって、復号するときに要求されるビットレートが何であれ、抽出は常に同じ経路を辿る。このとき、この経路は常に復号時の各目標ビットレートの最適経路というわけではない。
さらに、それより高いレベルの空間解像度の符号化に対して予測が行われた各所与のレベルの空間解像度ごとに、予測に使用されたビットレートポイントに相当する最大ビットレートが存在する。このとき、この最大ビットレートポイントは常にこのレベルの空間解像度に対して到達することが求められる最高ポイントというわけではない。実際、予測ポイントは上位空間レベルの符号化の際の予測誤差を最小化するよう選ばれるが、現時点の空間レベルに対する非常に高い品質のポイントに対応しない。多くの場合、特に低い空間解像度に対しては、予測ポイントによって与えられるものよりも高い画像再生品質を提供するのに有効なポイントを有することが望ましくまたは必要である。
最後に、MPEG−21SVM符号化技術の1つの最後の欠点は、レベルnの空間解像度における(例えばCIFフォーマットにおける)、このレベルの参照ポイント(例えば図3におけるポイント312、すなわち、空間レベル0〜nの基本レイヤBLと空間レベル0〜n−1の全ての精細レイヤ(refinement layers)ELの復号によって得られるポイント)のビットレートより低いビットレートのポイントの抽出に、レベルnの精細情報(refinement info.)(すなわち、例えばCIFレベルの拡張レベルEL314および315からの情報)が全く使用されないという点である。
(4.本発明の目標)
本発明は従来技術の上記欠点を克服することを目標とする。
より具体的には、本発明の目標は、2004年10月にスペイン国パルマ・デ・マリョルカ(Palma de Majorca)で公表された"Scalable Video Model 3.0"と題された文書N6716 ISO/IEC JTC 1/SC 29/WG 11の中でMPEG−21ワーキンググループによって提案されたSVMモデルの技術の改良として、レイヤ間予測(inter-layer prediction)を用いて、データストリームをレイヤ編成することに基づく、動画像および/または動画像列のスケーラブル符号化・復号技術を提供することにある。
特に、本発明の目標は、復号の際、所与の解像度レベルnにおいて従来技術より高い品質の画像を再生するために使用することができる、この種の技術を提供することにある。より具体的には、本発明の目標は、所与のレベルの解像度n−1に対し、解像度レベルnの予測による符号化に使用されるものより高いビットレートを実現することを可能にする、この種の技術を提供することにある。
本発明のもう1つの目標は、各ビットレートポイントごとに、最適な抽出経路、すなわちビットレート/歪の点でベストな再生を実現する経路を指定するために使用することができる、この種の技術を提供することにある。
本発明の更にもう1つの目標は、実装がシンプルで、リソース(帯域幅、処理能力など)面でコストがほとんどかからない、この種の技術を提供することにある。
本発明の更にもう1つの目標は、効率的なデータ圧縮を可能にすると同時に画像の高品質再生を可能にする、この種の技術を提供することにある。
本発明の更にもう1つの目標は、データストリームへの異なるアクセス方式を有し、異なる処理能力を有する表示端末を有する複数のユーザに満足ゆくサービスを提供するために使用することが可能な、この種の技術を提供することにある。
(5.本発明の基本的な特徴)
以上の目標並びに以下明らかとなる他の目標は、画像または画像列を符号化するための方法であって、nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有するデータストリームを生成するステップを実行する方法を用いて達成される。本方法は、レベルn+1の、前記レイヤの少なくとも1つのレイヤを、少なくとも前記レベルnレイヤからの予測によって符号化するステップ(予測符号化ステップ)を含む。前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にする。
本発明によれば、本方法は、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記画像を前記解像度レベルnで前記所定の最大品質より高い品質で再生することを可能にする特異サブストリーム(singular sub-stream)または“デッド・サブストリーム(dead-sub-stream)”と呼ばれる少なくとも1つの追加のサブストリームを符号化する。前記レイヤレベルnの前記デッド・サブストリームはnとは異なるレベルの前記レイヤの予測符号化ステップの際には使用されない。
このように、本発明はスケーラブル画像ストリームまたはビデオストリームの符号化に対する全く新規で革新的なアプローチに基づく。実際、先行技術(特にMPEG−21ワーキンググループのSVMモデルに記述された技術)では、解像度n−1を有するレベルのレイヤのデータ全体が上位のレベルnレイヤの予測符号化に使用されたが、本発明では解像度レベルn−1に関連する追加の情報の符号化を提案する。この追加の情報は、レベルnの予測符号化にも、解像度レベルnにおける画像の再生にも使用されない。この追加の情報は、デッド・サブストリームに符号化され、解像度レベルn−1における画像の再生のみに使用される。
言い換えると、符号化ストリームの埋込データレイヤの各レイヤの関連するビットレート・歪曲線に基づく論証によって、本発明は所与の解像度レベルn−1のレイヤのビットレート・歪曲線の最大ビットレートポイントP_maxを、解像度レベルnのデータレイヤを予測するために使用される、予測ポイントP_predと呼ばれる、この曲線のポイントから分離することを提案する。レベルnレイヤのデッド・サブストリームのおかげで、予測ポイントP_predのビットレートと最大ポイントP_maxのビットレートとの間に位置する全てのビットレートをカバーすることが可能となる。
このデッド・サブストリームを通じて、復号において解像度レベルnにおいて従来技術より高い品質の画像または動画像列の再生を達成することが可能である。このことは特に、P_predからのレベルnにおける再生によって達成される品質が十分でない一部の表示端末に役立つ。
有利には、各レベルnデータレイヤはレベルnの解像度で基本品質の画像を再生することができるようにする少なくとも1つの基本サブストリームBLと、場合によっては、少なくとも1つの上位品質の画像を取得するため、基本品質画像の精細化を可能にする少なくとも1つのエンハンスメント・サブストリームELの形で、符号化される。前記所定の最大品質は、
・前記エンハンスメント・サブストリームが符号化されない場合は、基本品質、
・少なくとも1つのエンハンスメント・サブストリームが符号化される場合は、前記少なくとも1つの上位品質、
である。
実際、一部のデータレイヤは基本サブストリームの形でのみ符号化されることがあり、他のデータレイヤは1つ以上のエンハンスメント・サブストリームも含む。本発明に基づいて符号化されたデッド・サブストリームのおかげで、基本サブストリームのみから、あるいは1つ以上のエンハンスメント・サブストリームが存在する場合には基本サブストリームおよび1つ以上のエンハンスメント・サブストリームから得られる最大品質より高い品質の画像を再生することができる。
本発明の1つの有利な態様として、この種の符号化方法は、前記データストリーム内の前記少なくとも1つのデッド・サブストリームを識別するために使用される少なくとも1つの情報を前記データストリームに挿入する第1のステップを更に含む。それは実際、復号するときに、空間解像度レベルnに関連する最大ビットレートポイントを、それより高い空間解像度レベルn+1の符号化に使用される予測ポイントから区別することができるようにするために必要である。
本発明の好ましい態様として、この種の符号化方法は、前記画像の少なくとも一部の画像に対して、前記データストリームに前記レイヤの少なくとも一部のレイヤの少なくとも一部のデータに関連する再生品質に関する少なくとも1つの情報を挿入する第2のステップも含む。前記再生品質は少なくとも1つのビットレート/歪パラメータの関数である。
品質に関するこの情報をストリームに挿入することにより、レベルnの解像度の異なるレイヤにおける品質の選択的適応が可能となる。この結果、復号における目標ビットレートの各ポイントごとに、最適な抽出経路が指定される。この経路はビットレート・歪の点でこのビットレートにおけるこの画像のベストな再生を可能にする経路である。
本発明は、画像または画像列を符号化するための符号器も提供する。この符号器は、nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有するデータストリームを生成するための手段を含む。本符号器は、レベルn+1の、前記レイヤの少なくとも1つのレイヤを、少なくとも前記レベルnレイヤから予測符号化するための手段を含み、前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にする。
本発明によれば、本符号器は、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記画像を前記解像度レベルnにおいて前記所定の最大品質より高い品質で再生することを可能にする、デッド・サブストリーム(dead sub-stream)と呼ばれる、少なくとも1つのサブストリームを符号化するための手段も含み、前記レベルnレイヤの前記デッド・サブストリームはnとは異なるレベルの前記レイヤの予測による前記符号化手段には使用されない。このデッド・サブストリームは、レベルnレイヤに対して、基本サブストリームBLに加えられ、そして場合によっては、エンハンスメント・サブストリームELにもこれが存在すれば加えられる。
有利には、この種の符号器は、前記レベルnレイヤ内から、前記レベルn+1レイヤの予測符号化の際に考慮しなければならないデータの抽出に使用される予測ポイント抽出モジュールを更に含む。この予測ポイント抽出モジュールは上位レイヤの符号化を実行するために使用される、最大ビットレーポイントとは異なるポイントを決定するために利用される。
本発明は、上記符号化技術に基づいて符号化されたデータストリームを復号するための復号方法とそれに関連する復号器も提供する。本発明の復号方法は、前記レベルn解像度で前記画像の1つを再生するため、
・レベルnより低いレベルの前記データレイヤを復号するステップと、
・許された復号ビットレートに応じて、前記レベルnレイヤと、場合によっては、前記レベルnレイヤの前記デッド・サブストリームを、少なくとも部分的に復号するステップを含み、
レベルnより低いレベルの前記レイヤの前記デッド・サブストリームは前記再生の際に復号されない。
より具体的には、まず最初にn以下のレベルの基本サブストリームが復号され、続いてnより低いレベルのレイヤのエンハンスメント・サブストリームがそれらが存在する場合に復号される。最後に、許された復号ビットレートに応じて、レベルnレイヤの少なくとも1つのエンハンスメント・サブストリームと、場合によっては、このレイヤのデッド・サブストリームで、少なくとも部分的な復号が実行される。
本発明は、上述した技術に基づいて符号化されたデータストリームを伝送するための信号も提供する。本信号は、前記データストリームがその中で搬送される情報エンティティの形で構造化され、前記情報エンティティの各エンティティは、前記情報エンティティのタイプに関する情報を提供するヘッダと、ペイロードデータフィールドとを含む。
本発明によれば、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、本信号は、前記レベルn解像度で前記画像を前記所定の最大品質より高い品質で再生することを可能にする、デッド・サブストリームと呼ばれる、少なくとも1つのサブストリームも搬送する。前記レベルnデッド・サブストリームはnとは異なるレベルの解像度で前記画像を再生するのには使用されない。
第1の代わりの態様では、本信号は前記デッド・サブストリームを、前記基本サブストリームおよび前記エンハンスメント・サブストリームを搬送する前記情報エンティティのタイプとは異なる第1の特定のタイプ(例えばSVMモデルのシンタクスに規定されたタイプ22または23のNAL)の少なくとも1つの情報エンティティ内で搬送する。
第2の代わりの態様では、前記デッド・サブストリームの少なくとも1つおよび前記エンハンスメント・サブストリームの少なくとも1つは同じタイプの情報エンティティ(NAL)内で搬送され、このとき本発明の信号は、前記特異サブストリームおよび前記エンハンスメント・サブストリームを前記NAL内で識別することを可能にする少なくとも1つの切断情報(cutting information)を搬送する。
最適抽出経路の指定を可能にする、品質の適応選択に関係する上記態様が符号化の際に適用されるとき、本発明の信号は、この態様において、特定のデータに関連する品質の再生に関する情報も搬送しなければならない。このために、2つのアプローチが考案された。
第1の態様は、既存の情報エンティティ(すなわちNAL)の構造を、それらの一部が前記ペイロードデータフィールドの少なくとも一部のデータを指す少なくとも1つのポインタを含む疑似ヘッダ(pseudo-header)も含むように修正することにある。この少なくとも1つのポインタは、少なくとも1つのビットレート/歪パラメータに依存する、前記データに関連した再生品質のレベルに関する情報を提供する。
第2の態様は、既存の情報エンティティの構造を全く修正しないという点から好ましく、本発明の信号内に、前記ストリームの少なくとも一部のデータに関連する再生品質に関する少なくとも1つの情報を含む特定のタイプの少なくとも1つの情報エンティティを導入することから成る。このとき前記再生品質は少なくとも1つのビットレート/歪パラメータに依存する。
このため、情報NALと呼ばれる特定のNALが導入される。これらの情報NALは、それらのペイロードデータフィールドに、データ搬送NAL(すなわち、例えばエンハンスメント・サブストリームを搬送するNAL)における品質レベルの特定を可能にするオフセットを含む。
これらの情報NALは、デッド・サブストリームの始まりに対応する品質レベルを示す追加情報を含むときには、デッド・サブストリームを識別するための情報も搬送することができる。
本発明は、マイクロプロセッサで実行されたときに、画像または画像列を符号化するための上記符号化方法のステップを実行するためのプログラムコード命令と、同じくマイクロプロセッサで実行されたときに、画像または画像列を表すデータストリームを復号するための上記復号方法のステップを実行するためのプログラムコード命令を含むコンピュータプログラムも提供する。
本発明は、画像または画像列の品質を適応させるための適応モジュールも提供する。この適応モジュールには、上述したような、画像または画像列を表すソースデータのストリームが供給される。
この種の適応モジュールは、少なくとも1つの表示端末が前記画像を表示するよう設計された修正されたデータストリームを生成するための手段を含む。前記修正されたデータストリームは、前記ソースデータストリームから、前記少なくとも1つの表示端末が前記画像を前記解像度レベルnで再生しない場合には前記レベルnデッド・サブストリームを抽出することによって得られる。
本適応モジュールは、エクストラクタ(extractor)とも呼ばれ、ストリームから、例えばサービス対象の端末の性質に起因して再生に使用されないサブストリームを抽出するために使用される。この適応モジュールは、符号器の出力直後、復号器の直前(あるいは復号器に組み込まれることもある)、あるいはカスタマ端末がストリームにアクセスする伝送ネットワークの任意のポイントに配置される場合がある。
最後に、本発明は、前記データストリームを格納するよう設計されており、このサブストリームのデータの埋込レイヤを階層的に格納するための構造を有するデータ搬送波(data carrier)も提供する。この種のデータ搬送波は、前記レベルnデータレイヤの少なくとも1つに対し、少なくとも1つのデッド・サブストリームを格納するための少なくとも1つのゾーンを含む。前記格納ゾーンはnとは異なるレベルの解像度で前記画像を再生する際には読み出されない。
本発明の他の特徴および利点は、単に例示的でありかつ非制限的な例による好ましい実施形態についての以下の説明および添付の図面からより明らかになるであろう。
本発明の一般原理は、追加のサブストリームをそのストリームの一部または全ての解像度レベルで符号化し、その解像度レベルでより良い品質の画像を再生することができるように設計することに基づく。この追加のサブストリームは、デッド・サブストリーム(dead sub-stream)と呼ばれ、それが符号化される解像度でのみ使用される。言い換えると、符号化において、それはその他の解像度レベルのレイヤの予測には使用されず、復号において、それは他の解像度レベルでの画像の再生には使用されない。
このストリームで符号化される各解像度レベルに関連するビットレート・歪曲線を考えると、斯かるデッド・ストリームの挿入はある解像度レベルの最大ビットレートポイントをそれより高い解像度レベルの予測に使用されるこのレベルのポイントから引き離すことを意味する。
図7に、デッド・ストリームを所与のレベルnの空間および/または時間解像度データのレイヤに追加することに基づく、本発明の符号化技術の実施の一形態を示す。
前にも述べたように(図3参照)、ここでの説明は、2つの埋込解像度フォーマット(embedded resolution formats)、つまりQCIFおよびCIFフォーマットで画像を符号化する特別なケースに関するものである。当業者であれば、ここでの教示をn個の連続する解像度レベル(例えばQCIF、CIF、SD、HDなど)の一般的なケースに拡張することにはさほど難しさは感じないであろう。図7はこれら2つのフォーマットに対するビットレート・歪曲線(QCIFに対する曲線30とCIFに対する曲線31)を示している。図中、x軸はkbps(kbits/s)で表されたビットレートを示し、y軸はPSNR(dB)で表された歪み(distortion)を示す。図3と図7において同じ要素に同じ参照符号が付されていることに注意する。
このとき本発明の原理は、符号化において、ある空間レベルn−1に対する最大ビットレートポイント(本ケースではQCIFフォーマットのビットレート/歪曲線に対するP_maxポイント704)を、次の空間レベルnの予測に使用されるビットレートポイント(すなわちCIFフォーマットの予測に使用されるポイントP_pred706)とは異なるものとして定義することから成る。
このために以下のような符号化ステップが実行される。
・空間レベルn−1(QCIF)のデータレイヤを最大ビットレートポイントP_max704にまで符号化する。
・空間レベルn−1(QCIF)のビットレートポイントP_pred706を抽出する。
・トータル符号化ストリーム(total encoded stream)に、P_pred706からP_max704までのビットレートをカバーする、空間レベルn−1(QCIF)に対するデッド・サブストリーム707と呼ばれる追加のサブストリームを導入する。このストリームは解像度レベルn−1(QCIF)におけるあるビットレートポイントにおける動画像列の再生のみに役立ち、それより高いまたは低い空間レベルポイントの再生には使用されない。
・トータル符号化ストリームに、このストリームからデータを復号または抽出する際に、QCIFビットレート/歪曲線上における予測ポイントP_pred706の、最大ビットレートポイントP_max704からの位置を特定することを可能にする、デッド・サブストリームの識別情報を導入する。
・ビットレートポイントP_pred706における空間レベルn−1(QCIF)の予測を使用して空間レベルn(CIF)のデータレイヤを符号化する。
それゆえ、この符号化技術によれば、QCIFフォーマットにおける画像の再生にのみ(排他的に)使用されるデッド・サブストリーム707に属する空間解像度QCIFに関連するビットレート/歪曲線30上に新たなポイントが出現する結果となる。
端末がこのようにして符号化されたトータルデータストリームを復号しようとするとき、動画像列(video sequence)の再生に必要なデータは、端末が望む空間時間解像度およびビットレートに応じて、このトータルデータストリームから抽出される。解像度レベルnにおける再生には、nとは異なる空間レベル(特に下位空間レベル(the lower spacial lebels))のデッド・ストリームのどれも使用しないよう注意を払い、しかし必要ならば、空間レベルnのデッド・サブストリームを所望のビットレートがその使用を可能にする場合には使用して、この空間レベルnのビットレートポイントが抽出される。
図17に本発明の符号器(エンコーダ)の単純化した構造を示す。この符号器は、メモリM178と、例えばマイクロプロセッサを搭載しておりコンピュータプログラムPg177によって駆動される処理装置176とから構成される。初期化の際、コンピュータプログラム177コード命令が処理装置のプロセッサで実行される前に例えばRAMにロードされる。処理装置176は入力側で符号化対象のビデオコンテンツ10を受信する。処理装置176のマイクロプロセッサμPは動画像列10をn個の連続する空間解像度レベルPg177の複数の埋込レイヤを含む圧縮ストリーム83の形式で符号化する。処理装置176は圧縮データストリーム(compressed data stream)83を出力する。
図8に一部または全ての空間解像度レベルにおいてデッド・サブストリームの導入を可能にする符号器のより詳しい構造を示す。斯かるコーダの構造は、図1を参照して説明したMPEG−21SVC符号器の構造とは、予測ポイント抽出モジュール(prediction point extraction module)81および82が存在する点だけ異なることに留意する。このため図1および図8において同じ構成要素には同じ参照符号が付されてある。図8の例は、動き補償とレイヤ間表現によるレイヤ表現とともに時間方向ウェーブレット変換に基づく、スケーラブル・ビデオ符号化のコンテクストに設定してある。
図8の符号器は次のように動作する。
(i)符号器の入力側で受信されたビデオデータ10は符号器の同時に働く3つのアームに供給される。1つ目のアームでは受信データは間引き率4のデシメーション(decimation)12を受け、2つ目のアームではデータは間引き率2のデシメーション11を受け、そして最後のアームでは受信データはサブサンプリングされることなくデシメーションは一切受けない。
(ii)動画像列は、まず最初に、ウェーブレット係数の形のテクスチャ情報を生成するために使用されるMCTF(motion-compensated temporal transform、動き補償時間方向フィルタ)131を用いて基本空間フォーマット(QCIF)で符号化される(ここでは簡単のため、動画像列の動き情報を処理するためのモジュールは示されていないことに留意する)。変換係数(transformed coefficeints)は同じ空間レベルの他の係数に関連して予測符号化191された後、スケーラブル・エントロピー符号化211に送られる。基本(base)空間解像度レベルを表すスケーラブル・サブストリーム(サブビットストリーム84)がトータルビットレートR_r0_maxで得られる。ここでr0は空間レベルを表し、maxは関連するビットレート・歪曲線の最高ビットレートポイントを示す。
より高い空間符号化レベルの予測に使用されるビットレートポイントP_predは予測ポイント抽出モジュール82によって符号化スケーラブル・サブストリーム(encoded scalable sub-stream)から抽出される。ポイントP_predのビットレートはビットレートR_r0_maxよりも低い。
抽出されたサブストリームは、より高い空間解像度レベルの予測192に使用されるよう、復号・補間201される。スケーラブル・サブストリーム84は、最終的なストリーム83を形成するために全ての空間解像度レベルの全てのサブストリームを編成する役割を担うマルチプレクサ(multiplexer)22に送られる。
(iii)次に、ビデオ(動画像列)は、MCTF(motion-compensated temporal transform、動き補償時間方向フィルタ)132を用いてより高い空間解像度(CIF)で符号化される。ここでも変換係数は同じ空間レベル(CIF)のウェーブレット係数または下位の空間レベルから来る補間信号(interpolated signal)201の係数を用いて予測192される。予測192の次はスケーラブル・エントロピー符号化212である。空間解像度レベルr1を表すスケーラブル・サブストリーム85は最大ビットレートR_r1_maxで得られる。このサブストリーム85はマルチプレクサ22に送られる。次により高い空間レベルの予測に使用されるビットレートポイントは符号化サブストリーム85から予測ポイント抽出モジュール81によって抽出され、補間202される。
より高い空間レベルに対しても、最後の空間レベルに対しては予測ポイントは抽出されないことを除いて、同じ手続きが実行される。
図9に図8の符号器によって生成されるデータを示す。特に本例では、2つの異なる空間解像度レベルのみ、すなわちQCIFおよびCIFのみ、を考える(言い換えると、議論される要素は図8の符号器の2つの下位アームから来てそれぞれ入力ビデオデータ10の間引き率2と4のデシメーションを受けたサブストリームのみである)。
ある空間解像度レベル(QCIFおよびCIF)の各データレイヤごとに、データは複数のサブレイヤ−1つの基本レイヤBLと、その後に続く第1のエンハンスメント・レイヤ(エンハンスメント・レイヤ1あるいはEL1)と第2のエンハンスメント・レイヤ(エンハンスメント・レイヤ2あるいはEL2)−に編成される。最初の2つのサブレイヤ(BLおよびEL1)は符号化段階ではより高い空間レベルの予測に使用され、復号段階では現空間レベルとそれより高い空間レベルのポイントの再生に使用される。
それに対し、第2のエンハンスメント・サブレイヤ(EL2)は現空間レベルのポイントの再生のみに使用される。この第2のエンハンスメント・サブレイヤはデッド・サブストリーム(dead sub-stream)を表す。
図9は、各データレイヤが、本発明が提案する追加のサブストリームEL2に加えて、少なくとも1つのエンハンスメント・サブレイヤEL1を含む、実施形態の特別な例を示していることに注意する。無論、特定の空間レベルの特定のデータレイヤが基本サブストリームBL(本発明はこれにデッド・サブストリームを単一のエンハンスメントサブレイヤELで追加する)の形でのみ符号化されることも可能である。
デッド・サブストリームが符号器によって所与の空間解像度nのデータレイヤに追加されるとき、このことは復号時にそのデッド・サブストリームが活用できるように特定の情報をトータルデータストリームに挿入することによって報告される必要がある。
ここでは次に、トータルデータストリームにおけるデッド・サブストリームの存在に関する特定の情報を挿入する例を提示する。まず最初に、MPEG−21のSVMの枠組みで提案されたデータストリームの構造を思い起こす。
SVMの実装では、ストリームはNAL(network adaptation layers)と呼ばれる情報エンティティとして構造化される。NALはH264標準(ITU-T and ISO/IEC JTC1, "Advanced Video Coding for Generic Audiovisual Services," ITU-T Recommendation H.264-ISO/IEC 14496-10 AVC, 2003)に準拠した搬送単位(transportation unit)である。これはヘッダおよび整数バイトのデータバイト(“ペイロード(payload)”とも称される)を含むパケットである。
NALのヘッダはNALのタイプを限定するために使用することができるタイプバイト(type byte)を含む。ペイロードデータフィールドは、サブバンド画像または画像の一部に対する、空間レベル、時間レベルおよび品質レベル(基本レベルまたはFGSレベル)の符号化に対応するストリームを搬送するために使用される。SVMシンタックス(syntax)では、NALはいくつかのタイプに分かれることがある。特に、タイプ20と21は、そのサブストリームが画像(イントラまたは非イントラ)のエンハンスメント・サブストリームであるNALを記述するために確保されている。
デッド・サブストリームのストリームへの導入は図9を参照してここで既に説明した追加のエンハンスメント・サブストリーム(サブレイヤEL2)の導入に相当することから、このデッド・サブストリームはNALで送信される。VMSのシンタックスによってその用途がまだ指示されていないあらゆるNALタイプ(例えばタイプ22または23)はデッド・サブストリームを搬送するNALを指定するために使用することが可能である。
本発明の別の代わりの実施形態では、レベルnのレイヤのデッド・サブストリームと、存在する場合にはエンハンスメント・サブストリームを、同じNALで搬送することを想定することも可能である。言い換えると、サブレイヤEL1およびEL2は同じNALに一緒にグループ化され、追加の情報はサブストリームEL1およびEL2の間のブレークポイント(区切り点)がNALのどこに位置するかを示す。
図10と図11を参照する以下の記述は、エクストラクタ(extractor)とも呼ばれる、画像品質適応モジュールの動作原理を中心とする。斯かるエクストラクタは符号器の出力の直後、復号器の直前、またはカスタマがそれを通じて符号化データストリームにアクセスする伝送ネットワークの任意のポイントに配置できることを思い起こされたい。このエクストラクタのおかげで、トータルストリームから、最終的なカスタマにとって不要な特定のデータを抽出することができる。より具体的には、SVMのエクストラクタは各NALの特性(空間レベルと時間レベル、FGS)を調べ、所与のビットレートおよび所与のフォーマット(または空間時間解像度)での復号に使用されるNALを保持またはトランケート(truncate、切り捨て)する。
本発明によれば、デッド・サブストリームを導入することで、エクストラクタによるNALのヘッダの読み出し(reading)は次のように修正される。
nivSpatialDecを復号で要求される空間解像度のレベル、
nivSpatialNALを現NALの空間解像度レベル、
typeNALを現NALのタイプとすると、
If((typeNAL==22 || typeNAL==23)and nivSpatialDec == nivSpatialNAL)[Extraction of the NAL]
言い換えると、エクストラクタの働きは、トータルデータストリームから、復号で達成されるべき空間解像度レベルのデッド・サブストリームを搬送するNALも抽出するように修正される。図10および図11に、2つの連続する空間解像度のレベルCIFおよびQCIFのみを考えたときに、それぞれCIFおよびQCIFフォーマットの動画像列を抽出するための2つの抽出例を提示する。
CIFフォーマットでの画像の再生に、復号器は2つの空間レベルの基本サブストリーム(BL QCIFおよびBL CIF)、2つの空間レベルの第1のエンハンスメント・レイヤ(エンハンスメント・レイヤEL1 QCIFおよびエンハンスメント・レイヤEL1 CIF)、並びにCIFレベルの第2のエンハンスメント・レイヤ(エンハンスメント・レイヤEL2 CIF)を使用する。このとき、エクストラクタは、トータルストリームから、図10に示された1セットのサブレイヤをそれらを修正ストリーム(modified stream)に挿入するためにこの順序で抽出しなければならない。そのポイントの再生に使用されるビットレートに応じて、異なるサブレイヤが復号されることがある。すなわち、対応するサブストリームは一部分のみトランケート(truncate、切り捨て)されることがある(例えば、エンハンスメント・サブストリームEL1 CIFの部分的復号、そして本ケースではデッド・サブストリームEL2 CIFはビットレートがそれを許さないときは使用されない)。
QCIFフォーマットでの再生に、復号器は、図11に示すように、QCIFレベルの基本サブストリーム(基本レイヤBL QCIF)、QCIFレベルの2つのエンハンスメント・サブストリーム(エンハンスメント・レイヤEL1 QCIFおよびエンハンスメント・レイヤEL2 QCIF)を使用する。この場合も同じように、異なるレイヤBL QCIF、EL1 QCIFおよびEL2 QCIFがQCIFフォーマットでの画像の再生に割り当てられたビットレートに応じてトランケート(truncate、切り捨て)されることがある。
図18に斯かるエクストラクタまたは品質抽出モジュールの単純化された構造を示す。このエクストラクタまたは画像品質抽出モジュールは、メモリM180と、例えばマイクロプロセッサを搭載しておりコンピュータプログラムPg182によって駆動される処理装置181とから構成される。初期化の際、コンピュータプログラム182のコード命令が処理装置181のプロセッサで実行される前に例えばRAMにロードされる。処理装置181は入力側において、連続する解像度レベルnの階層構造に従って編成された圧縮データストリーム(compressed data stream)83を受信する。データストリーム83から、マイクロプロセッサμPは、コンピュータプログラムPg182の命令に従って、(例えば目標端末の特性と所望の再生品質に応じて)復号で使用されない全てのサブストリームを抽出する。処理装置181は、カスタマ端末の処理能力または伝送ネットワークの制約条件に適応した修正されたデータストリーム183を出力する。
デッド・サブストリームがタイプ22または23タイプNAL(typeNAL)によって搬送される本発明の代わりの実施形態では、MEPG−21SVMモデルのコンテクストで提案された復号器は次のようにタイプ22または23モジュールを復号するよう修正されなければならない。
If (typeNAL == 20 || typeNAL == 21 || typeNAL == 22 || typeNAL == 23) [Decode NAL]
ここでは次に、図12〜図16を参照して、デッド・サブストリームの挿入に加えて、空間レイヤにおける画像品質の適応選択を実行する本発明の実施の一形態を説明する。連続するレベルnのデータレイヤにおける画像品質の適応選択のおかげで、復号で達成されるべき各ビットレートポイントごとに、最適な抽出経路、すなわちビットレート・歪の点でポイントのベストな再構築を実現する経路、を指定することができる。本発明の本変形は情報セルをトータルストリームに指定・挿入することに基づく。
適応型抽出経路を使用することで以下のように本発明の抽出技術が更に改善される。
・各空間時間解像度レベルNごと(すなわち各ビットレート/歪曲線ごと)のいくつかのビットレートポイントに対して、最小値QNminと最大値QNmaxの間に含まれるそれらの品質を表す値の計算が行われる。この計算は、
・・各空間解像度レイヤの符号化の時点、または、
・・異なる空間レベルの全てのレイヤの符号化の後、
のいずれかで行われる。
・トータルストリームに、復号作業に先立つ抽出においてこの品質測定値を取り出すことを可能にする情報が挿入される。これは、
・・この情報を符号化ストリーム自体のデータエンティティ、すなわち基本ストリームまたはエンハンスメント・サブストリームを搬送するNAL、に挿入することによって、または、
・・この情報を符号化ストリームのデータエンティティとは別のエンティティに挿入することによって、
のいずれかで行われる。
・空間レベルnの品質Qに相当するビットレートポイントRの抽出の時に、nより低いレベルのデッド・サブストリームが使用されないようにして、この品質に相当するデータエンティティがn以下の全ての空間レベルに対して抽出される。
従って、本変形によれば、各画像ごとに独立なサブストリームが生成される。これらのサブストリームの各ストリームは、各画像ごとに、所与の画像品質および/またはビットレートを取得することを可能にするトランケーション(打ちきり:truncation)ポイントを決定するために走査される。最終的なストリームはそれゆえある一定量の画像品質“レベル”から成る。
図12に最適な抽出経路の適用に基づく本発明の本変形によって引き起こされる予測/抽出メカニズムの修正点をより詳しく示す。この場合も同様に、ここでの説明は2つの連続する空間時間解像度QCIFおよびCIFの特別なコンテクストで行われる。本説明ではこれら2つのレベルに関連するビットレート/歪曲線を考える。図中、x軸はビットレート(kbps)、y軸はPSNR(dB)を示している。
レベルN−1(QCIF)曲線30上の利用可能な4つのポイントP1、P2、P3およびP4を考える。これら4つのポイントP1〜P4はレベルN曲線(CIF)に対する可能な予測変数(predictors)と見なされる。
従って、ポイントP1は、予測によって、曲線C1を得るために使用することができる。それに対し、曲線C2とC3はそれぞれポイントP2とP3から予測によって導き出される。曲線31はQCIFレベルの最大ビットレートポイントP4から予測によって得られる曲線に対応し、それゆえ、先行技術のMPEG−21SVM符号器から得られるCIFレベル曲線を表す。
異なる曲線C1〜C3から、QCIF曲線30の、各目標ビットレートに対応する、(ビットレート/歪の意味で)ベストな予測ポイントを選択することが可能である。例えば、ビットレート128kbpsにおける最小歪みは曲線C1上で得られ、その結果、128kbpsビットレートポイントが予測ポイントP1からベストに予測される。同様に、192kbpsビットレートポイントの最小歪みは曲線C3上で得られ、その結果、このビットレートポイントは予測ポイントP3からベストに予測される。
このようにして、上記アルゴリズム(符号器で使用されるものとは異なる場合がある)に従って理解されるように、レベルN(CIF)曲線のポイントによって、そして(QCIF)レベルN−1曲線のその最適予測変数(optimal predictor)によって形成される“品質(quality)”曲線が得られる。
最適処理経路は符号器レベルにおける追加の処理ステップによって決定される。既にここで示したように、このステップは符号化の際に実行することができる、あるいはそれはデータ符号化/圧縮作業の後に実行されるので符号器とは独立している場合がある。
次に、図13を参照して、符号器またはポストプロセッサにおいて実行されるビットレートポイントに関連する品質の計算の例をより詳しく説明する。
NALで配信される複数の品質レベル(すなわち基本レベルおよび1つ以上のエンハンスメントレベルまたは改善レベル)に細分(sub-divide)される利用可能な1セットの“画像”(残差であろうがなかろうが)を用意する。NAL Niは歪みDi nに対するビットレートRi nを生成する(主にエンハンスメント・サブストリームに適用される)サブポイントniでトランケート(truncate)されると仮定する。また、単純化のため、歪み(distortion)の測定値は加法的であると仮定する。
議論される空間時間解像度レベルに対して達成可能な最大ビットレートの制約条件付きで、歪みを最小化するために、画像のNALをi個のポイントniλに再分割する最適な方法が探索される。そのために画像における次の量を最小化する試みがなされる。
Figure 2008527870
実際には、一定数の可能なトランケーション・ポイント(例えばk個のポイント、しかしエントロピー符号器の各ラン(run)の最後は余りが出るように(non-exhausitively))が各NALごとに指定される。
図13に示すように、画像全体に対して1セットの情報エンティティNALから得られるポイントの集団130を考える。図中、x軸はビットレートを表し、y軸は歪みを表している。最初に、議論される空間時間解像度のビットレート・歪曲線に属するこの集団のポイント130は特に文書David Taubman著"High Performance Scalable Image Compression with EBCOT"に記述された技術に基づいて決定される(詳細はこの文書を参照されたい)。それゆえ所与の空間時間解像度のこれらのポイントが含まれる凸包131の探索が行われる。
λの所与の値に対して、すなわち所与の品質(quality)に対して、アルゴリムは次のようになる。
Figure 2008527870
次に、曲線の各特定されたポイントごとに、ビットレート値ΔRi jおよびこのポイントにおける勾配の値Si j=ΔRi j/ΔDi jが記憶される。
これらの異なる品質レベルが復号の際に活用できるようにするため、すなわち、達成すべき品質レベルに関係する特定のポイントにおいてNALのトランケーション(truncation)を行うことができるようにするため、デッド・サブストリームを特定する情報に加えて、これらの品質レベルの特定を可能にする、第2の特定の情報をトータルデータストリームに記録することが必要である。
このために、本発明は2つの実施形態を提案する。1つの実施形態では、トランケーション(truncation)ポイントを設定するときに選ばれるポイントに関連するペア(ビットレート、品質)がデータNAL(すなわち、基本サブストリームとエンハンスメント・サブストリームを搬送するNAL)に直接記憶される。もう1つの実施形態では、これらのペアは情報NALと呼ばれる特定のNALに記録される。あるポイントに関連する品質Qiは勾配Si jの関数(Qi=f(Si j))として計算される。
図14に示した第1の実施形態では、データNAL140のヘッダ141とペイロードデータフィールド142との間に疑似ヘッダ(pseudo header)143が挿入される。この疑似ヘッダ143は、図13のtroncatureポイントの探索の際に特定される異なる品質レベルに関するポインタを(例えばオフセット値の形で)含む。ポインタ(オフセット)はビットレート値に相当し、品質の値Q1、Q2〜Q4に対応するとともに、図14においてペイロードデータフィールドを指す矢印によって表される。
図5に示した第2の実施形態は、トータルストリームのデータNAL151内の品質レベルの特定を可能にする、情報NAL150として知られる新しいタイプのNALを使用する。データNAL151と同様に、この種の情報NAL150は、ヘッダ152とペイロードデータフィールド153を含む。例えば、10個の異なる品質レベルQ1〜Q10を提案することが望まれるときには、ペイロード153に10個の整数を含む情報NALが構築される。各整数はデータNAL151のペイロードデータフィールド154におけるオフセットを示す。
動画像列を品質レベルQextで再生することが望まれるときには、必要なデータがトータル圧縮ストリームから抽出される。このために、エクストラクタ(または画像品質適応モジュール)は、各NALごとに、レベルQextに最も近い品質レベル(すなわち品質Qext以下の品質レベル)の探索を実行する。
図16に連続する品質レベルにおける画像の構造の一例を示す。7つの画像161〜至167を考える。最初の3つの画像161〜163はQCIF解像度フォーマットにあり、最後の4つの画像164〜167はCIFフォーマットにある。これらの画像の各画像は、基本サブストリームBL168、第1のエンハンスメント・サブストリームEL1 169、およびデッド・サブストリームに対応する第2のエンハンスメント・サブストリームEL2 170の形で符号化される。5つの連続する品質レベル171〜175はこれらの画像の各画像内で区別することができる。これらの品質レベルは画像再生データを搬送する情報エンティティまたはNALのトランケーション(truncation)ポイントに対応する。
図16から分かるように、最低品質レベル171は基本サブストリームBL168に対応する。第1のエンハンスメント・サブストリームEL1を復号することで中間品質レベル173を達成することができ、デッド・サブストリームEL2 170を復号することで最大品質レベル175を達成することが可能となる。
従って、CIF復号には、エクストラクタから要求される品質がQext=3であれば、下位3つの品質レベル171、172および173が各画像に全部使用される。これとは対照的に、エクストラクタから要求される品質がQext=4であれば、下位3つの品質レベル171、172および173が各CIFおよびQCIFサブバンドごとに全体的に復号され、CIFに対しては品質レベル174も復号される。
品質レベルに基づくこの代わりの実施形態では、エクストラクタまたは画像品質適応モジュールは情報エンティティのトランケーション(truncation)を再生に望まれる品質レベルに対する最適ポイントにおいて実行する(このトランケーションは画像またはサブバンドによって適応的であることに留意する)。それゆえ復号器は“ベスト”ポイントで事前にトランケートされたNALを受信し、それに対して行うべき残りの全ては動画像列を再生するために復号することである。
図19にこの種の復号器(デコーダ)の単純化した構造を示す。この復号器は、メモリM190と、例えばマイクロプロセッサを搭載しておりコンピュータプログラムPg192によって駆動される処理装置191とから構成される。初期化の際、コンピュータプログラム192のコード命令が処理装置191のプロセッサで実行される前に例えばRAMにロードされる。処理装置191は、入力側で、復号すべき1セットのデータパケットまたは情報エンティティ、例えば達成すべき再生品質に応じて最適なビットレートポイントで切り捨てられた1セットのNALを受信する。処理装置191のマイクロプロセッサμPは、プログラムPg192に命令に従って、受信された情報エンティティ183を復号する。処理装置191はカスタマの表示端末の処理能力に適応した再生された動画像列193を出力する。
先行技術に関連して述べた、MPEG−21ワーキンググループのSVMモデルに係る、本明細書に記載の文書N6716に記述されたMPEG−21SVCのブロック図である。 先行技術に関連して述べた、MPEG−21ワーキンググループのSVMモデルに係る、図1の符号器から得られる異なるビットレート・歪曲線を示す図である。 先行技術に関連して述べた、MPEG−21ワーキンググループのSVMモデルに係る、図2と同じタイプのビットレート/歪曲線を基礎にしてMPEG−21のSVMモデルによって提案された予測/抽出メカニズムを説明するための図である。 先行技術に関連して述べた、MPEG−21ワーキンググループのSVMモデルに係る、図1の符号器によるデータレイヤの処理の順序を示す図である。 先行技術に関連して述べた、MPEG−21ワーキンググループのSVMモデルに係る、MPEG標準に定められた埋込抽出経路の原理を説明するための図である。 先行技術に関連して述べた、MPEG−21ワーキンググループのSVMモデルに係る、復号に先立つ抽出におけるデータレイヤの処理の順序を示す図である。 ビットレート・歪曲線の形で、解像度レベルnにおけるデッド・サブストリームの挿入原理を説明するための図である。 本発明の符号器のブロック図である。 図8の符号器によって実行されるデータの、デッド・サブストリームが挿入される編成を示す図である。 CIFおよびQCIFフォーマットからの抽出の一例を示す図である。 CIFおよびQCIFフォーマットからの抽出の別の例を示す図である。 デッド・サブストリームに加えて、画像がその再生の際に使用される連続する品質レベルに細分される本発明の実施の一形態による、図3の予測/抽出メカニズムの変更点を説明するための図である。 デッド・サブストリームに加えて、画像がその再生の際に使用される連続する品質レベルに細分される本発明の実施の一形態による、画像に関連するサブストリームにおけるトランケーション(truncation)ポイントの設定原理を説明するための図である。 デッド・サブストリームに加えて、画像がその再生の際に使用される連続する品質レベルに細分される本発明の実施の一形態による、ストリームに挿入された品質情報を搬送する情報エンティティまたはNALの構造の一例を示す図である。 デッド・サブストリームに加えて、画像がその再生の際に使用される連続する品質レベルに細分される本発明の実施の一形態による、ストリームに挿入された品質情報を搬送する情報エンティティまたはNALの構造の別の例を示す図である。 デッド・サブストリームに加えて、画像がその再生の際に使用される連続する品質レベルに細分される本発明の実施の一形態による、連続する品質レベルにおける画像の構造の一例を示す図である。 本発明の符号器の略構成図である。 本発明の画像品質適応モジュールの略構成図である。 本発明の復号器の略構成図である。

Claims (14)

  1. 画像または画像列を符号化するための符号化方法であって、
    nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有するデータストリームを生成し、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤを、少なくとも前記レベルnレイヤから予測符号化するステップを含み、
    前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、このとき、
    当該符号化方法は更に、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記解像度レベルnにおいて前記画像を前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームを符号化するとともに、
    前記レベルnレイヤの前記デッド・サブストリームは、nとは異なるレベルの前記レイヤの前記予測符号化ステップには使用されない、ことを特徴とする符号化方法。
  2. 前記レベルnデータレイヤは、前記解像度レベルnで前記画像を基本品質で再生することを可能にする少なくとも1つの基本サブストリームと、前記レベルnデータレイヤの少なくとも1つのレイヤに対しては、前記基本品質の画像の精細化を可能にする少なくとも1つのエンハンスメント・サブストリームと、の形で符号化されるとともに、
    前記所定の最大品質は、
    前記エンハンスメント・サブストリームが符号化されない場合は、前記基本品質であり、
    少なくとも1つのエンハンスメント・サブストリームが符号化される場合は、前記少なくとも1つの上位品質である、ことを特徴とする請求項1に記載の符号化方法。
  3. 前記データストリームに、このデータストリーム内の前記少なくとも1つのデッド・サブストリームを識別するために使用される少なくとも1つの情報を挿入する第1のステップを更に含むことを特徴とする請求項1または2に記載の符号化方法。
  4. 前記画像の少なくとも一部の画像に対して、前記データストリームに、前記レイヤの少なくとも一部のレイヤの少なくとも一部のデータに関連する再生品質に関する少なくとも1つの情報を挿入する第2のステップを更に含み、前記再生品質は少なくとも1つのビットレート/歪みパラメータの関数であることを特徴とする請求項1から3のいずれかに記載の符号化方法。
  5. 画像または画像列を符号化するための符号器であって、
    nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有するデータストリームを生成するための手段と、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤを、少なくとも前記レベルnレイヤからの予測によって符号化するための手段と
    を含み、
    レベルnの前記データレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、このとき、
    当該符号器は、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記解像度レベルnにおいて前記画像を前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームを符号化するための手段を更に含み、
    前記レベルnレイヤの前記デッド・サブストリームはnとは異なるレベルの前記レイヤの予測による前記符号化手段には使用されない、ことを特徴とする符号器。
  6. 前記レベルnレイヤ内から、前記レベルn+1レイヤの予測符号化の際に考慮しなければならないデータの抽出を可能にする予測ポイント抽出モジュールを更に含むことを特徴とする請求項5に記載の符号器。
  7. 画像または画像列を表すデータストリームを復号するための復号方法であって、
    前記データストリームは、nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有し、
    前記データストリームの前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤは、少なくとも前記レベルnレイヤから予測符号化されており、このとき、
    前記データストリームは、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記解像度レベルnにおいて前記画像を前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームを含み、
    当該復号方法は、前記解像度レベルnで前記画像を再生するため、
    nより低いレベルの前記データレイヤを復号するステップと、
    許された復号ビットレートに応じて、前記レベルnレイヤと、場合によっては、前記レベルnレイヤの前記デッド・サブストリームを、少なくとも部分的に復号するステップとを含み、
    nより低いレベルの前記レイヤの前記デッド・サブストリームは前記再生の際に復号されない、ことを特徴とする復号方法。
  8. 画像または画像列を表すデータストリームを復号するための復号器であって、
    前記データストリームは、nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有し、
    前記データストリームの前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤは、少なくとも前記レベルnレイヤから予測符号化されており、このとき、
    前記データストリームは、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記解像度レベルnにおいて前記画像を前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームを含み、
    当該復号器は、前記解像度レベルnで前記画像を再生するため、
    nより低いレベルの前記データレイヤを復号するための手段と、
    許された復号ビットレートに応じて、前記レベルnレイヤと、場合によっては、前記レベルnレイヤの前記デッド・サブストリームを、少なくとも部分的に復号するための手段とを含み、
    nより低いレベルの前記レイヤの前記デッド・サブストリームは前記再生の際に復号されない、ことを特徴とする復号器。
  9. 画像または画像列を表すデータストリームを伝送するための信号であって、
    前記データストリームは、nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有し、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤは、少なくとも前記レベルnレイヤから予測符号化されており、
    前記データストリームの前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、
    当該信号は、前記データストリームがその中で搬送される情報エンティティの形で構造化されており、
    前記情報エンティティの各エンティティは、前記情報エンティティのタイプに関する情報を提供するヘッダと、ペイロードデータフィールドとを含み、このとき、
    当該信号は、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記画像を前記解像度レベルnにおいて前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームも搬送し、
    レベルnの前記デッド・サブストリームはnとは異なるレベルの解像度での前記画像の再生には使用されない、ことを特徴とする信号。
  10. 当該信号は、前記ストリームの少なくとも一部のデータに関連する再生品質に関する少なくとも1つの情報を含む特定のタイプの少なくとも1つの情報エンティティを更に含み、前記再生品質は少なくとも1つのビットレート/歪パラメータに依存する、ことを特徴とする請求項9に記載の信号。
  11. マイクロプロセッサによって実行されるときに請求項1から4のいずれかに記載された符号化方法を構成するステップを実行するためのプログラムコード命令を含むコンピュータプログラム。
  12. マイクロプロセッサによって実行されるときに請求項7に記載された復号方法を構成するステップを実行するためのプログラムコード命令を含むコンピュータプログラム。
  13. 画像または画像列の品質を適応させるための画像品質適応モジュールであって、
    当該適応モジュールには、画像または画像列を表すソースデータストリームが供給され、
    前記データストリームは、nを整数として各レベルnが前記画像の所定の解像度に対応する連続するレベルnの埋込データレイヤの階層構造を有し、
    前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤは、少なくとも前記レベルnレイヤから予測符号化されており、このとき、
    前記ソースデータストリームは、前記レベルnデータレイヤの少なくとも1つのレイヤに対し、前記画像を前記解像度レベルnにおいて前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームを含み、
    当該適応モジュールは、少なくとも1つの端末が前記画像を表示することを意図して修正されたデータストリームを生成するための手段を含み、
    前記修正されたデータストリームは、前記ソースデータストリームから、前記少なくとも1つの表示端末が前記画像を前記解像度レベルnで再生しない場合には前記レベルnデッド・サブストリームを抽出することによって得られる、ことを特徴とする画像品質適応モジュール。
  14. 画像または画像列を表す少なくとも1つのデータストリームを含むデータ搬送波であって、
    当該データ搬送波は、nを整数として各レベルnが前記画像の所定の解像度に対応する前記データストリームの連続するレベルnの埋込データレイヤを階層的に格納するための構造を有し、
    レベルn+1の、前記レイヤの少なくとも1つのレイヤは、少なくとも前記レベルnレイヤから予測符号化されており、
    前記ストリームの前記レベルnデータレイヤの各レイヤは前記解像度レベルnにおいて前記画像を所定の最大品質で再生することを可能にし、このとき、
    当該データ搬送波は、前記レベルnデータレイヤの少なくとも1つに対し、前記画像を前記解像度レベルnにおいて前記所定の最大品質より高い品質で再生することを可能にするデッド・サブストリームと呼ばれる少なくとも1つのサブストリームを格納するための少なくとも1つのゾーンを更に含み、
    レベルnの前記デッド・サブストリームの前記格納ゾーンはnとは異なるレベルの解像度で前記画像を再生する際には読み出されない、ことを特徴とするデータ搬送波。
JP2007550726A 2005-01-12 2005-12-20 画像データストリームをスケーラブル符号化および復号するための装置および方法、信号、コンピュータプログラム、および画像品質適応モジュール Active JP5042856B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0500331 2005-01-12
FR0500331A FR2880743A1 (fr) 2005-01-12 2005-01-12 Dispositif et procedes de codage et de decodage echelonnables de flux de donnees d'images, signal, programme d'ordinateur et module d'adaptation de qualite d'image correspondants
PCT/EP2005/056986 WO2006074855A1 (fr) 2005-01-12 2005-12-20 Dispositifs et procedes de codage et de decodage echelonnables de flux de donnees d'images, signal, programme d'ordinateur et module d'adaptation de qualite d'image correspondants

Publications (2)

Publication Number Publication Date
JP2008527870A true JP2008527870A (ja) 2008-07-24
JP5042856B2 JP5042856B2 (ja) 2012-10-03

Family

ID=34952769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007550726A Active JP5042856B2 (ja) 2005-01-12 2005-12-20 画像データストリームをスケーラブル符号化および復号するための装置および方法、信号、コンピュータプログラム、および画像品質適応モジュール

Country Status (12)

Country Link
US (1) US8315315B2 (ja)
EP (1) EP1839442B1 (ja)
JP (1) JP5042856B2 (ja)
KR (1) KR101291555B1 (ja)
CN (2) CN101120591B (ja)
AT (1) ATE458355T1 (ja)
BR (1) BRPI0519842B1 (ja)
DE (1) DE602005019473D1 (ja)
ES (1) ES2341178T3 (ja)
FR (1) FR2880743A1 (ja)
PL (1) PL1839442T3 (ja)
WO (1) WO2006074855A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522588A (ja) * 2013-03-11 2016-07-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 階層符号化を用いたマルチフォーマットハイダイナミックレンジビデオの配信
JP2017011574A (ja) * 2015-06-24 2017-01-12 株式会社ドワンゴ 動画データ配信管理装置、動画データ配信管理方法、プログラム

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070230567A1 (en) * 2006-03-28 2007-10-04 Nokia Corporation Slice groups and data partitioning in scalable video coding
FR2903556B1 (fr) * 2006-07-04 2008-10-03 Canon Kk Procedes et des dispositifs de codage et de decodage d'images, un systeme de telecommunications comportant de tels dispositifs et des programmes d'ordinateur mettant en oeuvre de tels procedes
US9380101B2 (en) * 2007-03-30 2016-06-28 Orange Method of managing a plurality of audiovisual sessions in an IP network, and an associated control system
CN101842811B (zh) * 2007-11-02 2012-05-23 高等技术学校 用于预测经过通过缩放以及质量控制参数的改变而转换的图像的文件大小的系统和方法
US8270739B2 (en) 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
CN101686383B (zh) * 2008-09-23 2013-05-01 Utc消防和保安美国有限公司 通过网络传输媒体的方法及系统
US8300961B2 (en) * 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
US9485299B2 (en) * 2009-03-09 2016-11-01 Arris Canada, Inc. Progressive download gateway
US9197677B2 (en) * 2009-03-09 2015-11-24 Arris Canada, Inc. Multi-tiered scalable media streaming systems and methods
US8514931B2 (en) * 2009-03-20 2013-08-20 Ecole Polytechnique Federale De Lausanne (Epfl) Method of providing scalable video coding (SVC) video content with added media content
CA2711311C (en) * 2009-08-10 2016-08-23 Seawell Networks Inc. Methods and systems for scalable video chunking
US20110149753A1 (en) * 2009-12-21 2011-06-23 Qualcomm Incorporated Switching between media broadcast streams having varying levels of quality
US8190677B2 (en) 2010-07-23 2012-05-29 Seawell Networks Inc. Methods and systems for scalable video delivery
CN101977305A (zh) * 2010-10-27 2011-02-16 北京中星微电子有限公司 一种视频处理方法及装置和系统
CN103250411B (zh) * 2010-11-25 2016-10-19 飞思卡尔半导体公司 用于可伸缩视频编码系统内的位速率控制的方法及其系统
US9712887B2 (en) 2012-04-12 2017-07-18 Arris Canada, Inc. Methods and systems for real-time transmuxing of streaming media content
US10085017B2 (en) * 2012-11-29 2018-09-25 Advanced Micro Devices, Inc. Bandwidth saving architecture for scalable video coding spatial mode
WO2014134452A1 (en) 2013-02-28 2014-09-04 Robert Bosch Gmbh Mobile electronic device integration with in-vehicle information systems
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
US9484044B1 (en) * 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
KR102349788B1 (ko) * 2015-01-13 2022-01-11 인텔렉추얼디스커버리 주식회사 영상의 부호화/복호화 방법 및 장치
CN105959731B (zh) * 2016-04-28 2019-02-05 西安交通大学 一种数字电视的统计复用编码方法
GB2553086B (en) * 2016-07-20 2022-03-02 V Nova Int Ltd Decoder devices, methods and computer programs
EP3451672A1 (en) * 2017-08-29 2019-03-06 Nokia Solutions and Networks Oy Method and device for video content encoding optimisation in adaptive streaming systems
WO2019045737A1 (en) 2017-08-31 2019-03-07 General Electric Company CODING VOLUMETRIC DATA TO SUPPORT THE DELIVERY OF TRUSTED TRANSACTIONS
EP4366306A1 (en) * 2021-08-12 2024-05-08 Huawei Technologies Co., Ltd. Image encoding method and apparatus, and image decoding method and apparatus
CN115733987A (zh) * 2021-08-30 2023-03-03 华为技术有限公司 编解码方法、编码器、解码器及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233017B1 (en) * 1996-09-16 2001-05-15 Microsoft Corporation Multimedia compression system with adaptive block sizes
US6480541B1 (en) * 1996-11-27 2002-11-12 Realnetworks, Inc. Method and apparatus for providing scalable pre-compressed digital video with reduced quantization based artifacts
US6728775B1 (en) * 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
US6731811B1 (en) * 1997-12-19 2004-05-04 Voicecraft, Inc. Scalable predictive coding method and apparatus
US6275531B1 (en) * 1998-07-23 2001-08-14 Optivision, Inc. Scalable video coding method and apparatus
US6639943B1 (en) * 1999-11-23 2003-10-28 Koninklijke Philips Electronics N.V. Hybrid temporal-SNR fine granular scalability video coding
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6816194B2 (en) * 2000-07-11 2004-11-09 Microsoft Corporation Systems and methods with error resilience in enhancement layer bitstream of scalable video coding
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
EP1319309B1 (en) * 2000-09-22 2006-11-22 Koninklijke Philips Electronics N.V. Hybrid temporal-snr fine granular scalability video coding
US7463683B2 (en) * 2000-10-11 2008-12-09 Koninklijke Philips Electronics N.V. Method and apparatus for decoding spatially scaled fine granular encoded video signals
US6907070B2 (en) * 2000-12-15 2005-06-14 Microsoft Corporation Drifting reduction and macroblock-based control in progressive fine granularity scalable video coding
US20020118742A1 (en) * 2001-02-26 2002-08-29 Philips Electronics North America Corporation. Prediction structures for enhancement layer in fine granular scalability video coding
US6917713B2 (en) * 2002-05-29 2005-07-12 Koninklijke Philips Electronics N.V. System and method for enhancing videos from drift-free scalable bitstream
US7844992B2 (en) * 2003-09-10 2010-11-30 Thomson Licensing Video on demand server system and method
US20060012719A1 (en) * 2004-07-12 2006-01-19 Nokia Corporation System and method for motion prediction in scalable video coding
US7616824B2 (en) * 2004-12-08 2009-11-10 Ecole Polytechnique Fédérale de Lausanne (EPFL) CM - Ecublens Method for spatially scalable video coding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522588A (ja) * 2013-03-11 2016-07-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 階層符号化を用いたマルチフォーマットハイダイナミックレンジビデオの配信
US11146803B2 (en) 2013-03-11 2021-10-12 Dolby Laboratories Licensing Corporation Distribution of multi-format high dynamic range video using layered coding
JP2017011574A (ja) * 2015-06-24 2017-01-12 株式会社ドワンゴ 動画データ配信管理装置、動画データ配信管理方法、プログラム

Also Published As

Publication number Publication date
US20090016434A1 (en) 2009-01-15
CN102065295A (zh) 2011-05-18
DE602005019473D1 (de) 2010-04-01
EP1839442A1 (fr) 2007-10-03
KR20070102547A (ko) 2007-10-18
ATE458355T1 (de) 2010-03-15
PL1839442T3 (pl) 2010-07-30
CN101120591B (zh) 2011-01-19
BRPI0519842B1 (pt) 2018-12-04
FR2880743A1 (fr) 2006-07-14
CN101120591A (zh) 2008-02-06
ES2341178T3 (es) 2010-06-16
BRPI0519842A2 (pt) 2009-03-17
EP1839442B1 (fr) 2010-02-17
US8315315B2 (en) 2012-11-20
JP5042856B2 (ja) 2012-10-03
WO2006074855A1 (fr) 2006-07-20
CN102065295B (zh) 2012-09-26
KR101291555B1 (ko) 2013-08-08

Similar Documents

Publication Publication Date Title
JP5042856B2 (ja) 画像データストリームをスケーラブル符号化および復号するための装置および方法、信号、コンピュータプログラム、および画像品質適応モジュール
KR100954816B1 (ko) 비디오 및 비디오 신호를 코딩하는 방법, 비디오를 코딩하기 위한 장치 및 컴퓨터 판독 가능한 기록 매체, 및 베이스 층 데이터-스트림과 강화층 데이터-스트림을 디코딩하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US8031776B2 (en) Method and apparatus for predecoding and decoding bitstream including base layer
US8532187B2 (en) Method and apparatus for scalably encoding/decoding video signal
KR100703724B1 (ko) 다 계층 기반으로 코딩된 스케일러블 비트스트림의비트율을 조절하는 장치 및 방법
JP4729220B2 (ja) ハイブリッドな時間的/snr的微細粒状スケーラビリティビデオ符号化
US8929436B2 (en) Method and apparatus for video coding, predecoding, and video decoding for video streaming service, and image filtering method
KR100772868B1 (ko) 복수 계층을 기반으로 하는 스케일러블 비디오 코딩 방법및 장치
US8406294B2 (en) Method of assigning priority for controlling bit rate of bitstream, method of controlling bit rate of bitstream, video decoding method, and apparatus using the same
US20050226335A1 (en) Method and apparatus for supporting motion scalability
US20070223582A1 (en) Image encoding-decoding system and related techniques
US20050157794A1 (en) Scalable video encoding method and apparatus supporting closed-loop optimization
JP2008533850A (ja) 二層符号化及び単層復号化による階層的ビデオ符号化
JP2008533850A5 (ja)
KR20070000022A (ko) 다계층 기반의 가중 예측을 이용한 비디오 코딩 방법 및장치
WO2009050188A1 (en) Bandwidth and content dependent transmission of scalable video layers
EP1878249A1 (en) Method for scalably encoding and decoding video signal
US20060133483A1 (en) Method for encoding and decoding video signal
EP1512293A1 (en) Fgst coding method employing higher quality reference frames
US20060133499A1 (en) Method and apparatus for encoding video signal using previous picture already converted into H picture as reference picture of current picture and method and apparatus for decoding such encoded video signal
WO2006080665A1 (en) Video coding method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110520

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110817

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110824

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110915

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120508

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120711

R150 Certificate of patent or registration of utility model

Ref document number: 5042856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250