JP2008543130A

JP2008543130A - 複数層を使用するマルチメディア・データのスケーリング可能なエンコーディング及びデコーディングのためのシステム及び方法

Info

Publication number: JP2008543130A
Application number: JP2008510212A
Authority: JP
Inventors: チェン、ペイソン; ラビーンドラン、ビジャヤラクシュミ・アール．
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-05-03
Filing date: 2006-05-03
Publication date: 2008-11-27
Anticipated expiration: 2026-05-03
Also published as: EP1877959A4; BRPI0610903A2; JP4902642B2; CN101542926A; CN104079935A; US8619860B2; CN102724496A; JP2011120281A; KR100942396B1; TW200718214A; US20060262985A1; CN101542926B; TWI326186B; KR20080015830A; WO2006119443A3; JP5335833B2; US20120219060A1; CA2608279A1; EP1877959A2; WO2006119443A2

Abstract

【課題】複数層を使用するマルチメディア・データのスケーリング可能なエンコーディング及びデコーディングのためのシステム及び方法
【解決手段】複数の層に関係するマルチメディア・データを処理する方法が、開示される。本方法は、ベース層残余物を決定すること、及びベース層残余物の非ゼロ係数の数又はベース層残余物のゼロ係数の数のうちの少なくとも１つが第１の選択された条件を満足する場合に、エンハンスメント層残余物を生成するために層間予測を実行することを含むことができる。マルチメディア・ビットストリームをデコードする方法は、ベース層とエンハンスメント層とを有するマルチメディア・ビットストリームを受け取ること、及びエンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定するためにベース層をデコードすることを含むことができる。
【選択図】図６

Description

関連文献

［米国特許法３５§１１９による優先権の主張］
特許に関する本出願は、米国特許仮出願番号第６０／７８９，２７１号、名称“スケーリング可能性を有するデータ処理（DATA PROCESSING WITH SCALABILITY）”、２００６年４月４日出願、米国特許仮出願番号第６０／６７７，６０７号、名称“ベース層ビデオ品質比較（BASE LAYER VIDEO QUALITY COMPARISON）”、２００５年３月３日出願、米国特許仮出願番号第６０／６７７，６０９号、名称“新たなＭＢモードの導入（INTRODUCING NEW MB MODES）”、２００５年３月３日出願、米国特許仮出願番号第６０／６７７，６１０号、名称“２層コーディングにおける情報共有（SHARING INFORMATION IN TWO LAYER CODING）”、２００５年３月３日出願、及び米国特許仮出願番号第６０／６７７，６１１号、名称“スケーリング可能なビデオ・エンコーディングにおけるＭＢ間の層間予測（INTERLAYER PREDICTION FOR INTER MBS SCALABLE VIDEO CODING）”、２００５年３月３日出願に優先権を主張し、そして本出願の譲受人に全て譲渡され、そして本明細書中に引用によってその全体が取り込まれている。

本発明は、オーディオ・データ、ビデオ・データ、又は両者を備えることができるマルチメディア・データのスケーリング可能なエンコーディング及びデコーディングに係る。特に、本発明は、複数層を使用するマルチメディア・データのスケーリング可能なエンコーディング及びデコーディングのためのシステム及び方法に関する。

国際電気通信協会（ＩＴＵ：International Telecommunication Union）は、ディジタル・ビデオ・エンコーディングのためのＨ．２６１、Ｈ．２６２、Ｈ．２６３及びＨ．２６４規格を既に公表してきている。これらの規格は、エンコードされたディジタル・ビデオ・データのシンタックスを規定し、そしてこのデータが表示のため又は再生のためにどのようにデコードされるかを規定する。しかしながら、これらの規格は、ディジタル・ビデオ・データを圧縮されないフォーマットから圧縮されたフォーマット又はデコードされたフォーマットに変換するために柔軟な方式で使用されるための様々な異なる技術（例えば、アルゴリズム又は圧縮ツール）を許容する。それゆえ、多くの異なるディジタル・ビデオ・データ・エンコーダが現在利用可能である。これらのディジタル・ビデオ・エンコーダは、異なるコスト及び品質レベルで様々な圧縮の程度を実現することが可能である。

スケーリング可能なビデオ・コーディングは、ビデオ・データのエンコーディングのために複数の層、例えば、ベース層とエンハンスメント層、を生成する。これらの２つの層は、異なる伝送特性を有する別のチャネル上で一般的に伝送され、結果として異なるパケット・エラー・レートになる。ベース層は、一般的にエンハンスメント層と比較したときにより低いパケット・エラー・レートを有する。ベース層は、一般に最も重要な情報を含み、そしてエンハンスメント層は、一般にベース層に対する改善を提供する。最もスケーリング可能なビデオ圧縮技術は、人間の視覚システムが画像のより平らな低周波数領域よりも高周波数領域において（圧縮に起因する）ノイズにより寛大であるという事実を活用する。それゆえ、ベース層は、主に低周波数情報を含み、そしてエンハンスメント層は、主に高周波数情報を含む。ネットワーク帯域幅が足りなくなるとき、コード化されたビデオの（エンハンスメント層がない）ベース層だけが受信される確率が高い。そのような状況では、再生されたビデオは、不鮮明であり、そしてデブロッキング・フィルタは、この効果を強調することさえある。

デコーダは、一般にベース層又はベース層とエンハンスメント層とをデコードする。ベース層とエンハンスメント層とをデコードするとき、複数層デコーダは、単一層デコーダと比較した場合に、計算上の複雑さの増加及びメモリの増加を必要とする。多くの移動デバイスは、計算上の複雑さの増加及びメモリの増加の要求のために複数層デコーダを利用しない。

サマリー

複数の層に関係するマルチメディア・データを処理する方法は、ベース層残余物を決定することを含むことができる。もし、ベース層残余物の非ゼロ係数の数又はベース層残余物のゼロ係数の数のうちの少なくとも１つが第１の選択された条件を満足する場合に、層間予測が、エンハンスメント層残余物を生成するために実行されることができる。第１の選択された条件は、しきい値よりも大きい、小さい、又はそれに等しいベース層残余物の非ゼロ係数の数又はゼロ係数の数であり得る。もし、ベース層残余物の非ゼロ係数の数又はベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足する場合に、時間的予測が、エンハンスメント層残余物を生成するために実行されることができる。第２の選択された条件は、しきい値よりも大きい、小さい、又はそれに等しいベース層残余物の非ゼロ係数の数又はゼロ係数の数であり得る。

エンハンスメント層を予測するためにベース層を使用する方法が、開示される。マルチメディア・データのブロックは、複数のベース量子化された係数を含むベース残余物を生成するために使用されることができる。マルチメディア・データのブロックは、同様に、複数のエンハンスメント量子化された係数を含むエンハンスメント残余物を生成するために使用されることができる。第１の値は、複数のベース量子化された係数に基づいて決定されることができ、そして第２の値は、複数のエンハンスメント量子化された係数に基づいて決定されることができる。エンハンスメント層は、複数のベース量子化された係数又は複数のエンハンスメント量子化された係数のうちの少なくとも１つを使用することにより決定されることができる。

マルチメディア・ビットストリームをデコードする方法は、ベース層とエンハンスメント層とを有するマルチメディア・ビットストリームを受け取ることを含むことができる。エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定するために、ベース層は、デコードされることができる。

［詳細な説明］
本発明の特徴、目的、及び利点は、図面を使用して以下に述べる詳細な説明から、さらに明確になるであろう。

本発明の様々な特徴の実施形態を与えるシステム及び方法が、ここに図面を参照して説明される。図面及び関係する記述は、本発明の複数の実施形態を説明するために提供され、そして本発明の範囲を限定しない。図面全体を通して、参照番号は、複数の参照した要素間の対応を示すために再使用される。それに加えて、各参照番号の最初の桁は、その要素が最初に現れる図を示す。

図１は、マルチメディア（例えば、ビデオ、オーディオ又は両方）データをエンコードするため及びデコードするためのシステム１００のブロック図である。システム１００は、ビデオ・データ（例えば、画像及びビデオ・フレーム）をエンコードするため（例えば、圧縮するため）そしてデコードするため（例えば、逆圧縮するため）に構成されることができる。システム１００は、サーバ１０５、デバイス１１０、及びサーバ１０５をデバイス１１０に接続する通信チャネル１１５を含むことができる。システム１００は、ビデオ・データをエンコードするためそしてデコードするための以下に記載される方法を説明するために使用されることができる。システム１００は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、又はそれらのいずれかの組み合わせによって与えられることができる。１又はそれより多くの要素は、再配列されるそして／又は組み合わされることが可能であり、そして別のシステムが、本発明の精神及び範囲をこれまで通り維持したままでシステム１００の代わりに使用されることができる。追加の要素が、システム１００に加えられることができる、又は本発明の精神及び範囲をこれまで通り維持したままでシステム１００から取り除かれることができる。

サーバ１０５は、プロセッサ１２０、記憶媒体１２５、エンコーダ１３０、及びＩ／Ｏデバイス１３５（例えば、トランシーバ）を含むことができる。プロセッサ１２０及び／又はエンコーダ１３０は、ビデオ・フレームの系列の形式でビデオ・データを受け取るように構成されることができる。プロセッサ１２０及び／又はエンコーダ１３０は、アドバンストＲＩＳＣマシーン（ＡＲＭ：Advanced RISC Machine）、コントローラ、ディジタル信号プロセッサ（ＤＳＰ：digital signal processor）、マイクロプロセッサ、又はデータを処理することが可能ないずれかの他のデバイスであり得る。プロセッサ１２０及び／又はエンコーダ１３０は、記憶のために記憶媒体１２５にビデオ・フレームの系列を伝送することができ、そして／又はビデオ・フレームの系列をエンコードすることができる。記憶媒体１２５は、コンピュータ命令を同様に記憶することができ、それはプロセッサ１２０そして／又はエンコーダ１３０によって使用されて、サーバ１０５の動作及び機能を制御する。記憶媒体１２５は、ビデオ・データを記憶するための１又はそれより多くのデバイス及び／又は情報を記憶するための他の機械読み取り可能な媒体を表すことができる。用語“機械読み取り可能な媒体”は、ランダム・アクセス・メモリ（ＲＡＭ）、フラッシュ・メモリ、（読出し専用メモリ）ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、レジスタ、ハード・ディスク、脱着可能なディスク、ＣＤ−ＲＯＭ、ＤＶＤ、無線チャネル、及び（複数の）命令及び／又はデータを記憶すること、を含むこと又は搬送することが可能な様々な他の媒体を含むが、それらに限定されない。

エンコーダ１３０は、記憶媒体１２５から受け取られたコンピュータ命令を使用して、ビデオ・フレームの系列の並列処理及び直列処理（例えば、圧縮）の両者を実行するように構成されることができる。コンピュータ命令は、下記に説明されるような方法で実行されることができる。フレームの系列が一旦エンコードされると、エンコードされたデータは、通信チャネル１１５を介したデバイス１１０への送信のためにＩ／Ｏデバイス１３５に送られることができる。

デバイス１１０は、プロセッサ１４０、記憶媒体１４５、デコーダ１５０、Ｉ／Ｏデバイス１５５（例えば、トランシーバ）、及びディスプレイ・デバイス又はスクリーン１６０を含むことができる。デバイス１１０は、コンピュータ、ディジタル・ビデオ・レコーダ、手持ちデバイス（例えば、セルラ電話機、ブラックベリー、等）、セット・トップ・ボックス、テレビ、及びビデオ・フレームの系列を受け取ること、処理すること（例えば、逆圧縮すること）及び／又は表示することが可能な別のデバイスであり得る。Ｉ／Ｏデバイス１５５は、エンコードされたデータを受け取り、そしてエンコードされたデータを記憶媒体１４５にそして／又は逆圧縮のためにデコーダ１５０に送る。デコーダ１５０は、エンコードされたデータを使用してビデオ・フレームの系列を再生するために構成される。一旦デコードされると、ビデオ・フレームの系列は、記憶媒体１４５中に記憶されることができる。デコーダ１５０は、記憶媒体１４５から検索されたコンピュータ命令を使用して、エンコードされたデータの並列処理と直列処理（例えば、逆圧縮）の両方を実行し、ビデオ・フレームの系列を再生するように構成されることができる。コンピュータ命令は、以下に説明されるような方法で実行されることができる。プロセッサ１４０は、記憶媒体１４５及び／又はデコーダ１５０からビデオ・フレームの系列を受け取るように、そしてディスプレイ・デバイス１６０上にビデオ・フレームの系列を表示するように構成されることができる。記憶媒体１４５は、コンピュータ命令を同様に記憶することができ、それはプロセッサ１４０及び／又はデコーダ１５０によって使用され、デバイス１１０の動作及び機能を制御する。

通信チャネル１１５は、サーバ１０５とデバイス１１０との間でエンコードされたデータを伝送するために使用されることができる。通信チャネル１１５は、有線接続又は有線ネットワーク及び／若しくは無線接続又は無線ネットワークであり得る。例えば、通信チャネル１１５は、インターネット、同軸ケーブル、光ファイバ配線、衛星回線、地上波回線、無線回線、信号を伝播させることが可能な他の媒体、及びそれらのいずれかの組み合わせを含むことが可能である。

図２は、Ｈ．２６４ビデオ・データ・ビットストリーム２００のブロック図である。ビットストリーム２００は、複数のアクセス・ユニット２０５（例えば、アクセス・ユニット１、アクセス・ユニット２、アクセス・ユニット３、等）に配列される又は区分されることができる。各アクセス・ユニット２０５は、コード化されたビデオ・フレームに対応する情報を含むことができる。各アクセス・ユニット２０５は、複数のＮＡＬユニット２１０に配列される又は区分されることができる。各ＮＡＬユニット２１０は、ＮＡＬプリフィックス２１５、ＮＡＬヘッダ２２０、及びデータのブロック２２５を含むことができる。ＮＡＬプリフィックス２１５は、データのブロック２２５の開始を示しているビットの系列（例えば、０００００００１）であり得て、そしてＮＡＬヘッダ２２０は、ＮＡＬユニット・タイプ２３０（例えば、Ｉフレーム、Ｐフレーム又はＢフレーム）を含むことができる。データのブロック２２５は、ヘッダ２３５及びデータ２４０を含むことができる。データのブロック２２５は、データの１６×１６マクロブロック、全体のデータのフレーム、又はビデオ・データの一部（例えば、２×２ブロック又は４×４ブロック）に配列される又は区分されることができる。用語“マクロブロック”及び“ブロック”は、互換的に使用されることができる。

ヘッダ１３５は、モード２４５、参照画像リスト２５０、及びＯＰ値２５５を含むことができる。モード２４５は、マクロブロックをどのようにして配列するか又は区分するか、動き情報をどのようにして決定するかそして伝送するか、及び残余情報をどのようにして決定するかそして伝送するか、をエンコーダ１３０に指示することができる。データ２４０は、動き情報（例えば、動きベクトル２８５）及び残余情報（例えば、ＤＣ残余物２６０とＡＣ残余物２６５）を含むことができる。Ｉフレームに関して、データ２４０は、ＤＣ残余物２６０とＡＣ残余物２６５とを含むことができる。ＡＣ残余物２６５は、コード化されたブロック・パターン（ＣＢＰ：Coded Block Pattern）値２７０、追従物（trailing ones）の数２７５、及び残余量子化係数２８０を含むことができる。Ｉフレームが最初のフレームであるため、どんな動き情報もＩフレームに対して必要とされないことがある。ＰフレームとＢフレームに関して、データ２４０は、動きベクトル２８５、ＤＣ残余物２９０及びＡＣ残余物２９５を含むことができる。

図３は、複数層をスケーリングすることが可能なエンコーダ１３０のベース層エンコーディング・モジュール３００及びエンハンスメント層エンコーディング・モジュール３０５のブロック図である。複数層エンコーディングは、複数の時間的予測ループを導入する。例えば、２層コーディングは、２つの時間的予測ループを導入することができる。ビデオ・データは、２つの層の間で共有されて、２つの層に対してある種のビット割当てを可能にし、そしてオーバーヘッドを削減することができる。層間予測は、エンハンスメント層において使用されて、全コーディング・オーバーヘッドを削減することができる。ベース層エンコーディング・モジュール３００は、ベース層ビデオに対して使用されることができ、そしてエンハンスメント層エンコーディング・モジュール３０５は、エンハンスメント層ビデオに対して使用されることができる。ある複数の実施形態では、ベース層ビデオは、エンハンスメント層ビデオと同じ又はほぼ同じであり得る。ビデオ・データは、ベース層エンコーディング・モジュール３００及びエンハンスメント層エンコーディング・モジュール３０５により受け取られる前にエンコードされることができる。

エンコードされたビデオ・データは、入力３１０と３１５のところに与えられることができる。ベース層エンコーディング・モジュール３００は、変換（Ｔ_ｂ）モジュール３２０、量子化（Ｑ_ｂ）モジュール３２５、逆変換（Ｔ_ｂ ^−１）モジュール３３０、及び逆量子化（Ｑ_ｂ ^−１）モジュール３３５を含むことができる。エンハンスメント層エンコーディング・モジュール３０５は、変換（Ｔ_ｅ）モジュール３４０、量子化（Ｑ_ｅ）モジュール３４５、逆変換（Ｔ_ｅ ^−１）モジュール３５０、及び逆量子化（Ｑ_ｅ ^−１）モジュール３５５を含むことができる。量子化モジュール３２５，３３５，３４５及び３５５は、１又はそれより多くの量子化パラメータを含むことができ、それは最終的な画像の品質を決定するために使用されることができる。一般に、ベース層エンコーディング・モジュール３００に対する量子化パラメータは、エンハンスメント層エンコーディング・モジュール３０５に対する量子化パラメータよりも大きい。より大きな量子化パラメータは、より低い品質の画像を示す。ベース層エンコーディング・モジュール３００は、ベース層に対する残余情報３６０を生成することができ、エンハンスメント層エンコーディング・モジュール３０５は、エンハンスメント層に対する残余情報３６５を生成することができる。ベース層エンコーディング・モジュール３００とエンハンスメント層エンコーディング・モジュール３０５は、しかも、それぞれ予測モジュール３７０と３７５を含むことができる。予測モジュール３７０と３７５は、１つの予測モジュールへと統合されることができる。予測モジュール３７０と３７５は、マルチメディア・データの層内エンコーディング及び層間エンコーディングを実行するために使用されることができる。

Ｉフレームに関して、デコードされたベース層は、エンハンスメント層に対する参照として使用されることができる。ＰフレームとＢフレームに関して、一緒に配置されたベース・フレームと参照は、１又はそれより多くの前のフレームを補償する動きにより計算され、エンハンスメント層に対して使用されることができる。層間予測は、マクロブロック・ベースで、ブロック・ベースで（例えば、４×４ブロック・ベースで）又はｄｃｔ係数ベースで実行されることが可能である。

Ｐフレーム又はＢフレーム中の各マクロブロックに関して、層間予測又は層内予測（例えば、時間的予測）が、様々な要因、例えば、レート−ひずみコスト、に応じて使用されることが可能である。層間予測が使用される場合に、エンハンスメント層マクロブロックは、収集されたベース層マクロブロックを使用することにより予測されることができる。ある複数の実施形態では、予測エラーは、エンコードされることができ、そしてその後デコーダ１５０に伝送されることができる。時間的予測が使用される場合に、エンハンスメント層マクロブロックは、参照として１又はそれより多くの前のフレーム及び／又は引き続くフレームからの１又はそれより多くのマクロブロックを使用することにより、そしてベース層からのマクロブロック・モード情報と動きベクトルとを使用する（例えば、コピーする）ことにより予測されることができる。

図４は、図３の予測モジュール３７０と３７５の一部であり得るモード決定モジュール（ＭＤＭ：Mode Decision Module）４００のフローチャートである。ＭＤＭ４００は、動き推定モジュール４０５及び決定モジュール４１０を含むことができる。ＭＤＭ４００は、プロセッサ１２０及び／又はエンコーダ１３０により与えられることができる。動き推定モジュール４０５は、様々なモードに対するエンハンスメント層の動き情報（例えば、動きベクトル）を生成する。そのモードは、ベース層及びエンハンスメント層からの情報（例えば、動きベクトル及び残余物）を使用することにより決定されることができる。複数のモードがＨ．２６４動き推定の中に存在する。例えば、モード“ａ”は、１６×１６マクロブロック（出力ＭＶ_ｘとＭＶ_ｙ）であることができ、モード“ｂ”は、（各分割出力ＭＶ_ｘとＭＶ_ｙに対する）２個の８×１６ブロック又は２個の１６×８ブロックであることができ、そしてモード“ｃ”は、（各分割出力８×８部分分割モードに対する及び各部分分割出力ＭＶ_ｘとＭＶ_ｙに対する）４個の８×８ブロックであり得る。各マクロブロック及び各ブロックは、それ自身の動き情報を有することができる。２層コーディングに関して、複数のモードは、ビット割当てにおける大きな自由度を可能にする。ある複数の実施形態では、エンハンスメント層ビデオがより高い品質であるという理由で、ベース層と比較したときに、エンハンスメント層は、より正確な動きベクトルを生成する。２層コーディングにおいて、ベース層とエンハンスメント層は、そのベース層に対応する同じ動き情報を両者ともに使用することができる。残余情報は、予測されたマクロブロックを使用することにより、そしてそれを現在のマクロブロックから差し引くことによって生成されることができる。

エンコーダ１３０は、層内予測モードであるスキップ・モードを選択することができる。スキップ・モードでは、エンコーダ１３０は、現在のマクロブロック又はブロックに関するいかなる動き情報及び残余情報もデコーダ１５０へ伝送しない。現在のブロックに関する動き情報は、１又はそれより多くの隣接するブロックから導き出されることができる。１つのモードでは、エンコーダ１３０は、動き情報を伝送することができ、そして残余情報を伝送しないことができる。これは、ｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎを０に設定することによって実現されることができる。Ｈ．２６４規格では、ｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎが０に設定されるときに、全ての変換係数は、０である。ｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎ＝０であるとき、エンコーダ１３０により送られようとしている残余情報がないことを、デコーダ１５０は知らされる。ｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎ値をエンコードするために、表１に示されるようなコード番号が、ｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎに割り当てられることができる。コード番号は、Ｅｘｐ−Ｇｏｌｏｍｂコードを使用してコード化されることができる。デコーダ１５０は、エンコーダ１３０から表１に示されるようなコード番号を受け取ることができる。

決定モジュール４１０は、モードを選択することができ、それは様々な要因、例えば、エンコーディング動き情報のビット・コスト、コーディング効率、動き精度、オーバーヘッド、出来栄え、レート−ひずみ最適化、等、に影響を及ぼす。１つのモードが、ベース層に対してより良い結果を生み出すことがあり、一方で、別のモードが、エンハンスメント層に対してより良い結果を生み出すことがある。したがって、ベース層とエンハンスメント層の両方に対する“最良のモード”又は“最適モード”を実現するために、ある種の妥協をすることが、必要であり得る。もし同じモードがベース層とエンハンスメント層の両方に対して最良の結果を生み出すのであれば、妥協する必要はない。最良のモードは、例えば、レート−ひずみの最適化に基づいて選択されることができ、それはレート−ひずみが動きの精度と動き情報エンコーディングのビット・コストとの間の最善の折り合いを表すためである。決定モジュール４１０は、最適化の目的のためにＴＥＣＭ５００（図５参照）を利用することができる。そのモードは、プロセッサ１２０及び／又はエンコーダ１３０にガイドライン、機能、パラメータ、ルーチンの集合、又はそれらのいずれかの組み合わせを与えることができ、ビデオ・データのエンコーディングを実行する。

以下の説明は、３つの異なるモードａ，ｂとｃの例を与える。ベース層がモードａで最高の出来栄えを有し、そしてエンハンスメント層がモードｂで最高の出来栄えを有すると仮定する。もし決定モジュール４１０がモードａを選択するのであれば、ΔＲ_{ａ＿ｅｎｈ}オーバーヘッドがエンハンスメント層において導入され、そしてベース層ではオーバーヘッドが導入されない。もし決定モジュール４１０がモードｂを選択するのであれば、ΔＲ_{ａ＿ｂａｓｅ}オーバーヘッドがベース層において導入され、そしてエンハンスメント層ではオーバーヘッドが導入されない。もし決定モジュール４１０がモードｃを選択するのであれば、ΔＲ_{ａ＿ｂａｓｅ}オーバーヘッドがベース層において導入され、そしてΔＲ_{ａ＿ｅｎｈ}オーバーヘッドがエンハンスメント層において導入される。これらの変数から、各層について各モードに対するオーバーヘッドのコストが、決定されることができる。

両方の層に対する総コストは、下記のように決定されることができる。基準１：総コストがＣ＝ΔＲ_{ｘ＿ｂａｓｅ}として定義される場合、ここでｘはａ，ｂ又はｃであり得る、そのときには、ベース層は最高のコーディング効率を有し、そしてエンハンスメント層の結果は重要ではない。基準２：総コストがＣ＝ΔＲ_{ｘ＿ｅｎｈ}として定義される場合、ここでｘはａ，ｂ又はｃであり得る、そのときには、エンハンスメント層は最高のコーディング効率を有し、そしてベース層の結果は重要ではない。基準３：総コストがＣ＝ΔＲ_{ｘ＿ｂａｓｅ}／２＋ΔＲ_{ｘ＿ｅｎｈ}／２として定義される場合、ここでｘはａ，ｂ又はｃであり得る、そのときには、ベース層とエンハンスメント層の両方は、等しく又は同様に扱われる。基準４：ベース層フレームに対する全オーバーヘッドを５％未満にすべきである場合、そのときには、マクロブロック・ベースで定義される要求が、決定されることができる。例えば、ベース層におけるマクロブロックｊがエンコードされるとき、許されるオーバーヘッドの上限は、上限＝（Ｂ_ｊ−１−Ｅ_ｊ−１＋ｂ_ｊ）＊５％−Ｅ_ｊ−１として計算されることができ、ここで、Ｂ_ｊ−１は、前のｊ−１マクロブロックをエンコードするために使用したビットの総数であり、Ｅ_ｊ−１は、Ｂ_ｊ−１中のオーバーヘッド・ビットであり、そしてｂ_ｊは、ベース層におけるその最良のモードでマクロブロックｊをエンコードするときの使用ビットである。マクロブロックｊをエンコードした後で、Ｂ_ｊとＥ_ｊは、次のマクロブロックのために更新されることができる。

図５は、図３の予測モジュール３７０と３７５の一部であり得る変換＋エントロピー・コーディング・モジュール（ＴＥＣＭ：Transform+Entropy Coding Module）５００のフローチャートである。ＴＥＣＭ５００は、ベース層エンコーディング・モジュール５０５、デコーディング・モジュール５１０、チェッキング・モジュール５１５、層間予測モジュール５２０、及び時間的予測モジュール５２５を含むことができる。ＴＥＣＭ５００は、プロセッサ１２０及び／又はエンコーダ１３０により与えられることができる。ＴＥＣＭ５００は、エンコードされたベース層を使用して、エンハンスメント層を予測する。ベース層エンコーディング・モジュール５０５は、ベース層に対する動き情報（例えば、動きベクトル）を決定するために使用されることができる。デコーディング・モジュール５１０は、層間予測に先立ってエンコードされたベース層をデコードするために使用されることができる。チェッキング・モジュール５１５は、変換されたベース層残余物中のゼロ係数の数及び／又は非ゼロ係数の数を決定するために使用されることができる。係数に応じて、層間予測（５２０）又は時間的予測（５２５）が、エンハンスメント層を予測するために選択されることができる。

図６は、マクロブロック・ベースでの又はブロック・ベースでの層間予測を説明するフローチャートである。層内予測は、マクロブロック・ベースで又はブロック・ベースで（すなわち、マクロブロックの任意の部分（例えば、４×４ブロック・ベース））で実行されることができる。４×４ブロック・ベースでの又は２×２ブロック・ベースでの層間予測に関して、ベース層中のマクロブロックからの動き情報及び／又は残余情報は、層間予測を使用するか時間的予測を使用するかどうかを決定するために使用されることができる。ベース層エンコーディング・モジュール５０５は、ベース層についての動き情報及び残余情報を決定することができる（６０５）。ベース層エンコーディング・モジュール５０５は、しかもエンハンスメント層に対する参照（例えば、マクロブロック又はフレーム）を得ることができる。ベース層エンコーディング・モジュール５０５は、ベース層についての残余情報の非ゼロ係数の数又はゼロ係数の数を決定することができる（６１０）。ベース層からの残余情報がエンハンスメント層からの参照よりも多くの情報を含んでいる場合に、ベース層中の残余情報は、エンハンスメント層に対して有用である。チェッキング・モジュール５１５は、非ゼロ係数の数又はゼロ係数の数が選択された条件を満足するかどうかを決定することができる（６１５）。例えば、チェッキング・モジュール５１５は、ベース層の残余情報を検査することができて、非ゼロ係数の数がしきい値（Ｔ）よりも大きいか、小さいか、又は等しいかどうか、又はゼロ係数の数がしきい値（Ｔ）よりも大きいか、小さいか、又は等しいかどうかを決定する。残余情報が全て非ゼロ係数又はいくつかの非ゼロ係数を含む場合に、ベース層中の残余情報は、エンハンスメント層に対して有用であり得て、そしてエンコーダ１３０は、エンハンスメント層中のマクロブロックを予測するために層間予測を使用することができる（６２５）。残余情報が全てゼロ又はいくつかのゼロを含む場合に、ベース層中の残余情報は、エンハンスメント層に対して有用ではなく、そしてエンコーダ１３０は、エンハンスメント層中のマクロブロックを予測するために時間的予測を使用することができる（６２０）。エンコーダ１３０は、エンコードされたマクロブロック又はエンコードされたブロックをデコーダ１５０に伝送することができる（６３０）。

図７は、ｄｃｔ係数毎のベースでの層間予測を説明するための変換ドメインにおける６個の４×４ブロックを示し、そして図８は、ｄｃｔ係数毎のベースでの層間予測の方法を説明する。上の行は、ベース層についての動き補償された予測（ＭＣＰ：motion compensated prediction）ブロックすなわち参照ブロック７００、残余ブロック７０５、再生されたブロック７１０を含む。下の行は、エンハンスメント層についてのＭＣＰブロックすなわち参照ブロック７１５、残余ブロック７２０、再生されたブロック７２５を含む。ＭＣＰブロック及び残余ブロック７００，７０５，７１５と７２０は、空間（例えば、ピクセル）ドメインから変換（例えば、周波数）ドメインへと既に変換されているように示されている（８０５）。ＭＣＰブロック７００は、ベース層中の動き情報を使用することによって生成されることができる。再生されたブロック７１０は、ＭＣＰブロック７００及び残余ブロック７０５からの係数を使用することによって形成されることができる。再生されたブロック７２５は、再生されたブロック７１０からの係数を使用する（例えば、コピーする）ことによって形成されることができる。

層間予測は、ベース層についての残余ブロック７０５中の非ゼロ係数に実行されることができる。図７において、Ｘ＾_ｂ，ｔは、ＭＣＰブロック７００中の係数を表し、そしてＥ_ｔ＋１は、残余ブロック７０５中のエンコードされた非ゼロ係数を表す。再生されたブロック７１０についての再生された係数は、Ｘ＾_{ｂ，ｔ＋１}＝Ｘ＾_ｂ，ｔ＋Ｅ_ｔ＋１によって表されることができ、そして層間予測のために使用されることができる。エンハンスメント層についての同じ位置の再生された係数は、ベース層からの再生された係数のコピーであり得る。Ｅ_ｔ＋１＝０又はほぼ０である場合に、係数は、エンハンスメント層に対して有用でないことがあり、そして時間的予測モジュール５２５は、時間的予測を実行することができ、ＭＣＰブロック７１５及び残余ブロック７２０を使用することによって再生されたブロック７２５を生成する。Ｅ≠０又はほぼ０でない場合に、係数は、エンハンスメント層に対して有用であり得て、そして層間予測モジュール５２０は、その係数を使用して層間予測を実行することができる。これゆえ、エンハンスメント層についての再生された係数は、ベース層からコピーされることができる。各係数は、同様に、層間予測を使用するか又は時間的予測を使用するかどうかを決定するためにしきい値と比較されることができる。エンハンスメント層についての係数は、エンコーダ１３０からデコーダ１５０へ送られることができる。

用語“コード化されたブロック・パターン（ＣＢＰ：Coded Block Pattern）”は、マクロブロック中の全ての非ゼロ係数の合計を呼ぶ。残余ブロック７０５中の残余係数を使用して、層間予測モジュール５２０は、ベース層に対するＣＢＰ（ＣＢＰ_ｂ）を決定することができる（８１０）。残余ブロック７２０中の残余係数を使用して、層間予測モジュール５２０は、エンハンスメント層に対するＣＢＰ（ＣＢＰ_ｅ）を決定することができる（８１５）。

ＣＢＰ_ｂ＝０又はＣＢＰ_ｂ＜Ｔ（しきい値）である場合、層間予測モジュール５２０は、残余ブロック７０５中の全ての係数をゼロに指定することができ（８２０）、そして残余ブロック７２０をデコーダ１５０に伝送することができる（８２５）。ある複数の実施形態では、Ｔは、４（又はほぼ４）であることができ、そこでは全ての非ゼロ係数の合計は、マクロブロック７０５中の残余係数の位置に基づいて残余係数の線形和又は加重和により決定されることができる。

ＣＢＰ_ｂ＋ＣＢＰ_ｅ≠０である場合、層間予測モジュール５２０は、ベース層の残余係数及びエンハンスメント層の残余係数を使用して最小の量子化された係数を決定することができる（８３０）。例えば、最小量子化係数は、式ＭＱＣ（ｉ，ｊ）＝Ｃ_ｅ（ｉ，ｊ）−ｍｉｎ［Ｃ_ｂ（ｉ，ｊ），Ｃ_ｅ（ｉ，ｊ）］を使用して決定されることができ、ここで、Ｃ_ｅはエンハンスメント層の残余係数であり、そしてＣ_ｂはベース層の残余係数である。層間予測モジュール５２０は、ＭＱＣ（ｉ，ｊ）をデコーダ１５０に伝送することができる（８３５）。

Ｃ_ｅ（ｉ，ｊ）の符号≠Ｃ_ｂ（ｉ，ｊ）の符号の場合、層間予測モジュール５２０は、ベース層の全ての残余係数（Ｃ_ｂ（ｉ，ｊ））をゼロに指定することができ（８４０）、そしてエンハンスメント層の全ての残余係数（Ｃ_ｅ（ｉ，ｊ））をデコーダ１５０に伝送することができる（８４５）。

図９は、層内予測又は層間予測を使用してマルチメディア・ビットストリームをデコードする方法９００のフローチャートである。プロセッサ１４０は、ベース層とエンハンスメント層とを有するマルチメディア・ビットストリームを受け取ることができる（９０５）。デコーダ１５０は、ベース層をデコードすることができ、エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定することができる（９１０）。ベース層は、複数のベース層係数を含むことができる。ある複数の実施形態では、エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定するために、デコーダ１５０は、複数のベース層係数が少なくとも１つの非ゼロ係数を含むかどうかを判断することができる。デコーダ１５０は、複数のベース層係数の全てがゼロ値を有するのであれば、層内予測を使用してベース層をデコードすることができ、そして複数のベース層係数のうちの少なくとも１つが非ゼロ値を有するのであれば、層間予測を使用してベース層をデコードすることができる。

図１０は、層内予測及び層間予測を用いるデコーダ１０００のブロック図である。デコーダ１０００は、プロセッサ１４０及び／又はデコーダ１５００の一部であることができ、そして図９の方法を実行するために使用されることができる。デコーダ１０００は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、又はそれらのいずれかの組み合わせによって与えられることができる。デコーダ１０００は、決定モジュール１００５、層内予測モジュール１０１０及び層間予測モジュール１０１５を含むことができる。決定モジュール１００５は、ベース層とエンハンスメント層とを有するマルチメディア・ビットストリームを受け取ることができ、そしてベース層をデコードして、エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを判断することができる。層内予測モジュール１０１０は、層内予測を使用してエンハンスメント層をデコードするために使用されることができる。層間予測モジュール１０１５は、層間予測を使用してエンハンスメント層をデコードするために使用されることができる。

本発明のある複数の実施形態では、複数の層に関係付けられるマルチメディア・データを処理するための装置が、開示される。本装置は、ベース層残余物を決定するための手段を含むことができる。このベース層残余物を決定するための手段は、プロセッサ１２０、エンコーダ１３０、ベース層エンコーディング・モジュール３００、エンハンスメント層エンコーディング・モジュール３０５、予測モジュール３７０と３７５、動き推定モジュール４０５、決定モジュール４１０、及び／又はベース層エンコーディング・モジュール５０５であり得る。本装置は、層間予測を実行するための手段を含むことができ、ベース層残余物の非ゼロ係数の数又はベース層残余物のゼロ係数の数のうちの少なくとも１つが第１の選択された条件を満足する場合に、エンハンスメント層残余物を生成することができる。この層間予測を実行するための手段は、プロセッサ１２０、エンコーダ１３０、ベース層エンコーディング・モジュール３００、エンハンスメント層エンコーディング・モジュール３０５、予測モジュール３７０と３７５、ベース層エンコーディング・モジュール５０５及び／又は層間予測モジュール５２０であり得る。本装置は、時間的予測を実行するための手段を含むことができ、ベース層残余物の非ゼロ係数の数又はベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足する場合に、エンハンスメント層残余物を生成することができる。この時間的予測を実行するための手段は、プロセッサ１２０、エンコーダ１３０、ベース層エンコーディング・モジュール３００、エンハンスメント層エンコーディング・モジュール３０５、予測モジュール３７０と３７５、ベース層エンコーディング・モジュール５０５及び／又は時間的予測モジュール５２５であり得る。

ある複数の実施形態では、マルチメディア・ビットストリームをデコードするための装置が、開示される。本装置は、ベース層及びエンハンスメント層を有するマルチメディア・ビットストリームを受け取るための手段を含むことができる。このマルチメディア・ビットストリームを受け取るための手段は、プロセッサ１４０、デコーダ１５０、及び／又は決定モジュール１００５であり得る。本装置は、ベース層をデコードするための手段を含むことができ、エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定することができる。このデコードするための手段は、プロセッサ１４０、デコーダ１５０、決定モジュール１００５、層内予測モジュール１０１０及び／又は層間予測モジュール１０１５であり得る。

本明細書中に開示された複数の例に関連して説明された様々な例示的な論理ブロック、モジュール、及びアルゴリズムのステップが、電子ハードウェア、コンピュータ・ソフトウェア、又は両者の組み合わせとして与えられることができることを、当業者は、認識するはずである。ハードウェアとソフトウェアのこの互換性を明確に説明するために、様々な例示的な複数の構成要素、ブロック、モジュール、回路、及びステップが、それらの機能性の面から一般的に上に説明されてきている。そのような機能性が、ハードウェア又はソフトウェアとして実装されるかどうかは、特定のアプリケーション及びシステム全体に課せられた設計の制約に依存する。知識のある者は、説明された機能性をそれぞれの特定のアプリケーションに対して違ったやり方で実装することができる。しかし、そのような実装の判断は、開示された方法の範囲からの逸脱を生じさせるように解釈されるべきではない。

本明細書中に開示された実施形態に関連して述べられた、様々な例示的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、ディジタル信号プロセッサ（ＤＳＰ：digital signal processor）、用途特定集積回路（ＡＳＩＣ：application specific integrated circuit）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ：field programmable gate array）又は他のプログラマブル論理デバイス、ディスクリート・ゲート論理回路又はトランジスタ論理回路、ディスクリート・ハードウェア・コンポーネント、又は本明細書中で説明された機能を実行するために設計されたこれらのいずれかの組み合わせを用いて、与えられる又は実行されることができる。汎用プロセッサは、マイクロプロセッサであり得るが、しかし代わりに、プロセッサは、いずれかの従来型のプロセッサ、コントローラ、マイクロコントローラ、又はステート・マシンであり得る。プロセッサは、演算装置の組み合わせとして与えられることができ、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアとともに１又はそれより多くのマイクロプロセッサの組み合わせ、又はいずれかの別のそのような構成の組み合わせであり得る。

本明細書中に開示された複数の例に関連して説明された方法又はアルゴリズムのステップは、ハードウェアにおいて、プロセッサにより実行されるソフトウェア・モジュールにおいて、又は両者の組み合わせにおいて直接実現されることができる。ソフトウェア・モジュールは、ＲＡＭメモリ、フラッシュ・メモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハード・ディスク、脱着可能なディスク、ＣＤ−ＲＯＭ、又はこの技術において公知のいずれかの他の記憶媒体の中に存在することができる。ある具体例の記憶媒体は、プロセッサが記憶媒体から情報を読み出し、そこに情報を書き込めることができるようにプロセッサと接続される。あるいは、記憶媒体は、プロセッサに集積されることができる。プロセッサ及び記憶媒体は、用途特定集積回路（ＡＳＩＣ）中に存在することができる。ＡＳＩＣは、無線モデム中に存在することができる。あるいは、プロセッサ及び記憶媒体は、無線モデム中の単体コンポーネントとして存在することができる。

開示された複数の例のこれまでの説明は、当業者が、開示された方法及び装置を作成する又は使用することを可能にするために提供される。これらの例への様々な変形は、当業者に容易に明白にされるであろう。そして、ここで規定された一般的な原理は、開示された方法及び装置の精神若しくは範囲から逸脱することなく、他の複数の例に適用されることができる。開示された実施形態は、限定的ではなく例示としてのみ観点で考慮されるべきであり、したがって、本発明の範囲は、前述の記載によるよりはむしろ特許請求の範囲によって示される。特許請求の範囲と等価な意味及び範囲になる全ての変更は、それらの範囲内に包含されるべきである。

図１は、マルチメディア・データをエンコードするため及びデコードするためのシステムのブロック図である。図２は、Ｈ．２６４ビデオ・データ・ビットストリームのブロック図である。図３は、層間予測を用いる複数層をスケーリング可能なエンコーダのブロック図である。図４は、図３の予測モジュールの一部であり得るモード決定モジュール（ＭＤＭ）のフローチャートである。図５は、図３の予測モジュールの一部であり得る変換＋エントロピー・コーディング・モジュール（ＴＥＣＭ）のフローチャートである。図６は、マクロブロック・ベースでの又はブロック・ベースでの層間予測を説明するフローチャートである。図７は、ｄｃｔ係数毎のベースでの層間予測を説明するための変換ドメインにおける６個の４×４ブロックを示す。図８は、ｄｃｔ係数毎のベースでの層間予測の方法を説明する。図９は、層内予測又は層間予測を使用してマルチメディア・ビットストリームをデコードする方法のフローチャートである。図１０は、層内予測及び層間予測を用いるデコーダのブロック図である。

符号の説明

１００…システム，２０５…アクセス・ユニット，２１０…ＮＡＬユニット，２６０，２９０…ＤＣ残余物，２６５，２９５…ＡＣ残余物，２８５…動きベクトル，３００…ベース層エンコーディング・モジュール，３０５…エンハンスメント層エンコーディング・モジュール３０５，３２０…変換（Ｔ_ｂ）モジュール，３２５…量子化（Ｑ_ｂ）モジュール，３３０…逆変換（Ｔ_ｂ ^−１）モジュール，３３５…逆量子化（Ｑ_ｂ ^−１）モジュール，３４０…変換（Ｔ_ｅ）モジュール，３４５…量子化（Ｑ_ｅ）モジュール，３５０…逆変換（Ｔ_ｅ ^−１）モジュール，３５５…逆量子化（Ｑ_ｅ ^−１）モジュール。

Claims

複数の層と関係するマルチメディア・データを処理する方法であって、該方法は、
ベース層残余物を決定すること；及び
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数が第１の選択された条件を満足するのであれば、エンハンスメント層残余物を生成するために層間予測を実行すること、
を具備することを特徴とする、方法。
該第１の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項１の方法。
該第１の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項１の方法。
層間予測を実行することは、
ベース層参照ブロックの係数及び該ベース層残余物の係数に基づいてベース層再生ブロックの係数を決定すること；及び
該ベース層再生ブロックの該係数を使用することによりエンハンスメント層再生ブロックの係数を決定すること、
を含む、請求項１の方法。
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足するのであれば、該エンハンスメント層残余物を生成するために時間的予測を実行すること、
をさらに具備する、請求項１の方法。
該第２の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項５の方法。
該第２の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項５の方法。
時間的予測を実行することは、
該ベース層残余物の複数の非ゼロ係数をゼロに指定すること；及び
エンハンスメント層参照ブロックの係数及びエンハンスメント層残余物の係数に基づいてエンハンスメント層再生ブロックの係数を決定すること、
を含む、請求項５の方法。
該エンハンスメント層残余物が伝送されるべきでないことを指示するコードを設定することをさらに具備する、請求項１の方法。
複数の層と関係するマルチメディア・データを処理するためのプロセッサであって、該プロセッサは、
ベース層残余物を決定するため；及び
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数が第１の選択された条件を満足するのであれば、エンハンスメント層残余物を生成するために層間予測を実行するため、
に構成されることを特徴とする、プロセッサ。
該第１の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項１０のプロセッサ。
該第１の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項１０のプロセッサ。
層間予測を実行することは、
ベース層参照ブロックの係数及び該ベース層残余物の係数に基づいてベース層再生ブロックの係数を決定すること；及び
該ベース層再生ブロックの該係数を使用することによりエンハンスメント層再生ブロックの係数を決定すること、
を含む、請求項１０のプロセッサ。
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足するのであれば、該エンハンスメント層残余物を生成するために時間的予測を実行するためにさらに構成される、請求項１０のプロセッサ。
該第２の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項１４のプロセッサ。
該第２の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項１４のプロセッサ。
時間的予測を実行することは、
該ベース層残余物の複数の非ゼロ係数をゼロに指定すること；及び
エンハンスメント層参照ブロックの係数及びエンハンスメント層残余物の係数に基づいてエンハンスメント層再生ブロックの係数を決定すること、
を含む、請求項１４のプロセッサ。
該エンハンスメント層残余物が伝送されるべきでないことを指示するコードを設定するためにさらに構成される、請求項１０のプロセッサ。
複数の層と関係するマルチメディア・データを処理するための装置であって、該装置は、
ベース層残余物を決定するための動き推定モジュール；及び
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数が第１の選択された条件を満足するのであれば、エンハンスメント層残余物を生成するために層間予測を実行するための層間予測モジュール、
を具備することを特徴とする、装置。
該第１の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項１９の装置。
該第１の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項１９の装置。
層間予測モジュールは、
ベース層参照ブロックの係数及び該ベース層残余物の係数に基づいてベース層再生ブロックの係数を決定する；及び
該ベース層再生ブロックの該係数を使用することによりエンハンスメント層再生ブロックの係数を決定する、
ことを特徴とする、請求項１９の装置。
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足するのであれば、該エンハンスメント層残余物を生成するために時間的予測を実行するための時間的予測モジュール、
をさらに具備する、請求項１９の装置。
該第２の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項２３の装置。
該第２の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項２３の装置。
該時間的予測モジュールは、
該ベース層残余物の複数の非ゼロ係数をゼロに指定する；及び
エンハンスメント層参照ブロックの係数及びエンハンスメント層残余物の係数に基づいてエンハンスメント層再生ブロックの係数を決定する、
ことを特徴とする、請求項２３の装置。
該エンハンスメント層残余物が伝送されるべきでないことを指示するコードを設定する決定モジュールをさらに具備する、請求項１９の装置。
複数の層と関係するマルチメディア・データを処理するための装置であって、該装置は、
ベース層残余物を決定するための手段；及び
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数が第１の選択された条件を満足するのであれば、エンハンスメント層残余物を生成するために層間予測を実行するための手段、
を具備することを特徴とする、装置。
該第１の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項２８の装置。
該第１の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項２８の装置。
該層間予測を実行するための手段は、
ベース層参照ブロックの係数及び該ベース層残余物の係数に基づいてベース層再生ブロックの係数を決定すること；及び
該ベース層再生ブロックの該係数を使用することによりエンハンスメント層再生ブロックの係数を決定すること、
を含む、請求項２８の装置。
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足するのであれば、該エンハンスメント層残余物を生成するために時間的予測を実行するための手段、
をさらに具備する、請求項２８の装置。
該第２の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項３２の装置。
該第２の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項３２の装置。
該時間的予測を実行するための手段は、
該ベース層残余物の複数の非ゼロ係数をゼロに指定すること；及び
エンハンスメント層参照ブロックの係数及びエンハンスメント層残余物の係数に基づいてエンハンスメント層再生ブロックの係数を決定すること、
を含む、請求項３２の装置。
該エンハンスメント層残余物が伝送されるべきでないことを指示するコードを設定するための手段をさらに具備する、請求項２８の装置。
複数の層と関係するマルチメディア・データを処理する方法を組み込んだ機械読み取り可能な媒体であって、該方法は、
ベース層残余物を決定すること；及び
もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数が第１の選択された条件を満足するのであれば、エンハンスメント層残余物を生成するために層間予測を実行すること、
を具備することを特徴とする、機械読み取り可能な媒体。
該第１の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項３７の機械読み取り可能な媒体。
該第１の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項３７の機械読み取り可能な媒体。
該方法は、
ベース層参照ブロックの係数及び該ベース層残余物の係数に基づいてベース層再生ブロックの係数を決定すること；及び
該ベース層再生ブロックの該係数を使用することによりエンハンスメント層再生ブロックの係数を決定すること、
をさらに具備することを特徴とする、請求項３７の機械読み取り可能な媒体。
該方法は、もし該ベース層残余物の非ゼロ係数の数又は該ベース層残余物のゼロ係数の数のうちの少なくとも１つが第２の選択された条件を満足するのであれば、該エンハンスメント層残余物を生成するために時間的予測を実行すること、をさらに具備することを特徴とする、請求項３７の機械読み取り可能な媒体。
該第２の選択された条件は、該ベース層残余物の該非ゼロ係数の数がしきい値よりも小さい又は等しい場合に満足される、請求項４１の機械読み取り可能な媒体。
該第２の選択された条件は、該ベース層残余物の該ゼロ係数の数がしきい値よりも大きい又は等しい場合に満足される、請求項４１の機械読み取り可能な媒体。
該方法は、
該ベース層残余物の複数の非ゼロ係数をゼロに指定すること；及び
エンハンスメント層参照ブロックの係数及びエンハンスメント層残余物の係数に基づいてエンハンスメント層再生ブロックの係数を決定すること、
をさらに具備することを特徴とする、請求項４１の機械読み取り可能な媒体。
該方法は、該エンハンスメント層残余物が伝送されるべきでないことを指示するコードを設定することをさらに具備することを特徴とする、請求項３７の機械読み取り可能な媒体。
エンハンスメント層を予測するためにベース層を利用する方法であって、該方法は、
複数のベース量子化された係数を含んでいるベース残余物を生成するためにマルチメディア・データのブロックを使用すること；
複数のエンハンスメント量子化された係数を含んでいるエンハンスメント残余物を生成するためにマルチメディア・データの該ブロックを使用すること；
該複数のベース量子化された係数に基づいて第１の値を決定すること；
該複数のエンハンスメント量子化された係数に基づいて第２の値を決定すること；及び
該複数のベース量子化された係数又は該複数のエンハンスメント量子化された係数のうちの少なくとも１つを使用して該エンハンスメント層を決定すること
を具備することを特徴とする、方法。
該第１の値が該第２の値に等しい場合に、該複数のベース量子化された係数の最小値を伝送することをさらに具備する、請求項４６の方法。
該複数のベース量子化された係数及び該複数のエンハンスメント量子化された係数から最小値を決定することをさらに具備する、請求項４６の方法。
第１の合計がしきい値よりも小さい場合に、該第１の値をゼロに設定することをさらに具備する、請求項４６の方法。
該複数のベース量子化された係数の符号が該複数のエンハンスメント量子化された係数の符号に等しくない場合に、該複数のエンハンスメント量子化された係数を伝送することをさらに具備する、請求項４６の方法。
ベース動きベクトル及び該ベース残余物を生成するために時間的予測を使用することをさらに具備する、請求項４６の方法。
エンハンスメント動きベクトル及び該エンハンスメント残余物を生成するために時間的予測を使用することをさらに具備する、請求項４６の方法。
ベース動きベクトル及び該ベース残余物を生成するために層間予測を使用することをさらに具備する、請求項４６の方法。
エンハンスメント動きベクトル及び該エンハンスメント残余物を生成するために層間予測を使用することをさらに具備する、請求項４６の方法。
エンハンスメント層を予測するためにベース層を利用するための装置であって、該装置は、
複数のベース量子化された係数を含んでいるベース残余物を生成するためにマルチメディア・データのブロックを使用するため及び複数のエンハンスメント量子化された係数を含んでいるエンハンスメント残余物を生成するためにマルチメディア・データの該ブロックを使用するための動き推定モジュール；及び
該複数のベース量子化された係数に基づいて第１の値を決定するため、該複数のエンハンスメント量子化された係数に基づいて第２の値を決定するため、及び該複数のベース量子化された係数又は該複数のエンハンスメント量子化された係数のうちの少なくとも１つを使用して該エンハンスメント層を決定するための予測モジュール、
を具備することを特徴とする、装置。
該予測モジュールは、該第１の値が該第２の値に等しい場合に、該複数のベース量子化された係数の最小値を伝送することさらに備える、請求項５５の装置。
該予測モジュールは、該複数のベース量子化された係数及び該複数のエンハンスメント量子化された係数から最小値を決定することをさらに備える、請求項５５の装置。
該予測モジュールは、第１の合計がしきい値よりも小さい場合に、該第１の値をゼロに設定することをさらに備える、請求項５５の装置。
マルチメディア・ビットストリームをデコードする方法であって、
ベース層及びエンハンスメント層を有するマルチメディア・ビットストリームを受け取ること；及び
該エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定するために該ベース層をデコードすること、
を具備することを特徴とする、方法。
該層内予測は、Ｎ×Ｍブロック・ベース又は係数ベースで実行される、請求項５９の方法。
該層間予測は、Ｎ×Ｍブロック・ベース又は係数ベースで実行される、請求項５９の方法。
該層内予測又は該層間予測は、マクロブロック・ベース又は係数ベースで実行される、請求項５９の方法。
複数のベース層係数が少なくとも１つの非ゼロ係数を含むかどうかを決定すること；
該複数のベース層係数の全てがゼロ値を有する場合に、層内予測を使用して該ベース層をデコードすること；及び
該複数のベース層係数のうちの少なくとも１つが非ゼロ値を有する場合に、層間予測を使用して該ベース層をデコードすること、
をさらに具備する、請求項５９の方法。
マルチメディア・ビットストリームをデコードするための装置であって、該装置は、
ベース層及びエンハンスメント層を有するマルチメディア・ビットストリームを受け取るための決定モジュール；及び
該エンハンスメント層が層内予測又は層間予測を使用してデコードされるべきであるかどうかを決定するために該ベース層をデコードするための層間予測モジュール、
を具備することを特徴とする、装置。
層内予測モジュールをさらに具備し、
該決定モジュールは、複数のベース層係数が少なくとも１つの非ゼロ係数を含むかどうかを決定する；
該層内予測モジュールは、該複数のベース層係数の全てがゼロ値を有する場合に、層内予測を使用して該ベース層をデコードする；及び
該層間予測モジュールは、該複数のベース層係数のうちの少なくとも１つが非ゼロ値を有する場合に、層間予測を使用して該ベース層をデコードする、
ことを特徴とする、請求項６４の装置。