JP2014523695A - スケーラブルビデオ符号化技法 - Google Patents

スケーラブルビデオ符号化技法 Download PDF

Info

Publication number
JP2014523695A
JP2014523695A JP2014518659A JP2014518659A JP2014523695A JP 2014523695 A JP2014523695 A JP 2014523695A JP 2014518659 A JP2014518659 A JP 2014518659A JP 2014518659 A JP2014518659 A JP 2014518659A JP 2014523695 A JP2014523695 A JP 2014523695A
Authority
JP
Japan
Prior art keywords
mode
enhancement layer
sample
bdiff
base layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014518659A
Other languages
English (en)
Inventor
ウォンカプ・チャン
ジル・ボイス
ダニー・ホン
Original Assignee
ヴィディオ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴィディオ・インコーポレーテッド filed Critical ヴィディオ・インコーポレーテッド
Publication of JP2014523695A publication Critical patent/JP2014523695A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

開示される主題は、差分モードまたは画素モードを使用した層間予測のための技法を提供する。差分モードの場合、再構成基層画像の少なくとも1つの(アップサンプリング)サンプルから拡張層の少なくとも1つのサンプルを予測するために層間予測が使用される。画素モードの場合、拡張層サンプルを再構成するために再構成基層サンプルは使用されない。拡張層内の符号単位ヘッダの一部でありうるフラグを使用して、画素モードと差分モードの間を区別することができる。

Description

関連出願の相互参照
本出願は、その開示の全体が参照により本明細書に組み込まれている、2011年6月30日に出願した、「Scalable Video Coding Technique」という表題の米国特許出願第61/503,111号の優先権を主張するものである。
開示される主題は、再構成されることになるブロックの予測が拡張層データからの情報を使用する、基層と1つまたは複数の拡張層とを使用してビデオを符号化ならびに復号するための技法に関する。
本明細書で使用される意味でスケーラブル技法を使用するビデオ圧縮は、デジタルビデオ信号が複数の層の形で表現されるのを可能にする。スケーラブルビデオ符号化技法は、長年にわたって提案および/または標準化されてきた。
MPEG-2としても知られている、(International Telecommunication Union(ITU)、Place des Nations、1211 Geneva 20、Switzerlandから利用可能であり、その全体が参照により本明細書に組み込まれている)「Information technology-Generic coding of moving pictures and associated audio information: Video」という表題のITU-T Rec.H.262、バージョン02/2000は、例えば、いくつかの態様では、1つの基層および1つまたは複数の拡張層の符号化を可能にするスケーラブル符号化技法を含む。拡張層は、フレームレートの増大(時間スケーラビリティ)などの時間分解能、空間分解能(空間スケーラビリティ)、または所与のフレームレートおよび分解能における品質(SNRスケーラビリティとしても知られている品質スケーラビリティ)の点で基層を強化することができる。H.262では、拡張層マクロブロックは、2つの入力信号を重み付けする重み値を含むことが可能である。第1の入力信号は、基層の画素領域内の(空間拡張の場合、アップスケーリングされた)再構成マクロブロックデータでありうる。第2の信号は、本質的に、非階層的符号化(non-layered coding)で使用されるのと同じ再構成アルゴリズムを使用して生み出されている、拡張層ビットストリームから再構成された情報でありうる。エンコーダは、重み値を選択することができ、符号化効率を最適化するために、拡張層上で費やされるビットの数を変えること(それによって、重み付けの前に、拡張層信号の忠実性を変えること)ができる。MPEG-2のスケーラビリティ手法の1つの潜在的な不利点は、マクロブロックレベルの密な粒度で信号送信される重み係数が、拡張層の良好な符号化効率を可能にするためにあまりにも多くのビットを使用する場合があることである。もう1つの潜在的な不利点は、デコーダが単一の拡張層マクロブロックを再構成するために、言及された両方の信号を使用することを必要とし、単一層復号と比較して、より多くのサイクルおよび/またはメモリ帯域幅をもたらす可能性があることである。
(International Telecommunication Union (ITU)、Place des Nations、1211 Geneva 20、Switzerlandから利用可能であり、その全体が参照により本明細書に組み込まれている)ITU Rec.H.263バージョン2(1998年)以降は、時間スケーラビリティと、空間スケーラビリティと、SNRスケーラビリティとを可能にするスケーラビリティ機構も含む。詳細には、H.263付属書類Oによれば、SNR拡張層は、基層の再構成画像とソース画像との間で計算される、H.263が「符号化エラー」と呼ぶものの表現である。H.263空間拡張層は、補間フィルタを使用して、符号化エラーを計算する前に基層再構成画像がアップサンプリングされていることを除いて、類似の情報から復号される。H.263のSNRスケーラビリティツールおよび空間スケーラビリティツールの1つの潜在的な不利点は、基層と拡張層の両方の符号化、動き補償、および残差の変換符号化のために使用される基礎アルゴリズムが符号化エラーの符号化に対処するのに適していない可能性があることであり、代わりに、この基礎アルゴリズムは、入力画像の符号化に関する。
(International Telecommunication Union (ITU)、Place des Nations、1211 Geneva 20、Switzerlandから利用可能であり、その全体が参照により本明細書に組み込まれている)ITU-T Rec.H.264バージョン2(2005年)以降、およびそのそれぞれのISO-IEC同等物ISO/IEC14496第10部は、その付属書類G内にスケーラブルビデオ符号化、すなわちSVCとして知られているスケーラビリティ機構を含む。この場合も、H264および付属書類Gのスケーラビリティ機構は、時間スケーラビリティと、空間スケーラビリティと、(中でも、中間粒度スケーラビリティなど)SNRスケーラビリティとを含むが、スケーラブル符号化を達成するために使用される機構の詳細は、H.262またはH.263で使用される機構とは異なる。詳細には、SVCは、これらの符号化エラーを符号化しない。SVCは同じく重み係数を加えない。
SVCの空間スケーラビリティ機構は、予測のために、中でも以下の機構を含む。第1に、空間拡張層は、本質的に、所与のマクロブロックを符号化するために、非スケーラブル予測技法が十分であるか、または有利である場合に利用可能なすべての非スケーラブル符号化ツールを有する。第2に、I-BLマクロブロックタイプは、拡張層で信号送信されるとき、現在復号されている拡張層マクロブロックに関する予測係数(predictor)としてアップサンプリング基層サンプル値を使用する。主に単一ループ復号に関係し、かつデコーダサイクルの節約に関するI-BLマクロブロックの使用に関連する、ある種の制約が存在し、これは基層と拡張層の両方の符号化性能を損なう可能性がある。第3に、拡張層マクロブロックに関する残差中間層予測が信号送信されるとき、基層残差情報(符号化エラー)がアップサンプリングされ、拡張層サンプルを再生するために、拡張層符号化エラーと共に拡張層の動き補償予測に加えられる。
少なくとも一部の実装形態では、一部のビデオ圧縮方式およびビデオ圧縮標準に関して、SNRスケーラビリティをX次元とY次元の両方で1の空間スケーリングファクターを有する空間スケーラビリティであると見なすことができるという意味で、空間スケーラビリティとSNRスケーラビリティとは密接に関係しうるが、空間スケーラビリティは、例えば、それぞれの次元で基層の画像サイズを1.5倍から2.0倍より大きなフォーマットに拡張することができる。この密接な関係により、以下で説明されることは、空間スケーラビリティだけに関する。
非スケーラブル仕様ベースの異なる専門用語および/または異なる符号化ツール、ならびにスケーラビリティを実施するために使用される異なるツールにより、すべての3つの前述の標準における空間スケーラビリティの仕様は当然異なる。しかし、基層および1つの拡張層を符号化するように構成されたスケーラブルエンコーダに関するある例示的な実装戦略は、基層に関して1つ、拡張層に関してもう1つの2つの符号化ループを含むことである。より多くの符号化ループを追加することによって、追加の拡張層を加えることが可能である。反対に、スケーラブルデコーダは、基本デコーダと1つまたは複数の拡張デコーダとによって実装可能である。これは、例えば、その全体が参照により本明細書に組み込まれている、Dugad,R、およびAhuja,N、「A Scheme for Spatial Scalability Using Nonscalable Encoders」、IEEE CSVT、Vol 13 No.10、2003年10月で議論されている。
図1を参照すると、示されるのは、そのようなある例示的な先行技術のスケーラブルエンコーダのブロック図である。このスケーラブルエンコーダは、ビデオ信号入力(101)と、ダウンサンプリングユニット(102)と、基層符号化ループ(103)と、基層符号化ループの一部でありうるが、基準画像アップサンプリングユニット(105)に対する入力として機能することも可能な基層基準画像バッファ(104)と、拡張層符号化ループ(106)と、ビットストリーム生成器(107)とを含む。
ビデオ信号入力(101)は、例えば、(International Telecommunication Union(ITU)、Place des Nations、1211 Geneva 20、Switzerlandから利用可能であり、その全体が参照により本明細書に組み込まれている)ITU-R Rec.BT.601(1982年3月)に従って、符号化されることになるビデオを任意の適切なデジタルフォーマットで受信することができる。「受信する」という用語は、例えば、意図される拡張層空間分解能に対するフィルタリング、再サンプリングなどの前処理ステップ、およびその他の動作に関係しうる。本明細書において、入力信号の空間画像サイズは拡張層の空間画像サイズと同じであると仮定する。入力信号は、ビデオ信号入力に結合された拡張層符号化ループ(106)内で非変更形式(108)で使用可能である。
やはりビデオ信号入力に結合されるのは、ダウンサンプリングユニット(102)でありうる。ダウンサンプリングユニット(102)の目的は、拡張層分解能でビデオ信号入力(101)によって受信された画像を基層分解能にダウンサンプリングすることである。ビデオ符号化標準、ならびに適用制約は、基層分解能に関する制約を設定することが可能である。H.264/SVCのスケーラブルベースラインプロファイルは、例えば、X次元およびY次元の両方で1.5または2.0のダウンサンプリング率を可能にする。2.0のダウンサンプリング率は、ダウンサンプリングされた画像がダウンサンプリングされていない画像のサンプルの4分の1だけを含むことを意味する。前述のビデオ符号化標準では、アップサンプリング機構とは無関係に、ダウンサンプリング機構の詳細を自由に選択することが可能である。対照的に、前述のビデオ符号化標準は、拡張層符号化ループ(106)内のドリフトを回避するために、アップサンプリングに関して使用されるフィルタを指定する。
ダウンサンプリングユニット(102)の出力は、ビデオ信号入力(101)によって作成された画像のダウンサンプリングバージョンである。
基層符号化ループ(103)は、ダウンサンプリングユニット(102)によって作成されたダウンサンプリング画像を利用して、それを基層ビットストリーム(110)内に符号化する。
多くのビデオ圧縮技術は、高い圧縮効率を達成するために、中でも画像間予測技法に依存する。画像間予測は、現在の画像を復号する際に、基準画像として知られている、1つもしくは複数の先に復号された(または、そうでない場合、処理された)画像に関する情報を使用するのを可能にする。画像間予測機構に関する例は、再構成の間に、動きベクトルに従って移動された後に、もしくは残差符号化の後に、先に復号された画像からの画素のブロックが複写されるか、またはそうでない場合、用いられる動き補償を含み、この場合、画素値を復号する代わりに、(場合によっては、補償された動きを含めて)基準画像の画素と、再構成画素値との間の潜在的に量子化された差分がビットストリーム内に含まれ、再構成のために使用される。画像間予測は、近代のビデオ符号化において良好な符号化効率を可能にできる主要技術である。
反対に、エンコーダは基準画像をその符号化ループ内で生み出すことも可能である。
非スケーラブル符号化の間、基準画像の使用は、画像間予測において特に関連性があるが、スケーラブル符号化の場合、基準画像はクロスレイヤ予測(cross-layer prediction)に関しても関連性がある。クロスレイヤ予測は、拡張層画像を予測する際の基準画像として、基層の再構成画像、ならびにその他の基層基準画像の使用を必要とする場合がある。この再構成画像または基準画像は、画像間予測に関して使用される基準画像と同じであってよい。しかし、基層が、スケーラブル符号化を使用せずに、基準画像を必要としないことになる、画像内だけの符号化などの形で符号化される場合ですら、そのような基層基準画像の生成が必要とされる場合がある。
基層基準画像は拡張層符号化ループ内で使用可能であるが、ここでは、説明を簡単にするために、拡張層符号化ループによって使用するために再構成画像(最も最近の基準画像)(111)の使用だけが示される。基層符号化ループ(103)は、前述の意味で基準画像を生成して、それを基準画像バッファ(104)内に記憶することができる。
再構成画像バッファ(111)内に記憶された画像は、アップサンプリングユニット(105)によって、拡張層符号化ループ(106)により使用される分解能にアップサンプリングされうる。拡張層符号化ループ(106)は、ビデオ入力(101)からもたらされる入力画像、およびその符号化プロセスにおいて拡張層符号化ループの一部として生み出された基準画像(112)と共に、アップサンプリングユニット(105)によって作成された、アップサンプリング基層基準画像を使用することができる。これらの使用の性質は、ビデオ符号化標準に依存し、上記のいくつかのビデオ圧縮標準に関して既に手短に紹介されている。拡張層符号化ループ(106)は、スケーラブルビットストリーム(114)を生み出すために、基層ビットストリーム(110)および制御情報(図示せず)と共に処理されうる拡張層ビットストリーム(113)を生み出すことができる。
H.264およびHEVなど、より最近のビデオ符号化標準では、イントラ符号化はさらなる役割も引き受けている。
執筆時に、HEVCは映像符号化共同研究部(Joint Collaborative Team for Video Coding)(JCT-VC)で開発中であり、本原稿は、その全体が参照により本明細書に組み込まれている(以下、「WD6」または「HEVC」と呼ばれる)「Bross他、High efficiency video coding (HEVC)text specification draft6、JCTVC-H1003_dK、2012年2月」に見出すことができる。
開示される主題は、拡張層データから再構成されることになるブロックを予測するための技法を提供する。
一実施形態では、拡張層データと共に基層データから再構成されることになるブロックを予測するための技法が提供される。
一実施形態では、ビデオエンコーダは、2つの符号化モード、すなわち、画素符号化モードおよび差分符号化モードを選択することができる拡張層符号化ループを含む。
同じまたは別の実施形態では、エンコーダは、符号化モードを選択する際に使用するための判断モジュールを含むことが可能である。
同じまたは別の実施形態では、エンコーダは、選択された符号化モードを示すフラグをビットストリーム内に含むことが可能である。
一実施形態では、デコーダは、画素符号化モードおよび差分符号化モードで復号するためのサブデコーダを含むことが可能である。
同じまたは別の実施形態では、デコーダは、差分符号化モードと画素符号化モードの間で切り替えるためのフラグをビットストリームから抽出することがさらに可能である。
開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
先行技術によるある例示的なスケーラブルビデオエンコーダの概略図である。 本開示のある実施形態による、ある例示的なエンコーダの概略図である。 本開示のある実施形態による、画素モードのある例示的なサブエンコーダの概略図である。 本開示のある実施形態による、差分モードのある例示的なサブエンコーダの概略図である。 本開示のある実施形態による、ある例示的なデコーダの概略図である。 本開示のある実施形態による、ある例示的なエンコーダ動作に関する手順を示す図である。 本開示のある実施形態による、ある例示的なデコーダ動作に関する手順を示す図である。 本開示のある実施形態による、ある例示的なコンピュータシステムを示す図である。
これらの図面は組み込まれ、本開示の一部を構成する。その他の記述がない限り、これらの図面を通して、例示される実施形態の類似の特徴、要素、構成要素、または部分を示すために、同じ参照番号および参照符号が使用される。さらに、開示される主題は、次に、これらの図面を参照して詳述されるが、この詳述は例示される実施形態に関して行われる。
開示される主題の記述を通して、「基層」という用語は、拡張層が基づくレイヤ階層(layer hierarchy)内の層を指す。2つを超える拡張層を伴う環境では、本記述で使用される基層は、可能な最下位層でなくてよい。
図2は、開示される主題による2層エンコーダのブロック図である。エンコーダを拡張して、追加の拡張層符号化ループを加えることによって、2つを超える層をサポートすることが可能である。
エンコーダは、ダウンサンプルモジュール(202)内で基層空間分解能にダウンサンプリング可能であり、かつ基層符号化ループ(203)に対する入力として、ダウンサンプリングされた形式でサービス提供可能な、圧縮されていない入力ビデオ(201)を受信することができる。ダウンサンプリング係数は1.0であってよく、その場合、基層画像の空間次元は拡張層画像の空間次元と同じであり、その結果、SNRスケーラビリティとしても知られる、高品質のスケーラビリティをもたらす。1.0よりも大きなダウンサンプリング係数は、拡張層分解能よりも低い基層空間分解能をもたらす。ビデオ符号化標準は、ダウンサンプリング係数に関する許容範囲に制約を加える場合がある。この係数は、アプリケーションに依存する場合もある。
基層符号化ループは、エンコーダの他のモジュール内で使用される以下の出力信号を生成することができる。
A)例えば、基層対応デコーダ(図示せず)に独力で利用可能にされうるか、または、拡張層ビット、および、次にスケーラブルデコーダ(図示せず)によって復号されうるスケーラブルビットストリーム(206)を生成することができるスケーラブルビットストリーム生成器(205)に対する制御情報と集約されうる、その独自の、場合によっては自蔵式の基層ビットストリームを形成できる基層符号化ビットストリームビット(204)。
B)クロスレイヤ予測のために使用されうる、画素領域内の、基層符号化ループの再構成画像(または、その一部)(207)(以下、基層画像)。基層画像は、SNRスケーラビリティの場合、拡張層分解能と同じであってよい基層分解能でありうる。空間スケーラビリティの場合、基層分解能は異なってよく、例えば、拡張層分解能よりも低くてよい。
C)基準画像サイド情報(208)。このサイド情報は、例えば、基準画像の符号化、マクロブロック、または符号単位(CU)符号化モード、イントラ予測モードなどに関連する動きベクトルに関する情報を含むことが可能である。(再構成された現在の画像またはその一部である)「現在の」基準画像は、より古い基準画像に関連する、より多くのそのようなサイド情報を有する場合がある。
基層画像およびサイド情報は、基層画像および空間スケーラビリティの場合、例えば、ビデオ圧縮標準で指定されうる補間フィルタを使用して、それらのサンプルを拡張層の空間分解能にアップサンプリングすることができるアップサンプリングユニット(209)とアップスケーリングユニット(210)とによってそれぞれ処理可能である。基準画像サイド情報の場合、例えば、スケーリングに関して、同等の変換を使用することができる。例えば、動きベクトルは、X次元とY次元の両方で、基層符号化ループ(203)内で生成されたベクトルを乗算することによってスケーリング可能である。
拡張層符号化ループ(211)は、先に生成された符号化拡張層画像を再構成することによって生成された基準画像サンプルデータ、ならびに、関連するサイド情報を含みうる、その独自の基準画像バッファ(212)を含むことが可能である。
開示される主題のある実施形態では、拡張層符号化ループは、その動作が後で説明されるbDiff判断モジュール(213)をさらに含む。拡張層符号化ループは、例えば、所与のCU、マクロブロック、スライス、またはその他の適切なシンタックス構造、フラグbDiffを生み出す。生成されると、フラグbDiffをCUヘッダ、マクロブロックヘッダ、スライスヘッダ、または任意のその他の適切なシンタックス構造など、適切なシンタックス構造で拡張層ビットストリーム(214)内に含めることが可能である。説明を簡素化するために、以下で、bDiffフラグはCUと関連付けられると仮定する。例えば、フラグを2進形で直接的にヘッダ内に符号化し、それを他のヘッダ情報とグループ化して、グループ化されたシンボルに(例えば、コンテキスト適応2進算術符号化(Context-Adaptive Binary Arithmetic Coding)、CABACなど)エントロピー符号化を適用することによって、フラグをビットストリーム内に含めることが可能であるか、または他のエントロピー符号化機構を介してフラグを推定することが可能である。すなわち、ビットはビットストリーム内で容易に識別可能な形で存在しない場合があるが、他のビットストリームデータからの導出によってだけ利用可能でありうる。(上で述べられたように2進形の、または導出可能な)bDiffの存在は、複数のCUの場合、マクロブロック/スライスなどであってよいイネーブル信号によって信号送信可能である。ビットが不在な場合、符号化モードを固定することが可能である。イネーブル信号は、例えば、スライスヘッダまたはパラメータセットなど、ハイレベルのシンタックス構造内に直接的にまたは導出された形で含めることが可能なフラグadaptive_diff_coding_flagの形を有してよい。
ある実施形態では、フラグbDiffの設定に応じて、拡張層符号化ループ(211)は、例えば、そのフラグが関連するCUに関する2つの異なる符号化モードの間で選択することができる。これらの2つのモードは、以下で「画素符号化モード」および「差分符号化モード」と呼ばれる。
「画素符号化モード」は、問題のCUを符号化するとき、拡張層符号化ループが、例えば、入力ビデオとアップスケーリング基層データとの間で計算された差分情報など、基層からの情報に依存することなく、圧縮されていないビデオ入力(201)によって提供されるような入力画素に基づいて動作することができるモードを指す。
「差分符号化モード」は、拡張層符号化ループが入力画素と現在のCUのアップサンプリング基層画素との間で計算された差分に基づいて動作することができるモードを指す。アップサンプリング基層画素は、動き補償可能であり、下で議論されるように、イントラ予測およびその他の技法の対象となる場合がある。これらの動作を実行するために、拡張層符号化ループは、アップサンプリングサイド情報を必要とする場合がある。差分符号化モードの画像間層予測は、DugadおよびAhujaで記述されたような拡張層符号化(上記を参照されたい)で使用される層間予測におよそ相当しうる。
以下において、説明されるのは、分かり易くするために、モードごとに分離された、画素符号化モードと差分符号化モードの両方の拡張層符号化ループ(211)である。符号化ループが動作するモードは、bDiff判断モジュール(213)によって、例えば、CU粒度で選択可能である。したがって、所与の画像の場合、ループは、CU境界で変化するモードでありうる。
図3を参照すると、示されるのは、例えば、画素符号化モードの拡張層符号化ループの例えば基準画像記憶に関する小規模の修正を伴うHEVCの動作に続く、ある例示的な実装形態である。拡張層符号化ループは、その他の標準化された非スケーラブル符号化方式または標準化されていない非スケーラブル符号化方式、例えば、H.263またはH.264の非スケーラブル符号化方式を使用して動作している可能性もある点を強調すべきである。基層符号化ループおよび拡張層符号化ループは、同じ標準に準拠する必要がなく、または動作原理に準拠する必要すらない。
拡張層符号化ループは、符号化入力ビデオサンプル(305)であってよいインループエンコーダ(301)を含むことが可能である。インループエンコーダは、動き補償および残差の変換符号化を伴う画像間予測などの技法を利用することができる。インループエンコーダ(301)によって生み出されたビットストリーム(302)は、再構成画像(304)を生み出すことができるインループデコーダ(303)によって再構成可能である。インループデコーダは、ビットストリーム構成プロセスにおいて、ここでは、1つの代替実装戦略(307)として破線で示される暫定状態で動作することも可能である。例えば、1つの一般的な戦略は、エントロピー符号化ステップを省略し、(エントロピー符号化の前に)インループエンコーダ(301)によって生み出されたシンボルに関してインループデコーダ(303)を動作させることである。インループエンコーダ(301)によるさらなる参照のために、再構成画像(304)を基準画像として基準画像記憶装置(306)内に記憶することができる。インループデコーダ(303)によって生み出されている、基準画像記憶装置(306)内の基準画像は画素符号化モードであってよいが、これは、画素符号化モードはインループエンコーダが動作するモードであるためである。
図4を参照すると、示されているのは、例えば、差分符号化モードの拡張層符号化ループの、示されるような追加物と修正とを伴うHEVCの動作に続く、ある例示的な実装形態である。画素モードのエンコーダ符号化ループに関して行われたのと同じ解説を適用することができる。
符号化ループは、圧縮されていない入力サンプルデータ(401)を受信することができる。符号化ループは、アップサンプリング基層再構成画像(または、その一部)と関連するサイド情報とをアップサンプリングユニット(209)およびアップスケーリングユニット(210)からそれぞれ受信することがさらに可能である。いくつかの基層ビデオ圧縮標準では、伝達される必要があるサイド情報は存在せず、したがって、アップスケーリングユニット(210)は存在しない場合がある。
差分符号化モードの場合、符号化ループは、圧縮されていない入力サンプルデータ(401)とアップサンプリングユニット(209)から受信されたアップサンプリング基層再構成画像(または、その一部)(402)との間の差分を表すビットストリームを生み出すことができる。この差分は、アップサンプリング基層サンプル内に表されない残差情報である。したがって、この差分は、残差計算器モジュール(403)によって計算可能であり、符号化されることになる画像バッファ(404)内に記憶可能である。符号化されることになる画像バッファ(404)の画像は、例えば、HEVC符号化ループによる画素符号化モードに関する符号化ループ内と同じ圧縮機構または異なる圧縮機構に従って、拡張層符号化ループによって符号化可能である。詳細には、インループエンコーダ(405)は、再構成画像(408)を生成するために、インループデコーダ(407)によって再構成されうるビットストリーム(406)を生み出すことができる。この再構成画像は、将来の画像復号の際に基準画像として機能することが可能であり、基準画像バッファ(409)内に格納可能である。インループエンコーダに対する入力は残差計算器モジュールによって生み出された差分画像(または、その一部)(409)であるため、生み出された基準画像はやはり差分符号化モードであり、すなわち、符号化された符号化エラーを表す。
符号化ループは、差分符号化モードのとき、アップスケーリング再構成基層画像サンプルと入力画像サンプルとの間で計算された差分情報に基づいて動作する。画素符号化モードのとき、符号化ループは入力画像サンプルに基づいて動作する。したがって、基準画像データは、差分領域内またはソース(別名、画素)領域内のいずれかでやはり計算されうる。符号化ループは、CU粒度で、bDiffフラグに基づいてモード間で変更することが可能であるため、基準画像記憶装置が基準画像サンプルを単純に記憶することになる場合、基準画像は両方の領域のサンプルを含むことが可能である。bDiff判断は同じ空間的に配置されたCUに関して異なるモードを継時的に容易に選択することができるため、結果として生じる基準画像は未修正の符号化ループに関して使用できない場合がある。
基準画像記憶装置問題を解決するためのいくつかのオプションが存在する。これらのオプションは、サンプル値の単純な加算動作/減算動作によって、所与の基準画像サンプルを差分モードから画素モードに変換することが可能であり、逆もまた可能であることに基づく。詳細には、拡張層内の基準画像の場合、差分モードで生成されたサンプルを画素モードに変換するために、アップサンプリング基層再構成画像の空間的に対応するサンプルを符号化された差分値に加算することができる。反対に、画素モードから差分モードに変換するとき、アップサンプリング基層再構成画像の空間的に対応するサンプルを拡張層内の符号化されたサンプルから減算することができる。
以下の説明では、拡張層符号化ループ内の基準画像記憶装置に関する多くの可能なオプションのうちの3つが列挙され、説明される。当業者は、これらのうちから容易に選択することができるか、または当業者が自らのエンコーダ設計の基礎とするハードウェアアーキテクチャ/ソフトウェアアーキテクチャに関して最適化された異なるオプションを考案することができる。
1つのオプションは、前述の加算動作/減算動作を使用して、両方の変形体、すなわち、画素モードおよび差分モードで拡張層基準画像を生成することである。この機構は、記憶要件を二倍にする可能性があるが、2つのモード間の決定プロセスが、すなわち、網羅的な動き推定のために符号化を必要とするとき、および複数のプロセッサが利用可能であるとき、利点を有する場合がある。例えば、1つのプロセッサには画素モードで記憶された基準画像内の動き検索を実行する任務が課されてよいが、もう1つのプロセッサは差分モードで記憶された基準画像内の動き検索を実行することができる。
もう1つのオプションは、例えば、画素モードの基準画像だけを記憶して、例えば、差分モードが選択される場合、記憶装置として非アップサンプリング基層画像を使用して、オンザフライで差分モードに変換することである。サンプルを記憶する/取り出すよりも、それらのサンプルをアップサンプリングして、加算/減算するほうがより効果的である、メモリが制約されている実装形態、またはメモリ帯域幅が制約されている実装形態の場合、このオプションは道理にかなう。
異なるオプションは、エンコーダによって生成されたモードでCUごとに基準画像データを記憶することを必要とするが、所与のCUの基準画像データが何のモードで記憶されているかの表示を追加する。このオプションは、後の画像を符号化する際に基準画像が使用されるとき、オンザフライ変換を必要とする場合があるが、情報を記憶することが、取出しおよび/または計算よりも計算的により費用がかかる場合、アーキテクチャの点で利点を有する場合がある。
次に説明されるのは、bDiff判断モジュール(図2、213)のいくつかの特徴である。
発明者らの経験に基づくと、拡張層エンコーダのモード決定がイントラ符号化モードを使用することを決定した場合、差分モードの使用は非常に効率的であるように思われる。したがって、一実施形態では、拡張層のすべてのイントラCU(Intra CU)に関して、差分符号化モードが選択される。
インターCU(Inter CU)の場合、経験を通じて、そのような単純な経験則は判断されなかった。したがって、エンコーダは、差分符号化モードまたは画素符号化モードの使用を判断するために、十分な情報が与えられたコンテンツ適応決定を行う技法を使用することができる。同じまたは別の実施形態では、この十分な情報が与えられた技法は、問題のCUを両方のモードで符号化して、レート歪み最適化(Rate-Distortion Optimization)技法を使用して、2つの結果として生じるビットストリームのうちの1つを選択することでありうる。
上で説明されたエンコーダによって生成されたスケーラブルビットストリームは、次に、図5を参照して説明されるデコーダによって復号されうる。
開示される主題によるデコーダは、2つ以上のサブデコーダ、すなわち、基層復号のための基層デコーダ(501)と、拡張層復号のための1つまたは複数の拡張層デコーダとを含むことが可能である。説明を簡単にするために、説明されるのは、単一の基層および単一の拡張層の復号だけであり、したがって、1つの拡張層デコーダ(502)だけが示される。
スケーラブルビットストリームが受信されて、分波器(503)によって基層ビットと拡張層ビットとに分離されうる。基層ビットは、基層ビットストリームを生成するために使用される符号化プロセスの逆でありうる復号プロセスを使用して、基層デコーダ(501)によって復号される。当業者は、エンコーダと、ビットストリームと、デコーダとの間の関係を容易に理解することができる。
基層デコーダの出力は、再構成画像またはその一部(504)であってよい。手短に説明された、拡張層復号に関するその使用に加えて、再構成基層画像(504)が出力されて(505)、オーバーレイシステムによって使用されることも可能である。所与の拡張層CUによって参照される再構成基層のすべてのサンプルが(場合によっては、一部だけ)再構成基層画像内で利用可能になると、開示される主題による、差分符号化モードの拡張層データの復号を開始することができる。したがって、基層および拡張層の復号は並列して発生することが可能でありうる。説明を簡単にするために、以下で、基層画像はその全体が再構成されていると仮定する。
基層エンコーダの出力は、その全体が参照により本明細書に組み込まれている、2012年6月20日に出願した、「Motion Prediction in Scalable Video Coding」という表題の同時係属米国特許出願第13/528,169号で開示されるように、場合によっては、アップスケーリングの後で、拡張層デコーダによって利用されうるサイド情報(506)、例えば、動きベクトルを含むことも可能である。
基層再構成画像またはその一部は、アップサンプリングユニット(507)内で、例えば、拡張層内で使用される分解能にアップサンプリング可能である。アップサンプリングは、単一の「バッチ」で、または必要に応じて、「オンザフライ」で発生しうる。同様に、サイド情報(506)は、利用可能な場合、アップスケーリングユニット(508)によってアップスケーリング可能である。
拡張層ビットストリーム(509)は、拡張層デコーダ(502)に入力されうる。拡張層デコーダは、例えば、CU、マクロブロック、またはスライスごとに、例えば、所与のCU、マクロブロック、もしくはスライスに関する差分符号化モードまたは画素符号化モードの使用を示すことができるフラグbDiff(510)を復号することができる。拡張層ビットストリーム内のフラグを表すためのオプションは既に説明されている。
フラグは、2つの動作モード、すなわち、差分符号化モードと画素符号化モードとの間で切り替えることによって、拡張層デコーダを制御することができる。例えば、bDiffが0である場合、画素符号化モードを選択する(511)ことができ、ビットストリームのその部分は画素モードで復号される。
画素符号化モードの場合、サブデコーダ(512)は、基層復号の際に使用されるのと同じでありうるデコーダ仕様に従って、画素領域内でCU/マクロブロック/スライスを再構成することができる。復号は、例えば、HEVCに従ってよい。復号が画像間予測を必要とする場合、基準画像バッファ(513)内に記憶されうる、1つまたは複数の基準画像が必要とされる場合がある。基準画像バッファ内に記憶されたサンプルは、画素領域内にあってよく、または、変換器(514)によって、異なる記憶装置形式からオンザフライで画素領域内に変換されてもよい。基準画像記憶装置が基準画像を画素領域フォーマットで含むとき、変換器(514)は必要でない場合があるため、変換器(514)は破線で示されている。
差分符号化モード(515)の場合、サブデコーダ(516)は、拡張層ビットストリームを使用して、差分画像領域内のCU/マクロブロック/スライスを再構成することができる。復号が画像間予測を必要とする場合、基準画像バッファ(513)内に記憶されうる、1つまたは複数の基準画像が必要とされる場合がある。基準画像バッファ内に記憶されるサンプルは、差分領域内にあってよく、または、変換器(517)によって、異なる記憶装置形式からオンザフライで差分領域内に変換されてよい。基準画像記憶装置が基準画像を画素領域フォーマットで含むとき、変換器(517)は必要でない場合があるため、変換器(517)は破線で示されている。基準画像記憶装置、および領域間の変換に関するオプションは、エンコーダの文脈ですでに説明されている。
サブデコーダ(516)の出力は差分領域内の画像である。例えば、レンダリング用に有用にするために、出力は画素領域内に変換される必要がある。変換器(518)を使用してこれを行うことが可能である。
すべての3つの変換器(514)(517)(518)は、エンコーダの文脈で既に説明された原理に従う。機能するために、これらの変換器は、アップサンプリング基層再構成画像サンプル(519)にアクセスする必要がありうる。説明を簡単にするために、変換器(518)内へのアップサンプリング基層再構成画像サンプルの入力だけが示されている。アップスケーリングサイド情報(520)は、(例えば、SVCで使用されるのと類似の層間予測がサブデコーダ(512)内で実施されるとき)画素領域サブデコーダ内と差分領域サブデコーダ内の両方で復号するために必要とされる場合がある。この入力は示されない。
拡張層エンコーダは、以下の手順に従って動作することができる。説明されるのは、2つの基準画像バッファ、すなわち、1つは差分モードの基準画像バッファ、もう1つは画素モードの基準画像バッファの使用である。
図6を参照し、所与のCUの差分モード符号化に関して必要とされうるサンプルが基層デコーダ内で既に利用可能であると仮定する。
一実施形態では、差分モードで所与のCU/マクロブロック/スライス(以下、CU)を符号化するために必要とされうるすべてのサンプルおよび関連するサイド情報が拡張層分解能にアップサンプリング/アップスケーリングされる(601)。
同じまたは別の実施形態では、例えば、既に説明されたように、フラグbDiffの値が判断される(602)。
同じまたは別の実施形態では、bDiffの値に基づいて、異なる制御経路(604)(605)を選択する(603)ことができる。詳細には、bDiffが差分符号化モードの使用を示すとき、制御経路(604)が選択されるが、bDiffが画素符号化モードの使用を示すとき、制御経路(605)が選択される。
同じまたは別の実施形態では、差分モード(604)のとき、ステップ(601)で生成されたアップサンプリングサンプルと入力画像のCU/マクロブロック/スライスに属するサンプルとの間の差分を計算する(606)ことができる。差分サンプルを記憶する(606)ことができる。
同じまたは別の実施形態では、ステップ(606)の記憶された差分サンプルが符号化され(607)、既に議論されたように、直接的または間接的のいずれかでbDiffフラグを含みうる、符号化されたビットストリームをスケーラブルビットストリーム内に配置する(608)ことができる。
同じまたは別の実施形態では、符号化(607)によって生成された再構成画像サンプルを差分基準画像記憶装置内に記憶する(609)ことができる。
同じまたは別の実施形態では、既に説明されたように、符号化(607)によって生成された再構成画像サンプルを画素符号化領域内に変換する(610)ことができる。
同じまたは別の実施形態では、ステップ(610)の変換されたサンプルを画素基準画像記憶装置内に記憶する(611)ことができる。
同じまたは別の実施形態では、経路(605)(および、それによって、画素符号化モード)が選択された場合、入力画像のサンプルを符号化する(612)ことが可能であり、既に議論されたように、bDiffフラグを直接的または間接的に含みうる、生み出されたビットストリームをスケーラブルビットストリーム内に配置する(613)ことができる。
同じまたは別の実施形態では、符号化(612)によって生成された再構成画像サンプルを画素領域基準画像記憶装置内に記憶する(614)ことができる。
同じまたは別の実施形態では、既に説明されたように、符号化(612)によって生成された再構成画像サンプルを差分符号化領域内に変換する(615)ことができる。
同じまたは別の実施形態では、ステップ(615)の変換されたサンプルを差分基準画像記憶装置内に記憶する(616)ことができる。
拡張層デコーダは、以下の手順に従って動作することができる。説明されるのは、2つの基準画像バッファ、すなわち、1つは差分モードの基準画像バッファ、もう1つは画素モードの基準画像バッファの使用である。
図7を参照し、所与のCUの差分モード復号のために必要とされうるサンプルが基層デコーダ内で既に利用可能であると仮定する。
一実施形態では、差分モードで所与のCU/マクロブロック/スライス(以下、CU)を復号するために必要とされうる、すべてのサンプルおよび関連するサイド情報が拡張層分解能にアップサンプリング/アップスケーリングされる(701)。
同じまたは別の実施形態では、例えば、ビットストリームからの値を解析することによって、フラグbDiffの値が判断され(702)、この場合、既に説明されたように、bDiffを直接的または間接的に含むことができる。
同じまたは別の実施形態では、bDiffの値に基づいて、異なる制御経路(704)(705)を選択すること(703)ができる。詳細には、bDiffが差分符号化モードの使用を示すとき、制御経路(704)が選ばれ、bDiffが画素符号化モードの使用を示すとき、制御経路(705)が選択される。
同じまたは別の実施形態では、差分モード(704)のとき、ビットストリームを復号して、(必要とされるとき)差分領域内にある基準画像情報を使用して再構成CUを生成すること(705)ができる。例えば、問題のCUがイントラモードで符号化されるとき、基準画像情報は必要とされない場合がある。
同じまたは別の実施形態では、再構成サンプルを差分領域基準画像バッファ内に記憶する(706)ことができる。
同じまたは別の実施形態では、既に説明されたように、復号(705)によって生成された再構成画像サンプを画素符号化領域内に変換すること(707)ができる。
同じまたは別の実施形態では、ステップ(707)の変換されたサンプルを画素基準画像記憶装置内に記憶する(708)ことができる。
同じまたは別の実施形態では、経路(705)(および、それによって、画素符号化モード)が使用される場合、ビットストリームを復号して、(必要とされるとき)画素領域内にある基準画像情報を使用して再構成CUを生成する(709)ことができる。
同じまたは別の実施形態では、復号(709)によって生成された再構成画像サンプルを画素基準画像記憶装置内に記憶する(710)ことができる。
同じまたは別の実施形態では、既に説明されたように、復号(709)によって生成された再構成画像サンプルを差分符号化領域内に変換する(711)ことができる。
同じまたは別の実施形態では、ステップ(711)の変換されたサンプルを差分基準画像記憶装置内に記憶する(712)ことができる。
上で説明された、差分モードと画素モードとを使用したスケーラブル符号化/復号のための方法を、コンピュータ可読命令を使用するコンピュータソフトウェアとして実施して、コンピュータ可読媒体内に物理的に記憶することが可能である。コンピュータソフトウェアは、任意の適切なコンピュータ言語を使用して符号化されうる。ソフトウェア命令は、様々なタイプのコンピュータ上で実施可能である。例えば、図8は、本開示の実施形態を実施するのに適したコンピュータシステム800を例示する。
コンピュータシステム800に関して図8で示される構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能性の範囲に関して、いかなる限定も示唆することを意図しない。また、構成要素の構成は、コンピュータシステムの例示的な実施形態で例示される構成要素のうちのいずれか1つもしくはそれらの組合せに関して、いかなる依存性または要件を有するとして解釈されるべきではない。コンピュータシステム800は、集積回路、プリント回路基板、(モバイル電話もしくはPDAなど)小型ハンドヘルドデバイス、パーソナルコンピュータ、またはスーパーコンピュータを含む、多くの物理的な形を有することが可能である。
コンピュータシステム800は、ディスプレイ832と、(例えば、キーパッド、キーボード、マウス、スタイラスなど)1つまたは複数の入力デバイス833と、1つまたは複数の出力デバイス834(例えば、スピーカ)と、1つまたは複数の記憶デバイス835と、様々なタイプの記憶媒体836とを含む。
システムバス840は、幅広い種類のサブシステムをリンクする。当業者が理解するように、「バス」は、一般的な機能をサービス提供する複数のデジタル信号ラインを指す。システムバス840は、様々なバスアーキテクチャのうちのいずれかを使用する、メモリバスと、周辺バスと、ローカルバスとを含む、いくつかのタイプのバス構造のうちのいずれかであってよい。限定ではなく、例として、そのようなアーキテクチャは、業界標準アーキテクチャ(ISA)バスと、拡張ISA(EISA)バスと、マイクロチャネルアーキテクチャ(MCA)バスと、ビデオエレクトロニクススタンダーズアソーシエーション(Video Electronics Standards Association)ローカル(VLB)バスと、ペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect)(PCI)バスと、PCI-Expressバス(PCI-X)と、アクセラレーテッドグラフィックスポート(Accelerated Graphics Port) (AGP)バスとを含む。
(中央処理装置、すなわち、CPUとも呼ばれる)プロセッサ801は、命令、データ、またはコンピュータアドレスの一時的な局所記憶用のキャッシュメモリユニット802をオプションで含む。プロセッサ801は、メモリ803を含む記憶デバイスに結合される。メモリ803は、ランダムアクセスメモリ(RAM)804と読出し専用メモリ(ROM)805とを含む。当技術分野でよく知られているように、ROM805は、データおよび命令をプロセッサ801に一方向に転送するように作用し、RAM804は、典型的には、データおよび命令を双方向様式で転送するために使用される。これらのタイプのメモリは両方とも、下で説明される、任意の適切なコンピュータ可読媒体を含むことが可能である。
固定記憶装置808は、オプションで、記憶制御ユニット807を経由して、やはりプロセッサ801に双方向で結合される。固定記憶装置808は、追加のデータ記憶容量を提供し、下で説明されるコンピュータ可読媒体のうちのいずれかを含むことも可能である。記憶装置808は、オペレーティングシステム809、EXEC810、アプリケーションプログラム812、データ811などを記憶するために使用可能であり、典型的には、一次記憶装置よりも遅い(ハードディスクなど)二次記憶媒体である。適切な場合、記憶装置808内に保持される情報をメモリ803内の仮想メモリとして標準の様式で組み込むことが可能である点を理解されたい。
プロセッサ801は、グラフィックコントロール821、ビデオインターフェース822、入力インターフェース823、出力インターフェース824、記憶インターフェース825など、様々なインターフェースにも結合され、これらのインターフェースは、次に、適切なデバイスに結合される。一般に、入出力デバイスは、ビデオディスプレイ、トラックボール、マウス、キーボード、マイクロフォン、タッチセンサー式ディスプレイ、トランスデューサカードリーダ(transducer card reader)、磁気読取り装置または紙テープ読取り装置、タブレット、スタイラス、音声認識または手書き文字認識、生体読取り装置、またはその他のコンピュータのうちのいずれかであってよい。プロセッサ801は、ネットワークインターフェース820を使用して、別のコンピュータまたは通信ネットワーク830に結合可能である。そのようなネットワークインターフェース820の場合、上述の方法を実行する過程で、CPU801が情報をネットワーク830から受信することができるか、または情報をネットワークに出力することができることが企図される。さらに、本開示の方法実施形態は、CPU801上でだけ実行することができるか、または処理の一部を共有する遠隔CPU801と連携して、インターネットなど、ネットワーク830を介して実行することができる。
様々な実施形態によれば、ネットワーク環境内にあるとき、すなわち、コンピュータシステム800がネットワーク830に接続されているとき、コンピュータシステム800は、やはりネットワーク830に接続された他のデバイスと通信することができる。ネットワークインターフェース820を経由してコンピュータシステム800と通信をやりとりすることができる。例えば、別のデバイスからの要求または応答など、1つもしくは複数のパケットの形の着信通信をネットワークインターフェース820においてネットワーク830から受信して、処理のためにメモリ803内の選択された区分内に記憶することができる。別のデバイスに対する要求または応答など、この場合も1つもしくは複数のパケットの形の発信通信もやはりメモリ803内の選択された区分内に記憶して、ネットワークインターフェース820においてネットワーク830に送信することができる。プロセッサ801は、処理のために、メモリ803内に記憶されたこれらの通信パケットにアクセスすることができる。
加えて、本開示の実施形態は、さらに、様々なコンピュータ実施動作を実行するためのコンピュータコードを有するコンピュータ可読媒体を備えたコンピュータ記憶製品に関する。媒体およびコンピュータコードは、本開示のために特に設計および構築されたものであってよく、または媒体およびコンピュータコードは、コンピュータソフトウェア技術分野の当業者によく知られており、当業者に利用可能なものであってもよい。コンピュータ可読媒体の例は、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、ならびに、ROMデバイスおよびRAMデバイスなど、プログラムコードを記憶して、実行するように特別に構成された、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープなどの磁気媒体と、CD-ROMおよびホログラフィックデバイスなどの光媒体と、光ディスクなどの光磁気媒体と、ハードウェアデバイスとを含むが、これらに限定されない。コンピュータコードの例は、コンパイラによって作成されるような、機械コードと、インタープリターを使用してコンピュータによって実行される上位コードを含むファイルとを含む。当業者は、本開示の主題に関して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、またはその他の一時的信号を包含しない点も理解されたい。
限定としてではなく、例として、アーキテクチャを有するコンピュータシステム800は、メモリ803など、1つまたは複数の有形のコンピュータ可読媒体内で実施されるソフトウェアを実行するプロセッサ801の結果として機能性を提供することができる。本開示の様々な実施形態を実施するソフトウェアをメモリ803内に記憶して、プロセッサ801によって実行することが可能である。コンピュータ可読媒体は、特定のニーズに従って、1つまたは複数のメモリデバイスを含むことが可能である。メモリ803は、通信インターフェースを経由して、大容量記憶デバイス835など、1つもしくは複数の他のコンピュータ可読媒体から、または1つもしくは複数の他のソースからソフトウェアを読み取ることができる。ソフトウェアは、メモリ803内に記憶されたデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従って、そのようなデータ構造を修正することとを含めて、プロセッサ801に本明細書で説明された特定のプロセスまたは特定のプロセスのうちの特定の部分を実行させることができる。加えて、またはその代わりに、コンピュータシステムは、本明細書で説明された特定のプロセス、もしくは特定のプロセスのうちの特定の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアと共に動作することができる、配線された、あるいは、そうでない場合、回路の形で実施された論理の結果として、機能性を提供することができる。ソフトウェアの参照は、論理を包含することが可能であり、適切な場合、逆も同様である。コンピュータ可読媒体の参照は、実行するためのソフトウェアを記憶した(集積回路(IC)などの)回路、実行のための論理を実施する回路、または、適切な場合、それら両方を包含することが可能である。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。
本開示はいくつかの例示的な実施形態を説明したが、本開示の範囲内に包含される、変更、置換、および様々な代替均等物が存在し、それらは本開示の範囲内である。したがって、本明細書で明示的に示され、説明されないが、本開示の原理を実施し、したがって、本開示の趣旨内および範囲内である多数のシステムおよび方法を考案することが可能であることを当業者は理解されよう。
201 圧縮されていない入力ビデオ
202 ダウンサンプルモジュール
203 基層符号化ループ
204 基層符号化ビットストリームビット
205 スケーラブルビットストリーム生成器
206 スケーラブルビットストリーム
207 再構成画像(または、その一部)
208 基準画像サイド情報
209 アップサンプリングユニット
210 アップスケーリングユニット
211 拡張層符号化ループ
212 基準画像バッファ
213 bDiff判断モジュール
214 拡張層ビットストリーム

Claims (15)

  1. 基層内および少なくとも1つの拡張層内で符号化され、少なくとも差分モードおよび画素モードを有するビデオを復号するための方法であって、
    前記差分モードと前記画素モードとの間の選択を示す、少なくとも1つのフラグbDiffを復号するステップと、
    前記少なくとも1つのフラグbDiffによって示されるときに、少なくとも1つのサンプルを前記差分モードまたは前記画素モードで再構成するステップと
    を含む方法。
  2. bDiffが符号単位ヘッダ内で符号化される、請求項1に記載の方法。
  3. bDiffがコンテキスト適応2進算術符号化で符号化される、請求項2に記載の方法。
  4. bDiffがスライスヘッダ内で符号化される、請求項1に記載の方法。
  5. 前記少なくとも1つのサンプルを前記差分モードで再構成する前記ステップが、前記基層の再構成アップサンプリングサンプルと前記拡張層の再構成サンプルとの間の差分を計算するステップを含む、請求項1に記載の方法。
  6. 前記少なくとも1つのサンプルを前記画素モードで再構築する前記ステップが、前記拡張層の前記少なくとも1つのサンプルを再構成するステップを含む、請求項1に記載の方法。
  7. 基層および少なくとも1つの拡張層を含むビデオをスケーラブルビットストリーム内で符号化するための方法であって、
    拡張層分解能での少なくとも1つのサンプルに関して、差分モードと画素モードとの間で選択するステップと、
    前記少なくとも1つのサンプルを前記選択された差分モードまたは画素モードで符号化するステップと、
    前記拡張層内でフラグbDiffとして前記選択されたモードの表示を符号化するステップと
    を含む方法。
  8. 前記差分モードと前記画素モードとの間で選択する前記ステップがレート歪み最適化を含む、請求項7に記載の方法。
  9. 前記差分モードと前記画素モードとの間で選択する前記ステップが符号単位に関して行われる、請求項7に記載の方法。
  10. 拡張層符号化ループのモード決定プロセスが前記符号単位に関してイントラ符号化を選択したとき、前記差分モードが選択される、請求項9に記載の方法。
  11. 前記フラグbDiffがCUヘッダ内で符号化される、請求項7に記載の方法。
  12. 前記CUヘッダ内で符号化された前記フラグbDiffが、コンテキスト適応2進算術符号化形式で符号化される、請求項11に記載の方法。
  13. 基層内および少なくとも1つの拡張層内で符号化され、少なくとも差分モードおよび画素モードを有するビデオを復号するためのシステムであって、
    再構成画像の少なくとも1つのサンプルを生み出すための基層デコーダと、
    再構成画像の前記少なくとも1つのサンプルを拡張層分解能にアップサンプリングするために、前記基層デコーダに結合されたアップサンプリングモジュールと、
    前記アップサンプリングモジュールに結合された拡張層デコーダであって、
    少なくとも1つのフラグbDiffを拡張層ビットストリームから復号し、
    前記フラグbDiffによって選択された前記差分モードまたは前記画素モードで少なくとも1つの拡張層サンプルを復号し、
    前記フラグbDiffによって示された前記差分モードで動作するとき、前記拡張層サンプルを再構成する際に使用するために、少なくとも1つのアップサンプリング再構成基層サンプルを受信する
    ように構成された拡張層デコーダと
    を備えたシステム。
  14. 少なくとも差分モードおよび画素モードを使用して、基層内および少なくとも1つの拡張層内でビデオを符号化するためのシステムであって、
    出力を有する基層エンコーダと、
    前記基層エンコーダに結合された少なくとも1つの拡張層エンコーダと、
    前記基層エンコーダの前記出力に結合され、少なくとも1つの再構成基層サンプルを拡張層分解能にアップサンプリングするように構成されたアップサンプリングユニットと、
    前記少なくとも1つの拡張層エンコーダ内のbDiff選択モジュールであって、フラグbDiffに関して前記画素モードまたは前記差分モードを示す値を選択するように構成されているbDiff選択モジュールと
    を備え、
    前記少なくとも1つの拡張層エンコーダが、
    拡張層ビットストリーム内で少なくとも1つのフラグbDiffを符号化し、
    前記アップサンプリング再構成基層サンプルを使用して、少なくとも1つのサンプルを前記差分モードで符号化する
    ように構成されたシステム。
  15. プロセッサに請求項1から12のうちの1つに記載の方法を実行させるための命令のセットを備えた非一時的コンピュータ可読記録媒体。
JP2014518659A 2011-06-30 2012-06-21 スケーラブルビデオ符号化技法 Pending JP2014523695A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161503111P 2011-06-30 2011-06-30
US61/503,111 2011-06-30
PCT/US2012/043469 WO2013003182A1 (en) 2011-06-30 2012-06-21 Scalable video coding techniques

Publications (1)

Publication Number Publication Date
JP2014523695A true JP2014523695A (ja) 2014-09-11

Family

ID=47390664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014518659A Pending JP2014523695A (ja) 2011-06-30 2012-06-21 スケーラブルビデオ符号化技法

Country Status (7)

Country Link
US (1) US20130003833A1 (ja)
EP (1) EP2727251A4 (ja)
JP (1) JP2014523695A (ja)
CN (1) CN103636137A (ja)
AU (1) AU2012275745A1 (ja)
CA (1) CA2838989A1 (ja)
WO (1) WO2013003182A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9591318B2 (en) 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
US9762899B2 (en) * 2011-10-04 2017-09-12 Texas Instruments Incorporated Virtual memory access bandwidth verification (VMBV) in video coding
US11089343B2 (en) * 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
US9854259B2 (en) * 2012-07-09 2017-12-26 Qualcomm Incorporated Smoothing of difference reference picture
US20140092972A1 (en) * 2012-09-29 2014-04-03 Kiran Mukesh Misra Picture processing in scalable video systems
US10375405B2 (en) 2012-10-05 2019-08-06 Qualcomm Incorporated Motion field upsampling for scalable coding based on high efficiency video coding
GB2509901A (en) * 2013-01-04 2014-07-23 Canon Kk Image coding methods based on suitability of base layer (BL) prediction data, and most probable prediction modes (MPMs)
WO2017154604A1 (ja) * 2016-03-10 2017-09-14 ソニー株式会社 画像処理装置および方法
US10616583B2 (en) * 2016-06-30 2020-04-07 Sony Interactive Entertainment Inc. Encoding/decoding digital frames by down-sampling/up-sampling with enhancement information

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10257502A (ja) * 1997-03-17 1998-09-25 Matsushita Electric Ind Co Ltd 階層画像符号化方法、階層画像多重化方法、階層画像復号方法及び装置
JP2005506816A (ja) * 2001-10-26 2005-03-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 適応的コンテンツフィルタリングを用いた空間拡張可能圧縮の機構
JP2008543160A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド 階層間予測を通じてエンコードされた映像信号をデコーディングする方法
JP2009510807A (ja) * 2005-07-08 2009-03-12 エルジー エレクトロニクス インコーポレイティド ビデオ信号のコーディング情報を圧縮/展開するためにコーディング情報モデリング方法
JP2009538085A (ja) * 2006-11-17 2009-10-29 エルジー エレクトロニクス インコーポレイティド ビデオ信号のデコーディング/エンコーディング方法及び装置
JP2010514236A (ja) * 2006-12-14 2010-04-30 トムソン ライセンシング 空間予測及びビット深度予測の適応的予測順序を使用してビデオ・データを符号化し、かつ/又は復号化する方法及び装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003036978A1 (en) * 2001-10-26 2003-05-01 Koninklijke Philips Electronics N.V. Method and apparatus for spatial scalable compression
KR20060105407A (ko) * 2005-04-01 2006-10-11 엘지전자 주식회사 영상 신호의 스케일러블 인코딩 및 디코딩 방법
KR100679025B1 (ko) * 2004-11-12 2007-02-05 삼성전자주식회사 다 계층 기반의 인트라 예측 방법, 및 그 방법을 이용한비디오 코딩 방법 및 장치
US20060153294A1 (en) * 2005-01-12 2006-07-13 Nokia Corporation Inter-layer coefficient coding for scalable video coding
US8619865B2 (en) * 2006-02-16 2013-12-31 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams
CN101601296B (zh) * 2006-10-23 2014-01-15 维德约股份有限公司 使用套叠式模式标记的用于可分级视频编码的系统和方法
US20080205529A1 (en) * 2007-01-12 2008-08-28 Nokia Corporation Use of fine granular scalability with hierarchical modulation
ES2355850T3 (es) * 2007-01-18 2011-03-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Flujo de datos de vídeo con calidad ajustable a escala.
BRPI0818444A2 (pt) * 2007-10-12 2016-10-11 Qualcomm Inc codificação adaptativa de informação de cabeçalho de bloco de vídeo
US8938009B2 (en) * 2007-10-12 2015-01-20 Qualcomm Incorporated Layered encoded bitstream structure
US20110194613A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Video coding with large macroblocks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10257502A (ja) * 1997-03-17 1998-09-25 Matsushita Electric Ind Co Ltd 階層画像符号化方法、階層画像多重化方法、階層画像復号方法及び装置
JP2005506816A (ja) * 2001-10-26 2005-03-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 適応的コンテンツフィルタリングを用いた空間拡張可能圧縮の機構
JP2008543160A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド 階層間予測を通じてエンコードされた映像信号をデコーディングする方法
JP2009510807A (ja) * 2005-07-08 2009-03-12 エルジー エレクトロニクス インコーポレイティド ビデオ信号のコーディング情報を圧縮/展開するためにコーディング情報モデリング方法
JP2009538085A (ja) * 2006-11-17 2009-10-29 エルジー エレクトロニクス インコーポレイティド ビデオ信号のデコーディング/エンコーディング方法及び装置
JP2010514236A (ja) * 2006-12-14 2010-04-30 トムソン ライセンシング 空間予測及びビット深度予測の適応的予測順序を使用してビデオ・データを符号化し、かつ/又は復号化する方法及び装置

Also Published As

Publication number Publication date
CN103636137A (zh) 2014-03-12
WO2013003182A1 (en) 2013-01-03
EP2727251A1 (en) 2014-05-07
US20130003833A1 (en) 2013-01-03
CA2838989A1 (en) 2013-01-03
AU2012275745A1 (en) 2014-02-20
EP2727251A4 (en) 2015-03-25

Similar Documents

Publication Publication Date Title
CN111837390B (zh) 用于视频编码、解码的方法和相关装置
JP5956571B2 (ja) スケーラブルビデオ符号化における動き予測
CN113678441B (zh) 视频编解码的方法和装置
JP2014523695A (ja) スケーラブルビデオ符号化技法
CN111492661B (zh) 视频编解码方法、装置及存储介质
US20130195169A1 (en) Techniques for multiview video coding
CN111903131A (zh) 解码器侧运动矢量推导和细化的改进
US20130163660A1 (en) Loop Filter Techniques for Cross-Layer prediction
CN111050178B (zh) 视频解码的方法、装置、电子设备、存储介质
KR20130107861A (ko) 인터 레이어 인트라 예측 방법 및 장치
CN113301333A (zh) 视频解码的方法和装置
CN115315945A (zh) 视频编解码方法及装置
CN111919440B (zh) 用于视频解码的方法、装置和计算机可读介质
CN110944173B (zh) 视频解码方法、装置、电子设备以及存储介质
CN110582002A (zh) 用于时间运动矢量预测的方法和设备
CN115151941A (zh) 用于视频编码的方法和设备
CN111989929B (zh) 视频解码方法、装置及计算机可读介质
CN116325722A (zh) 用于帧内预测模式的熵编码
CN113615172A (zh) 视频编解码的方法及装置
CN116250231A (zh) 帧内模式编码的改进
CN116325743A (zh) 基于扭曲的解码图片重采样辅助增强信息消息
CN115398918A (zh) 用于视频编码的方法和装置
CN116965031A (zh) 基于模板匹配的自适应运动矢量分辨率(amvr)
CN116897533A (zh) 图像和视频压缩中交叉分量预测的自适应参数选择
CN115668925A (zh) 不需要用信号表示cu级权重的双向预测

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160104