JP2013526199A - 予測誤差から導出されるブロック形状を用いた予測符号化 - Google Patents

予測誤差から導出されるブロック形状を用いた予測符号化 Download PDF

Info

Publication number
JP2013526199A
JP2013526199A JP2013506535A JP2013506535A JP2013526199A JP 2013526199 A JP2013526199 A JP 2013526199A JP 2013506535 A JP2013506535 A JP 2013506535A JP 2013506535 A JP2013506535 A JP 2013506535A JP 2013526199 A JP2013526199 A JP 2013526199A
Authority
JP
Japan
Prior art keywords
block
prediction error
color component
encoding
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013506535A
Other languages
English (en)
Inventor
ナロスキー マティアス
クニッカー フローリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JP2013526199A publication Critical patent/JP2013526199A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/197Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including determination of the initial value of an encoding parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

本発明は、少なくとも二つの色成分を含むビデオ信号のブロック単位の符号化および復号に関する。第一の色成分は、予測を用いて符号化され、第二の成分は、予測誤差に応じて、符号化のために用いられる異なる部分に区切られる。

Description

本発明は、画像符号化/画像復号の方法、装置、これら方法をソフトウェアで実行するプログラムに関する。特に、本発明は、色を符号化するための分割ブロックを導出する方法に関する。
現在、標準的な動画像符号化アルゴリズムの大多数はハイブリッド動画像符号化に基づくものである。典型的には、ハイブリッド動画像符号化方法は、所望の圧縮率を達成するために、それぞれ異なるロスが生じない圧縮方式とロスが生じる圧縮方式とを組み合わせたものである。ハイブリッド動画像符号化は、ISO/IEC標準規格(MPEG−1、MPEG−2、MPEG−4のようなMPEG−X標準規格)と同様に、ITU−T標準規格(H.261やH.263のようなH.26x標準規格)の基礎でもある。最新の動画像符号化標準規格は、H.264/MPEG−4 Advanced Video Coding (AVC)と称されるものであり、これは、ジョイントビデオチーム(JVT)およびITU−TとISO/IECのジョイントチームとMPEGグループとよる標準化活動の成果である。このコーデックは、さらに、高効率動画像符号化(HEVC)の名の下や、高解像度動画像符号化に関する効率の改善を目的の下で、ビデオコーディングの合同共同チーム(JCT−VC)によって開発されつづけている。
エンコーダへ入力される映像信号は、フレームと呼ばれる画像のシーケンスであり、各フレームは2次元配列された画素からなる。ハイブリッド動画像符号化に基づく上記の規格はすべて、個々の動画像フレームを複数の画素から構成される小ブロックへ細分化(再分割)することが含まれている。このブロックのサイズは、例えば、動画像の内容に応じて変化させてもよい。符号化の方法としては、一般的にはブロックの単位で変化させてもよい。そのようなブロックの最大サイズは異なる。一例を挙げると、HEVCでは例えばブロックの最大サイズは、64×64画素にすることができる。H.264/MPEG−4 AVCでは、マクロブロック(通常は16×16画素のブロックを表す)は、符号化が行われているための基本的な画像要素である。そのマクロブロックは、いくつかの符号化ステップまたは復号ステップが行われる、より小さなサブブロックに分割される場合もある。HEVCでは、マクロブロックは、最大のコーディングユニット(LCU)である。
典型的には、ハイブリッド動画像符号化における符号化ステップには、空間的および/または時間的予測が含まれる。したがって、各符号化対象ブロックは、まず、例えば既に符号化された動画像フレームから、空間的に隣接したブロックまたは時間的に隣接したブロックを用いて予測される。そして、符号化対象ブロックと、予測残差ブロックとも呼ばれる予測結果との差分ブロックが、求められる。次の符号化ステップでは、残差ブロックが空間(画素)領域から周波数領域へ変換される。この変換の目的は、入力ブロック間の冗長性を削減することである。次の符号化ステップにおいて、上記変換で得た変換係数が量子化される。このステップでは、実質的にはロスが生じる(不可逆的な)圧縮が行われる。通常、上記圧縮変換係数値は、エントロピー符号化によって(ロスを生じさせずに)さらに圧縮される。加えて、符号化映像信号を再構築するために必要な補助情報が符号化され、符号化映像信号とともに提供される。この補助情報は、例えば、空間的および/または時間的予測や量子化量に関するものである。
図1は、H.264/MPEG−4 AVCおよび/またはHEVC規格に準拠した、典型的なビデオエンコーダ100の一例を示す。減算器105は、まず、動画像(入力信号)の符号化対象ブロックと対応する予測ブロック
Figure 2013526199
との差分eを特定する。この差分eは、符号化対象ブロックの予測に用いられる。予測信号は、時間的または空間的予測180により取得される。予測タイプは、フレーム単位またはブロック単位で異ならせることができる。時間的予測で予測されたブロックおよび/またはフレームは、インター符号化ブロックおよび/またはフレームと呼ばれ、空間的予測で予測されたブロックおよび/またはフレームは、イントラ符号化ブロックおよび/またはフレームと呼ばれる。時間的予測を用いた予測信号はメモリに格納されている符号化画像から導出される。空間的予測を用いた予測信号は、符号化されてメモリに格納された隣接ブロック内の境界画素の画素値から導出される。入力信号と予測信号との差分は予測誤差または残差と称されるが、変換され(110)、その結果の係数が、量子化される(120)。そして、ロスが生じない方法で格納されるおよび/または送信されるデータ量をさらに削減するために、その量子化係数に対して、エントロピーエンコーダ190が適用される。これは、発生確率に基づいて符号語の長さが選ばれる複数の符号語を用いた符号化を行うことにより実現される。
ビデオエンコーダ100では、復号(再構成)映像信号s’.を取得する復号手段が備えられる。符号化ステップに準拠して、復号ステップには逆量子化・逆変換ステップ(130)が含まれる。上記のように取得された予測誤差信号e’は、量子化ノイズとも呼ばれる量子化誤差があるため原予測誤差信号とは異なる。そして、再構築信号s’は、復号予測誤差信号e’を予測信号
Figure 2013526199
に加算する(140)ことにより取得される。エンコーダ側とデコーダ側の互換性を保つために、符号化された後に復号された映像信号に基づいて、エンコーダとデコーダの双方に知られる予測信号
Figure 2013526199
が取得される。
量子化によって、量子化ノイズが再構築映像信号に重畳される。ブロック単位での符号化により、重畳されたノイズはしばしば、ブロッキング特性を有し、特に強い量子化がおこなわれた場合は、復号画像のブロック境界が目立つ結果になる。ブロッキングアーチファクトは、人間の視覚的認識上マイナスの効果がある。アーチファクトを削減するために、再構築画像ブロックごとにデブロッキングフィルタが適用される(150)。デブロッキングフィルタは、再構築信号s’に適用される。例えば、H.264/MPEG−4 AVCにおけるデブロッキングフィルタは、局所的に適用可能である。ブロッキングノイズの程度が高い場合は、強い(帯域幅が狭い)ローパスフィルタが適用され、ブロッキングノイズの程度が低い場合は、弱い(帯域幅が広い)ローパスフィルタが適用される。ローパスフィルタの強さは、予測信号
Figure 2013526199
と量子化予測誤差信号e’とにより、決定される。デブロッキングフィルタは、通常、ブロックのエッジを平滑化して復号画像の主観的画質を改善する。さらに、画像内のフィルタリング済みの部分が次の画像の動き補償予測に用いられるため、フィルタリングによって予測誤差が削減され、符号化効率を改善することができる。
デブロッキングフィルタの後、既にデブロッキングされた信号s’’を含む画像に対して適応ループフィルタ(160)が適用される。デブロッキングフィルタは、主観的画質を改善するのに対して、ALFは、画素単位の忠実度(客観的な品質)の改善を目的としている。特に、適応ループフィルタ(ALF)は、圧縮による画像の歪を補正するために用いられる。典型的には、適応ループフィルタは、再構築されたs’とソース画像sとで平均二乗誤差(MSE)を最小にするよう決定されたフィルタ係数を持つウィナーフィルタ係数である。このALFのフィルタ係数は、フレーム単位で計算されて送信される。ALFは、全フレーム(動画像シーケンスの全画像)または局所的な領域(ブロック)に対して適用できる。フィルタ対象領域を示す追加情報が送信されるとしてもよい(ブロックベース、フレームベースまたは四分木ベースで)。
復号されるためには、インター符号化されたブロックは、符号化され、その後、復号された画像の部分が参照フレームバッファ(170)内に保存されている必要があります。インター符号化されたブロックは、動き補償予測を採用することにより、予測される(180)。まず、動き予測するものによって、符号化された後に復号された動画像フレーム内で、対象ブロックに最適なブロックが検出される。この最適ブロックは予測信号となり、対象ブロックと最適ブロック間の相対的なずれ(動き)が、符号化動画像データとともに提供される補助情報内に含められる3つの成分の動きベクトルの形で動きデータとして信号送信される。この3つの成分は、2つの空間成分と、1つの時間的な成分から構成される。予測精度を最適化するため、1/2画素解像度や1/4画素解像度など空間的な小数画素解像度で動きベクトルを特定してもよい。空間的な小数画素解像度の動きベクトルは、復号フレーム内の、小数画素位置のように実存する画素値がない空間的な位置を指してもよい。したがって、動き補償を行うために、そのような画素値の空間的補間が必要である。このようにして、補間は、補間フィルタ(図1では予測ブロック(180)内で統合されている)によって実現される。
イントラ符号化モードおよびインター符号化モードにおいて、対象入力信号と予測信号間の差分eが変換されて(110)量子化(120)され、量子化変換係数が得られる。一般的に、2次元離散コサイン変換(DCT)または整数変換のような直交変換が採用される。なぜなら、これにより自然動画像の冗長性を効率的に削減できるからである。変換後、通常、周波数成分は、高周波成分よりも画質にとって重要である。そのため、高周波数よりも低周波数に多くのビットが費やされるように変換される。エントロピーエンコーダでは、2次元配列の量子化係数が1次元配列に変換される。典型的には、2次元配列の左上隅から、右下隅まで所定の順序で走査するいわゆるジグザグ走査によって変換される。典型的には、エネルギーは低周波に相当する2次元配列の係数の左上部分に集中するため、ジグザク走査を行うと、最後のほうの値はゼロ値が続く配列になる。これにより、実際のエントロピー符号化の一部として、またはそれ以前の段階で、ラン−レングス符号を用いた効率的な符号化をおこなうことが可能になる。
HEVCと同様に、H.264、MPEG−4 H.264および/またはMPEG−4 AVC標準規格には、動画像符号化層(VCL)とネットワーク抽象レイヤ(NAL)という2つの機能層を含んでいる。VCLは、簡単ではあるが上述した符号化機能を提供する。NALは、例えばチャネル上伝送や格納手段への格納など、さらなるアプリケーションに応じて、情報要素を、NALユニットと呼ばれる標準単位にカプセル化する。ここで、情報要素とは、例えば、符号化された予測誤差信号、または、例えば予測タイプ、量子化パラメータ、動きベクトルなどの映像信号を復号するために必要なその他の情報である。圧縮動画像データおよびその関連情報を含むVCL NALユニットと呼ばれるものがある。一方、付加データをカプセル化する非VCLユニットと呼ばれるものもある。付加データは、例えば、動画像シーケンス全体に関するパラメータセットや、復号性能を改善するために用いることができる付加情報を提供する補助的拡張情報(SEI)などである。
図2は、H.264/MPEG−4 AVCまたはHEVCの動画像符号化標準規格に準拠した例示的なデコーダ200を説明する図である。符号化映像信号(デコーダへの入力信号)は、まずエントロピーデコーダ290へ送信され、エントロピーデコーダ290は量子化係数や動きデータおよび予測モードなどの復号に必要な情報要素を復号する。量子化係数は、逆走査されて2次元配列となり、逆量子化・逆変換230へ送信される。逆量子化および逆変換230の後、復号(量子化)予測誤差信号e’が得られる。これは、量子化ノイズが導入されず、誤差が発生しない場合にエンコーダへ入力された信号から予測信号を減算して得られた差分に相当する。
予測信号は、時間的予測手段または空間的予測(280)からそれぞれ得られる。復号情報要素は、さらに、イントラ予測の場合には予測タイプ、動き補償予測の場合には動きデータなど、予測に必要な情報を含んでいる。空間領域の量子化予測誤差信号は、加算器(240)で、動き補償予測またはイントラフレーム予測(280)から得られる予測信号と加算される。再構築画像s’は、デブロッキングフィルタ(250)と適応ループフィルタ(260)に送信されるとしてもよい。その結果得られた復号信号は、メモリ(270)に格納され、後続ブロックまたは後続画像の時間的予測または空間的予測に用いられる。
要約すると、H.264または/およびMPEG−4 AVCなど標準化されたハイブリッド動画像を符号化するものは、1つの色成分以上の画像信号(YUV,YCbCr,RGB,RGBAなど)を符号化するのに用いられる。これらの規格は、予測ステップ160、170と、後続の予測誤差符号化ステップ110に適用される。予測目的として、符号化対象画像はブロックに分割される。ブロック毎に、イントラ予測(170)またはインター予測(160)が適用される。一般的に、大きな予測誤差の符号化は、高ビットレートに関連付けられており、小さな予測誤差の符号化は、低ビットレートに関連付けられている。これは、異なるサイズのブロックにも利用可能である。適用されたブロックサイズが符号化されて送信されるので、標準化された動画像を符号化するものは、例えば、4×4サンプルなどの最小ブロックサイズを持つ矩形のブロックを適用する。ブロック分割を通知するために必要なビットレートと予測精度との間のトレードオフとして、予測ブロックの形状や大きさに応じた自由度が選ばれる。以下に複数の先行技術文献を挙げる。
・Ken McCann, et al., “Samsung’s Response to the Call for Proposals on Video Compression Technology”, document JCTVC-A124, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, 1st Meeting: Dresden, DE, 15-23 April, 2010
・米国特許出願公開第2009/0190659号明細書
・米国特許出願公開第2008/0043840号明細書
・米国特許出願公開第2008/0008238号明細書
これらには、画像をブロックに分割するために、色成分間の統計的依存性を利用することが有益であることが示されている。例えば、既に復号された1つの色成分の再構築されたサンプルは、別の色成分を後続で符号化するためのブロック分割を導出するために使用される(JCTVC−A124章2.4.3を参照)。この利点は、ブロック分割の導出により、任意の形状を可能にすることである。さらに、デコーダだけでなく、同じ方法で(暗黙的に)エンコーダでも導出することができるのでブロック分割を通知する追加ビットレートは必要とされない。
例えばH.264および/またはMPEG−4 AVCなどの従来技術に内在する一般的な問題は、矩形のブロック形状に制限があることである。任意のブロック形状を使用することは、予測精度を向上させるが、そのブロック形状を明示的に符号化することは高ビットレートに関連付けられる。任意の形状のブロックを暗黙的に除算することは、ビットレートを増加させることなく、予測精度を向上させる。しかし、上記で引用された従来技術で使用される別の色成分の再構築信号から導出された符号化対象の色成分に対する暗黙的なブロック除算は、正確ではないかもしれないし、不可能でさえあるかもしれない。
従来技術に内在する具体的な問題点は、例えば、静止背景上を移動する物体など、符号化対象の画像コンテンツが、異なる動きの2つの物体に関連している状況で、異なる動きの物体に応じて暗黙的に画像を分割されることを予測ステップで望まれる点である。既に復号された色成分の再構築信号から導出された暗黙的な分割は、すべての従来技術においてなされる方法では、その後できない。
-再構築信号には、物体の動きに関する情報は含まれない、そして、
-再構築信号には、復号された色成分について複数の物体で異なっていない場合、それら物体の境界に関する情報は含まれない。
再構築信号から導出された暗黙的なブロック分割は、正確でない、または不可能であるかもしれないので、符号化効率は、制限される。別の色成分または複数の成分をその後に符号化するために、任意の形状のブロック分割を導出するときに既に復号された色成分の予測誤差を使用することは、本発明の特有のやり方である。
本発明の効果は、画像を任意の形状のブロックに分割するための色成分間の統計的依存関係が効率的に利用することができることである。利点の1つは、本発明に係るブロック分割の導出によれば、任意の形状を許容することである。その形状の暗黙的な導出は、以下の理由から、非常に正確である。関連する変位ベクトルを伴う予測誤差ブロックは、物体の動きに関する情報を含む。例えば、静止背景の上を移動する物体など、異なる動きの2つのオブジェクトに関連する状況において、量子化された予測誤差に応じた暗黙的な分割は、非常に正確である。このような状況では、予測により、小さいまたはゼロであっても予測誤差をもたらすことができる。
特に、本発明の一態様によれば、予測符号化を用いて、第一の色成分のブロックを符号化するステップと、前記第一の色成分の予測誤差に基づいて、別の色成分を符号化するために分割ブロックを導出するステップとを含み、映像信号の少なくとも2つの色成分を符号化する方法を提供できる。
本発明の一態様によれば、予測符号化を用いて、第一の色成分のブロックを復号するステップと、前記第一の色成分の予測誤差に基づいて、別の色成分を復号するために分割ブロックを導出するステップとを含み、映像信号の少なくとも2つの色成分を復号する方法を提供できる。
本発明の別の態様によれば、予測符号化を用いて、第一の色成分のブロックを符号化する符号化部と、前記第一の色成分の予測誤差に基づいて、別の色成分を符号化するために分割ブロックを導出する分割部とを備え、映像信号の少なくとも2つの色成分を符号化する符号化装置を提供することができる。
本発明の別の態様によれば、予測符号化を用いて、第一の色成分のブロックを復号する復号部と、前記第一の色成分の予測誤差に基づいて、別の色成分を復号するために分割ブロックを導出する導出部とを備える復号装置を提供することができる。
本発明における、上記内容、他の目的および特徴は、添付の図面に併せて与えられる以下の説明と、好ましい実施の形態とからより明らかになるだろう。
図1は、従来のH.264/MPEG−4 AVCのビデオエンコーダの一例を示すブロック図である。 図2は、従来のH.264/MPEG−4 AVCのビデオデコーダの一例を示すブロック図である。 図3は、ブロック単位の時間的予測の予測誤差を示す模式図である。 図4は、第二の成分のブロックの細分割を決定する際の従来技術の問題を説明するための模式図である。 図5は、第一の成分の符号化を示す模式図である。 図6は、対象ブロックを2つの部分に細分割することを示す模式図である。 図7は、第二の成分を符号化することとその結果を示す模式図である。 図8は、本発明の第1の実施形態に係るエンコーダの例を示すブロック図である。 図9は、本発明の第3の実施形態に係るデンコーダの例を示すブロック図である。 図10Aは、本発明の第1の実施形態に係る映像信号を符号化する方法を示すフロー図である。 図10Bは、本発明の第1の実施形態に係る画像を複数のブロックに分割する方法を示すフロー図である。 図11は、本発明の実施形態に係る画像信号を復号する方法を示すフロー図である。 図12は、本発明の第1の実施形態に係る映像信号を復号する方法を示すフロー図である。 図13は、本発明の第1の実施形態に係る映像信号を符号化する方法を示すフロー図である。 図14は、第一の成分と第二の成分との予測誤差に基づいて、第三の成分のブロックを3つの部分に分割することを示す模式図である。 図15は、第一の成分のサブブロックのDC係数の値に基づいて、第二の成分のブロックを細分割することを示す模式図である。 図16は、符号化されたDC係数の復号を示すブロック図である。 図17は、コンテンツ配信サービスを実現するコンテンツ供給システムの全体構成図である。 図18は、デジタル放送システムの全体構成図である。 図19は、テレビの構成例を示すブロック図である。 図20は、光ディスクである記録メディアに情報の読み書きを行う情報再生/記録部の構成例を示すブロック図である。 図21は、光ディスクである記録メディアの構成例を示す図である。 図22Aは、携帯電話の一例を示す図である。 図22Bは、携帯電話の構成例を示すブロック図である。 図23は、多重化データの構造を示す図である。 図24は、各ストリームが多重化データにおいてどのように多重化されているかを模式的に示す図である。 図25は、PESパケット列に、ビデオストリームがどのように格納されるかを更に詳しく示した図である。 図26は、多重化データにおけるTSパケットとソースパケットの構造を示す図である。 図27は、PMTのデータ構成を示す図である。 図28は、多重化データ情報の内部構成を示す図である。 図29は、ストリーム属性情報の内部構成を示す図である。 図30は、映像データを識別するステップを示す図である。 図31は、各実施の形態の動画像符号化方法および動画像復号化方法を実現する集積回路の構成例を示すブロック図である。 図32は、駆動周波数を切り替える構成を示す図である。 図33は、映像データを識別し、駆動周波数を切り替えるステップを示す図である。 図34は、映像データの規格と駆動周波数を対応づけたルックアップテーブルの一例を示す図である。 図35Aは、信号処理部のモジュールを共有化する構成の一例を示す図である。 図35Bは、信号処理部のモジュールを共有化する構成の他の一例を示す図である。
例えばH.264/MPEG−4 AVCなどの従来技術のハイブリッドビデオコーデックでは、予測に使われるブロックは、典型的には、長方形のブロック形状である。図3に示すように、これは、予測精度を制限する。図3には、参照フレーム310と、対象フレーム350とが示されている。参照フレーム310は、静止背景(小さな丸で表される)と、最初の位置における移動物体315(大きな丸で表される)とを含んでいる。対象フレーム350は、符号化対象フレーム350内で参照フレーム310内の静止背景の位置と同じ位置に静止背景を含む。しかし、符号化対象フレーム350における移動物体355は、参照フレーム310内の移動物体に対してずれている、つまり、2つのフレーム間でその物体は動いている。符号化対象画像350に位置する対象ブロック360の動き予測を行う場合、最も類似するブロックが、参照フレーム310内で検索される。この検索は、ベストマッチングアプローチによって、または、動きベクトルの候補の集まりから動きベクトルを選択することによって、または、他の任意の動き推定法によって行われる。図3では、最も良くマッチングしたブロック320は、対象ブロックの予測と認定される。図3において、対象ブロック360は、主に静止背景の部分と移動物体の小さな部分のみとを含んでいるので、予測ブロック320が選択される。従って、得られた動きベクトルは(背景が静的であると仮定しているため)、ゼロ動きベクトルである。これは、予測ブロック320が、符号化対象フレーム350内の対象ブロック360と同じ位置の参照フレーム310内に存在することを意味する。予測がブロックごとに行われる場合には、予測誤差ブロック330は、符号化対象ブロック360と予測ブロック310との間の差として得られる。図1に見られるように、矩形ブロック形状の場合の符号化対象ブロックの予測誤差は、静止背景に対応する部分においてゼロである。しかし、予測誤差は、対象ブロックにおいて移動物体355の一部が配置されている右下隅では、高くなる。そのようなブロックの予測誤差は、その後符号化効率の低下につながる可能性があり、むしろ大きいかもしれない。
任意のブロック形状の使用により、予測精度を向上させことができる。しかし、そのブロック形状を明示的に符号化することは、再び、そのように符号化されたビデオストリームのビットレートの増加に関連付けられる。任意の形状のブロックへの暗黙の分割は、ビットレートを増加させることなく、予測精度を高めることができる。しかし、例えば、JCTVC−A124、米国特許出願公開第20090190659号明細書、米国特許出願公開第20080043840号明細書、または米国特許出願公開第20080008238号明細書の従来技術で知られている別の色成分の再構築信号から導出される符号化対象の色成分に対する暗黙のブロック分割は、正確でない、または、可能でないかもしれない。
このことは、図4に示されている。図4は、符号化対象の画像コンテンツが、異なる動きを有する2つの物体、すなわち、別の表現だと静止背景上を移動する物体315、355(2つの異なる位置それぞれに表示されている)に関連する場合を示している。
異なる動きの物体に応じた画像の暗黙的な分割は、上記予測ステップのために有益である。しかし、既に復号された色成分の再構築信号は物体の運動についての情報を含んでいないので、その再構築信号から導出された暗黙的な分割は、従来技術では行うことはできない。また、復号された色成分に関してそれら物体に違いがない場合、再構築信号は、物体の境界についての情報を含まない。
再構築信号から導出された暗黙的なブロック分割は、正確でない、または、可能でない場合があるので、符号化効率もまた、制限される。ブロック430は、第一の復号色成分の再構築信号を表している。しかし、再構築信号の単一の色成分に基づくと、移動物体と静止背景との区切りが不正確であったり、不可能でさえあったりする。
本発明によれば、フレームの色成分の区切りは、別の色成分の予測誤差に基づく。本発明の利点の一つは、非矩形ブロックに分割することも可能になることである。しかし、本発明は、矩形ブロックの細分割化にも適している。
また、本発明は、そのように符号化された映像信号のビットレートをさらに増大させることなく、細分割の決定を暗黙的に行うことができる。
しかし、本発明は、後で示されるように細分割のパラメータを通知することと組み合わせるとしてもよい。関連する変位ベクトルと組み合わせた予測誤差ブロックは、ブロックへの適切な区分を導出するために用いられる物体の動きに関する情報を含むので、本発明に係る形状の暗黙の導出は高精度である。したがって、たとえ符号化対象の画像コンテンツが異なる動き(大きさ及び/又は方向)を有する2つの物体に関連しているというシナリオでさえ、量子化された予測誤差に応じた画像の暗黙の分割は、正確な予測結果(小さな予測誤差)に導きながら行うことができる。
以下では、本発明の実施形態例について説明する。しかし、本発明は、これらの具体的な実施形態に限定されるものではない。これらの実施形態は、互いに組み合わせるとしてもよい。
本発明の第1の実施形態によれば、予測誤差信号が、第一の成分のブロックの画素位置で量子化された予測誤差信号でもなく、量子化及び変換された予測誤差信号でもない方法が提供される。
好ましくは、第一の成分のブロックの位置に対応する第二の(別の)成分のブロックは、閾値演算結果に応じて、2つの部分に細分割される。そして、得られた2つの部分は異なると予想される。
本発明の第1の実施形態に係る画像符号化装置は、図8に例示するブロック毎のハイブリッドエンコーダ800から構成されている。符号化対象の入力信号801の色成分はその後符号化される。符号化目的のために、画像は複数のブロックに分割される。予測信号は、ブロックごとに、イントラ予測または動き補償された画面間予測である予測870によって生成される。予測誤差821は、符号化された801と予測信号871との差であり、例えば図1の110に示されるように離散コサイン変換と量子化とを組み合わせて、符号化830を用いて符号化される。さらに、エントロピー符号化890を適用することができる。内部デコーダ850では、符号化された予測誤差が復号され、860を予測信号871に加算して結果的に再構築信号861を得る。これは、さらなるその後の予測ステップのためにメモリに格納される。上記の先行技術とは対照的に、予測870は量子化された予測誤差信号831を利用する。これは、図10Aおよび10Bのフローチャートに示されている。図10Aには、H.264/MPEG−4 AVCなど従来技術のシステムと同様に符号化対象ブロックの第一の色成分を符号化する1010のステップと、復号する1020のステップとを含む、本発明に係る方法が示されている。そして、その符号化対象ブロックの色成分をその後に符号化するために、区切りはその第一の色成分の復号予測誤差に基づいて行われる。
具体的には、区切り方法の一例を図10Bに示されている。区切りとその効果の模式図は図5、図6および図7に示されている。図5は、YUV信号のY成分のように、第一の色成分を符号化する第一のステップを示している。静止背景と移動物体555を含んでいる符号化対象フレーム550の対象ブロック560は、移動物体515を有するが、異なる位置に有する前のフレーム510のブロック520により予測される。
図3を参照して説明された符号化と同様に、予測誤差ブロック530は、高い予測誤差の一部と低い予測誤差の一部とを有する。図7は、2つの部分641および642のために異なる方法で実行された予測を示している。具体的には、異なる変位ベクトルは、これらの別々の部分641および642のために検出されており、したがって、それらの予測は、より正確になり、低い予測誤差730、理想的にはゼロの予測誤差に結果的になる。第二の色成分は、例えば、YUV画像のU及び/又はVの成分であってもよい。
図6は、さらに、第二の成分のブロック640を、そのブロック640が2つの部分641、642に細分割されることに応じて、区切ることを示している。ここで、第一の部分641は、第一の色成分の予測誤差831の絶対値が小さい領域を示しており、第二部分622は、第一の色成分の予測誤差の絶対値は大きい領域を示している。
図10Bに示すように、区切りは、閾値演算1040を用いて行われる。具体的には、第一の色成分の予測誤差の絶対値が閾値よりも小さい場合、その成分は第一の部分641に割り当てられる(150)。第一の色成分の予測誤差の絶対値が閾値よりも大きい場合、その成分は第二の部分642に割り当てられる(1060)。
比較は、量子化された予測誤差信号に基づいて行われる。これは、次の理由から有用である。すなわち、その信号はエンコーダとデコーダの両方で利用可能であり、従って、区切りの導出は、付加的に信号を送信する必要とせずに、暗黙的に実行され得るからである。しかし、一般的に、本発明の区切りは、非量子化された予測誤差821に基づいて行われてもよい。また、この決定は、例えば、DCTのような変換後に重要となる、空間領域での量子化信号または周波数領域での量子化信号に基づいて、なされるとしてもよい。
閾値は、同じ値となるようにエンコーダとデコーダで予め定義されているとしてもよい。しかし、本発明はこれに限定されるものではなく、閾値は、エンコーダで決定され、符号化されてデコーダに伝送されるとしてもよい。その決定は、ユーザに可能性を提供して選択させた設定により、または、エンコーダによって自動的に、エンコーダの設定により行われるとしてもよい。また、決定された閾値は、例えばエントロピー符号化手段によって、伝送に必要なビットレートを減らすために符号化されるとしてもよい。
エンコーダによる判定は、例えば、ビットレートのラグランジュコストと平均二乗再構築誤差とを最小化にすることにより、行われるとしてもよい。閾値は、既に復号されたシンボルに基づいてエンコーダとデコーダとで同じように決定されるとしてもよい。
例えば、デコーダは、既に復号された画像領域に対して平均二乗再構築誤差とビットレートのラグランジュコストとを最小化にすることにより閾値を決定することができる。区切り1030の後、ブロック640における得られた第二の色成分の部分641、642は、別の予測モードを用いて、符号化1090される。例えば、第一の部分641は、第一予測モードで符号化され、好ましくは、第一の色成分などの場合に、低い予測誤差となる可能性が高いので、第一の色成分で用いられた第一予測モードで符号化される。ここで、予測モードは、予測対象の信号の一部に対する予測を導出するためのルールを意味する。予測モードは、例えば、H.264/MPEG−4 AVCで用いられるようなイントラ予測モード、または、JCTVC−A124のセクション2.4.3に記述されるイントラ予測モードである。しかし、この予測モードは、参照フレームインデックスと変位ベクトルとして予測ブロックを指定するインター予測モードであってもよい。
第二の部分642の符号化は、好ましくは第一の色成分で使用された予測モードと異なる第二予測モードを用いて行われるとしてもよい。第一の色成分で使用された予測モードと同じでは、第一の色成分の場合のように、高い予測誤差となり得るからである。
動画像符号化規格において上記技術を含むように、インター符号化に対するブロックレベルのシンタックスの例が次の表に示されている。
Figure 2013526199
「セグメンテーション・インジケータ」は、エンコーダが区切りを使用することを指定する設定としてもよい。これは、エンコーダおよび/またはデコーダ、または、ユーザによってあらかじめの設定、または、エンコーダ/デコーダで固定的に定義された設定によって、導出されるとしてもよい。
しかし、本発明はこれに限定されるものではない。符号化ビデオストリームのシンタックスは、本発明における区切りが適用されるか否かを示すセグメンテーション・インジケータを含むとしてもよい。このようなインジケータは、例えば、シーケンスまたはスライスレベルで、効果的に含まれているとしてもよい。しかし、それは、第二の実施形態を参照しながら以下で説明するように、ブロックレベルで含まれるとしてもよい。
ブロックレベル(例えば、上記表)において、そのシンタックスは、セグメンテーション・インジケータに応じて、区切りが適用される場合には、2つの色成分に対する追加の変位ベクトルと、2つの色成分に対して対応する量子化予測誤差信号とを含む。
例えば、仮に、図6を参照して説明した上記例を例として挙げる場合、有効である上記シンタックスの要素に対して、対象ブロック640の第一の部分641は、量子化予測誤差色成分となる変位ベクトルの色成分の1つに従って符号化される。それに加えて、符号化対象ブロックの第二の部分642は、量子化予測誤差色成分となる追加の変位ベクトルの色成分の1つに従って符号化される。
なお、上記の表は、本実施形態の特徴を説明するために、シンタックスに関連するブロックの部分を説明しているに過ぎない。しかし、ブロックレベルのシンタックスは、さらなる要素および/またはさらなる色成分を含むとしてもよい。
動画像符号化規格において、上記技術を含むように、イントラ符号化に対するブロックレベルのシンタックスの例が次の表に示されている。
Figure 2013526199
この表は、インター予測の代わりにイントラ予測が対象ブロックの双方の部分に適用されるという点で、前述したものと異なる。具体的には、予測モードの成分のひとつは、第一の成分の空間予測の予測モードを指定する。このモードは、また、第二の色成分の第一の部分641を符号化するのに用いられる。「量子化予測誤差色成分の一つ」は、残差信号の値を指定する。類似の要素は、第二の色成分(不図示)に含まれ得る。セグメンテーション・インジケータにより区切りが適用されることが示される場合には、追加の予測モードと残差は、「追加の予測モード色成分の1つ」と、「量子化予測誤差信号成分の1つ」との要素により第二の部分に向けて信号で送られる。
ブロックレベルのシンタックスの上記2つの例は、本発明のアプローチを支持する唯一の可能性ではない。一般的に、この実施形態は、インター予測またはイントラ予測のどちらかで、対象ブロックの部分641と642の両方を符号化することに限定されない。予測領域はまた、2つのブロックの部分ごとに異なる場合がある。例えば、第一の色成分は、後の表に示される第二の成分の第一の部分641と同様に、イントラ符号化されるとしてもよい。しかし、セグメンテーション・インジケータが、区切りが適用されることを示す場合に最初の表で示されているように、第二の色成分の第二の部分642は、時間的に予測されるとしてもよい。
セグメンテーション・インジケータは、所定の区切りが適用されるか否かを示す有効なフラグである。しかし、本発明は、これに限定されるものではなく、セグメンテーション・インジケータもまた、さらに第二の色成分に(例えばイントラまたはインターで)適用される予測タイプを示すとしてもよい。また、別のシンタックス要素が、予測のタイプを指定するとしてもよい。セグメンテーション・インジケータもまた、(他の色成分に基づいて、)色成分が区切られる場所および方法を示すとしてもよい。
本発明の第2の実施形態に係る画像符号化装置は、下記のとおりに動作する図6によれば、ブロック・ベースのハイブリッドエンコーダを備える。符号化対象の信号の色成分は、その後符号化される。符号化するために、画像はブロックに分割される。ブロックごとに、予測信号871は、イントラ予測または動き補償インター予測のどちらかによって生成される。予測誤差821は、符号化対象の信号801と予測信号871との差であり、例えば離散コサイン変換と量子化とを組み合わせて、あるいは量子化のみで、符号化830を用いて符号化される。さらに、エントロピー符号890が適用される。内部デコーダ850では、符号化された予測誤差831が復号され、予測信号871に加算することで結果的に再構築信号を得る。これは、さらにその後の予測ステップのためにメモリに格納される。上記の先行技術とは対照的に、予測は、図13のフローチャートに示されるように、以下の方法で量子化予測誤差信号を用いる。
図13は、例えば、H.264/MPEG−4 AVCなどの従来技術のシステムのシステムと同様に、符号化対象ブロックの第一色成分における符号化1310と復号1320とのステップを示している。そして、1330、ブロックを区切りか否かを示すセグメンテーション・インジケータを生成するステップが実行される。これは、エンコーダによる判定は、例えば、ビットレートのラグランジュコストと平均二乗再構築誤差とを最小化にすることにより、行われるとしてもよい。
セグメンテーション・インジケータは、符号化され(1340)、デコーダに送信される。符号化は、固定長符号化または可変長符号化により行われる。あるいは、またはさらに、予測符号化が行われ得る。
具体的には、セグメンテーション・インジケータの予測は、
a 空間的に隣接するブロックのセグメンテーション・インジケータ、および/または
b 時間的に隣接するブロックのセグメンテーション・インジケータに基づくものであってもよい。
セグメンテーション・インジケータが、ブロックを区切ることを示す場合、対象ブロックのその後の色成分は、復号された第一の色成分の予測誤差に基づいて、区切られる。
1セグメントは、第一予測モードを使用して符号化される。第一の色成分の場合のように低い予測誤差を生じる可能性があるため、好ましくは、1セグメントは、第一色成分に使用されたものを使用して符号化される。2番目のセグメントは、第二予測モードを使用して符号化される。第二予測モードは、第一の色成分の場合のように高い予測誤差を生じる可能性があるため、2番目のセグメントは、好ましくは、第一色成分に使用されたものとはことなるものを使用して符号化される。セグメンテーション・インジケータが、ブロックを区切らないことを示す場合、対象ブロックのその後の色成分は、区切りなしで符号化される。
動画像符号化規格において、上記技術を含む、インター符号化に対するブロックレベルのシンタックスの例が次の表に示されている。
Figure 2013526199
動画像符号化規格において上記技術を含む、イントラ符号化に対するブロックレベルのシンタックスの例が次の表に示されている。
Figure 2013526199
これらの2つの表は、ブロックレベルのシンタックスに含まれるセグメンテーション・インジケータにより、第一の実施形態の範囲内で記述された表とは異なる。
本発明の第3の実施形態によれば、次のように、後述の部と動作を含む図7に示されるように、ブロック・ベースのハイブリッドデコーダを含む、画像復号装置が提供される。
復号装置900は、エントロピーデコーダ990、復号部(デコーダ)950、予測部(予測)970とおよび加算器940を備えている。復号対象の信号901の色成分は、その後、復号される。復号するために、画像はブロックに分割される。さらに、エントロピー復号990が適用される。各ブロックは、符号化された符号化したもの821の前の信号と予測信号821と差である予測誤差941は、例えば逆離散コサイン変換とスケーリング操作の組み合わせ、もしくは、スケーリング操作のみ、デコーダ950を用いて復号される。また、予測信号971は、予測モード、動きベクトルなどについて送信される情報を用いて、イントラ予測または動き補償インター予測のいずれかを適用する予測部970によって生成される。符号化予測誤差は復号され、940が予測信号970に加算される。その結果、再構築信号941が得られる。これは、さらにその後の予測ステップのためにメモリに格納される。上記の先行技術とは対照的に、予測は、図11のフローチャートでも示されるように、以下の方法で量子化予測誤差信号991を用いる。
具体的には、図11は、H.264/MPEG−4 AVCなどの従来技術のシステムで復号対象ブロックの第一色成分の復号1110を示している。復号対象ブロックのその後の色成分の復号のため、区切り1120は、第一の色成分の復号予測誤差に基づいて実行される。セグメンテーションのための一つの可能性は、すでに第1の実施の形態について説明した図6に示されるように、ブロックを2つの部分に分割することである。
第一の部分641(部分1)は、第一の色成分の予測誤差の絶対値が小さくなっている領域である。第二の部分642(部分2)は、第一の色成分の予測誤差の絶対値が大きくなっている領域である。
区切りは、閾値演算を使用して、実行することができる。
− 第一の色成分の予測誤差991の絶対値が閾値よりも小さい場合、その信号は第一の部分641に割り当てられる。
− 第一の色成分の予測誤差991の絶対値が閾値よりも大きい場合、その信号は第二の部分642に割り当てられる。
閾値は、エンコーダとデコーダとで予め定められているとしてもよい。また、エンコーダで決定され、符号化されてデコーダに送信されるとしてもよい。閾値は、既に復号されたシンボルに基づいてエンコーダとデコーダとで同じように決定されるとしてもよい。
閾値については、閾値に等しい信号の部分が予め定められた方法で、部分1または部分2に割り当てられるとしてもよい。ここで、その信号は、第二の色成分の特定のピクセルのサンプルによって表されるとしてもよい。なお、直接的かどうかの予測目的で、予測誤差を表すエントロピー復号信号が用いられるとしてもよい。または、(ここでは逆変換および/またはスケーリングについての復号に)復号予測誤差信号は用いられるとしてもよい。
区切り1120の後、復号1130のステップ、具体的には 第一予測モードを用いた部分1の復号かつ第二予測モードを用いた復号が実行される。
本発明の第4の実施形態によれば、後述の動作を含む図9に示されるように、ブロック・ベースのハイブリッドデコーダを含む、画像復号装置が提供される。復号対象信号の色成分は、その後復号される。復号のために、画像はブロックに分割される。まず、エントロピー復号990が適用される。予測誤差821は、符号化された信号と予測信号との差であり、例えば逆離散コサイン変換とスケーリング演算とを組み合わせて、デコーダを用いて復号される。また、予測信号は、予測モード、動きベクトルなどについて送信される情報を用いて、イントラ予測または動き補償インター予測のいずれかにより生成される。符号化された予測誤差が復号され、予測信号に加算されることで結果的に再構築信号を得る。これは、さらにその後の予測ステップのためにメモリに格納される。上記の先行技術とは対照的に、予測は、図12のフローチャートでも示したように、以下の方法で量子化予測誤差信号を用いる。
図12のフローチャートは、H.264/MPEG−4 AVCなどの従来技術のシステムで復号対象ブロックの第一色成分を復号することを示している。次に、セグメンテーションインジケータは、復号される(1220)。復号されたセグメンテーション・インジケータに従って、対象ブロックの区切りが実行される。
具体的には、セグメンテーション・インジケータが、ブロックを区切ることを示す場合、対象ブロックのその後の色成分は、復号された第一の色成分の予測誤差に基づいて、区切られる。次に、第二の色成分は復号される(1240)。例えば、第一の部分641は、第一予測モードを用いて復号され、第二の部分642は、第二予測モードを用いて復号される。
具体的には、セグメンテーション・インジケータが、ブロックを区切ることを示さない場合、対象ブロックのその後の色成分は、区切りなしに、復号される(1250)。
本発明の第5の実施形態によれば、本発明の特徴に加えて、その後の色成分のためにブロック分割が導出される前にアップサンプリングステップまたはダウンサンプリングステップが第一の色成分の量子化予測誤差に適用される、画像符号化装置および画像復号化装置が提供される。アップサンプリングは、第二の色成分または他の色成分を除く第一の色成分のために小さなサンプリングレートが用いられるという状況において実行される。ダウンサンプリングは、第二の色成分または他の色成分を除く第一の色成分のために大きなサンプリングレートが用いられるという状況において実行される。小さなまたは大きなサンプリングレートは、例えば、いわゆる4:2:2または4:2:0サンプリングの場合に適用される。
本発明の第6の実施形態によれば、画像符号化装置および画像復号化装置は、さらに、動きベクトル予測を適用する。ブロック分割がインター予測を用いて対象ブロックに実行された場合、動きベクトル予測は、予測誤差が大きい第二の部分642の分割のために行うことができ、動きベクトルは、空間的または時間的に隣接するブロックのデータ、例えば動きベクトルから予測できる。これは、隣接するブロックが、画像コンテンツすなわち対象ブロックの第二の部分642と同じオブジェクトに属している可能性がある。したがって、それは同じような動きを有すると推定されるとしてもよい。この動きベクトル予測でさらにビットレートの低減を実現することができる。
本発明の第7の実施形態によれば、上述した分割に加えて、さらにブロック分割が適用される、画像符号化装置および画像復号化装置が提供される。
この実施例では、好ましくは、以下の2つのステップが実行される。それぞれの予測に基づいて第二の色成分のブロックの2つの部分を符号化する。そして、当該第二の色成分の予測誤差に基づいて、第三の色成分を符号化するためのブロック分割を導出する。
具体的には、ブロック分割は、図14に示されるように1以上の色成分を使用するように拡張することができる。図14は、対象の非セグメント化ブロック1410を示している。第一の成分の予測誤差は、符号化/復号により得られ、その結果、黒の部分は予測誤差の高い値を示し、白い部分は予測誤差の低い値を示すブロック1420が得られる。したがって、閾値によって、第二の成分ブロック1430の細分割が行われ、それに対応して第二の成分が符号化/復号され、第二の成分の誤差予測のブロック1440を取得する。この例では、第二の成分の量子化誤差予測ブロック1440は、まだ小さい値の部分と高い値の部分とを含む。したがって、第三の成分を符号化するため、閾値処理することにより第二の成分の第二の部分が2つの部分へさらに細分割され、第三の成分1450となる。第三の成分の3つの部分のそれぞれは、個別に予測される。例えば、第一の部分は、第一の成分1410および第二の成分の第一の部分と同じ方法(小さな予測誤差で)符号化される。第三の成分の第二の部分は、第二の成分の第二の部分と同じように符号化される。第三の部分は、さらなる予測モード(異なる動きベクトルおよび/または異なる予測方向および/または異なる予測タイプ)を用いて符号化される。ブロック1460で示されるように、このように符号化される結果、減少した第三の成分の予測誤差が得られる。
これは、色成分の対象ブロック1410の符号化に、他のすべての色成分の量子化測誤差信号がブロック分割に使用され得ることを意味する。他の実施形態で説明したように、例えば3つの色成分を符号化するために、第一の2つの色成分が符号化される。第三の色成分では、ブロックは、少なくとも3つの部分に分割される。これは、第二の色成分の分割を用いてなされ、第二の色成分に対して最初に行われたのと同じ方法で第二の色成分を再度2つの部分に分割することによってなされる。独立した予測モードは、第三の色成分の少なくとも3つの部分に用いられ得る。したがって、予測は改善され得、結果的にさらに符号化効率が向上し得る。
本発明の第8の実施形態によれば、第一の色成分の量子化予測誤差の係数に基づきブロック分割が導出される、画像符号化装置および画像復号化装置が提供される。
具体的には、ブロック分割は、所定の閾値と予測誤差信号を比較する閾値演算に基づいて導出される。好ましくは、比較される予測誤差信号は、周波数領域に変換された、第一の色成分のブロックのサブブロックのDC係数である。第一の成分のブロックの位置に対応する第二の成分のブロックは、閾値演算結果に応じて、2つの部分に細分割される。そして、その2つの部分は異なると予想される。
ブロック分割を導出するためにDC係数のみが用いられる場合について図15に示されている。ブロック分割は、例えば、閾値以下のDC係数情報を有するすべてのブロックに、画像信号の第一の部分を割り当て、閾値以上のDC係数情報を有するすべてのブロックに、画像信号の第二の部分を割り当てることによって、実現される。DC係数情報は、以下となり得る。
・図16に示されるように、量子化DC係数1631または
・図16に示されるように、復号されたDC係数の量子化インデックス1621
さらに、ブロック分割は、例えば、第1セットの値と等しいDC符号情報を持つすべてのブロックを第一の部分に割り当て、第2セットの値と等しいDC符号情報を持つすべてのブロックを第二の部分に割り当てることにより、実現され得る。DC符号情報は、以下となり得る。
・図16に示されるように、復号シンタックス要素1611または
・図16に示されるように、符号化シンタックス要素1601
値のセットは、以下となり得る。
・シンタックス要素のセットまたは
・符号語のセット
図16は、エンコーダ側でまたはデコーダ側で行うことができるDC係数の復号を示すブロック図である。符号化シンタックス要素1601は、符号語により形成され、デコーダ1610(例えばエントロピーデコーダ)により復号されて、復号されたシンタックス要素1611が得られる。復号されたシンタックス要素1611は、さらに、例えば、量子化指標など合同で符号化された要素を解析することによって、復号(1620)されて、例えば復号されたDC係数の量子化インデックス1621が得られる。量子化インデックス1621は、さらにスケーリングを適用することにより、復号(1630)されて、量子化DC係数が得られる。本発明の第9の実施形態によれば、画像符号化装置および画像復号装置は、第1〜第8の実施の形態で説明したブロック分割を行い、さらに、ブロックを分離するかどうかの最終決定を行う。この決定は、好ましくは、各ブロックセグメント内のサンプル数(例えば、部分1と部分2)に基づいており、閾値とに基づいている。この利点は、別の予測モードを符号化する追加のビットレートは非効率であるので、サンプルの数が非常に少ないセグメントを用いないことである。この閾値は、予め定められてもよく、エンコーダで決定されてもよい。そして、この閾値は、符号化され、ビットストリームで送信される。サンプル数が、最小の規則的な矩形の予測ブロックのサンプル数よりも等しいまたは大きい場合には有利である。しかし、本発明はこれに限定されるものではなく、閾値は、他の値でもよい。この判定は、ビットレートのラグランジュコストと平均二乗再構築誤差とを最小化にすることにより、行われるとしてもよい。
以上のように、本実施の形態に係る方法は、区切りがブロック、スライス、ビデオフレームシーケンスのいずれかに適用されるか否かを示すセグメンテーション・インジケータを決定するステップと、符号化予測信号も含む符号化ビットストリームにそのセグメンテーション・インジケータを含むステップとを含む。以下では、上記各実施の形態で示した映像符号化方法及び動画像復号化方法とそれらを用いたシステムの応用例について説明する。
図17は、コンテンツ配信サービスを実現するコンテンツ供給システムex100の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ex106、ex107、ex108、ex109、ex110が設置されている。
しかし、コンテンツ供給システムex100は図17のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ex106からex110を介さずに、各機器が電話網ex104に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。
カメラex113はデジタルビデオカメラ等の動画撮影が可能な機器である。カメラex116はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、携帯電話ex114は、GSM(登録商標)(Global System for Mobile Communications)方式、CDMA(Code Division Multiple Access)方式、W−CDMA(Wideband−Code Division Multiple Access)方式、若しくはLTE(Long Term Evolution)方式、HSPA(High Speed Packet Access)の携帯電話機、等であり、いずれでも構わない。また、携帯電話ex114は、PHS(Personal Handyphone System)であってもよい。
コンテンツ供給システムex100では、カメラex113等が基地局ex109、電話網ex104を通じてストリーミングサーバex103に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラex113を用いて撮影するコンテンツ(例えば、音楽ライブの映像等)に対して上記各実施の形態で説明したように符号化処理を行い、ストリーミングサーバex103に送信する。一方、ストリーミングサーバex103は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータex111、PDAex112、カメラex113、携帯電話ex114、ゲーム機ex115等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する。
なお、撮影したデータの符号化処理はカメラex113で行っても、データの送信処理をするストリーミングサーバex103で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバex103で行ってもよいし、互いに分担して行ってもよい。また、カメラex113に限らず、カメラex116で撮影した静止画像および/または動画像データを、コンピュータex111を介してストリーミングサーバex103に送信してもよい。この場合の符号化処理はカメラex116、コンピュータex111、ストリーミングサーバex103のいずれで行ってもよいし、互いに分担して行ってもよい。
また、これら符号化・復号化処理は、一般的にコンピュータex111や各機器が有するLSIex500において処理する。LSIex500は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータex111等で読み取り可能な何らかの記録メディア(CD−ROM、フレキシブルディスク、ハードディスクなど)に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、携帯電話ex114がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データは携帯電話ex114が有するLSIex500で符号化処理されたデータである。
また、ストリーミングサーバex103は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。
以上のようにして、コンテンツ供給システムex100では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムex100では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。
なお、コンテンツ供給システムex100の例に限らず、図18に示すように、デジタル放送用システムex200にも、上記各実施の形態の少なくとも動画像符号化装置または動画像復号化装置のいずれかを組み込むことができる。具体的には、放送局ex201では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ex202に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである。これを受けた放送衛星ex202は、放送用の電波を発信する。そして、この電波を衛星放送の受信が可能な家庭のアンテナex204が受信する。
受信した多重化データを、テレビ(受信機)ex300またはセットトップボックス(STB)ex217等の装置が復号化して再生する。
また、リーダ/レコーダex218は、DVD、BD等の記録メディアex215に記録した多重化データを読み取り復号化する、または記録メディアex215に映像信号を符号化し、さらに場合によっては音楽信号と多重化したデータを書き込む。リーダ/レコーダex218は、上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタex219に表示され、多重化データが記録された記録メディアex215により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルex203または衛星/地上波放送のアンテナex204に接続されたセットトップボックスex217内に動画像復号化装置を実装し、これをテレビex300のモニタex219で表示してもよい。このときセットトップボックスではなく、テレビex300内に動画像復号化装置を組み込んでもよい。
図19は、上記各実施の形態で説明した動画像復号化方法および動画像符号化方法を用いたテレビ(受信機)ex300を示す図である。テレビex300は、上記放送を受信するアンテナex204またはケーブルex203等を介して映像データに音声データが多重化された多重化データを取得、または出力するチューナex301と、受信した多重化データを復調する、または外部に送信する多重化データに変調する変調/復調部ex302と、復調した多重化データを映像データと、音声データとに分離する、または信号処理部ex306で符号化された映像データ、音声データを多重化する多重/分離部ex303を備える。
また、テレビex300は、音声データ、映像データそれぞれを復号化する、またはそれぞれの情報を符号化する音声信号処理部ex304、映像信号処理部ex305を有する信号処理部ex306と、復号化した音声信号を出力するスピーカex307、復号化した映像信号を表示するディスプレイ等の表示部ex308を有する出力部ex309とを有する。さらに、テレビex300は、ユーザ操作の入力を受け付ける操作入力部ex312等を有するインタフェース部ex317を有する。さらに、テレビex300は、各部を統括的に制御する制御部ex310、各部に電力を供給する電源回路部ex311を有する。インタフェース部ex317は、操作入力部ex312以外に、リーダ/レコーダex218等の外部機器と接続されるブリッジex313、SDカード等の記録メディアex216を装着可能とするためのスロット部ex314、ハードディスク等の外部記録メディアと接続するためのドライバex315、電話網と接続するモデムex316等を有していてもよい。なお、記録メディアex216は、格納する不揮発性/揮発性の半導体メモリ素子により電気的に情報の記録を可能としたものである。テレビex300の各部は同期バスを介して互いに接続されている。
まず、テレビex300がアンテナex204等により外部から取得した多重化データを復号化し、再生する構成について説明する。テレビex300は、リモートコントローラex220等からのユーザ操作を受け、CPU等を有する制御部ex310の制御に基づいて、変調/復調部ex302で復調した多重化データを多重/分離部ex303で分離する。さらにテレビex300は、分離した音声データを音声信号処理部ex304で復号化し、分離した映像データを映像信号処理部ex305で上記各実施の形態で説明した復号化方法を用いて復号化する。復号化した音声信号、映像信号は、それぞれ出力部ex309から外部に向けて出力される。出力部ex309が出力する際には、音声信号と映像信号が同期して再生するよう、バッファex318、ex319等に一旦これらの信号を蓄積するとよい。また、テレビex300は、放送等からではなく、磁気/光ディスク、SDカード等の記録メディアex215、ex216から多重化データを読み出してもよい。次に、テレビex300が音声信号や映像信号を符号化し、外部に送信または記録メディア等に書き込む構成について説明する。テレビex300は、リモートコントローラex220等からのユーザ操作を受け、制御部ex310の制御に基づいて、音声信号処理部ex304で音声信号を符号化し、映像信号処理部ex305で映像信号を上記各実施の形態で説明した符号化方法を用いて符号化する。符号化した音声信号、映像信号は、多重/分離部ex303で多重化され外部に出力される。多重化する際には、音声信号と映像信号が同期するように、バッファex320、ex321等に一旦これらの信号を蓄積するとよい。なお、バッファex318、ex319、ex320、ex321は図示しているように複数備えていてもよいし、1つ以上のバッファを共有する構成であってもよい。さらに、図示している以外に、例えば変調/復調部ex302や多重/分離部ex303の間等でもシステムのオーバフロー、アンダーフローを避ける緩衝材としてバッファにデータを蓄積することとしてもよい。
また、テレビex300は、放送等や記録メディア等から音声データ、映像データを取得する以外に、マイクやカメラのAV入力を受け付ける構成を備え、それらから取得したデータに対して符号化処理を行ってもよい。なお、ここではテレビex300は上記の符号化処理、多重化、および外部出力ができる構成として説明したが、これらの処理を行うことはできず、上記受信、復号化処理、外部出力のみが可能な構成であってもよい。
また、リーダ/レコーダex218で記録メディアから多重化データを読み出す、または書き込む場合には、上記復号化処理または符号化処理はテレビex300、リーダ/レコーダex218のいずれで行ってもよいし、テレビex300とリーダ/レコーダex218が互いに分担して行ってもよい。
一例として、光ディスクからデータの読み込みまたは書き込みをする場合の情報再生/記録部ex400の構成を図20に示す。情報再生/記録部ex400は、以下に説明する要素ex401、ex402、ex403、ex404、ex405、ex406、ex407を備える。光ヘッドex401は、光ディスクである記録メディアex215の記録面にレーザスポットを照射して情報を書き込み、記録メディアex215の記録面からの反射光を検出して情報を読み込む。変調記録部ex402は、光ヘッドex401に内蔵された半導体レーザを電気的に駆動し記録データに応じてレーザ光の変調を行う。再生復調部ex403は、光ヘッドex401に内蔵されたフォトディテクタにより記録面からの反射光を電気的に検出した再生信号を増幅し、記録メディアex215に記録された信号成分を分離して復調し、必要な情報を再生する。バッファex404は、記録メディアex215に記録するための情報および記録メディアex215から再生した情報を一時的に保持する。ディスクモータex405は記録メディアex215を回転させる。サーボ制御部ex406は、ディスクモータex405の回転駆動を制御しながら光ヘッドex401を所定の情報トラックに移動させ、レーザスポットの追従処理を行う。システム制御部ex407は、情報再生/記録部ex400全体の制御を行う。上記の読み出しや書き込みの処理はシステム制御部ex407が、バッファex404に保持された各種情報を利用し、また必要に応じて新たな情報の生成・追加を行うと共に、変調記録部ex402、再生復調部ex403、サーボ制御部ex406を協調動作させながら、光ヘッドex401を通して、情報の記録再生を行うことにより実現される。システム制御部ex407は例えばマイクロプロセッサで構成され、読み出し書き込みのプログラムを実行することでそれらの処理を実行する。
以上では、光ヘッドex401はレーザスポットを照射するとして説明したが、近接場光を用いてより高密度な記録を行う構成であってもよい。
図21に光ディスクである記録メディアex215の模式図を示す。記録メディアex215の記録面には案内溝(グルーブ)がスパイラル状に形成され、情報トラックex230には、予めグルーブの形状の変化によってディスク上の絶対位置を示す番地情報が記録されている。この番地情報はデータを記録する単位である記録ブロックex231の位置を特定するための情報を含んでいる。記録や再生を行う装置において情報トラックex230を再生し番地情報を読み取ることで記録ブロックを特定することができる。また、記録メディアex215は、データ記録領域ex233、内周領域ex232、外周領域ex234を含んでいる。データ記録領域ex233は、ユーザデータを記録するために用いる領域である。データ記録領域ex233より内周または外周に配置されている内周領域ex232と外周領域ex234はそれぞれ、ユーザデータの記録以外の特定用途に用いられる。情報再生/記録部ex400は、このような記録メディアex215のデータ記録領域ex233に対して、符号化された音声データ、映像データまたはそれらのデータを多重化した多重化データの読み書きを行う。
以上では、1層のDVD、BD等の光ディスクを例に挙げ説明したが、これらに限ったものではなく、多層構造であって表面以外にも記録可能な光ディスクであってもよい。また、ディスクの同じ場所にさまざまな異なる波長の色の光を用いて情報を記録したり、さまざまな角度から異なる情報の層を記録したりなど、多次元的な記録/再生を行う構造の光ディスクであってもよい。
また、デジタル放送用システムex200において、アンテナex205を有する車ex210で衛星ex202等からデータを受信し、車ex210が有するカーナビゲーションex211等の表示装置に動画を再生することも可能である。なお、カーナビゲーションex211の構成は例えば図18に示す構成のうち、GPS受信部を加えた構成が考えられ、同様なことがコンピュータex111や携帯電話ex114等でも考えられる。
図22(a)は、上記実施の形態で説明した動画像復号化方法および動画像符号化方法を用いた携帯電話ex114を示す図である。携帯電話ex114は、基地局ex110との間で電波を送受信するためのアンテナex350、映像、静止画を撮ることが可能なカメラ部ex365、カメラ部ex365で撮像した映像、アンテナex350で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ex358を備える。携帯電話ex114は、さらに、操作キー部ex366を有する本体部、音声を出力するためのスピーカ等である音声出力部ex357、音声を入力するためのマイク等である音声入力部ex356、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存するメモリ部ex367、又は同様にデータを保存する記録メディアとのインタフェース部であるスロット部ex364を備える。
さらに、携帯電話ex114の構成例について、図22(b)を用いて説明する。携帯電話ex114は、表示部ex358及び操作キー部ex366を備えた本体部の各部を統括的に制御する主制御部ex360に対して、電源回路部ex361、操作入力制御部ex362、映像信号処理部ex355、カメラインタフェース部ex363、LCD(Liquid Crystal Display)制御部ex359、変調/復調部ex352、多重/分離部ex353、音声信号処理部ex354、スロット部ex364、メモリ部ex367がバスex370を介して互いに接続されている。
電源回路部ex361は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することにより携帯電話ex114を動作可能な状態に起動する。
携帯電話ex114は、CPU、ROM、RAM等を有する主制御部ex360の制御に基づいて、音声通話モード時に音声入力部ex356で収音した音声信号を音声信号処理部ex354でデジタル音声信号に変換する。そして、これを変調/復調部ex352でスペクトラム拡散処理し、送信/受信部ex351でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex350を介して送信する。
また携帯電話ex114は、音声通話モード時にアンテナex350を介して受信した受信データを送信/受信部ex351で増幅して周波数変換処理およびアナログデジタル変換処理を施す。変調/復調部ex352でスペクトラム逆拡散処理し、音声信号処理部ex354でアナログ音声信号に変換した後、これを音声出力部ex357から出力する。
さらにデータ通信モード時に電子メールを送信する場合、本体部の操作キー部ex366等の操作によって入力された電子メールのテキストデータは操作入力制御部ex362を介して主制御部ex360に送出される。主制御部ex360は、テキストデータを変調/復調部ex352でスペクトラム拡散処理をし、送信/受信部ex351でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex350を介して基地局ex110へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ex358に出力される。
データ通信モード時に、映像、静止画、または映像と音声を送信する場合、映像信号処理部ex355は、カメラ部ex365から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重/分離部ex353に送出する。また、音声信号処理部ex354は、映像、静止画等をカメラ部ex365で撮像中に音声入力部ex356で収音した音声信号を符号化し、符号化された音声データを多重/分離部ex353に送出する。
多重/分離部ex353は、映像信号処理部ex355から供給された符号化された映像データと音声信号処理部ex354から供給された符号化された音声データを所定の方式で多重化する。
そして、その結果得られる多重化データを変調/復調回路部ex352でスペクトラム拡散処理をし、送信/受信部ex351でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex350を介して送信する。
データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナex350を介して受信された多重化データを復号化するために、多重/分離部ex353は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスex370を介して符号化された映像データを映像信号処理部ex355に供給するとともに、符号化された音声データを音声信号処理部ex354に供給する。映像信号処理部ex355は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し、LCD制御部ex359を介して表示部ex358から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ex354は、音声信号を復号し、音声出力部ex357から音声が出力される。
また、上記携帯電話ex114等の端末は、テレビex300と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という3通りの実装形式が考えられる。さらに、デジタル放送用システムex200において、映像データに音楽データなどが多重化された多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。
このように、上記各実施の形態で示した動画像符号化方法あるいは動画像復号化方法を上述したいずれの機器・システムに用いることは可能である。そうすることで、上記各実施の形態で説明した効果を得ることができる。
また、本発明はかかる上記実施形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。
上記各実施の形態で示した動画像符号化方法または装置と、MPEG−2、MPEG4−AVC、VC−1など異なる規格に準拠した動画像符号化方法または装置とを、必要に応じて適宜切替えることにより、映像データを生成することも可能である。
ここで、それぞれ異なる規格に準拠する複数の映像データを生成した場合、復号する際に、それぞれの規格に対応した復号方法を選択する必要がある。しかしながら、復号する映像データが、どの規格に準拠するものであるか識別できないため、適切な復号方法を選択することができないという課題を生じる。
この課題を解決するために、映像データに音声データなどを多重化した多重化データは、映像データがどの規格に準拠するものであるかを示す識別情報を含む構成とする。上記各実施の形態で示す動画像符号化方法または装置によって生成された映像データを含む多重化データの具体的な構成を以下説明する。多重化データは、MPEG−2トランスポートストリーム形式のデジタルストリームである。
図23は、多重化データの構成を示す図である。図23に示すように多重化データは、ビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム(PG)、インタラクティブグラファイックスストリームのうち、1つ以上を多重化することで得られる。ビデオストリームは映画の主映像および副映像を、オーディオストリーム(IG)は映画の主音声部分とその主音声とミキシングする副音声を、プレゼンテーショングラフィックスストリームは、映画の字幕をそれぞれ示している。ここで主映像とは画面に表示される通常の映像を示し、副映像とは主映像の中に小さな画面で表示する映像のことである。また、インタラクティブグラフィックスストリームは、画面上にGUI部品を配置することにより作成される対話画面を示している。ビデオストリームは、上記各実施の形態で示した動画像符号化方法または装置、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠した動画像符号化方法または装置によって符号化されている。オーディオストリームは、ドルビーAC−3、Dolby Digital Plus、MLP、DTS、DTS−HD、または、リニアPCMのなどの方式で符号化されている。
多重化データに含まれる各ストリームはPIDによって識別される。例えば、映画の映像に利用するビデオストリームには0x1011が、オーディオストリームには0x1100から0x111Fまでが、プレゼンテーショングラフィックスには0x1200から0x121Fまでが、インタラクティブグラフィックスストリームには0x1400から0x141Fまでが、映画の副映像に利用するビデオストリームには0x1B00から0x1B1Fまで、主音声とミキシングする副音声に利用するオーディオストリームには0x1A00から0x1A1Fが、それぞれ割り当てられている。
図24は、多重化データがどのように多重化されるかを模式的に示す図である。まず、複数のビデオフレームからなるビデオストリームex235、複数のオーディオフレームからなるオーディオストリームex238を、それぞれPESパケット列ex236およびex239に変換し、TSパケットex237およびex240に変換する。同じくプレゼンテーショングラフィックスストリームex241およびインタラクティブグラフィックスex244のデータをそれぞれPESパケット列ex242およびex245に変換し、さらにTSパケットex243およびex246に変換する。多重化データex247はこれらのTSパケットを1本のストリームに多重化することで構成される。
図25は、PESパケット列に、ビデオストリームがどのように格納されるかをさらに詳しく示している。図25における第1段目はビデオストリームのビデオフレーム列を示す。第2段目は、PESパケット列を示す。図25の矢印yy1,yy2,yy3,yy4に示すように、ビデオストリームにおける複数のVideo Presentation UnitであるIピクチャ、Bピクチャ、Pピクチャは、ピクチャ毎に分割され、PESパケットのペイロードに格納される。各PESパケットはPESヘッダを持ち、PESヘッダには、ピクチャの表示時刻であるPTS(Presentation Time−Stamp)やピクチャの復号時刻であるDTS(Decoding Time−Stamp)が格納される。
図26は、多重化データに最終的に書き込まれるTSパケットの形式を示している。TSパケットは、ストリームを識別するPIDなどの情報を持つ4ByteのTSヘッダとデータを格納する184ByteのTSペイロードから構成される188Byte固定長のパケットである。上記PESパケットは分割され、TSペイロードにそれぞれ格納される。BD−ROMの場合、TSパケットには、4ByteのTP_Extra_Headerが付与され、192Byteのソースパケットを構成する。そのソースパケットは、多重化データに書き込まれる。
TP_Extra_HeaderにはATS(Arrival_Time_Stamp)などの情報が記載される。ATSは当該TSパケットのデコーダのPIDフィルタへの転送開始時刻を示す。多重化データには図26下段に示すようにソースパケットが並ぶこととなる。多重化データの先頭からインクリメントする番号はSPN(ソースパケットナンバー)と呼ばれる。
また、多重化データに含まれるTSパケットには、映像・音声・字幕などの各ストリーム以外にもPAT(Program Association Table)、PMT(Program Map Table)、PCR(Program Clock Reference)などがある。PATは多重化データ中に利用されるPMTのPIDが何であるかを示し、PAT自身のPIDは0で登録される。PMTは、多重化データ中に含まれる映像・音声・字幕などの各ストリームのPIDと各PIDに対応するストリームの属性情報を持つ。また、PMTは、多重化データに関する各種ディスクリプタを持つ。ディスクリプタには多重化データのコピーを許可・不許可を指示するコピーコントロール情報などがある。PCRは、ATSの時間軸であるATC(Arrival Time Clock)とPTS・DTSの時間軸であるSTC(System Time Clock)の同期を取るために、そのPCRパケットがデコーダに転送されるATSに対応するSTC時間の情報を持つ。
図27はPMTのデータ構造を詳しく説明する図である。PMTの先頭には、PMTヘッダが配置される。PMTヘッダには、そのPMTに含まれるデータの長さなどが記される。その後ろには、多重化データに関するディスクリプタが複数配置される。上記コピーコントロール情報などが、ディスクリプタとして記載される。ディスクリプタの後には、多重化データに含まれる各ストリームに関するストリーム情報が複数配置される。ストリーム情報は、ストリームの圧縮コーデックなどを識別するためストリームタイプ、ストリームのPID、ストリームの属性情報(フレームレート、アスペクト比など)が記載されたストリームディスクリプタから構成される。ストリームディスクリプタは多重化データに存在するストリームの数だけ存在する。
記録媒体などに記録する場合には、上記多重化データは、多重化データ情報ファイルと共に記録される。
多重化データ情報ファイルは、図28に示すように多重化データの管理情報である。多重化データ情報ファイルは、多重化データと1対1に対応し、多重化データ情報、ストリーム属性情報とエントリマップから構成される。
多重化データ情報は図28に示すようにシステムレート、再生開始時刻、再生終了時刻から構成されている。システムレートは多重化データの、後述するシステムターゲットデコーダのPIDフィルタへの最大転送レートを示す。多重化データ中に含まれるATSの間隔はシステムレート以下になるように設定されている。再生開始時刻は多重化データの先頭のビデオフレームのPTSである。再生終了時刻は多重化データの終端のビデオフレームのPTSに1フレーム分の再生間隔を足したものが設定される。
ストリーム属性情報は図29に示すように、多重化データに含まれる各ストリームについての属性情報が、PID毎に登録される。属性情報はビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム、インタラクティブグラフィックスストリーム毎に異なる情報を持つ。ビデオストリーム属性情報は、そのビデオストリームがどのような圧縮コーデックで圧縮されたか、ビデオストリームを構成する個々のピクチャデータの解像度がどれだけであるか、アスペクト比はどれだけであるか、フレームレートはどれだけであるかなどの情報を持つ。オーディオストリーム属性情報は、そのオーディオストリームがどのような圧縮コーデックで圧縮されたか、そのオーディオストリームに含まれるチャンネル数は何であるか、何の言語に対応するか、サンプリング周波数がどれだけであるかなどの情報を持つ。これらの情報は、プレーヤが再生する前のデコーダの初期化などに利用される。
上記多重化データは、PMTに含まれるストリームタイプに利用される。また、記録媒体に多重化データが記録されている場合には、多重化データ情報に含まれる、ビデオストリーム属性情報を利用する。具体的には、上記各実施の形態で示した動画像符号化方法または装置において、PMTに含まれるストリームタイプ、または、ビデオストリーム属性情報に対し、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示す固有の情報を設定するステップまたは手段を設ける。この構成により、上記各実施の形態で示した動画像符号化方法または装置によって生成した映像データと、他の規格に準拠する映像データとを識別することが可能になる。
また、本実施の形態における動画像復号化方法のステップを図30に示す。ステップexS100において、多重化データからPMTに含まれるストリームタイプ、または、多重化データ情報に含まれるビデオストリーム属性情報を取得する。次に、ステップexS101において、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成された多重化データであることを示しているか否かを判断する。そして、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成されたものであると判断された場合には、ステップexS102において、上記各実施の形態で示した動画像復号方法により復号を行う。また、ストリームタイプ、または、ビデオストリーム属性情報が、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠するものであることを示している場合には、ステップexS103において、従来の規格に準拠した動画像復号方法により復号を行う。
このように、ストリームタイプ、または、ビデオストリーム属性情報に新たな固有値を設定することにより、復号する際に、上記各実施の形態で示した動画像復号化方法または装置で復号可能であるかを判断することができる。異なる規格に準拠する多重化データが入力された場合であっても、適切な復号化方法または装置を選択することができる。このようにして、エラーを生じることなく復号することが可能となる。また、本実施の形態で示した動画像符号化方法または装置、または、動画像復号方法または装置を、上述したいずれの機器・システムに用いることも可能である。
上記各実施の形態で示した動画像符号化方法および装置、動画像復号化方法および装置は、典型的には集積回路であるLSIで実現される。一例として、図31に1チップ化されたLSIex500の構成を示す。LSIex500は、以下に説明する要素ex501、ex502、ex503、ex504、ex505、ex506、ex507、ex508、ex509を備え、各要素はバスex510を介して接続している。電源回路部ex505は電源がオン状態の場合に各部に対して電力を供給することで動作可能な状態に起動する。
例えば符号化処理を行う場合には、LSIex500は、CPUex502、メモリコントローラex503、ストリームコントローラex504、駆動周波数制御部ex512等を有する制御部ex501の制御に基づいて、AV I/Oex509によりマイクex117やカメラex113等からAV信号を入力する。入力されたAV信号は、一旦SDRAM等の外部のメモリex511に蓄積される。制御部ex501の制御に基づいて、蓄積したデータは処理量や処理速度に応じて適宜複数回に分けるなどされ信号処理部ex507に送られる。そして、信号処理部ex507において音声信号の符号化および/または映像信号の符号化が行われる。ここで映像信号の符号化処理は上記各実施の形態で説明した符号化処理である。信号処理部ex507ではさらに、場合により符号化された音声データと符号化された映像データを多重化するなどの処理を行い、ストリームI/Oex506から外部に出力する。この出力された多重化データは、基地局ex107に向けて送信されたり、または記録メディアex215に書き込まれたりする。なお、多重化する際には同期するよう、一旦バッファex508にデータを蓄積するとよい。
なお、上記では、メモリex511がLSIex500の外部の構成として説明したが、LSIex500の内部に含まれる構成であってもよい。バッファex508も1つに限ったものではなく、複数のバッファを備えていてもよい。また、LSIex500は1チップ化されてもよいし、複数チップ化されてもよい。
また、上記では、制御部ex510が、CPUex502、メモリコントローラex503、ストリームコントローラex504、駆動周波数制御部ex512等を有するとしているが、制御部ex510の構成は、この構成に限らない。例えば、信号処理部ex507がさらにCPUを備える構成であってもよい。信号処理部ex507の内部にもCPUを設けることにより、処理速度をより向上させることが可能になる。また、他の例として、CPUex502が信号処理部ex507、または信号処理部ex507の一部である例えば音声信号処理部を備える構成であってもよい。このような場合には、制御部ex501は、信号処理部ex507、またはその一部を有するCPUex502を備える構成となる。
なお、ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩による全く新しい技術が登場すればLSIに置き換えてもよい。その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データを復号する場合、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データを復号する場合に比べ、処理量が増加することが考えられる。LSIex500において、従来の規格に準拠する映像データを復号する際のCPUex502の駆動周波数よりも高い駆動周波数に設定する必要がある。しかし、駆動周波数を高くすると、消費電力が高くなるという課題が生じる。
この課題を解決するために、テレビex300、LSIex500などの動画像復号化装置は、映像データがどの規格に準拠するものであるかを識別し、規格に応じて駆動周波数を切替える構成とする。図32は、本実施の形態における構成ex800を示している。駆動周波数切替え部ex803は、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合には、駆動周波数を高く設定する。そして、駆動周波数切替え部ex803は、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex801に対し、映像データを復号するよう指示する。一方、映像データが、従来の規格に準拠する映像データである場合には、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合に比べ、駆動周波数を低く設定する。そして、駆動周波数切替え部ex803は、従来の規格に準拠する復号処理部ex802に対し、映像データを復号するよう指示する。
より具体的には、駆動周波数切替え部ex803は、図31のCPUex502と駆動周波数制御部ex512から構成される。また、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex801、および、従来の規格に準拠する復号処理部ex802は、図31の信号処理部ex507に該当する。CPUex502は、映像データがどの規格に準拠するものであるかを識別する。そして、CPUex502からの信号に基づいて、駆動周波数制御部ex512は、駆動周波数を設定する。また、CPUex502からの信号に基づいて、信号処理部ex507は、映像データの復号を行う。ここで、映像データの識別には、例えば、識別情報を利用することが考えられる。識別情報に関しては、上述したものに限られず、映像データがどの規格に準拠するか識別できる情報であればよい。例えば、映像データがテレビに利用されるものであるか、ディスクに利用されるものであるかなどを識別する外部信号に基づいて、映像データがどの規格に準拠するものであるか識別可能である場合には、このような外部信号に基づいて識別してもよい。また、CPUex502における駆動周波数の選択は、例えば、図34のような映像データの規格と、駆動周波数とを対応付けたルックアップテーブルに基づいて行うことが考えられる。ルックアップテーブルを、バッファex508や、LSIの内部メモリに格納しておき、CPUex502がこのルックアップテーブルを参照することにより、駆動周波数を選択することが可能である。
図33は、本実施の形態の方法を実施するステップを示している。まず、ステップexS200では、信号処理部ex507において、多重化データから識別情報を取得する。次に、ステップexS201では、CPUex502において、識別情報に基づいて映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものであるか否かを識別する。映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合には、ステップexS202において、駆動周波数を高く設定する信号を、CPUex502が駆動周波数制御部ex512に送る。そして、駆動周波数制御部ex512において、高い駆動周波数に設定される。一方、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合には、ステップexS203において、駆動周波数を低く設定する信号を、CPUex502が駆動周波数制御部ex512に送る。そして、駆動周波数制御部ex512において、映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合に比べ、低い駆動周波数に設定される。
さらに、駆動周波数の切替えに連動して、LSIex500またはLSIex500を含む装置に与える電圧を変更することにより、省電力効果をより高めることが可能である。例えば、駆動周波数を低く設定する場合には、これに伴い、駆動周波数を高く設定している場合に比べ、LSIex500またはLSIex500を含む装置に与える電圧を低く設定することが考えられる。
また、駆動周波数の設定方法は、復号する際の処理量が大きい場合に、駆動周波数を高く設定し、復号する際の処理量が小さい場合に、駆動周波数を低く設定すればよい。なお、その設定方法は、上述した設定方法に限らない。例えば、MPEG4−AVC規格に準拠する映像データを復号する処理量の方が、上記各実施の形態で示した動画像符号化方法または装置により生成された映像データを復号する処理量よりも大きい場合には、駆動周波数の設定を上述した場合の逆にすることが考えられる。
さらに、駆動周波数の設定方法は、駆動周波数を低くする構成に限らない。例えば、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、LSIex500またはLSIex500を含む装置に与える電圧を高く設定することが考えられる。識別情報が、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合には、LSIex500またはLSIex500を含む装置に与える電圧を低く設定することが考えられる。また、他の例としては、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、CPUex502の駆動を停止させないことも考えられる。識別情報が、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合には、処理に余裕があるため、CPUex502の駆動を一時停止させることも考えられる。また、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合であっても、処理に余裕があれば、CPUex502の駆動を一時停止させることも考えられる。この場合は、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合に比べて、停止時間を短く設定することが考えられる。
このように、映像データが準拠する規格に応じて、駆動周波数を切替えることにより、省電力化を図ることが可能になる。また、電池を用いてLSIex500またはLSIex500を含む装置を駆動している場合には、省電力化に伴い、電池の寿命を長くすることが可能である。
テレビや、携帯電話など、上述した機器・システムには、異なる規格に準拠する複数の映像データが入力される場合がある。このように、異なる規格に準拠する複数の映像データが入力された場合にも復号できるようにするために、LSIex500の信号処理部ex507が複数の規格に対応している必要がある。しかし、それぞれの規格に対応する信号処理部ex507を個別に用いると、LSIex500の回路規模が大きくなり、また、コストが増加するという課題が生じる。
この課題を解決するために、上記各実施の形態で示した動画像復号方法を実行するための復号処理部と、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する復号処理部とを一部共有化する構成とする。この構成例を図35(a)のex900に示す。例えば、上記各実施の形態で示した動画像復号方法と、MPEG4−AVC規格に準拠する動画像復号方法とは、エントロピー符号化、逆量子化、デブロッキング・フィルタ、動き補償などの処理において処理内容が一部共通する。共通する処理内容については、MPEG4−AVC規格に対応する復号処理部ex902を共有する構成が考えられる。反対に、MPEG4−AVC規格に対応しない、本発明特有の他の処理内容については、専用の復号処理部ex901を用いるという構成が考えられる。例えば、本発明は、空間予測に特徴を有していることから、空間予測については専用の復号処理部ex901を用いることが考えられる。それ以外のエントロピー符号化、逆変換、逆量子化、動き補償のいずれか、または、全ての処理については、復号処理部を共有することが考えられる。復号処理部の共有化に関しては、共通する処理内容については、上記各実施の形態で示した動画像復号化方法を実行するための復号処理部を共有し、MPEG4−AVC規格に特有の処理内容については、専用の復号処理部を用いる構成であってもよい。
また、処理を一部共有化する他の例を図35(b)のex1000に示す。この例では、本発明に特有の処理内容に対応した専用の復号処理部ex1001と、他の従来規格に特有の処理内容に対応した専用の復号処理部ex1002と、本発明の動画像復号方法と他の従来規格の動画像復号方法とに共通する処理内容に対応した共用の復号処理部ex1003とを用いる構成としている。ここで、専用の復号処理部ex1001、ex1002は、必ずしも本発明、または、他の従来規格に特有の処理内容に特化したものではなく、他の汎用処理を実行できるものであってもよい。また、本実施の形態の構成を、LSIex500で実装することも可能である。
このように、本発明の動画像復号方法と、従来の規格の動画像復号方法とで共通する処理内容について、復号処理部を共有することにより、LSIの回路規模を小さくし、かつ、コストを低減することが可能である。ほとんどの例は、H.264/AVCベースのビデオコーディングシステムについて概説され、用語は、主に、H.264/AVC用語に関連付けられている。しかし、H.264/AVCベースの符号化に関して様々な実施形態の用語と説明は、そのようなシステムにおける発明の原理やアイデアに限定されることを意図するものではない。
また、H.264/AVC規格に準拠した符号化と復号の詳細な説明は、本明細書に記載の例示的な実施形態をよりよく理解することを意図しており、動画像符号化において説明した特定のプロセスや機能の実装に本発明が限定されるものではない。そうは言うものの、ここに提案された改良は容易に説明した動画像符号化に適用することができる。さらに、本発明の概念は、容易にJCT−VCによって現在議論されているH.264/AVCコーディングおよび/またはHEVCの拡張機能で用いることもできる。
以上のように、本発明は、少なくとも二つの色成分を含むビデオ信号のブロック単位での符号化および復号にも関するものである。第一の成分は、予測を用いて符号化され、第二の成分は、予測誤差に応じて、その符号化のために用いられることなる部分に分割される。

Claims (29)

  1. ビデオ信号の少なくとも二つの色成分を符号化するための方法は、
    予測符号化を用いて、第一の色成分のブロックを符号化し、
    前記第一の色成分の予測誤差に基づいて別の色成分を符号化するためのブロック分割を導出する。
  2. 請求項1に記載の方法は、
    前記ブロック分割は、予測誤差信号と予め定められた閾値とを比較する閾値演算に基づいて導出される。
  3. 請求項2に記載の方法において、比較される前記予測誤差信号は、周波数領域に変換された、前記第一の色成分のブロックのサブブロックのDC係数である。
  4. 請求項2に記載の方法において、前記予測誤差信号は、前記第一の成分のブロックの画素位置における量子化予測誤差信号または変換かつ量子化予測誤差信号である。
  5. 請求項2〜4のいずれか1項に記載の方法において、
    前記第二の成分のブロックは、前記第一の成分のブロックに位置が対応しており、閾値演算の結果に応じて2つの部分に細分割され、
    前記2つの部分は、別々に予測される。
  6. 請求項5に記載の方法において、さらに、
    それぞれの予測に基づいて前記第二の色成分のブロックの2つの部分を符号化し、
    前記第二の色成分の予測誤差に基づいて、第三の色成分を符号化するためのブロック分割を導出する。
  7. 請求項1〜6のいずれか1項に記載の方法において、さらに、
    ブロック、スライス、またはビデオシーケンスに区切りが適用されるか否か示すセグメンテーション・インジケータを決定し、
    符号化された前記予測信号も含む符号化ビットストリームにセグメンテーション・インジケータを含める。
  8. ビデオ信号の少なくとも二つの色成分を符号化するための方法は、
    予測符号化を用いて、第一の色成分を復号し、前記第一の色成分の予測誤差に基づいて別の色成分を復号するためのブロック分割を導出するステップを含む。
  9. 請求項8に記載の方法において、
    前記ブロック分割は、前記予測誤差信号と予め定められた閾値とを比較する閾値演算に基づいて導出される。
  10. 請求項9に記載の方法において、比較される前記予測誤差信号は、周波数領域に変換された前記第一の色成分のブロックのサブブロックのDC係数である。
  11. 請求項9に記載の方法において、前記予測誤差信号は、前記第一の成分のブロックの画素位置における量子化予測誤差または変換かつ量子化予測誤差である。
  12. 請求項9〜11のいずれか1項に記載の方法において、
    前記第二の成分のブロックは、前記第一の成分のブロックに位置が対応しており、閾値演算の結果に応じて二つの部分に細分割され、
    前記二つの部分は、別々に予測される。
  13. 請求項12に記載の方法において、さらに、
    それぞれの予測に基づいて前記第二の色成分のブロックの前記2つの部分を復号し、
    前記第二の色成分の予測誤差に基づいて、第三の色成分を復号するためのブロック分割を導出する。
  14. 請求項8〜13のいずれか1項に記載の方法において、さらに、
    符号化された予測信号も含む符号化ビットストリームからセグメンテーション・インジケータを抽出し、
    抽出された前記セグメンテーションインジケータに従って、色成分の前記ブロックを区切るかどうかを判定する。
  15. 具現化されたコンピュータ読み取り可能なプログラムコードを有するコンピュータで読み取り可能な媒体を含むコンピュータ・プログラム製品であって、前記プログラム・コードは、請求項1〜14のいずれかに1項に記載の方法を実施するように適合されたものである。
  16. ビデオ信号の少なくとも二つの色成分を符号化する符号化装置は、
    予測符号化を用いて、第一の色成分のブロックを符号化する符号化手段と、
    前記第一の色成分の予測誤差に基づいて別の色成分の符号化するためのブロック分割を導出する手段を備える。
  17. 請求項16に記載の符号化装置において、ブロック分割を導出するための前記手段は、所定の閾値と前記予測誤差信号とを比較する閾値演算に基づいて、ブロック分割を導出する。
  18. 請求項17に記載の符号化装置において、比較された前記予測誤差信号は、周波数領域に変換された前記第一の色成分のブロックのサブブロックのDC係数である。
  19. 請求項17に記載の符号化装置において、前記予測誤差信号は、前記第一の成分のブロックの画素位置における量子化予測誤差または変換かつ量子化予測誤差である。
  20. 請求項17〜19のいずれか1項に記載の符号化装置において、
    前記第二の成分のブロックは、前記第一の成分の前記ブロックの位置に対応しており、前記閾値演算の結果に応じて、2つの部分に細分割され、
    前記符号化手段は、前記二つの部分を別々に予測する。
  21. 請求項20に記載の符号化装置において、
    前記符号化手段は、それぞれの予測に基づいて前記第二の色成分のブロックの前記2つの部分を符号化し、
    前記導出する手段は、前記第二の色成分の予測誤差に基づいて、第三の色成分を符号化するためのブロック分割を導出する。
  22. 請求項16〜21のいずれか1項に記載の符号化装置は、さらに、
    ブロック、スライス、またはビデオシーケンスに区切りが適用されるか否かを示すセグメンテーション・インジケータを判定する判定部と、
    符号化された予測信号も含む符号化ビットストリームにセグメンテーション・インジケータを含めるインジケータ符号化部とを備える。
  23. 復号装置は、
    予測符号化を用いて、第一の色成分のブロックを復号する復号手段と、
    前記第一の色成分の予測誤差に基づいて別の色成分の復号するためのブロック分割を導出する導出部とを備える。
  24. 請求項23に記載の復号装置において、前記導出部は、所定の閾値と前記予測誤差信号とを比較する閾値演算に基づいて、ブロック分割を導出する。
  25. 請求項24に記載の復号装置において、比較された前記予測誤差信号は、周波数領域に変換された前記第一の色成分のブロックのサブブロックのDC係数である。
  26. 請求項24に記載の復号装置において、前記予測誤差信号は、前記第一の成分のブロックの画素位置における量子化予測誤差または変換かつ量子化予測誤差である。
  27. 請求項23〜26のいずれか1項に記載の復号装置において、
    前記第二の成分のブロックは、前記第一の成分の前記ブロックの位置に対応しており、前記閾値演算の結果に応じて、前記導出部により2つの部分に細分割され、
    前記復号部は、前記二つの部分を別々に予測する。
  28. 請求項27に記載の復号装置において、
    前記復号部は、それぞれの予測に基づいて前記第二の色成分のブロックの前記2つの部分を復号し、
    前記導出部は、前記第二の色成分の前記予測誤差に基づいて、第三の色成分を復号するためのブロック分割を導出する。
  29. 請求項23〜28のいずれか1項に記載の復号装置は、さらに、
    符号化予測信号も含む符号化ビットストリームからセグメンテーション・インジケータを抽出する抽出部と、
    抽出された前記セグメンテーション・インジケータに従って、色成分の前記ブロックを区切るか否かを判定する判定部とを備える。
JP2013506535A 2010-04-26 2011-04-26 予測誤差から導出されるブロック形状を用いた予測符号化 Pending JP2013526199A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32801110P 2010-04-26 2010-04-26
US61/328,011 2010-04-26
PCT/EP2011/002093 WO2011134642A1 (en) 2010-04-26 2011-04-26 Predictive coding with block shapes derived from a prediction error

Publications (1)

Publication Number Publication Date
JP2013526199A true JP2013526199A (ja) 2013-06-20

Family

ID=44201108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013506535A Pending JP2013526199A (ja) 2010-04-26 2011-04-26 予測誤差から導出されるブロック形状を用いた予測符号化

Country Status (3)

Country Link
US (1) US20130039412A1 (ja)
JP (1) JP2013526199A (ja)
WO (1) WO2011134642A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8780987B1 (en) * 2011-04-28 2014-07-15 Google Inc. Method and apparatus for encoding video by determining block resolution
US8681866B1 (en) 2011-04-28 2014-03-25 Google Inc. Method and apparatus for encoding video by downsampling frame resolution
US8780976B1 (en) 2011-04-28 2014-07-15 Google Inc. Method and apparatus for encoding video using granular downsampling of frame resolution
GB2503875B (en) * 2012-06-29 2015-06-10 Canon Kk Method and device for encoding or decoding an image
KR102069815B1 (ko) * 2013-01-10 2020-01-23 톰슨 라이센싱 꼭짓점 에러 정정을 위한 방법 및 장치
TWI512675B (zh) * 2013-10-02 2015-12-11 Mstar Semiconductor Inc 影像處理裝置與方法
US20150373280A1 (en) * 2014-06-20 2015-12-24 Sony Corporation Algorithm for pre-processing of video effects
US10462482B2 (en) 2017-01-31 2019-10-29 Google Llc Multi-reference compound prediction of a block using a mask mode
US10630748B1 (en) * 2018-05-01 2020-04-21 Amazon Technologies, Inc. Video-based encoder alignment
US10630990B1 (en) 2018-05-01 2020-04-21 Amazon Technologies, Inc. Encoder output responsive to quality metric information
US10958987B1 (en) 2018-05-01 2021-03-23 Amazon Technologies, Inc. Matching based on video data
JP7272360B2 (ja) 2018-06-28 2023-05-12 ソニーグループ株式会社 符号化装置、符号化方法、復号装置、復号方法、プログラム
WO2020008716A1 (ja) 2018-07-03 2020-01-09 ソニー株式会社 符号化装置、符号化方法、復号装置、復号方法、伝送システム、受信装置、プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06327003A (ja) * 1993-05-14 1994-11-25 Nec Corp 動画像の予測符号化方式
JPH1155672A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp 動画像符号化装置および動画像復号化装置および動画像符号化方法および動画像復号化方法
JP2001078188A (ja) * 1999-09-01 2001-03-23 Casio Comput Co Ltd 画像圧縮符号化装置、及び記憶媒体
WO2009001864A1 (ja) * 2007-06-28 2008-12-31 Mitsubishi Electric Corporation 画像符号化装置および画像復号装置
WO2009051719A2 (en) * 2007-10-16 2009-04-23 Thomson Licensing Methods and apparatus for video encoding and decoding geometically partitioned super blocks
JP2009177787A (ja) * 2008-01-25 2009-08-06 Samsung Electronics Co Ltd 映像の符号化、復号化の方法及びその装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101311403B1 (ko) 2006-07-04 2013-09-25 삼성전자주식회사 영상의 부호화 방법 및 장치, 복호화 방법 및 장치
KR101266168B1 (ko) 2006-08-16 2013-05-21 삼성전자주식회사 영상의 부호화, 복호화 방법 및 장치
CN104270636B (zh) * 2009-05-29 2018-11-09 三菱电机株式会社 图像编码装置以及图像编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06327003A (ja) * 1993-05-14 1994-11-25 Nec Corp 動画像の予測符号化方式
JPH1155672A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp 動画像符号化装置および動画像復号化装置および動画像符号化方法および動画像復号化方法
JP2001078188A (ja) * 1999-09-01 2001-03-23 Casio Comput Co Ltd 画像圧縮符号化装置、及び記憶媒体
WO2009001864A1 (ja) * 2007-06-28 2008-12-31 Mitsubishi Electric Corporation 画像符号化装置および画像復号装置
WO2009051719A2 (en) * 2007-10-16 2009-04-23 Thomson Licensing Methods and apparatus for video encoding and decoding geometically partitioned super blocks
JP2009177787A (ja) * 2008-01-25 2009-08-06 Samsung Electronics Co Ltd 映像の符号化、復号化の方法及びその装置

Also Published As

Publication number Publication date
US20130039412A1 (en) 2013-02-14
WO2011134642A1 (en) 2011-11-03

Similar Documents

Publication Publication Date Title
JP6799798B2 (ja) 画像復号装置および画像復号方法
JP6064235B2 (ja) 符号化方法、プログラムおよび符号化装置
JP6145820B2 (ja) 画像符号化方法、画像符号化装置、画像復号方法、及び画像復号装置
JP6210249B2 (ja) 復号方法および復号装置
WO2012169184A1 (ja) 画像復号方法、画像符号化方法、画像復号装置、画像符号化装置及び画像符号化復号装置
EP2869564A1 (en) Image decoding method, image encoding method, image decoding device, image encoding device, and image encoding and decoding device
JP2015213377A (ja) 画像符号化方法および画像符号化装置
WO2013111593A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置及び画像符号化復号装置
JP2013526199A (ja) 予測誤差から導出されるブロック形状を用いた予測符号化
JP6004375B2 (ja) 画像符号化方法および画像復号化方法
WO2013161203A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及び画像符号化復号装置
WO2012117744A1 (en) Method of encoding an image into a coded image, method of decoding a coded image, and apparatuses thereof
JPWO2011129090A1 (ja) 符号化歪み除去方法、符号化方法、復号化方法、符号化歪み除去装置、符号化装置、および復号化装置
WO2013001813A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
JP6399433B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置
WO2012090495A1 (ja) 画像符号化方法および画像復号方法
JP5873029B2 (ja) 動画像符号化方法及び動画像復号化方法
WO2011132400A1 (ja) 画像符号化方法及び画像復号化方法
WO2011135841A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
WO2015004884A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置
WO2012042810A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置および画像処理システム
WO2013046616A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法及び画像復号方法
WO2012086166A1 (ja) 画像符号化方法及び画像復号化方法
WO2012035766A1 (ja) 画像復号化方法、画像符号化方法、画像復号化装置、および画像符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140415

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150609

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160119