JP3345887B2 - Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium - Google Patents
Image encoding device and image encoding method, image decoding device and image decoding method, and recording mediumInfo
- Publication number
- JP3345887B2 JP3345887B2 JP2000194005A JP2000194005A JP3345887B2 JP 3345887 B2 JP3345887 B2 JP 3345887B2 JP 2000194005 A JP2000194005 A JP 2000194005A JP 2000194005 A JP2000194005 A JP 2000194005A JP 3345887 B2 JP3345887 B2 JP 3345887B2
- Authority
- JP
- Japan
- Prior art keywords
- layer
- vop
- time
- image
- display time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Television Signal Processing For Recording (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】[0001]
【発明の属する技術分野】本発明は、画像符号化装置お
よび画像符号化方法、画像復号装置および画像復号方
法、並びに記録媒体に関する。特に、例えば、動画像デ
ータを、光磁気ディスクや磁気テープなどの記録媒体に
記録し、これを再生してディスプレイなどに表示した
り、テレビ会議システム、テレビ電話システム、放送用
機器、マルチメディアデータベース検索システムなどの
ように、動画像データを伝送路を介して送信側から受信
側に伝送し、受信側において、受信された動画像データ
を表示する場合や、編集して記録する場合などに用いて
好適な画像符号化装置および画像符号化方法、画像復号
装置および画像復号方法、並びに記録媒体に関する。[0001] The present invention relates to an image encoding device and an image encoding method, an image decoding device and an image decoding method, and a recording medium. In particular, for example, moving image data is recorded on a recording medium such as a magneto-optical disk or a magnetic tape, and is reproduced and displayed on a display or the like, a video conference system, a video telephone system, a broadcasting device, a multimedia database. Used for transmitting moving image data from the transmitting side to the receiving side via a transmission path, such as a search system, and for displaying and editing or recording the received moving image data on the receiving side. TECHNICAL FIELD The present invention relates to an image encoding device and an image encoding method, an image decoding device and an image decoding method, and a recording medium that are suitable.
【0002】[0002]
【従来の技術】例えば、テレビ会議システム、テレビ電
話システムなどのように、動画像データを遠隔地に伝送
するシステムにおいては、伝送路を効率良く利用するた
め、画像データを、そのライン相関やフレーム間相関を
利用して圧縮符号化するようになされている。2. Description of the Related Art For example, in a system for transmitting moving image data to a remote place, such as a video conference system or a video telephone system, image data is converted into a line correlation or a frame in order to use a transmission path efficiently. The compression encoding is performed using the inter-correlation.
【0003】動画像の高能率符号化方式として代表的な
ものとしては、MPEG(Moving Picture Experts Group)
(蓄積用動画像符号化)方式がある。これはISO−I
EC/JTC1/SC2/WG11において議論され、
標準案として提案されたものであり、動き補償予測符号
化とDCT(Discrete Cosine Transform)符号化を組
み合わせたハイブリッド方式が採用されている。A typical high-efficiency video coding scheme is Moving Picture Experts Group (MPEG).
(Moving picture coding for storage). This is ISO-I
Discussed in EC / JTC1 / SC2 / WG11,
It has been proposed as a standard, and employs a hybrid method combining motion compensation prediction coding and DCT (Discrete Cosine Transform) coding.
【0004】MPEGでは、様々なアプリケーションや
機能に対応するために、いくつかのプロファイルおよび
レベルが定義されている。最も基本となるのが、メイン
プロファイルメインレベル(MP@ML(Main Profile
at Main Level))である。[0004] In MPEG, several profiles and levels are defined in order to support various applications and functions. The most basic is the main profile main level (MP @ ML (Main Profile
at Main Level)).
【0005】図53は、MPEG方式におけるMP@M
Lのエンコーダの一例の構成を示している。FIG. 53 is a diagram showing MP @ M in the MPEG system.
5 shows an exemplary configuration of an L encoder.
【0006】符号化すべき画像データは、フレームメモ
リ31に入力され、一時記憶される。そして、動きベク
トル検出器32は、フレームメモリ31に記憶された画
像データを、例えば、16画素×16画素などで構成さ
れるマクロブロック単位で読み出し、その動きベクトル
を検出する。[0006] Image data to be encoded is input to a frame memory 31 and is temporarily stored. Then, the motion vector detector 32 reads out the image data stored in the frame memory 31 in units of macroblocks composed of, for example, 16 pixels × 16 pixels, and detects the motion vector.
【0007】ここで、動きベクトル検出器32において
は、各フレームの画像データを、Iピクチャ(フレーム
内符号化)、Pピクチャ(前方予測符号化)、またはB
ピクチャ(両方向予測符号化)のうちのいずれかとして
処理する。なお、シーケンシャルに入力される各フレー
ムの画像を、I,P,Bピクチャのいずれのピクチャと
して処理するかは、例えば、予め定められている(例え
ば、I,B,P,B,P,・・・B,Pとして処理され
る)。Here, the motion vector detector 32 converts the image data of each frame into an I picture (intra-frame coding), a P picture (forward prediction coding), or a B picture.
It is processed as one of the pictures (bidirectional predictive coding). It should be noted that it is predetermined, for example, which of I, P, and B pictures to process the image of each sequentially input frame as a picture (for example, I, B, P, B, P,...). .. Processed as B and P).
【0008】即ち、動きベクトル検出器32は、フレー
ムメモリ31に記憶された画像データの中の、予め定め
られた所定の参照フレームを参照し、その参照フレーム
と、現在符号化の対象となっているフレームの16画素
×16ラインの小ブロック(マクロブロック)とをパタ
ーンマッチング(ブロックマッチング)することによ
り、そのマクロブロックの動きベクトルを検出する。That is, the motion vector detector 32 refers to a predetermined reference frame in the image data stored in the frame memory 31, and the reference frame and the current encoding target are By performing pattern matching (block matching) with a small block (macroblock) of 16 pixels × 16 lines of a frame that is present, a motion vector of the macroblock is detected.
【0009】ここで、MPEGにおいては、画像の予測
モードには、イントラ符号化(フレーム内符号化)、前
方予測符号化、後方予測符号化、両方向予測符号化の4
種類があり、Iピクチャはイントラ符号化され、Pピク
チャはイントラ符号化または前方予測符号化のいずれか
で符号化され、Bピクチャはイントラ符号化、前方予測
符号化、後方予測符号化、または両方法予測符号化のい
ずれかで符号化される。[0009] Here, in MPEG, the image prediction modes include four modes: intra coding (intra-frame coding), forward prediction coding, backward prediction coding, and bidirectional prediction coding.
There are types, I-pictures are intra-coded, P-pictures are coded by either intra-coding or forward-prediction coding, and B-pictures are intra-coded, forward-prediction-coded, backward-prediction-coded, or both. Encoded by any of the method predictive encodings.
【0010】即ち、動きベクトル検出器32は、Iピク
チャについては、予測モードとしてイントラ符号化モー
ドを設定する。この場合、動きベクトル検出器32は、
動きベクトルの検出は行わず、予測モード(イントラ予
測モード)を、VLC(可変長符号化)器36および動
き補償器42に出力する。That is, the motion vector detector 32 sets the intra coding mode as the prediction mode for the I picture. In this case, the motion vector detector 32
The motion vector is not detected, and the prediction mode (intra prediction mode) is output to the VLC (variable length coding) unit 36 and the motion compensator 42.
【0011】また、動きベクトル検出器32は、Pピク
チャについては、前方予測を行い、その動きベクトルを
検出する。さらに、動きベクトル検出器32は、前方予
測を行うことにより生じる予測誤差と、符号化対象のマ
クロブロック(Pピクチャのマクロブロック)の、例え
ば分散とを比較する。その比較の結果、マクロブロック
の分散の方が予測誤差より小さい場合、動きベクトル検
出器32は、予測モードとしてイントラ符号化モードを
設定し、VLC器36および動き補償器42に出力す
る。また、動きベクトル検出器32は、前方予測を行う
ことにより生じる予測誤差の方が小さければ、予測モー
ドとして前方予測符号化モードを設定し、検出した動き
ベクトルとともに、VLC器36および動き補償器42
に出力する。The motion vector detector 32 performs forward prediction on a P picture and detects the motion vector. Further, the motion vector detector 32 compares a prediction error caused by performing forward prediction with, for example, a variance of a macroblock to be coded (a macroblock of a P picture). As a result of the comparison, when the variance of the macroblock is smaller than the prediction error, the motion vector detector 32 sets the intra coding mode as the prediction mode, and outputs it to the VLC unit 36 and the motion compensator 42. If the prediction error caused by performing the forward prediction is smaller, the motion vector detector 32 sets the forward prediction encoding mode as the prediction mode, and sets the VLC unit 36 and the motion compensator 42 together with the detected motion vector.
Output to
【0012】さらに、動きベクトル検出器32は、Bピ
クチャについては、前方予測、後方予測、および両方向
予測を行い、それぞれの動きベクトルを検出する。そし
て、動きベクトル検出器32は、前方予測、後方予測、
および両方向予測についての予測誤差の中の最小のもの
(以下、適宜、最小予測誤差という)を検出し、その最
小予測誤差と、符号化対象のマクロブロック(Bピクチ
ャのマクロブロック)の、例えば分散とを比較する。そ
の比較の結果、マクロブロックの分散の方が最小予測誤
差より小さい場合、動きベクトル検出器32は、予測モ
ードとしてイントラ符号化モードを設定し、VLC器3
6および動き補償器42に出力する。また、動きベクト
ル検出器32は、最小予測誤差の方が小さければ、予測
モードとして、その最小予測誤差が得られた予測モード
を設定し、対応する動きベクトルとともに、VLC器3
6および動き補償器42に出力する。Further, the motion vector detector 32 performs forward prediction, backward prediction, and bidirectional prediction on the B picture, and detects respective motion vectors. Then, the motion vector detector 32 performs forward prediction, backward prediction,
And a minimum prediction error of the bidirectional prediction (hereinafter, appropriately referred to as a minimum prediction error), and the minimum prediction error and the variance of the encoding target macroblock (the macroblock of the B picture), for example. Compare with As a result of the comparison, if the variance of the macroblock is smaller than the minimum prediction error, the motion vector detector 32 sets the intra coding mode as the prediction mode, and sets the VLC unit 3
6 and the motion compensator 42. If the minimum prediction error is smaller, the motion vector detector 32 sets the prediction mode in which the minimum prediction error is obtained as the prediction mode, and sets the VLC unit 3 together with the corresponding motion vector.
6 and the motion compensator 42.
【0013】動き補償器42は、動きベクトル検出器3
2から予測モードと動きベクトルの両方を受信すると、
その予測モードおよび動きベクトルにしたがって、フレ
ームメモリ41に記憶されている、符号化され、かつ既
に局所復号された画像データを読み出し、この読み出さ
れた画像データを、予測画像データとして、演算器33
および40に供給する。The motion compensator 42 includes a motion vector detector 3
When both the prediction mode and the motion vector are received from 2,
According to the prediction mode and the motion vector, the encoded and already locally decoded image data stored in the frame memory 41 is read, and the read image data is used as the prediction image data by the calculator 33.
And 40.
【0014】演算器33は、動きベクトル検出器32が
フレームメモリ31から読み出した画像データと同一の
マクロブロックをフレームメモリ31から読み出し、そ
のマクロブロックと、動き補償器42からの予測画像と
の差分を演算する。この差分値は、DCT器34に供給
される。The arithmetic unit 33 reads from the frame memory 31 the same macroblock as the image data read from the frame memory 31 by the motion vector detector 32, and calculates the difference between the macroblock and the predicted image from the motion compensator 42. Is calculated. This difference value is supplied to the DCT unit 34.
【0015】一方、動き補償器42は、動きベクトル検
出器32から予測モードのみを受信した場合、即ち、予
測モードがイントラ符号化モードである場合には、予測
画像を出力しない。この場合、演算器33(演算器40
も同様)は、特に処理を行わず、フレームメモリ31か
ら読み出したマクロブロックを、そのままDCT器34
に出力する。On the other hand, when only the prediction mode is received from the motion vector detector 32, that is, when the prediction mode is the intra-coding mode, the motion compensator 42 does not output a predicted image. In this case, the operator 33 (the operator 40
Does not perform any particular processing, and converts the macroblock read from the frame memory 31 into the DCT unit 34 without any processing.
Output to
【0016】DCT器34では、演算器33の出力デー
タに対して、DCT処理が施され、その結果得られるD
CT係数が、量子化器35に供給される。量子化器35
では、バッファ37のデータ蓄積量(バッファ37に記
憶されているデータの量)(バッファフィードバック)
に対応して量子化ステップ(量子化スケール)が設定さ
れ、その量子化ステップで、DCT器34からのDCT
係数が量子化される。この量子化されたDCT係数(以
下、適宜、量子化係数という)は、設定された量子化ス
テップとともに、VLC器36に供給される。The DCT unit 34 performs a DCT process on the output data of the arithmetic unit 33, and obtains the resulting D
The CT coefficient is supplied to the quantizer 35. Quantizer 35
Then, the amount of data stored in the buffer 37 (the amount of data stored in the buffer 37) (buffer feedback)
, A quantization step (quantization scale) is set. In the quantization step, the DCT from the DCT unit 34 is set.
The coefficients are quantized. The quantized DCT coefficients (hereinafter, appropriately referred to as quantization coefficients) are supplied to the VLC unit 36 together with the set quantization steps.
【0017】VLC器36では、量子化器35より供給
される量子化係数が、例えばハフマン符号などの可変長
符号に変換され、バッファ37に出力される。さらに、
VLC器36は、量子化器35からの量子化ステップ、
動きベクトル検出器32からの予測モード(イントラ符
号化(画像内予測符号化)、前方予測符号化、後方予測
符号化、または両方向予測符号化のうちのいずれが設定
されたかを示すモード)および動きベクトルも可変長符
号化し、その結果得られる符号化ビットストリームを、
バッフ37に出力する。In the VLC unit 36, the quantized coefficient supplied from the quantizer 35 is converted into a variable length code such as a Huffman code and output to a buffer 37. further,
The VLC unit 36 performs a quantization step from the quantizer 35,
The prediction mode (mode indicating which of intra coding (intra-picture predictive coding), forward predictive coding, backward predictive coding, and bidirectional predictive coding has been set) and motion from the motion vector detector 32 The vector is also variable-length coded, and the resulting coded bit stream is
Output to the buffer 37.
【0018】バッファ37は、VLC器36からの符号
化ビットストリームを一時蓄積することにより、そのデ
ータ量を平滑化し、例えば、伝送路に出力し、または記
録媒体に記録する。The buffer 37 temporarily stores the coded bit stream from the VLC unit 36 to smooth the data amount, and outputs the data amount to, for example, a transmission path or records it on a recording medium.
【0019】また、バッファ37は、そのデータ蓄積量
を量子化器35に出力しており、量子化器35は、この
バッファ37からのデータ蓄積量にしたがって量子化ス
テップを設定する。即ち、量子化器35は、バッファ3
7がオーバーフローしそうなとき、量子化ステップを大
きくし、これにより、量子化係数のデータ量を低下させ
る。また、量子化器35は、バッファ37がアンダーフ
ローしそうなとき、量子化ステップを小さくし、これに
より、量子化係数のデータ量を増大させる。このように
して、バッファ37のオーバフローとアンダフローを防
止するようになっている。The buffer 37 outputs the data storage amount to the quantizer 35, and the quantizer 35 sets a quantization step according to the data storage amount from the buffer 37. That is, the quantizer 35 outputs the buffer 3
When 7 is about to overflow, the quantization step is increased, thereby reducing the data amount of the quantization coefficient. When the buffer 37 is about to underflow, the quantizer 35 reduces the quantization step, thereby increasing the data amount of the quantization coefficient. Thus, the overflow and the underflow of the buffer 37 are prevented.
【0020】量子化器35が出力する量子化係数と量子
化ステップは、VLC器36だけでなく、逆量子化器3
8にも供給されるようになされている。逆量子化器38
では、量子化器35からの量子化係数が、同じく量子化
器35からの量子化ステップにしたがって逆量子化さ
れ、これによりDCT係数に変換される。このDCT係
数は、IDCT器(逆DCT器)39に供給される。I
DCT器39では、DCT係数が逆DCT処理され、そ
の処理の結果得られるデータが、演算器40に供給され
る。The quantization coefficient and the quantization step output from the quantizer 35 are determined not only by the VLC unit 36 but also by the inverse quantizer 3.
8 as well. Inverse quantizer 38
Then, the quantized coefficient from the quantizer 35 is inversely quantized in accordance with a quantization step from the quantizer 35, and is thereby converted into a DCT coefficient. The DCT coefficient is supplied to an IDCT unit (inverse DCT unit) 39. I
In the DCT unit 39, the DCT coefficient is subjected to inverse DCT processing, and data obtained as a result of the processing is supplied to the arithmetic unit 40.
【0021】演算器40には、IDCT器39の出力デ
ータの他、上述したように、動き補償器42から、演算
器33に供給されている予測画像と同一のデータが供給
されている。演算器40は、IDCT器39の出力デー
タ(予測残差(差分データ))と、動き補償器42から
の予測画像データとを加算することで、元の画像データ
を局所復号し、この局所復号された画像データ(局所復
号画像データ)が出力される(但し、予測モードがイン
トラ符号化である場合には、IDCT器39の出力デー
タは、演算器40をスルーして、そのまま、局所復号画
像データとして、フレームメモリ41に供給される)。
なお、この復号画像データは、受信側において得られる
復号画像データと同一のものである。The arithmetic unit 40 is supplied with the same data as the predicted image supplied to the arithmetic unit 33 from the motion compensator 42, as described above, in addition to the output data of the IDCT unit 39. The arithmetic unit 40 locally decodes the original image data by adding the output data (prediction residual (difference data)) of the IDCT unit 39 and the predicted image data from the motion compensator 42, and locally decodes the original image data. The output image data (local decoded image data) is output (however, when the prediction mode is the intra coding, the output data of the IDCT unit 39 passes through the arithmetic unit 40 and is directly output to the locally decoded image data. The data is supplied to the frame memory 41 as data).
The decoded image data is the same as the decoded image data obtained on the receiving side.
【0022】演算器40において得られた復号画像デー
タ(局所復号画像データ)は、フレームメモリ41に供
給されて記憶され、その後、インター符号化(前方予測
符号化、後方予測符号化、量方向予測符号化)される画
像に対する参照画像データ(参照フレーム)として用い
られる。The decoded image data (local decoded image data) obtained by the arithmetic unit 40 is supplied to and stored in the frame memory 41, and then inter-coded (forward predictive coding, backward predictive coding, quantitative prediction). It is used as reference image data (reference frame) for the image to be encoded.
【0023】次に、図54は、図53のエンコーダから
出力される符号化ビットストリームを復号する、MPE
GにおけるMP@MLのデコーダの一例の構成を示して
いる。Next, FIG. 54 shows an MPE for decoding an encoded bit stream output from the encoder of FIG.
5 shows an exemplary configuration of a decoder of MP @ ML in G.
【0024】伝送路を介して伝送されてきた符号化ビッ
トストリームが図示せぬ受信装置で受信され、または記
録媒体に記録された符号化ビットストリームが図示せぬ
再生装置で再生され、バッファ101に供給されて記憶
される。An encoded bit stream transmitted via a transmission path is received by a receiving device (not shown), or an encoded bit stream recorded on a recording medium is reproduced by a reproducing device (not shown). Provided and stored.
【0025】IVLC器(逆VLC器(可変長復号
器))102は、バッファ101に記憶された符号化ビ
ットストリームを読み出し、可変長復号することによ
り、その符号化ビットストリームを、マクロブロック単
位で、動きベクトル、予測モード、量子化ステップ、お
よび量子化係数に分離する。これらのデータのうち、動
きベクトルおよび予測モードは動き補償器107に供給
され、量子化ステップおよびマクロブロックの量子化係
数は逆量子化器103に供給される。The IVLC unit (inverse VLC unit (variable length decoder)) 102 reads out the coded bit stream stored in the buffer 101 and performs variable length decoding to convert the coded bit stream into macroblock units. , Motion vector, prediction mode, quantization step, and quantization coefficient. Among these data, the motion vector and the prediction mode are supplied to the motion compensator 107, and the quantization step and the quantization coefficient of the macroblock are supplied to the inverse quantizer 103.
【0026】逆量子化器103は、IVLC器102よ
り供給されたマクロブロックの量子化係数を、同じくI
VLC器102より供給された量子化ステップにしたが
って逆量子化し、その結果得られるDCT係数を、ID
CT器104に出力する。IDCT器104は、逆量子
化器103からのマクロブロックのDCT係数を逆DC
Tし、演算器105に供給する。The inverse quantizer 103 converts the quantization coefficient of the macro block supplied from the IVLC unit 102 into I
The inverse quantization is performed according to the quantization step supplied from the VLC unit 102, and the resulting DCT coefficient is represented by ID
Output to CT unit 104. The IDCT unit 104 converts the DCT coefficient of the macroblock from the inverse quantizer 103 into an inverse DCT.
T, and supplies it to the arithmetic unit 105.
【0027】演算器105には、IDCT器104の出
力データの他、動き補償器107の出力データも供給さ
れている。即ち、動き補償器107は、フレームメモリ
106に記憶されている、既に復号された画像データ
を、図53の動き補償器42における場合と同様に、I
VLC器102からの動きベクトルおよび予測モードに
したがって読み出し、予測画像データとして、演算器1
05に供給する。演算器105は、IDCT器104の
出力データ(予測残差(差分値))と、動き補償器10
7からの予測画像データとを加算することで、元の画像
データを復号する。この復号画像データは、フレームメ
モリ106に供給されて記憶される。なお、IDCT器
104の出力データが、イントラ符号化されたものであ
る場合には、その出力データは、演算器105をスルー
して、復号画像データとして、そのままフレームメモリ
106に供給されて記憶される。The arithmetic unit 105 is supplied with the output data of the motion compensator 107 in addition to the output data of the IDCT unit 104. That is, the motion compensator 107 converts the already decoded image data stored in the frame memory 106 into I
It is read out according to the motion mode and the prediction mode from the VLC unit 102, and the arithmetic unit 1
05. The arithmetic unit 105 outputs the output data (prediction residual (difference value)) of the IDCT unit 104 and the motion compensator 10
7, the original image data is decoded. The decoded image data is supplied to and stored in the frame memory 106. If the output data of the IDCT unit 104 is intra-coded, the output data passes through the arithmetic unit 105 and is supplied to the frame memory 106 as decoded image data and stored as it is. You.
【0028】フレームメモリ106に記憶された復号画
像データは、その後に復号される画像データの参照画像
データとして用いられる。さらに、復号画像データは、
出力再生画像として、例えば、図示せぬディスプレイな
どに供給されて表示される。The decoded image data stored in the frame memory 106 is used as reference image data of image data to be decoded thereafter. Further, the decoded image data is
As an output reproduction image, for example, it is supplied to a display (not shown) or the like and displayed.
【0029】なお、MPEG1および2では、Bピクチ
ャは、参照画像データとして用いられないため、エンコ
ーダまたはデコーダのそれぞれにおいて、フレームメモ
リ41(図53)または106(図54)には記憶され
ない。In MPEG1 and MPEG-2, B pictures are not used as reference image data, and are not stored in the frame memory 41 (FIG. 53) or 106 (FIG. 54) in each of the encoder and the decoder.
【0030】[0030]
【発明が解決しようとする課題】以上の図53、図54
に示したエンコーダ、デコーダは、MPEG1/2の規
格に準拠したものであるが、現在、画像を構成する物体
などのオブジェクトのシーケンスであるVO(Video Ob
ject)単位で符号化を行う方式につき、ISO−IEC
/JTC1/SC29/WG11において、MPEG
(Moving Picture Experts Group)4として標準化作業
が進められている。FIG. 53 and FIG. 54 described above
Are compliant with the MPEG1 / 2 standard, but currently, a VO (Video Ob) which is a sequence of objects such as an object constituting an image is used.
ject), the encoding is performed in units of ISO-IEC
MPEG / JTC1 / SC29 / WG11
(Moving Picture Experts Group) 4 is being standardized.
【0031】ところで、MPEG4については、主とし
て、通信の分野で利用されるものとして、標準化作業が
進められていたため、MPEG1/2において規定され
ているGOP(Group Of Picture)は、当初、MPEG
4では規定されておらず、従って、MPEG4が蓄積メ
ディアに利用された場合には、効率的なランダムアクセ
スが困難になることが予想される。Since MPEG4 has been standardized mainly for use in the field of communications, the GOP (Group Of Picture) defined in MPEG1 / 2 was initially MPEG
4, it is expected that efficient random access will be difficult when MPEG4 is used for storage media.
【0032】このため、本件出願人は、効率的なランダ
ムアクセスを可能とするために、MPEG1/2で規定
されているGOPに相当するGOV(Group Of VOP)の
導入を、特願平10−80758号において先に提案し
ており、また、MPEG4において、このGOVが導入
された。For this reason, the applicant of the present application has proposed the introduction of a GOV (Group Of VOP) corresponding to a GOP defined by MPEG1 / 2 in order to enable efficient random access. No. 80758, and this GOV was introduced in MPEG4.
【0033】一方、MPEG4では、画像データを2以
上の階層に階層化し、各階層の画像を利用した、柔軟な
スケーラブル符号化/復号が可能となっている。On the other hand, in MPEG4, image data is hierarchized into two or more hierarchies, and flexible scalable encoding / decoding using images in each hierarchy is possible.
【0034】ところで、MPEG4では、現在、各階層
の画像データのGOVどうしの対応関係を規定しておら
ず、このため、各階層ごとに、独立に、GOVを挿入す
ることが可能である。しかしながら、各階層の画像デー
タは、独立したものではないから、各階層ごとに、独立
に、GOVを挿入した場合には、符号化効率が劣化する
場合が生じることが予想される。By the way, MPEG4 does not currently define the correspondence between the GOVs of the image data of each layer, and therefore, it is possible to insert the GOV independently for each layer. However, since the image data of each layer is not independent, when GOVs are inserted independently for each layer, it is expected that the coding efficiency may deteriorate.
【0035】本発明は、このような状況に鑑みてなされ
たものであり、符号化効率の劣化を防止することができ
るようにするものである。The present invention has been made in view of such a situation, and is intended to prevent the coding efficiency from deteriorating.
【0036】[0036]
【課題を解決するための手段】本発明の画像符号化装置
は、画像を構成するオブジェクトのシーケンスを下位階
層である第1の階層と、上位階層である第2の階層に階
層化する階層化手段と、階層化手段が出力する、オブジ
ェクトのシーケンスの第1または第2の階層を、1以上
のグループに分けてそれぞれ符号化し、第1または第2
の階層のグループに、その最初に表示されるオブジェク
トの表示時刻を秒精度で表す秒精度先頭表示時刻をそれ
ぞれ含める符号化手段と、第1または第2の階層のオブ
ジェクトそれぞれに、秒精度先頭表示時刻を基準とす
る、そのオブジェクトの表示時刻の秒精度を表す秒精度
相対時刻情報を付加する付加手段とを備え、付加手段
は、第2の階層のオブジェクトに秒精度相対時刻情報を
付加する際に、表示順で隣接するオブジェクトどうしの
表示時刻の差に基づいて、第2の階層のオブジェクトに
付加する秒精度相対時刻情報をリセットすることを特徴
とする。An image coding apparatus according to the present invention converts a sequence of objects constituting an image into lower-order sequences.
Layering means for layering into a first layer which is a layer and a second layer which is a higher layer; and a first or second layer of a sequence of objects which is output by the layering means is composed of one or more groups. And encode them, respectively, in the first or second
Encoding means for including, in the group of the first layer, a second-precision first display time representing the display time of the first displayed object in second precision, and second-precision first display for each of the first or second layer objects as a reference time, and a adding means for adding second resolution relative time information representing a second resolution of the display time of the object, adding means
Is used to assign second-accuracy relative time information to objects in the second layer.
At the time of addition , based on the display time difference between adjacent objects in the display order,
It is characterized in that the added second precision relative time information is reset.
【0037】本発明の画像符号化方法は、画像を構成す
るオブジェクトのシーケンスを下位階層である第1の階
層と、上位階層である第2の階層に階層化する階層化ス
テップと、オブジェクトのシーケンスの第1または第2
の階層を、1以上のグループに分けてそれぞれ符号化
し、第1または第2の階層のグループに、その最初に表
示されるオブジェクトの表示時刻を秒精度で表す秒精度
先頭表示時刻をそれぞれ含める符号化ステップと、第1
または第2の階層のオブジェクトそれぞれに、秒精度先
頭表示時刻を基準とする、そのオブジェクトの表示時刻
の秒精度を表す秒精度相対時刻情報を付加する付加ステ
ップとを備え、付加ステップにおいて、第2の階層のオ
ブジェクトに秒精度相対時刻情報を付加する際に、表示
順で隣接するオブジェクトどうしの表示時刻の差に基づ
いて、第2の階層のオブジェクトに付加する秒精度相対
時刻情報をリセットすることを特徴とする。 According to the image encoding method of the present invention , a sequence of objects constituting an image is converted into a first hierarchical level which is a lower hierarchical level.
Layer and a layering layer for layering into a second layer which is a higher layer.
Step and the first or second of the sequence of objects
The hierarchy of one or more respective encoding in groups, the groups of the first or second layer, that including second resolution first display time representing a display time of an object to be the first in the second resolution, respectively Encoding step ;
Alternatively, an additional step of adding second-accuracy relative time information representing second accuracy of the display time of the object based on the second-accuracy first display time to each object of the second hierarchy.
Tsu and a flop, in addition step, the second hierarchy o
When adding second resolution relative time information object, and characterized in that the reset based on the difference between the display time of an object adjacent to each other in display order, the second resolution relative time information added to the object in the second layer I do.
【0038】本発明の画像復号装置は、画像を構成する
オブジェクトのシーケンスを下位階層である第1の階層
と、上位階層である第2の階層に階層化し、オブジェク
トのシーケンスの第1または第2の階層を、1以上のグ
ループに分けてそれぞれ符号化し、第1または第2の階
層のグループに、その最初に表示されるオブジェクトの
表示時刻を秒精度で表す秒精度先頭表示時刻をそれぞれ
含め、第1または第2の階層のオブジェクトそれぞれ
に、秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
し、第2の階層のオブジェクトに秒精度相対時刻情報を
付加する際に、表示順で隣接するオブジェクトどうしの
表示時刻の差に基づいて、第2の階層のオブジェクトに
付加する秒精度相対時刻情報をリセットすることにより
得られる符号化ビットストリームを受信する受信手段
と、符号化ビットストリームを復号する復号手段とを備
えることを特徴とする。 According to the image decoding apparatus of the present invention , the sequence of objects constituting an image is converted into a lower layer of a first layer.
And a second layer, which is a higher layer, and encodes the first or second layer of the object sequence into one or more groups, and encodes the first or second layer into a group of the first or second layer. The display time of the object based on the second-precision first display time is given to each of the objects in the first or second hierarchy, including the second-precision first display time representing the display time of the first displayed object in second precision. Adds second-precision relative time information indicating second precision
And second-second relative time information is stored in the second layer object.
When adding, objects that are adjacent in the display order
Based on the display time difference, the objects in the second layer
It is characterized by comprising receiving means for receiving an encoded bit stream obtained by resetting the added second precision relative time information, and decoding means for decoding the encoded bit stream.
【0039】本発明の画像復号方法は、画像を構成する
オブジェクトのシーケンスを下位階層である第1の階層
と、上位階層である第2の階層に階層化し、オブジェク
トのシーケンスの第1または第2の階層を、1以上のグ
ループに分けてそれぞれ符号化し、第1または第2の階
層のグループに、その最初に表示されるオブジェクトの
表示時刻を秒精度で表す秒精度先頭表示時刻をそれぞれ
含め、第1または第2の階層のオブジェクトそれぞれ
に、秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
し、第2の階層のオブジェクトに秒精度相対時刻情報を
付加する際に、表示順で隣接するオブジェクトどうしの
表示時刻の差に基づいて、第2の階層のオブジェクトに
付加する秒精度相対時刻情報をリセットすることにより
得られる符号化ビットストリームを受信し、符号化ビッ
トストリームを復号することを特徴とする。 According to the image decoding method of the present invention , a sequence of objects constituting an image is converted into a first layer which is a lower layer.
And a second layer, which is a higher layer, and encodes the first or second layer of the object sequence into one or more groups, and encodes the first or second layer into a group of the first or second layer. The display time of the object based on the second-precision first display time is given to each of the objects in the first or second hierarchy, including the second-precision first display time representing the display time of the first displayed object in second precision. Adds second-precision relative time information indicating second precision
And second-second relative time information is stored in the second layer object.
When adding, objects that are adjacent in the display order
Based on the display time difference, the objects in the second layer
The present invention is characterized in that an encoded bit stream obtained by resetting the added second precision relative time information is received, and the encoded bit stream is decoded.
【0040】本発明の記録媒体は、画像を構成するオブ
ジェクトのシーケンスを下位階層である第1の階層と、
上位階層である第2の階層に階層化し、オブジェクトの
シーケンスの第1または第2の階層を、1以上のグルー
プに分けてそれぞれ符号化し、第1または第2の階層の
グループに、その最初に表示されるオブジェクトの表示
時刻を秒精度で表す秒精度先頭表示時刻をそれぞれ含
め、第1または第2の階層のオブジェクトそれぞれに、
秒精度先頭表示時刻を基準とする、そのオブジェクトの
表示時刻の秒精度を表す秒精度相対時刻情報を付加し、
第2の階層のオブジェクトに秒精度相対時刻情報を付加
する際に、表示順で隣接するオブジェクトどうしの表示
時刻の差に基づいて、第2の階層のオブジェクトに付加
する秒精度相対時刻情報をリセットすることにより得ら
れる符号化ビットストリームが記録されていることを特
徴とする。 According to the recording medium of the present invention , a sequence of objects forming an image is converted into a first layer, which is a lower layer,
The object sequence is hierarchized into a second hierarchy, which is a higher hierarchy, and the first or second hierarchy of the object sequence is divided into one or more groups and encoded respectively, and the first or second hierarchy is firstly grouped into groups. Each of the objects in the first or second hierarchy includes a second-precision head display time representing the display time of the displayed object in second precision.
Adds second-precision relative time information that represents the second precision of the display time of the object, based on the first display time of second precision ,
Add second-accuracy relative time information to objects in the second hierarchy
Display objects that are adjacent in the display order
Based on the time difference, added to the second layer object
The encoded bit stream obtained by resetting the second precision relative time information is recorded.
【0041】本発明の画像符号化装置および画像符号化
方法においては、画像を構成するオブジェクトのシーケ
ンスが下位階層である第1の階層と、上位階層である第
2の階層に階層化され、オブジェクトのシーケンスの第
1または第2の階層が、1以上のグループに分けられて
それぞれ符号化される。さらに、第1または第2の階層
のグループに、その最初に表示されるオブジェクトの表
示時刻を秒精度で表す秒精度先頭表示時刻がそれぞれ含
められ、第1または第2の階層のオブジェクトそれぞれ
に、秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報が付加
される。そして、第2の階層のオブジェクトに秒精度相
対時刻情報が付加される際に、表示順で隣接するオブジ
ェクトどうしの表示時刻の差に基づいて、第2の階層の
オブジェクトに付加される秒精度相対時刻情報がリセッ
トされる。Picture coding apparatus and picture coding of the present invention
The method comprises the steps of:
The first hierarchy is a lower hierarchy, and the first hierarchy is a higher hierarchy.
Layered into two levels, the first
The first or second level is divided into one or more groups
Each is encoded. Further, the first or second hierarchy
Table of objects initially displayed in a group
The second display time, which is the second
Each of the objects in the first or second hierarchy
To the object based on the second display time
Seconds relative time information indicating the seconds accuracy of the display time of the event is added.
Is done. Then, the second-precision phase is added to the object of the second hierarchy.
When time-to-time information is added, adjacent objects in display order
Based on the display time difference between
The relative second time information added to the object is reset.
Is
【0042】[0042]
【0043】本発明の画像復号装置および画像復号方法
においては、画像を構成するオブジェクトのシーケンス
を下位階層である第1の階層と、上位階層である第2の
階層に階層化し、オブジェクトのシーケンスの第1また
は第2の階層を、1以上のグループに分けてそれぞれ符
号化し、第1または第2の階層のグループに、その最初
に表示されるオブジェクトの表示時刻を秒精度で表す秒
精度先頭表示時刻をそれぞれ含め、第1または第2の階
層のオブジェクトそれぞれに、秒精度先頭表示時刻を基
準とする、そのオブジェクトの表示時刻の秒精度を表す
秒精度相対時刻情報を付加し、第2の階層のオブジェク
トに秒精度相対時刻情報を付加する際に、表示順で隣接
するオブジェクトどうしの表示時刻の差に基づいて、第
2の階層のオブジェクトに付加する秒精度相対時刻情報
をリセットすることにより得られる符号化ビットストリ
ームが受信されて復号される。In the image decoding apparatus and the image decoding method according to the present invention , a sequence of objects constituting an image
To a first hierarchy, which is a lower hierarchy, and a second hierarchy, which is an upper hierarchy.
Hierarchized into the first and second sequence of objects
Separates the second level into one or more groups,
To the first or second level group,
Seconds that represent the display time of the object displayed in
The first or second floor, including the precision start display time, respectively.
Each layer object is based on the second-precision first display time.
Represents the second precision of the display time of the object
Second-level relative time information is added, and objects in the second layer are added.
When adding second precision relative time information to the
Based on the difference between the display times of the objects
Second-accuracy relative time information to be added to the object of the second hierarchy
Bit stream obtained by resetting
The frame is received and decoded .
【0044】[0044]
【0045】本発明の記録媒体においては、画像を構成
するオブジェクトのシーケンスを下位階層である第1の
階層と、上位階層である第2の階層に階層化し、オブジ
ェクトのシーケンスの第1または第2の階層を、1以上
のグループに分けてそれぞれ符号化し、第1または第2
の階層のグループに、その最初に表示されるオブジェク
トの表示時刻を秒精度で表す秒精度先頭表示時刻をそれ
ぞれ含め、第1または第2の階層のオブジェクトそれぞ
れに、秒精度先頭表示時刻を基準とする、そのオブジェ
クトの表示時刻の秒精度を表す秒精度相対時刻情報を付
加し、第2の階層のオブジェクトに秒精度相対時刻情報
を付加する際に、表示順で隣接するオブジェクトどうし
の表示時刻の差に基づいて、第2の階層のオブジェクト
に付加する秒精度相対時刻情報をリセットすることによ
り得られる符号化ビットストリームが記録されている。In the recording medium of the present invention , an image
The sequence of objects to be
Hierarchies into a hierarchy and a second hierarchy, which is a higher hierarchy,
The first or second layer of the sequence
And encode them, respectively, in the first or second
Objects that appear first in a group in the hierarchy
The first display time in seconds, which represents the display time of the
Each object in the first or second hierarchy, including
In addition, the object based on the second display time
With relative second time information indicating the second accuracy of the display time of the event.
In addition, the second-level object has second-accuracy relative time information.
When adding, objects that are adjacent in the display order
Based on the display time difference of
By resetting the relative second time information added to
The resulting encoded bit stream is recorded.
【0046】[0046]
【発明の実施の形態】図1は、本発明を適用したエンコ
ーダの一実施の形態の構成例を示している。なお、この
エンコーダは、基本的には、MPEG4の規格に即した
処理を行うようになされている。FIG. 1 shows a configuration example of an embodiment of an encoder to which the present invention is applied. This encoder basically performs processing conforming to the MPEG4 standard.
【0047】符号化すべき画像(動画像)データは、V
O(Video Object)構成部1に入力され、VO構成部1
では、そこに入力される画像を構成するオブジェクトご
とに、そのシーケンスであるVOが構成され、VOP構
成部21乃至2Nに出力される。即ち、VO構成部1にお
いてN個のVO#1乃至VO#Nが構成された場合、そ
のN個のVO#1乃至VO#Nは、VOP構成部21乃
至2Nにそれぞれ出力される。The image (moving image) data to be encoded is V
It is input to the O (Video Object) component 1 and the VO component 1
In, for each object constituting an image to be input thereto, the sequence in which VO is constituted, is output to the VOP configuring unit 2 1 to 2 N. That is, when N pieces of VO # 1 to VO # N are configured in the VO constructing unit 1, the N pieces of VO # 1 to VO # N are output to the VOP configuring unit 2 1 to 2 N.
【0048】具体的には、例えば、符号化すべき画像デ
ータが、独立した背景F1のシーケンスと前景F2のシ
ーケンスとから構成される場合、VO構成部1は、例え
ば、前景F2のシーケンスを、VO#1として、VOP
構成部21に出力するとともに、背景F1のシーケンス
を、VO#2として、VOP構成部22に出力する。Specifically, for example, when the image data to be encoded is composed of a sequence of independent background F1 and a sequence of foreground F2, the VO constructing unit 1 converts the sequence of foreground F2 to VO As # 1, VOP
And outputs to the configuration unit 2 1, the sequence of the background F1, as VO # 2, and outputs the VOP constructing unit 2 2.
【0049】なお、VO構成部1は、符号化すべき画像
データが、例えば、背景F1と前景F2とを、既に合成
したものである場合、所定のアルゴリズムにしたがっ
て、画像を領域分割することにより、背景F1と前景F
2とを取り出し、それぞれのシーケンスとしてのVO
を、対応するVOP構成部2n(但し、n=1,2,・
・・,N)に出力する。When the image data to be coded is, for example, the background F1 and the foreground F2 already synthesized, the VO constructing unit 1 divides the image into regions according to a predetermined algorithm. Background F1 and foreground F
2 and VO as each sequence
To the corresponding VOP constituent unit 2 n (where n = 1, 2,.
.., N).
【0050】VOP構成部2nは、VO構成部1の出力
から、VOP(VO Plane)を構成する。即ち、例えば、
各フレームから物体を抽出し、その物体を囲む、例え
ば、最小の長方形(以下、適宜、最小長方形という)を
VOPとする。なお、このとき、VOP構成部2nは、
その横および縦の画素数が、例えば、16の倍数となる
ようにVOPを構成する。VO構成部2nは、VOPを
構成すると、そのVOPを、VOP符号化部3nに出力
する。The VOP constructing unit 2 n constructs a VOP (VO Plane) from the output of the VO constructing unit 1. That is, for example,
An object is extracted from each frame, and, for example, a minimum rectangle (hereinafter, appropriately referred to as a minimum rectangle) surrounding the object is set as a VOP. At this time, the VOP constructing unit 2 n
The VOP is configured so that the number of horizontal and vertical pixels is, for example, a multiple of 16. After constructing the VOP, the VO composing unit 2 n outputs the VOP to the VOP encoding unit 3 n .
【0051】さらに、VOP構成部2nは、VOPの大
きさ(例えば、横および縦の長さ)を表すサイズデータ
(VOP size)と、フレームにおける、そのVOPの位置
(例えば、フレームの最も左上を原点とするときの座
標)を表すオフセットデータ(VOP offset)とを検出
し、これらのデータも、VOP符号化部3nに供給す
る。Further, the VOP constructing unit 2 n includes size data (VOP size) representing the size (eg, horizontal and vertical length) of the VOP, and the position of the VOP in the frame (eg, the upper left corner of the frame). And the offset data (VOP offset) representing the coordinates (where と する is the origin) are also supplied to the VOP encoder 3n.
【0052】VOP符号化部3nは、VOP構成部2nの
出力を、例えば、MPEGや、H.263などの規格に
準拠した方式で符号化し、その結果得られるビットスト
リームを、多重化部4に出力する。多重化部4は、VO
P符号化部31乃至3Nからのビットストリームを多重化
し、その結果得られる多重化データを、例えば、地上波
や、衛星回線、CATV網その他の伝送路5を介して伝
送し、または、例えば、磁気ディスク、光磁気ディス
ク、光ディスク、磁気テープその他の記録媒体6に記録
する。The VOP encoding unit 3 n outputs the output of the VOP constructing unit 2 n to, for example, MPEG or H.264. H.263 and the like, and the resulting bit stream is output to the multiplexing unit 4. The multiplexing unit 4 includes a VO
The bit streams from the P encoders 3 1 to 3 N are multiplexed, and the resulting multiplexed data is transmitted via, for example, a terrestrial wave, a satellite line, a CATV network, or another transmission path 5, or For example, the information is recorded on a recording medium 6 such as a magnetic disk, a magneto-optical disk, an optical disk, a magnetic tape, or the like.
【0053】ここで、VOおよびVOPについて説明す
る。Here, VO and VOP will be described.
【0054】VOは、ある合成画像のシーケンスが存在
する場合の、その合成画像を構成する各オブジェクト
(物体)のシーケンスであり、VOPは、ある時刻にお
けるVOを意味する。即ち、例えば、いま、画像F1お
よびF2を合成して構成される合成画像F3がある場
合、画像F1またはF2が時系列に並んだものが、それ
ぞれVOであり、ある時刻における画像F1またはF2
が、それぞれVOPである。従って、VOは、異なる時
刻の、同一オブジェクトのVOPの集合ということがで
きる。VO is a sequence of each object (object) constituting the composite image when a sequence of the composite image exists, and VOP means VO at a certain time. That is, for example, if there is a composite image F3 composed by combining the images F1 and F2, the image F1 or F2 arranged in time series is a VO, and the image F1 or F2 at a certain time.
Are VOPs. Therefore, a VO can be regarded as a set of VOPs of the same object at different times.
【0055】なお、例えば、画像F1を背景とするとと
もに、画像F2を前景とすると、合成画像F3は、画像
F2を抜くためのキー信号を用いて、画像F1およびF
2を合成することによって得られるが、この場合におけ
る画像F2のVOPには、その画像F2を構成する画像
データ(輝度信号および色差信号)の他、適宜、そのキ
ー信号も含まれるものとする。For example, if the image F1 is set as the background and the image F2 is set as the foreground, the composite image F3 is formed by using the key signals for extracting the image F2 and the images F1 and F2.
2, the VOP of the image F2 in this case includes not only the image data (luminance signal and color difference signal) constituting the image F2 but also its key signal as appropriate.
【0056】画像フレーム(画枠)のシーケンスは、そ
の大きさおよび位置のいずれも変化しないが、VOは、
大きさや位置が変化する場合がある。即ち、同一のVO
を構成するVOPであっても、時刻によって、その大き
さや位置が異なる場合がある。The sequence of image frames (image frames) does not change in both size and position, but VO
The size and position may change. That is, the same VO
May be different in size and position depending on the time.
【0057】具体的には、図2は、背景である画像F1
と、前景である画像F2とからなる合成画像を示してい
る。More specifically, FIG. 2 shows an image F1 as a background.
And a composite image including the foreground image F2.
【0058】画像F1は、例えば、ある自然の風景を撮
影したものであり、その画像全体のシーケンスが1つの
VO(VO#0とする)とされている。また、画像F2
は、例えば、人が歩いている様子を撮影したものであ
り、その人を囲む最小の長方形のシーケンスが1つのV
O(VO#1とする)とされている。The image F1 is, for example, a photograph of a certain natural scenery, and the sequence of the entire image is one VO (VO # 0). Also, the image F2
Is an image of a person walking, for example, and the smallest rectangular sequence surrounding the person is one V
O (referred to as VO # 1).
【0059】この場合、VO#0は風景の画像であるか
ら、基本的に、通常の画像のフレームと同様に、その位
置および大きさの両方とも変化しない。これに対して、
VO#1は人の画像であるから、人物が左右に移動した
り、また、図面において手前側または奥側に移動するこ
とにより、その大きさや位置が変化する。従って、図2
は、同一時刻におけるVO#0およびVO#1を表して
いるが、VOの位置や大きさは、時間の経過にともなっ
て変化することがある。In this case, since VO # 0 is a landscape image, basically, both its position and size do not change, similarly to a normal image frame. On the contrary,
Since VO # 1 is an image of a person, the size and position of the VO # 1 change when the person moves left and right or moves forward or backward in the drawing. Therefore, FIG.
Represents VO # 0 and VO # 1 at the same time, but the position and size of VO may change over time.
【0060】そこで、図1のVOP符号化部3nは、そ
の出力するビットストリームに、VOPを符号化したデ
ータの他、所定の絶対座標系におけるVOPの位置(座
標)および大きさに関する情報も含めるようになされて
いる。なお、図2においては、VO#0を構成する、あ
る時刻のVOP(画像F1)の位置を示すベクトルをO
ST0と、その時刻と同一時刻における、VO#1のV
OP(画像F2)の位置を表すベクトルをOST1と、
それぞれ表してある。Therefore, the VOP encoding unit 3 n in FIG. 1 outputs, to the output bit stream, information on the position (coordinate) and size of the VOP in a predetermined absolute coordinate system, in addition to the data obtained by encoding the VOP. Has been made to include. In FIG. 2, a vector indicating the position of the VOP (image F1) at a certain time, which constitutes VO # 0, is denoted by O
ST0 and V of VO # 1 at the same time
OST1 is a vector representing the position of OP (image F2);
Each is represented.
【0061】次に、図3は、スケーラビリティを実現す
る、図1のVOP符号化部3nの構成例を示している。
即ち、MPEG4では、異なる画像サイズやフレームレ
ートに対応するスケーラビリティを実現するスケーラブ
ル符号化方式が導入されており、図3に示したVOP符
号化部3nでは、そのようなスケーラビリティを実現す
ることができるようになされている。Next, FIG. 3, scalability, shows a configuration example of VOP encoding unit 3 n of FIG.
That is, in MPEG4, scalable encoding method for realizing scalability corresponding to different image sizes and frame rates is introduced, the VOP encoding unit 3 n shown in FIG. 3, be implemented such scalability It has been made possible.
【0062】VOP構成部2nからのVOP(画像デー
タ)、並びにそのサイズデータ(VOPsize)、およびオ
フセットデータ(VOP offset)は、いずれも画像階層化
部21に供給される。The VOP (image data) from the VOP constructing unit 2 n , its size data (VOPsize), and offset data (VOP offset) are all supplied to the image hierarchical unit 21.
【0063】画像階層化部21は、VOPから、1以上
の階層の画像データを生成する(VOPの1以上の階層
化を行う)。即ち、例えば、空間スケーラビリティの符
号化を行う場合においては、画像階層化部21は、そこ
に入力される画像データを、そのまま上位レイヤ(上位
階層)の画像データとして出力するとともに、それらの
画像データを構成する画素数を間引くことなどにより縮
小し(解像度を低下させ)、これを下位レイヤ(下位階
層)の画像データとして出力する。The image layering unit 21 generates image data of one or more layers from the VOP (performs one or more layers of the VOP). That is, for example, when performing spatial scalability encoding, the image layering unit 21 outputs the image data input thereto as it is as the image data of the upper layer (upper layer), and Is reduced (decreased in resolution) by thinning out the number of pixels constituting, and this is output as image data of a lower layer (lower layer).
【0064】なお、入力されたVOPを下位レイヤのデ
ータとするとともに、そのVOPの解像度を、何らかの
手法で高くし(画素数を多くし)、これを、上位レイヤ
のデータとすることなども可能である。It is also possible to use the input VOP as data of a lower layer, increase the resolution of the VOP by some method (increase the number of pixels), and use this as data of an upper layer. It is.
【0065】また、階層数は、1とすることが可能であ
るが、この場合、スケーラビリティは実現されない。な
お、この場合、VOP符号化部3nは、例えば、下位レ
イヤ符号化部25だけで構成されることになる。The number of layers can be set to one, but in this case, scalability is not realized. Note that, in this case, the VOP encoding unit 3 n includes, for example, only the lower layer encoding unit 25.
【0066】さらに、階層数は、3以上とすることも可
能であるが、ここでは、簡単のために、2階層の場合に
ついて説明を行う。Further, although the number of layers can be three or more, the case of two layers will be described here for simplicity.
【0067】画像階層化部21は、例えば、時間スケー
ラビリティ(テンポラルスケーラビリティ)の符号化を
行う場合、時刻に応じて、画像データを、下位レイヤま
たは上位レイヤのデータとして、例えば、交互に出力す
る。即ち、例えば、画像階層化部21は、そこに、ある
VOを構成するVOPが、VOP0,VOP1,VOP
2,VOP3,・・・の順で入力されたとした場合、V
OP0,VOP2,VOP4,VOP6,・・・を、下
位レイヤのデータとして、また、VOP1,VOP3,
VOP5,VOP7,・・・を、上位レイヤデータとし
て出力する。なお、時間スケーラビリティの場合は、こ
のようにVOPが間引かれたものが、下位レイヤおよび
上位レイヤのデータとされるだけで、画像データの拡大
または縮小(解像度の変換)は行われない(但し、行う
ようにすることも可能である)。For example, when performing temporal scalability (temporal scalability) encoding, the image hierarchical unit 21 alternately outputs image data as lower layer or upper layer data, for example, according to time. That is, for example, the image layering unit 21 determines that VOPs constituting a certain VO are VOP0, VOP1, VOP
2, VOP3,...,
OP0, VOP2, VOP4, VOP6,... As lower layer data, and VOP1, VOP3,
VOP5, VOP7,... Are output as upper layer data. In the case of temporal scalability, the data whose VOPs have been thinned out in this way are merely data of the lower layer and the upper layer, and the image data is not enlarged or reduced (resolution conversion) (however, the resolution is not changed). , It is also possible to do).
【0068】また、画像階層化部21は、例えば、SN
R(Signal to Noise Ratio)スケーラビリティの符号
化を行う場合、入力された画像データを、そのまま上位
レイヤまたは下位レイヤのデータそれぞれとして出力す
る。即ち、この場合、下位レイヤ並びに上位レイヤの画
像データは、同一のデータとなる。Further, the image hierarchical unit 21 can, for example,
When performing encoding of R (Signal to Noise Ratio) scalability, input image data is output as it is as data of an upper layer or a lower layer. That is, in this case, the image data of the lower layer and the image data of the upper layer are the same data.
【0069】ここで、VOPごとに符号化を行う場合の
空間スケーラビリティについては、例えば、次のような
3種類が考えられる。Here, for the spatial scalability when encoding is performed for each VOP, for example, the following three types can be considered.
【0070】即ち、例えば、いま、VOPとして、図2
に示したような画像F1およびF2でなる合成画像が入
力されたとすると、第1の空間スケーラビリティは、図
4に示すように、入力されたVOP全体(図4(A))
を上位レイヤ(EnhancementLayer)とするとともに、そ
のVOP全体を縮小したもの(図4(B))を下位レイ
ヤ(Base Layer)とするものである。That is, for example, as a VOP, FIG.
Assuming that a composite image composed of the images F1 and F2 as shown in FIG. 4 is input, the first spatial scalability becomes the entire input VOP as shown in FIG. 4 (FIG. 4A).
Is the upper layer (EnhancementLayer), and the reduced VOP (FIG. 4B) is the lower layer (Base Layer).
【0071】また、第2の空間スケーラビリティは、図
5に示すように、入力されたVOPを構成する一部の物
体(図5(A)(ここでは、画像F2に相当する部
分)))を抜き出して(なお、このような抜き出しは、
例えば、VOP構成部2nにおける場合と同様にして行
われ、従って、これにより抜き出された物体も、1つの
VOPと考えることができる)、上位レイヤとするとと
もに、そのVOP全体を縮小したもの(図5(B))を
下位レイヤとするものである。As shown in FIG. 5, the second spatial scalability is such that some objects (FIG. 5A (here, a portion corresponding to image F2)) constituting the input VOP are used. Extract (Note that such extraction is
For example, the processing is performed in the same manner as in the case of the VOP composing unit 2 n , so that the object extracted thereby can also be considered as one VOP.) (FIG. 5B) is the lower layer.
【0072】さらに、第3の空間スケーラビリティは、
図6および図7に示すように、入力されたVOPを構成
する物体(VOP)を抜き出して、その物体ごとに、上
位レイヤおよび下位レイヤを生成するものである。な
お、図6は、図2のVOPを構成する背景(画像F1)
から上位レイヤおよび下位レイヤを生成した場合を示し
ており、また、図7は、図2のVOPを構成する前景
(画像F2)から上位レイヤおよび下位レイヤを生成し
た場合を示している。Further, the third spatial scalability is:
As shown in FIGS. 6 and 7, an object (VOP) constituting the input VOP is extracted, and an upper layer and a lower layer are generated for each object. FIG. 6 shows a background (image F1) constituting the VOP of FIG.
FIG. 7 shows a case where an upper layer and a lower layer are generated from the foreground (image F2) constituting the VOP of FIG. 2.
【0073】以上のようなスケーラビリティのうちのい
ずれを用いるかは予め決められており、画像階層化部2
1は、その予め決められたスケーラビリティによる符号
化を行うことができるように、VOPの階層化を行う。Which of the above scalabilities is to be used is determined in advance, and the image hierarchy unit 2
1 hierarchically arranges VOPs so that encoding based on the predetermined scalability can be performed.
【0074】さらに、画像階層化部21は、そこに入力
されるVOPのサイズデータおよびオフセットデータ
(それぞれを、以下、適宜、初期サイズデータ、初期オ
フセットデータという)から、生成した下位レイヤおよ
び上位レイヤのVOPの所定の絶対座標系における位置
を表すオフセットデータと、その大きさを示すサイズデ
ータとを計算(決定)する。Further, the image layering section 21 generates a lower layer and an upper layer based on the VOP size data and offset data (hereinafter referred to as initial size data and initial offset data, respectively, as appropriate) input thereto. The offset data indicating the position of the VOP in the predetermined absolute coordinate system and the size data indicating the size are calculated (determined).
【0075】ここで、下位レイヤ並びに上位レイヤのV
OPのオフセットデータ(位置情報)およびサイズデー
タの決定方法について、例えば、上述の第2のスケーラ
ビリティ(図5)を行う場合を例に説明する。Here, V of the lower layer and the upper layer
A method for determining OP offset data (position information) and size data will be described, for example, taking the case of performing the above-described second scalability (FIG. 5) as an example.
【0076】この場合、下位レイヤのオフセットデータ
FPOS_Bは、例えば、図8(A)に示すように、下
位レイヤの画像データを、その解像度および上位レイヤ
の解像度の違いに基づいて拡大(アップサンプリング)
したときに、即ち、下位レイヤの画像を、上位レイヤの
画像の大きさと一致するような拡大率(上位レイヤの画
像を縮小して下位レイヤの画像を生成したときの、その
縮小率の逆数)(以下、適宜、倍率FRという)で拡大
したときに、その拡大画像の絶対座標系におけるオフセ
ットデータが、初期オフセットデータと一致するように
決定される。また、下位レイヤのサイズデータFSZ_
Bも同様に、下位レイヤの画像を倍率FRで拡大したと
きに得られる拡大画像のサイズデータが初期サイズデー
タと一致するように決定される。即ち、オフセットデー
タFPOS_BまたはサイズデータFSZ_Bは、それ
ぞれのFR倍か、初期オフセットデータまたは初期サイ
ズデータと一致するように決定される。In this case, the offset data FPOS_B of the lower layer is obtained by enlarging (upsampling) the image data of the lower layer based on the difference between the resolution of the lower layer and the resolution of the upper layer, as shown in FIG.
That is, when the image of the lower layer is enlarged, the magnification of the lower layer image matches the size of the image of the upper layer (the reciprocal of the reduction ratio when the image of the lower layer is generated by reducing the image of the upper layer). (Hereinafter, appropriately referred to as magnification FR), the offset data in the absolute coordinate system of the enlarged image is determined so as to match the initial offset data. Also, the size data FSZ_ of the lower layer
Similarly, B is determined such that the size data of the enlarged image obtained when the image of the lower layer is enlarged by the magnification FR matches the initial size data. That is, the offset data FPOS_B or the size data FSZ_B is determined so as to be equal to the respective FR times or to match the initial offset data or the initial size data.
【0077】一方、上位レイヤのオフセットデータFP
OS_Eは、例えば、図8(B)に示すように、入力さ
れたVOPから抜き出した物体を囲む最小長方形(VO
P)の、例えば、左上の頂点の座標が、初期オフセット
データに基づいて求められ、この値に決定される。ま
た、上位レイヤのサイズデータFPOS_Eは、入力さ
れたVOPから抜き出した物体を囲む最小長方形の、例
えば横および縦の長さに決定される。On the other hand, the offset data FP of the upper layer
OS_E is, for example, as shown in FIG. 8B, a minimum rectangle (VO) surrounding an object extracted from the input VOP.
For example, the coordinates of the upper left vertex of P) are obtained based on the initial offset data, and are determined to this value. Also, the size data FPOS_E of the upper layer is determined to be, for example, the horizontal and vertical lengths of the minimum rectangle surrounding the object extracted from the input VOP.
【0078】従って、この場合、下位レイヤのオフセッ
トデータFPOS_BおよびサイズデータFPOS_B
を、倍率FRにしたがって変換し(変換後のオフセット
データFPOS_BまたはサイズデータFPOS_B
を、それぞれ、変換オフセットデータFPOS_Bまた
は変換サイズデータFPOS_Bという)、絶対座標系
において、変換オフセットデータFPOS_Bに対応す
る位置に、変換サイズデータFSZ_Bに対応する大き
さの画枠を考え、そこに、下位レイヤの画像データをF
R倍だけした拡大画像を配置するとともに(図8
(A))、その絶対座標系において、上位レイヤのオフ
セットデータFPOS_EおよびサイズデータFPOS
_Eにしたがって、上位レイヤの画像を同様に配置する
と(図8(B))、拡大画像を構成する各画素と、上位
レイヤの画像を構成する各画素とは、対応するものどう
しが同一の位置に配置されることになる。即ち、この場
合、例えば、図8において、上位レイヤの画像(図8
(B))である人の部分と、拡大画像(図8(A))の
中の人の部分とは、同一の位置に配置されることにな
る。Therefore, in this case, the offset data FPOS_B and the size data FPOS_B of the lower layer
Is converted according to the magnification FR (the offset data FPOS_B or the size data FPOS_B after the conversion).
Are respectively referred to as conversion offset data FPOS_B or conversion size data FPOS_B), and an image frame having a size corresponding to the conversion size data FSZ_B is considered at a position corresponding to the conversion offset data FPOS_B in the absolute coordinate system. F is the image data of the layer
While disposing an enlarged image by R times (FIG. 8)
(A)), the offset data FPOS_E and the size data FPOS of the upper layer in the absolute coordinate system.
If the image of the upper layer is similarly arranged according to _E (FIG. 8B), the pixels constituting the enlarged image and the pixels constituting the image of the upper layer have the same position at the same position. Will be placed in That is, in this case, for example, in FIG.
(B)) and the person portion in the enlarged image (FIG. 8A) are arranged at the same position.
【0079】第1および第3のスケーラビリティにおけ
る場合も、同様にして、下位レイヤの拡大画像および上
位レイヤの画像を構成する、対応する画素どうしが、絶
対座標系において同一の位置に配置されるように、オフ
セットデータFPOS_BおよびFPOS_E、並びに
サイズデータFSZ_BおよびFSZ_Eが決定され
る。Similarly, in the first and third scalabilities, the corresponding pixels constituting the enlarged image of the lower layer and the image of the upper layer are arranged at the same position in the absolute coordinate system. Then, offset data FPOS_B and FPOS_E and size data FSZ_B and FSZ_E are determined.
【0080】図3に戻り、画像階層化部21において生
成された上位レイヤの画像データ、オフセットデータF
POS_E、およびサイズデータFSZ_Eは、遅延回
路22で、後述する下位レイヤ符号化部25における処
理時間だけ遅延され、上位レイヤ符号化部23に供給さ
れる。また、下位レイヤの画像データ、オフセットデー
タFPOS_B、およびサイズデータFSZ_Bは、下
位レイヤ符号化部25に供給される。また、倍率FR
は、遅延回路22を介して、上位レイヤ符号化部23お
よび解像度変換部24に供給される。Returning to FIG. 3, the image data and offset data F of the upper layer generated by the image
The POS_E and the size data FSZ_E are delayed by a processing time in a lower layer encoding unit 25 described later in a delay circuit 22 and supplied to an upper layer encoding unit 23. The lower layer image data, offset data FPOS_B, and size data FSZ_B are supplied to the lower layer encoding unit 25. Also, the magnification FR
Is supplied to the upper layer encoding unit 23 and the resolution conversion unit 24 via the delay circuit 22.
【0081】下位レイヤ符号化部25では、下位レイヤ
の画像データが符号化され、その結果得られる符号化ビ
ットストリームに、オフセットデータFPOS_Bおよ
びサイズデータFSZ_Bが含められ、多重化部26に
供給される。The lower layer encoding section 25 encodes the image data of the lower layer, and the resulting encoded bit stream includes the offset data FPOS_B and the size data FSZ_B and supplies them to the multiplexing section 26. .
【0082】また、下位レイヤ符号化部25は、符号化
ビットストリームを局所復号し、その結果局所復号結果
である下位レイヤの画像データを、解像度変換部24に
出力する。解像度変換部24は、下位レイヤ符号化部2
5からの下位レイヤの画像データを、倍率FRにしたが
って拡大(または縮小)することにより、元の大きさに
戻し、これにより得られる拡大画像を、上位レイヤ符号
化部23に出力する。The lower layer coding section 25 locally decodes the coded bit stream, and outputs image data of the lower layer as a result of the local decoding to the resolution conversion section 24. The resolution conversion unit 24 includes the lower layer encoding unit 2
The image data of the lower layer from 5 is enlarged (or reduced) according to the magnification FR to restore the original size, and the enlarged image obtained by this is output to the upper layer encoding unit 23.
【0083】一方、上位レイヤ符号化部23では、上位
レイヤの画像データが符号化され、その結果得られる符
号化ビットストリームに、オフセットデータFPOS_
EおよびサイズデータFSZ_Eが含められ、多重化部
26に供給される。なお、上位レイヤ符号化部23にお
いては、上位レイヤ画像データの符号化は、後述するよ
うに、解像度変換部24から供給される拡大画像をも参
照画像として用いて行われる。On the other hand, the upper layer encoding section 23 encodes the image data of the upper layer and adds the offset data FPOS_ to the resulting encoded bit stream.
E and the size data FSZ_E are included and supplied to the multiplexing unit 26. In the upper layer encoding unit 23, the encoding of the upper layer image data is performed using the enlarged image supplied from the resolution conversion unit 24 as a reference image, as described later.
【0084】多重化部26では、上位レイヤ符号化部2
3および下位レイヤ符号化部25の出力が多重化されて
出力される。The multiplexing section 26 includes the upper layer coding section 2
3 and the output of the lower layer coding unit 25 are multiplexed and output.
【0085】なお、下位レイヤ符号化部25から上位レ
イヤ符号化部23に対しては、下位レイヤのサイズデー
タFSZ_B、オフセットデータFPOS_B、動きベ
クトルMV、フラグCODなどが供給されており、上位
レイヤ符号化部23では、これらのデータを必要に応じ
て参照しながら、処理を行うようになされているが、こ
の詳細については、後述する。The lower layer encoding section 25 supplies the upper layer encoding section 23 with the lower layer size data FSZ_B, offset data FPOS_B, motion vector MV, flag COD, and the like. The conversion unit 23 performs processing while referring to these data as necessary. The details will be described later.
【0086】次に、図9は、図3の下位レイヤ符号化部
25の詳細構成例を示している。なお、図中、図53に
おける場合と対応する部分については、同一の符号を付
してある。即ち、下位レイヤ符号化部25は、基本的に
は、図53のエンコーダと同様に構成されている。Next, FIG. 9 shows a detailed configuration example of the lower layer coding unit 25 of FIG. Note that, in the figure, parts corresponding to the case in FIG. 53 are denoted by the same reference numerals. That is, the lower layer encoding unit 25 is basically configured similarly to the encoder in FIG.
【0087】画像階層化部21(図3)からの画像デー
タ、即ち、下位レイヤのVOPは、図53における場合
と同様に、フレームメモリ31に供給されて記憶され、
動きベクトル検出器32において、マクロブロック単位
で動きベクトルの検出が行われる。The image data from the image layering unit 21 (FIG. 3), that is, the VOP of the lower layer is supplied to and stored in the frame memory 31 as in the case of FIG.
In the motion vector detector 32, a motion vector is detected for each macroblock.
【0088】但し、下位レイヤ符号化部25の動きベク
トル検出器32には、下位レイヤのVOPのサイズデー
タFSZ_BおよびオフセットデータFPOS_Bが供
給されるようになされており、そこでは、このサイズデ
ータFSZ_BおよびオフセットデータFPOS_Bに
基づいて、マクロブロックの動きベクトルが検出され
る。However, the motion vector detector 32 of the lower layer encoder 25 is supplied with the size data FSZ_B and the offset data FPOS_B of the VOP of the lower layer, where the size data FSZ_B and the offset data FPOS_B are supplied. A motion vector of a macroblock is detected based on the offset data FPOS_B.
【0089】即ち、上述したように、VOPは、時刻
(フレーム)によって、大きさや位置が変化するため、
その動きベクトルの検出にあたっては、その検出のため
の基準となる座標系を設定し、その座標系における動き
を検出する必要がある。そこで、ここでは、動きベクト
ル検出器32は、上述の絶対座標系を基準となる座標系
とし、その絶対座標系に、サイズデータFSZ_Bおよ
びオフセットデータFPOS_Bにしたがって、符号化
対象のVOPおよび参照画像とするVOPを配置して、
動きベクトルを検出するようになされている。That is, as described above, since the size and the position of the VOP change depending on the time (frame),
In detecting the motion vector, it is necessary to set a coordinate system serving as a reference for the detection and to detect a motion in the coordinate system. Therefore, here, the motion vector detector 32 uses the above-described absolute coordinate system as a reference coordinate system, and uses the absolute coordinate system as a reference in accordance with the size data FSZ_B and the offset data FPOS_B. Place a VOP to
A motion vector is detected.
【0090】なお、検出された動きベクトル(MV)
は、予測モードとともに、VLC器36および動き補償
器42に供給される他、上位レイヤ符号化部23(図
3)にも供給される。The detected motion vector (MV)
Is supplied to the VLC unit 36 and the motion compensator 42 together with the prediction mode, and is also supplied to the upper layer coding unit 23 (FIG. 3).
【0091】また、動き補償を行う場合においても、や
はり、上述したように、基準となる座標系における動き
を検出する必要があるため、動き補償器42には、サイ
ズデータFSZ_BおよびオフセットデータFPOS_
Bが供給されるようになされている。Also, when performing motion compensation, it is necessary to detect the motion in the reference coordinate system, as described above. Therefore, the size data FSZ_B and the offset data FPOS_
B is supplied.
【0092】動きベクトルの検出されたVOP(のマク
ロブロック)は、図53における場合と同様に量子化係
数とされてVLC器36に供給される。VLC器36に
は、やはり図53における場合と同様に、量子化係数、
量子化ステップ、動きベクトル、および予測モードが供
給される他、画像階層化部21からのサイズデータFS
Z_BおよびオフセットデータFPOS_Bも供給され
ており、そこでは、これらのデータすべてが可変長符号
化される。The VOP (macroblock of) the VOP in which the motion vector is detected is converted into a quantization coefficient and supplied to the VLC unit 36 as in the case of FIG. The VLC unit 36 also has a quantization coefficient,
The quantization step, the motion vector, and the prediction mode are supplied, and the size data FS from the image layering unit 21 is supplied.
Z_B and offset data FPOS_B are also provided, where all of these data are variable length coded.
【0093】動きベクトルの検出されたVOP(のマク
ロブロック)は、上述したように符号化される他、やは
り図53における場合と同様に局所復号され、フレーム
メモリ41に記憶される。この復号画像は、前述したよ
うに参照画像として用いられる他、解像度変換部24
(図3)に出力される。The VOP (macroblock) of which the motion vector has been detected is coded as described above, and also locally decoded as in FIG. 53 and stored in the frame memory 41. This decoded image is used as a reference image as described above,
(FIG. 3).
【0094】なお、MPEG4においては、MPEG1
および2と異なり、Bピクチャ(B−VOP)も参照画
像として用いられるため、Bピクチャも、局所復号さ
れ、フレームメモリ41に記憶されるようになされてい
る(但し、現時点においては、Bピクチャが参照画像と
して用いられるのは上位レイヤについてだけである)。Note that in MPEG4, MPEG1
Unlike B and B, since a B picture (B-VOP) is also used as a reference picture, the B picture is also locally decoded and stored in the frame memory 41 (however, at this time, the B picture is Only the upper layer is used as a reference image.)
【0095】一方、VLC器36は、I,P,Bピクチ
ャ(I−VOP,P−VOP,B−VOP)のマクロブ
ロックについて、スキップマクロブロックとするかどう
かを決定し、その決定結果を示すフラグCOD,MOD
Bを設定する。このフラグCOD,MODBは、やはり
可変長符号化されて伝送される。さらに、フラグCOD
は、上位レイヤ符号化部23にも供給される。On the other hand, the VLC unit 36 determines whether or not the macroblocks of the I, P, and B pictures (I-VOP, P-VOP, B-VOP) are to be skipped macroblocks, and indicates the result of the determination. Flag COD, MOD
Set B. The flags COD and MODB are also transmitted after being variable-length coded. Further, the flag COD
Is also supplied to the upper layer encoding unit 23.
【0096】次に、図10は、図3の上位レイヤ符号化
部23の構成例を示している。なお、図中、図9または
図53における場合と対応する部分については、同一の
符号を付してある。即ち、上位レイヤ符号化部23は、
フレームメモリ52が新たに設けられていることを除け
ば、基本的には、図9の下位レイヤ符号化部25または
図53のエンコーダと同様に構成されている。Next, FIG. 10 shows an example of the configuration of the upper layer coding section 23 of FIG. Note that, in the figure, parts corresponding to those in FIG. 9 or FIG. 53 are denoted by the same reference numerals. That is, the upper layer encoding unit 23
Except that a frame memory 52 is newly provided, the configuration is basically the same as that of the lower layer encoding unit 25 in FIG. 9 or the encoder in FIG.
【0097】画像階層化部21(図3)からの画像デー
タ、即ち、上位レイヤのVOPは、図53における場合
と同様に、フレームメモリ31に供給されて記憶され、
動きベクトル検出器32において、マクロブロック単位
で動きベクトルの検出が行われる。なお、この場合も、
動きベクトル検出器32には、図9における場合と同様
に、上位レイヤのVOPの他、そのサイズデータFSZ
_EおよびオフセットデータFPOS_Eが供給される
ようになされており、動きベクトル検出器32では、上
述の場合と同様に、このサイズデータFSZ_Eおよび
オフセットデータFPOS_Eに基づいて、絶対座標系
における上位レイヤのVOPの配置位置が認識され、マ
クロブロックの動きベクトルが検出される。The image data from the image layering unit 21 (FIG. 3), that is, the VOP of the upper layer is supplied to and stored in the frame memory 31 as in the case of FIG.
In the motion vector detector 32, a motion vector is detected for each macroblock. In this case,
As in the case of FIG. 9, the motion vector detector 32 includes, in addition to the VOP of the upper layer, its size data FSZ.
_E and offset data FPOS_E, and the motion vector detector 32, based on the size data FSZ_E and the offset data FPOS_E, outputs the VOP of the upper layer in the absolute coordinate system in the same manner as described above. The arrangement position is recognized, and the motion vector of the macroblock is detected.
【0098】ここで、上位レイヤ符号化部23および下
位レイヤ符号化部25における動きベクトル検出器32
では、図53で説明した場合と同様に、予め設定されて
いる所定のシーケンスにしたがって、VOPが処理され
ていくが、そのシーケンスは、ここでは、例えば、次の
ように設定されている。Here, the motion vector detector 32 in the upper layer encoding section 23 and the lower layer encoding section 25
Then, as in the case described with reference to FIG. 53, the VOP is processed according to a predetermined sequence that is set in advance. The sequence is set as follows, for example, here.
【0099】即ち、空間スケーラビリティの場合におい
ては、図11(A)または図11(B)に示すように、
上位レイヤまたは下位レイヤのVOPは、例えば、P,
B,B,B,・・・またはI,P,P,P,・・・ピク
チャ(VOP)としてそれぞれ処理されていく。That is, in the case of spatial scalability, as shown in FIG. 11A or FIG.
The VOP of the upper layer or the lower layer is, for example, P,
.. Or I, P, P, P,..., Pictures (VOP).
【0100】そして、この場合、上位レイヤの(表示順
で)最初のVOPであるPピクチャ(P−VOP)は、
例えば、同時刻における下位レイヤのVOP(ここで
は、Iピクチャ(I−VOP))を参照画像として用い
て符号化される。また、上位レイヤの2番目以降のVO
PであるBピクチャ(B−VOP)は、例えば、その直
前の上位レイヤのVOPおよびそれと同時刻の下位レイ
ヤのVOPを参照画像として用いて符号化される。即
ち、ここでは、上位レイヤのBピクチャは、下位レイヤ
のPピクチャと同様に他のVOPを符号化する場合の参
照画像として用いられる。Then, in this case, the P picture (P-VOP) which is the first VOP (in display order) of the upper layer is
For example, encoding is performed using a lower layer VOP at the same time (here, an I picture (I-VOP)) as a reference image. In addition, the second and subsequent VOs of the upper layer
The B picture (B-VOP) which is P is coded using, for example, the VOP of the immediately preceding upper layer and the VOP of the lower layer at the same time as the reference image. That is, here, the B picture in the upper layer is used as a reference image when encoding another VOP, like the P picture in the lower layer.
【0101】なお、下位レイヤについては、例えば、M
PEG1や2、あるいはH.263における場合と同様
に符号化が行われていく。Note that, for the lower layer, for example, M
PEG 1 or 2, or H.264. Encoding is performed as in the case of H.263.
【0102】SNRスケーラビリティは、空間スケーラ
ビリティにおける倍率FRが1のときと考えられるか
ら、上述の空間スケーラビリティの場合と同様に処理さ
れる。Since the SNR scalability is considered to be when the magnification FR in spatial scalability is 1, it is processed in the same manner as in the case of spatial scalability described above.
【0103】テンポラルスケーラビリティの場合、即
ち、例えば、上述したように、VOが、VOP0,VO
P1,VOP2,VOP3,・・・で構成され、VOP
1,VOP3,VOP5,VOP7,・・・が上位レイ
ヤとされ(図12(A))、VOP0,VOP2,VO
P4,VOP6,・・・が下位レイヤとされた場合にお
いては(図12(B))、図12に示すように、上位レ
イヤまたは下位レイヤのVOPは、例えば、B,B,
B,・・・またはI,P,P,P,・・・ピクチャ(V
OP)としてそれぞれ処理されていく。In the case of temporal scalability, that is, for example, as described above, VO is VOP0, VO
P1, VOP2, VOP3,...
, VOP3, VOP5, VOP7,... Are upper layers (FIG. 12A), and VOP0, VOP2, VO
When P4, VOP6,... Are the lower layers (FIG. 12B), as shown in FIG. 12, the VOPs of the upper layer or the lower layer are, for example, B, B,
B,... Or I, P, P, P,.
OP).
【0104】そして、この場合、上位レイヤの(表示順
で)最初のVOP1(Bピクチャ)は、例えば、下位レ
イヤのVOP0(Iピクチャ)およびVOP2(Pピク
チャ)を参照画像として用いて符号化される。また、上
位レイヤの2番目のVOP3(Bピクチャ)は、例え
ば、その直前にBピクチャとして符号化された上位レイ
ヤのVOP1、およびVOP3の次の時刻(フレーム)
における画像である下位レイヤのVOP4(Pピクチ
ャ)を参照画像として用いて符号化される。上位レイヤ
の3番目のVOP5(Bピクチャ)も、VOP3と同様
に、例えば、その直前にBピクチャとして符号化された
上位レイヤのVOP3、およびVOP5の次の時刻(フ
レーム)における画像である下位レイヤのVOP6(P
ピクチャ)を参照画像として用いて符号化される。In this case, the first VOP1 (B picture) of the upper layer (in display order) is encoded using, for example, VOP0 (I picture) and VOP2 (P picture) of the lower layer as reference images. You. The second VOP3 (B picture) of the upper layer is, for example, the VOP1 of the upper layer coded immediately before as the B picture and the next time (frame) of VOP3.
Is encoded using the VOP4 (P picture) of the lower layer, which is the image in, as a reference image. Similarly to the VOP3, the third VOP5 (B picture) of the upper layer is, for example, the VOP3 of the upper layer coded immediately before the B picture and the lower layer which is an image at the time (frame) next to the VOP5. VOP6 (P
(Picture) as a reference image.
【0105】以上のように、あるレイヤのVOP(ここ
では、上位レイヤ)については、PおよびBピクチャを
符号化するための参照画像として、他のレイヤ(スケー
ラブルレイヤ)(ここでは、下位レイヤ)のVOPを用
いることができる。このように、あるレイヤのVOPを
符号化するのに、他のレイヤのVOPを参照画像として
用いる場合、即ち、ここでは、上位レイヤのVOPを予
測符号化するのに、下位レイヤのVOPを参照画像とし
て用いる場合、上位レイヤ符号化部23(図10)の動
きベクトル検出器32は、その旨を示すフラグref_
layer_id(階層数が3以上存在する場合、フラ
グref_layer_idは、参照画像として用いる
VOPが属するレイヤを表す)を設定して出力するよう
になされている。As described above, for a VOP of a certain layer (here, an upper layer), another layer (a scalable layer) (here, a lower layer) is used as a reference image for encoding P and B pictures. VOP can be used. As described above, when a VOP of another layer is used as a reference image to encode a VOP of a certain layer, that is, here, a VOP of a lower layer is referred to for predictive encoding of a VOP of an upper layer. When used as an image, the motion vector detector 32 of the upper layer encoding unit 23 (FIG. 10) outputs a flag ref_
A layer_id (when there are three or more layers, the flag ref_layer_id indicates a layer to which a VOP used as a reference image belongs) is set and output.
【0106】さらに、上位レイヤ符号化部23の動きベ
クトル検出器32は、VOPについてのフラグref_
layer_idにしたがい、前方予測符号化または後
方予測符号化を、それぞれ、どのレイヤのVOPを参照
画像として行うかを示すフラグref_select_
code(参照画像情報)を設定して出力するようにも
なされている。Further, the motion vector detector 32 of the upper layer encoding unit 23 sets a flag ref_
According to the layer_id, a flag ref_select__ indicating which layer VOP is to be used as a reference image for forward prediction coding or backward prediction coding, respectively.
A code (reference image information) is set and output.
【0107】即ち、例えば、上位レイヤ(Enhancement
Layer)のPピクチャが、その直前に復号(局所復号)
される、それと同一のレイヤに属するVOPを参照画像
として用いて符号化される場合、フラグref_sel
ect_codeは「00」とされる。また、Pピクチ
ャが、その直前に表示される、それと異なるレイヤ(こ
こでは、下位レイヤ)(Reference Layer)に属するV
OPを参照画像として用いて符号化される場合、フラグ
ref_select_codeは「01」とされる。
さらに、Pピクチャが、その直後に表示される、それと
異なるレイヤに属するVOPを参照画像として用いて符
号化される場合、フラグref_select_cod
eは「10」とされる。また、Pピクチャが、それと同
時刻における、異なるレイヤのVOPを参照画像として
用いて符号化される場合、フラグref_select
_codeは「11」とされる。That is, for example, the upper layer (Enhancement
Layer) P picture is decoded immediately before (local decoding)
If the encoding is performed using a VOP belonging to the same layer as the reference image, the flag ref_sel
ect_code is set to “00”. In addition, the P picture that is displayed immediately before and belongs to a different layer (here, a lower layer) (Reference Layer)
When encoding is performed using the OP as a reference image, the flag ref_select_code is set to “01”.
Further, when a P picture is encoded using a VOP that is displayed immediately after that and belongs to a different layer as a reference image, a flag ref_select_code is used.
e is set to “10”. When a P picture is encoded using a VOP of a different layer at the same time as the reference picture as a reference image, the flag ref_select is used.
_Code is set to “11”.
【0108】一方、例えば、上位レイヤのBピクチャ
が、それと同時刻における、異なるレイヤのVOPを前
方予測のための参照画像として用い、かつ、その直前に
復号される、それと同一のレイヤに属するVOPを後方
予測のための参照画像として用いて符号化される場合、
フラグref_select_codeは「00」とさ
れる。また、上位レイヤのBピクチャが、それと同一の
レイヤに属するVOPを前方予測のための参照画像とし
て用い、かつ、その直前に表示される、それと異なるレ
イヤに属するVOPを後方予測のための参照画像として
用いて符号化される場合、フラグref_select
_codeは「01」とされる。さらに、上位レイヤの
Bピクチャが、その直前に復号される、それと同一のレ
イヤに属するVOPを前方予測のための参照画像として
用い、かつその直後に表示される、それと異なるレイヤ
に属するVOPを後方予測のための参照画像として用い
て符号化される場合、フラグref_select_c
odeは「10」とされる。また、上位レイヤのBピク
チャが、その直前に表示される、それと異なるレイヤに
属するVOPを前方予測のための参照画像として用い、
かつその直後に表示される、それと異なるレイヤに属す
るVOPを後方予測のための参照画像として用いて符号
化される場合、フラグref_select_code
は「11」とされる。On the other hand, for example, a BOP in an upper layer uses a VOP of a different layer at the same time as a reference picture for forward prediction, and decodes immediately before the VOP belonging to the same layer. Is encoded using as a reference image for backward prediction,
The flag ref_select_code is set to “00”. In addition, a B-picture of an upper layer uses a VOP belonging to the same layer as a reference image for forward prediction, and displays a VOP belonging to a different layer, which is displayed immediately before and belongs to a different layer, as a reference image for backward prediction. When the encoding is performed by using the flag ref_select
_Code is set to “01”. Further, the BOP of the upper layer is decoded immediately before and uses the VOP belonging to the same layer as the reference image for forward prediction, and the VOP belonging to a different layer displayed immediately after that and belonging to a different layer is backward. If the encoding is performed using a reference image for prediction, the flag ref_select_c is used.
mode is set to “10”. Further, a VOP belonging to a different layer, which is displayed immediately before the B picture of the upper layer and belongs to a different layer, is used as a reference image for forward prediction,
In the case where encoding is performed using a VOP displayed immediately after that and belonging to a different layer as a reference image for backward prediction, a flag ref_select_code is used.
Is set to “11”.
【0109】ここで、図11および図12で説明した予
測符号化の方法は、1つの例であり、前方予測符号化、
後方予測符号化、または両方向予測符号化のための参照
画像として、どのレイヤの、どのVOPを用いるかは、
例えば、上述した範囲で、自由に設定することが可能で
ある。Here, the method of predictive coding described with reference to FIGS. 11 and 12 is an example,
Which layer and which VOP is used as a reference image for backward prediction encoding or bidirectional prediction encoding is as follows.
For example, it can be set freely within the range described above.
【0110】なお、上述の場合においては、便宜的に、
「空間スケーラビリティ」、「時間スケーラビリテ
ィ」、「SNRスケーラビリティ」という語を用いた
が、フラグref_select_codeによって、
予測符号化に用いる参照画像を設定する場合、空間スケ
ーラビリティや、テンポラルスケーラビリティ、SNR
スケーラビリティを明確に区別することは困難となる。
即ち、逆にいえば、フラグref_select_co
deを用いることによって、上述のようなスケーラビリ
ティの区別をせずに済むようになる。In the above case, for convenience,
Although the terms “spatial scalability”, “temporal scalability”, and “SNR scalability” are used, by the flag ref_select_code,
When setting a reference image used for predictive coding, spatial scalability, temporal scalability, SNR
It is difficult to clearly distinguish scalability.
That is, to put it the other way around, the flag ref_select_co
By using de, it is not necessary to distinguish scalability as described above.
【0111】ここで、上述のスケーラビリティとフラグ
ref_select_codeとを対応付けるとすれ
ば、例えば、次のようになる。即ち、Pピクチャについ
ては、フラグref_select_codeが「1
1」の場合が、フラグref_layer_idが示す
レイヤの同時刻におけるVOPを参照画像(前方予測の
ための参照画像)として用いる場合であるから、これ
は、空間スケーラビリティまたはSNRスケーラビリテ
ィに対応する。そして、フラグref_select_
codeが「11」の場合以外は、テンポラルスケーラ
ビリティに対応する。Here, associating the above-mentioned scalability with the flag ref_select_code is as follows, for example. That is, for the P picture, the flag ref_select_code is set to “1”.
Since the case of “1” is a case where the VOP of the layer indicated by the flag ref_layer_id at the same time is used as a reference image (a reference image for forward prediction), this corresponds to spatial scalability or SNR scalability. Then, the flag ref_select_
Except when the code is “11”, it corresponds to temporal scalability.
【0112】また、Bピクチャについては、フラグre
f_select_codeが「00」の場合が、やは
り、フラグref_layer_idが示すレイヤの同
時刻におけるVOPを前方予測のための参照画像として
用いる場合であるから、これが、空間スケーラビリティ
またはSNRスケーラビリティに対応する。そして、フ
ラグref_select_codeが「00」の場合
以外は、テンポラルスケーラビリティに対応する。For a B picture, the flag re
Since the case where f_select_code is “00” is the case where the VOP of the layer indicated by the flag ref_layer_id at the same time is used as a reference image for forward prediction, this corresponds to spatial scalability or SNR scalability. Except when the flag ref_select_code is “00”, it corresponds to temporal scalability.
【0113】なお、上位レイヤのVOPの予測符号化の
ために、それと異なるレイヤ(ここでは、下位レイヤ)
の、同時刻におけるVOPを参照画像として用いる場
合、両者の間に動きはないので、動きベクトルは、常に
0((0,0))とされる。Note that, for predictive coding of the VOP of the upper layer, a different layer (here, the lower layer) is used.
When the VOP at the same time is used as a reference image, there is no motion between the two and the motion vector is always 0 ((0, 0)).
【0114】図10に戻り、上位レイヤ符号化部23の
動きベクトル検出器32では、以上のようなフラグre
f_layer_idおよびref_select_c
odeが設定され、動き補償器42およびVLC器36
に供給される。Returning to FIG. 10, the motion vector detector 32 of the upper layer coding unit 23 sets the flag re
f_layer_id and ref_select_c
mode is set, and the motion compensator 42 and the VLC unit 36
Supplied to
【0115】また、動きベクトル検出器32では、フラ
グref_layer_idおよびref_selec
t_codeにしたがって、フレームメモリ31を参照
するだけでなく、必要に応じて、フレームメモリ52を
も参照して、動きベクトルが検出される。In the motion vector detector 32, the flags ref_layer_id and ref_select
According to t_code, a motion vector is detected not only by referring to the frame memory 31 but also by referring to the frame memory 52 as necessary.
【0116】ここで、フレームメモリ52には、解像度
変換部24(図3)から、局所復号された下位レイヤの
拡大画像が供給されるようになされている。即ち、解像
度変換部24では、局所復号された下位レイヤのVOP
が、例えば、いわゆる補間フィルタなどによって拡大
(補間)され、これにより、そのVOPを、FR倍だけ
した拡大画像、つまり、その下位レイヤのVOPに対応
する上位レイヤのVOPと同一の大きさとした拡大画像
が生成され、上位レイヤ符号化部23に供給される。フ
レームメモリ52では、このようにして解像度変換部2
4から供給される拡大画像が記憶される。The frame memory 52 is supplied with the locally decoded enlarged image of the lower layer from the resolution converter 24 (FIG. 3). That is, in the resolution conversion unit 24, the locally decoded VOP of the lower layer
Is enlarged (interpolated) by, for example, a so-called interpolation filter or the like, whereby the enlarged image obtained by multiplying the VOP by FR times, that is, the same size as the VOP of the upper layer corresponding to the VOP of the lower layer is enlarged. An image is generated and supplied to the upper layer encoding unit 23. In the frame memory 52, the resolution conversion unit 2
4 is stored.
【0117】従って、倍率FRが1の場合は、解像度変
換部24は、下位レイヤ符号化部25からの局所復号さ
れたVOPに対して、特に処理を施すことなく、そのま
ま、上位レイヤ符号化部23に供給する。Therefore, when the magnification FR is 1, the resolution conversion unit 24 does not perform any processing on the locally decoded VOP from the lower layer encoding unit 25 without any processing. 23.
【0118】動きベクトル検出器32には、下位レイヤ
符号化部25からサイズデータFSZ_Bおよびオフセ
ットデータFPOS_Bが供給されるとともに、遅延回
路22(図3)からの倍率FRが供給されるようになさ
れており、動きベクトル検出器32は、フレームメモリ
52に記憶された拡大画像を参照画像として用いる場
合、即ち、上位レイヤのVOPの予測符号化に、そのV
OPと同時刻における下位レイヤのVOPを参照画像と
して用いる場合(この場合、フラグref_selec
t_codeは、Pピクチャについては「11」に、B
ピクチャについては「00」にされる)、その拡大画像
に対応するサイズデータFSZ_Bおよびオフセットデ
ータFPOS_Bに、倍率FRを乗算する。そして、そ
の乗算結果に基づいて、絶対座標系における拡大画像の
位置を認識し、動きベクトルの検出を行う。The motion vector detector 32 is supplied with the size data FSZ_B and the offset data FPOS_B from the lower layer encoding unit 25, and is supplied with the magnification FR from the delay circuit 22 (FIG. 3). When the motion vector detector 32 uses the enlarged image stored in the frame memory 52 as a reference image, that is, the motion vector detector 32 uses the V
When a lower layer VOP at the same time as the OP is used as a reference image (in this case, the flag ref_select is used).
t_code is set to “11” for a P picture,
(The picture is set to “00”), and the size data FSZ_B and the offset data FPOS_B corresponding to the enlarged image are multiplied by the magnification FR. Then, based on the multiplication result, the position of the enlarged image in the absolute coordinate system is recognized, and a motion vector is detected.
【0119】なお、動きベクトル検出器32には、下位
レイヤの動きベクトルと予測モードが供給されるように
なされており、これは、次のような場合に使用される。
即ち、動きベクトル検出部32は、例えば、上位レイヤ
のBピクチャについてのフラグref_select_
codeが「00」である場合において、倍率FRが1
であるとき、即ち、SNRスケーラビリティのとき(但
し、この場合、上位レイヤの予測符号化に、上位レイヤ
のVOPが用いられるので、この点で、ここでいうSN
Rスケーラビリティは、MPEG2に規定されているも
のと異なる)、上位レイヤと下位レイヤは同一の画像で
あるから、上位レイヤのBピクチャの予測符号化には、
下位レイヤの同時刻における画像の動きベクトルと予測
モードをそのまま用いることができる。そこで、この場
合、動きベクトル検出部32は、上位レイヤのBピクチ
ャについては、特に処理を行わず、下位レイヤの動きベ
クトルと予測モードをそのまま採用する。The motion vector detector 32 is supplied with the motion vector of the lower layer and the prediction mode, and is used in the following case.
That is, for example, the motion vector detection unit 32 sets the flag ref_select_
When the code is “00”, the magnification FR is 1
, Ie, when the SNR is scalable (however, in this case, since the VOP of the upper layer is used for predictive coding of the upper layer, the SN
The R scalability is different from that specified in MPEG2). Since the upper layer and the lower layer are the same image, the predictive coding of the B picture of the upper layer
The motion vector and the prediction mode of the image at the same time of the lower layer can be used as they are. Therefore, in this case, the motion vector detection unit 32 does not particularly perform processing on the B picture of the upper layer, and adopts the motion vector and the prediction mode of the lower layer as they are.
【0120】なお、この場合、上位レイヤ符号化部23
では、動きベクトル検出器32からVLC器36には、
動きベクトルおよび予測モードは出力されない(従っ
て、伝送されない)。これは、受信側において、上位レ
イヤの動きベクトルおよび予測モードを、下位レイヤの
復号結果から認識することができるからである。In this case, upper layer coding section 23
Then, from the motion vector detector 32 to the VLC unit 36,
The motion vector and prediction mode are not output (and therefore not transmitted). This is because the receiving side can recognize the motion vector and the prediction mode of the upper layer from the decoding result of the lower layer.
【0121】以上のように、動きベクトル検出器32
は、上位レイヤのVOPの他、拡大画像をも参照画像と
して用いて、動きベクトルを検出し、さらに、図53で
説明したように、予測誤差(あるいは分散)を最小にす
る予測モードを設定する。また、動きベクトル検出器3
2は、例えば、フラグref_select_code
やref_layer_idその他の必要な情報を設定
して出力する。As described above, the motion vector detector 32
Detects a motion vector using an enlarged image as a reference image in addition to the VOP of the upper layer, and sets a prediction mode that minimizes a prediction error (or variance) as described with reference to FIG. . Also, the motion vector detector 3
2 is, for example, a flag ref_select_code
And ref_layer_id and other necessary information are set and output.
【0122】なお、図10では、下位レイヤ符号化部2
5から、下位レイヤにおけるIまたはPピクチャを構成
するマクロブロックがスキップマクロブロックであるか
どうかを示すフラグCODが、動きベクトル検出器3
2、VLC器36、および動き補償器42に供給される
ようになされている。In FIG. 10, lower layer coding section 2
5, a flag COD indicating whether a macroblock constituting an I or P picture in a lower layer is a skip macroblock is determined by the motion vector detector 3
2, the VLC unit 36, and the motion compensator 42.
【0123】動きベクトルの検出されたマクロブロック
は、上述した場合と同様に符号化され、これにより、V
LC器36からは、その符号化結果としての可変長符号
が出力される。The macroblock in which the motion vector is detected is coded in the same manner as described above.
The LC unit 36 outputs a variable-length code as a result of the encoding.
【0124】なお、上位レイヤ符号化部23のVLC器
36は、下位レイヤ符号化部25における場合と同様
に、フラグCOD,MODBを設定して出力するように
なされている。ここで、フラグCODは、上述したよう
に、IまたはPピクチャのマクロブロックがスキップマ
クロブロックであるかどうかを示すものであるが、フラ
グMODBは、Bピクチャのマクロブロックがスキップ
マクロブロックであるかどうかを示すものである。The VLC unit 36 of the upper layer coding unit 23 sets and outputs flags COD and MODB as in the case of the lower layer coding unit 25. Here, the flag COD indicates whether the macroblock of the I or P picture is a skip macroblock, as described above. The flag MODB indicates whether the macroblock of the B picture is a skip macroblock. It indicates whether or not.
【0125】また、VLC器36には、量子化係数、量
子化ステップ、動きベクトル、および予測モードの他、
倍率FR、フラグref_serect_code,r
ef_layer_id、サイズデータFSZ_E、オ
フセットデータFPOS_E、も供給されるようになさ
れており、VLC器36では、これらのデータがすべて
可変長符号化されて出力される。The VLC unit 36 has a quantization coefficient, a quantization step, a motion vector, and a prediction mode.
Magnification FR, flag ref_select_code, r
The ef_layer_id, the size data FSZ_E, and the offset data FPOS_E are also supplied. The VLC unit 36 performs variable-length coding on all of these data and outputs the data.
【0126】一方、動きベクトルの検出されたマクロブ
ロックは符号化された後、やはり上述したように局所復
号され、フレームメモリ41に記憶される。そして、動
き補償器42において、動きベクトル検出器32におけ
る場合と同様にして、フレームメモリ41に記憶され
た、局所復号された上位レイヤのVOPだけでなく、フ
レームメモリ52に記憶された、局所復号されて拡大さ
れた下位レイヤのVOPをも参照画像として用いて動き
補償が行われ、予測画像が生成される。On the other hand, the macroblock in which the motion vector has been detected is encoded, then locally decoded as described above, and stored in the frame memory 41. Then, in the motion compensator 42, similarly to the case of the motion vector detector 32, not only the locally decoded VOP of the upper layer stored in the frame memory 41 but also the local decoding The motion compensation is performed using the VOP of the lower layer enlarged as a reference image, and a predicted image is generated.
【0127】即ち、動き補償器42には、動きベクトル
および予測モードの他、フラグref_serect_
code,ref_layer_id、倍率FR、サイ
ズデータFSZ_B,FSZ_E、オフセットデータF
POS_B,FPOS_Eが供給されるようになされて
おり、動き補償器42は、フラグref_serect
_code,ref_layer_idに基づいて、動
き補償すべき参照画像を認識し、さらに、参照画像とし
て、局所復号された上位レイヤのVOP、または拡大画
像を用いる場合には、その絶対座標系における位置と大
きさを、サイズデータFSZ_Eおよびオフセットデー
タFPOS_E、またはサイズデータFSZ_Bおよび
オフセットデータFPOS_Bに基づいて認識し、必要
に応じて、倍率FRを用いて予測画像を生成する。That is, in addition to the motion vector and the prediction mode, the flag ref_select_
code, ref_layer_id, magnification FR, size data FSZ_B, FSZ_E, offset data F
POS_B and FPOS_E are supplied, and the motion compensator 42 outputs the flag ref_select.
_Code, ref_layer_id, a reference image to be motion-compensated is recognized, and when a locally decoded upper layer VOP or an enlarged image is used as the reference image, its position and size in the absolute coordinate system Is recognized based on the size data FSZ_E and the offset data FPOS_E or the size data FSZ_B and the offset data FPOS_B, and a predicted image is generated using the magnification FR as necessary.
【0128】次に、図13は、図1のエンコーダから出
力されるビットストリームを復号するデコーダの一実施
の形態の構成例を示している。Next, FIG. 13 shows a configuration example of an embodiment of a decoder for decoding the bit stream output from the encoder of FIG.
【0129】このデコーダには、図1のエンコーダから
伝送路5または記録媒体6を介して提供される符号化ビ
ットストリームが供給される。即ち、図1のエンコーダ
から出力され、伝送路5を介して伝送されてくるビット
ストリームは、図示せぬ受信装置で受信され、あるい
は、記録媒体6に記録されたビットストリームは、図示
せぬ再生装置で再生され、逆多重化部71に供給され
る。This decoder is supplied with an encoded bit stream provided from the encoder of FIG. 1 via the transmission path 5 or the recording medium 6. That is, the bit stream output from the encoder of FIG. 1 and transmitted via the transmission path 5 is received by a receiving device (not shown), or the bit stream recorded on the recording medium 6 is reproduced by a reproducing device (not shown). The data is reproduced by the device and supplied to the demultiplexer 71.
【0130】逆多重化部71では、そこに入力された符
号化ビットストリーム(後述するVS(Visual Object
Seguence))が受信される。さらに、逆多重化部71で
は、入力されたビットストリームが、VOごとのビット
ストリームVO#1,VO#2,・・・に分離され、そ
れぞれ、対応するVOP復号部72nに供給される。V
OP復号部72nでは、逆多重化部71からのビットス
トリームから、VOを構成するVOP(画像データ)、
サイズデータ(VOP size)、およびオフセットデータ
(VOP offset)が復号され、画像再構成部73に供給さ
れる。In the demultiplexing section 71, the coded bit stream (VS (Visual Object
Seguence)) is received. Further, the demultiplexer 71, the input bit stream, the bit stream VO # 1, VO # 2 for each VO, is separated into., Respectively, are supplied to the corresponding VOP decoding unit 72 n. V
In the OP decoding unit 72 n , VOPs (image data) constituting a VO are obtained from the bit stream from the demultiplexing unit 71.
The size data (VOP size) and the offset data (VOP offset) are decoded and supplied to the image reconstruction unit 73.
【0131】画像再構成部73では、VOP復号部72
1乃至72Nそれぞれからの出力に基づいて、元の画像が
再構成される。この再構成された画像は、例えば、モニ
タ74に供給されて表示される。In the image reconstruction unit 73, the VOP decoding unit 72
The original image is reconstructed based on the output from each of 1 to 72 N. The reconstructed image is supplied to the monitor 74 and displayed, for example.
【0132】次に、図14は、スケーラビリティを実現
する、図13のVOP復号部72nの構成例を示してい
る。Next, FIG. 14 shows a configuration example of the VOP decoding unit 72 n of FIG. 13 for realizing scalability.
【0133】逆多重化部71(図13)から供給される
ビットストリームは、逆多重化部91に入力され、そこ
で、上位レイヤのVOPのビットストリームと、下位レ
イヤのVOPのビットストリームとに分離される。上位
レイヤのVOPのビットストリームは、遅延回路92に
おいて、下位レイヤ復号部95における処理の時間だけ
遅延された後、上位レイヤ復号部93に供給され、ま
た、下位レイヤのVOPのビットストリームは、下位レ
イヤ復号部95に供給される。The bit stream supplied from the demultiplexing unit 71 (FIG. 13) is input to the demultiplexing unit 91, where it is separated into an upper layer VOP bit stream and a lower layer VOP bit stream. Is done. The bit stream of the VOP of the upper layer is supplied to the upper layer decoding unit 93 after being delayed by the processing time of the lower layer decoding unit 95 in the delay circuit 92, and the bit stream of the VOP of the lower layer is This is supplied to the layer decoding unit 95.
【0134】下位レイヤ復号部95では、下位レイヤの
ビットストリームが復号され、その結果得られる下位レ
イヤの復号画像が解像度変換部94に供給される。ま
た、下位レイヤ復号部95は、下位レイヤのビットスト
リームを復号することにより得られるサイズデータFS
Z_B、オフセットデータFPOS_B、動きベクトル
(MV)、予測モード、フラグCODなどの、上位レイ
ヤのVOPを復号するのに必要な情報を、上位レイヤ復
号部93に供給する。The lower layer decoding unit 95 decodes the bit stream of the lower layer, and supplies the resulting decoded image of the lower layer to the resolution converter 94. Further, the lower layer decoding unit 95 outputs size data FS obtained by decoding the lower layer bit stream.
Information necessary for decoding the upper layer VOP, such as Z_B, offset data FPOS_B, motion vector (MV), prediction mode, and flag COD, is supplied to the upper layer decoding unit 93.
【0135】上位レイヤ復号部93では、遅延回路92
を介して供給される上位レイヤのビットストリームが、
下位レイヤ復号部95および解像度変換部94の出力を
必要に応じて参照することにより復号され、その結果得
られる上位レイヤの復号画像、サイズデータFSZ_
E、およびオフセットデータFPOS_Eが出力され
る。さらに、上位レイヤ復号部93は、上位レイヤのビ
ットストリームを復号することにより得られる倍率FR
を、解像度変換部94に出力する。解像度変換部94で
は、上位レイヤ復号部93からの倍率FRを用いて、図
3における解像度変換部24における場合と同様にし
て、下位レイヤの復号画像が変換される。この変換によ
り得られる拡大画像は、上位レイヤ復号部93に供給さ
れ、上述したように、上位レイヤのビットストリームの
復号に用いられる。The upper layer decoding section 93 includes a delay circuit 92
The upper layer bit stream provided via
The output is decoded by referring to the outputs of the lower layer decoding unit 95 and the resolution conversion unit 94 as necessary, and the resulting decoded image of the upper layer and the size data FSZ_
E and offset data FPOS_E are output. Further, upper layer decoding section 93 outputs a magnification FR obtained by decoding the bit stream of the upper layer.
Is output to the resolution conversion unit 94. The resolution conversion unit 94 converts the decoded image of the lower layer using the magnification FR from the upper layer decoding unit 93 in the same manner as in the case of the resolution conversion unit 24 in FIG. The enlarged image obtained by this conversion is supplied to the upper layer decoding unit 93, and is used for decoding the bit stream of the upper layer as described above.
【0136】次に、図15は、図14の下位レイヤ復号
部95の構成例を示している。なお、図中、図54のデ
コーダにおける場合と対応する部分については、同一の
符号を付してある。即ち、下位レイヤ復号部95は、基
本的に、図54のデコーダと同様に構成されている。Next, FIG. 15 shows an example of the configuration of the lower layer decoding section 95 in FIG. In the figure, parts corresponding to those in the decoder in FIG. 54 are denoted by the same reference numerals. That is, the lower layer decoding unit 95 is basically configured similarly to the decoder in FIG.
【0137】逆多重化部91からの下位レイヤのビット
ストリームは、バッファ101に供給され、そこで受信
されて一時記憶される。IVLC器102は、その後段
のブロックの処理状態に対応して、バッファ101から
ビットストリームを適宜読み出し、そのビットストリー
ムを可変長復号することで、量子化係数、動きベクト
ル、予測モード、量子化ステップ、サイズデータFSZ
_B、オフセットデータFPOS_B、およびフラグC
ODなどを分離する。量子化係数および量子化ステップ
は、逆量子化器103に供給され、動きベクトルおよび
予測モードは、動き補償器107と上位レイヤ復号部9
3(図14)に供給される。また、サイズデータFSZ
_BおよびオフセットデータFPOS_Bは、動き補償
器107、画像再構成部73(図13)、および上位レ
イヤ復号部93に供給され、フラグCODは、上位レイ
ヤ復号部93に供給される。The bit stream of the lower layer from the demultiplexer 91 is supplied to the buffer 101, where it is received and temporarily stored. The IVLC unit 102 appropriately reads out a bit stream from the buffer 101 according to the processing state of the subsequent block, and performs variable-length decoding on the bit stream to obtain a quantization coefficient, a motion vector, a prediction mode, a quantization step, , Size data FSZ
_B, offset data FPOS_B, and flag C
Separate OD etc. The quantization coefficient and the quantization step are supplied to the inverse quantizer 103, and the motion vector and the prediction mode are determined by the motion compensator 107 and the upper layer decoding unit 9.
3 (FIG. 14). Also, the size data FSZ
_B and offset data FPOS_B are supplied to the motion compensator 107, the image reconstruction unit 73 (FIG. 13), and the upper layer decoding unit 93, and the flag COD is supplied to the upper layer decoding unit 93.
【0138】逆量子化器103、IDCT器104、演
算器105、フレームメモリ106、または動き補償器
107では、図9の下位レイヤ符号化部25の逆量子化
器38、IDCT器39、演算器40、フレームメモリ
41、または動き補償器42における場合とそれぞれ同
様の処理が行われることで、下位レイヤのVOPが復号
され、画像再構成部73、上位レイヤ復号部93、およ
び解像度変換部94(図14)に供給される。In the inverse quantizer 103, the IDCT unit 104, the arithmetic unit 105, the frame memory 106, or the motion compensator 107, the inverse quantizer 38, the IDCT unit 39, and the arithmetic unit of the lower layer coding unit 25 shown in FIG. 40, the frame memory 41, or the motion compensator 42, the same processing is performed, whereby the lower layer VOP is decoded, and the image reconstruction unit 73, the upper layer decoding unit 93, and the resolution conversion unit 94 ( FIG. 14).
【0139】次に、図16は、図14の上位レイヤ復号
部93の構成例を示している。なお、図中、図54にお
ける場合と対応する部分については、同一の符号を付し
てある。即ち、上位レイヤ復号部93は、フレームメモ
リ112が新たに設けられていることを除けば、基本的
に、図54のデコーダと同様に構成されている。Next, FIG. 16 shows a configuration example of the upper layer decoding section 93 of FIG. Note that, in the figure, parts corresponding to those in FIG. 54 are denoted by the same reference numerals. That is, the upper layer decoding unit 93 has basically the same configuration as the decoder in FIG. 54 except that the frame memory 112 is newly provided.
【0140】逆多重化部91からの上位レイヤのビット
ストリームは、バッファ101を介してIVLC器10
2に供給される。IVLC器102は、上位レイヤのビ
ットストリームを可変長復号することで、量子化係数、
動きベクトル、予測モード、量子化ステップ、サイズデ
ータFSZ_E、オフセットデータFPOS_E、倍率
FR、フラグref_layer_id,ref_se
lect_code,COD,MODBなどを分離す
る。量子化係数および量子化ステップは、図15におけ
る場合と同様に、逆量子化器103に供給され、動きベ
クトルおよび予測モードは、動き補償器107に供給さ
れる。また、サイズデータFSZ_Eおよびオフセット
データFPOS_Eは、動き補償器107および画像再
構成部73(図13)に供給され、フラグCOD,MO
DB,ref_layer_id、およびref_se
lect_codeは、動き補償器107に供給され
る。さらに、倍率FRは、動き補償器107および解像
度変換部94(図14)に供給される。The bit stream of the upper layer from the demultiplexer 91 is supplied to the IVLC unit 10 via the buffer 101.
2 is supplied. The IVLC unit 102 performs variable-length decoding on the bit stream of the upper layer to obtain a quantization coefficient,
Motion vector, prediction mode, quantization step, size data FSZ_E, offset data FPOS_E, magnification FR, flags ref_layer_id, ref_se
Select_code, COD, MODB, etc. are separated. The quantization coefficient and the quantization step are supplied to the inverse quantizer 103 as in the case of FIG. 15, and the motion vector and the prediction mode are supplied to the motion compensator 107. Further, the size data FSZ_E and the offset data FPOS_E are supplied to the motion compensator 107 and the image reconstruction unit 73 (FIG. 13), and the flags COD, MO
DB, ref_layer_id, and ref_se
The select_code is supplied to the motion compensator 107. Further, the magnification FR is supplied to the motion compensator 107 and the resolution converter 94 (FIG. 14).
【0141】なお、動き補償器107には、上述したデ
ータの他、下位レイヤ復号部95(図14)から、下位
レイヤの動きベクトル、フラグCOD、サイズデータF
SZ_B、およびオフセットデータFPOS_Bが供給
されるようになされている。また、フレームメモリ11
2には、解像度変換部94から拡大画像が供給される。In addition to the data described above, the motion compensator 107 receives the motion vector, flag COD, size data F of the lower layer from the lower layer decoding unit 95 (FIG. 14).
SZ_B and offset data FPOS_B are supplied. Also, the frame memory 11
2 is supplied with an enlarged image from the resolution conversion unit 94.
【0142】逆量子化器103、IDCT器104、演
算器105、フレームメモリ106、動き補償器10
7、またはフレームメモリ112では、図10の上位レ
イヤ符号化部23の逆量子化器38、IDCT器39、
演算器40、フレームメモリ41、動き補償器42、ま
たはフレームメモリ52における場合とそれぞれ同様の
処理が行われることで、上位レイヤのVOPが復号さ
れ、画像再構成部73に供給される。Inverse quantizer 103, IDCT unit 104, arithmetic unit 105, frame memory 106, motion compensator 10
7 or the frame memory 112, the inverse quantizer 38, IDCT unit 39,
By performing the same processing as in the arithmetic unit 40, the frame memory 41, the motion compensator 42, or the frame memory 52, the VOP of the upper layer is decoded and supplied to the image reconstruction unit 73.
【0143】ここで、以上のように構成される上位レイ
ヤ復号部93および下位レイヤ復号部95を有するVO
P復号部72nにおいては、上位レイヤについての復号
画像、サイズデータFSZ_E、およびオフセットデー
タFPOS_E(以下、適宜、これらをすべて含めて、
上位レイヤデータという)と、下位レイヤについての上
位レイヤについての復号画像、サイズデータFSZ_
B、およびオフセットデータFPOS_B(以下、適
宜、これらをすべて含めて、下位レイヤデータという)
が得られるが、画像再構成部73では、この上位レイヤ
データまたは下位レイヤデータから、例えば、次のよう
にして画像が再構成されるようになされている。Here, a VO having upper layer decoding section 93 and lower layer decoding section 95 configured as described above is provided.
In the P decoding unit 72 n , the decoded image, the size data FSZ_E, and the offset data FPOS_E for the upper layer (hereinafter, all of them are appropriately included,
Upper layer data), a decoded image of the lower layer for the upper layer, and size data FSZ_
B and offset data FPOS_B (hereinafter referred to as lower layer data including all of them as appropriate)
The image reconstructing unit 73 reconstructs an image from the upper layer data or the lower layer data as follows, for example.
【0144】即ち、例えば、第1の空間スケーラビリテ
ィ(図4)が行われた場合(入力されたVOP全体が上
位レイヤとされるとともに、そのVOP全体を縮小した
ものが下位レイヤされた場合)において、下位レイヤデ
ータおよび上位レイヤデータの両方のデータが復号され
たときには、画像再構成部73は、上位レイヤデータの
みに基づき、サイズデータFSZ_Eに対応する大きさ
の上位レイヤの復号画像(VOP)を、オフセットデー
タFPOS_Eによって示される位置に配置する。ま
た、例えば、上位レイヤのビットストリームにエラーが
生じたり、また、モニタ74が、低解像度の画像にしか
対応していないため、下位レイヤデータのみの復号が行
われたときには、画像再構成部73は、その下位レイヤ
データのみに基づき、サイズデータFSZ_Bに対応す
る大きさの上位レイヤの復号画像(VOP)を、オフセ
ットデータFPOS_Bによって示される位置に配置す
る。That is, for example, when the first spatial scalability (FIG. 4) is performed (when the entire input VOP is set as the upper layer and a reduced version of the entire VOP is set as the lower layer) When both the lower layer data and the upper layer data are decoded, the image reconstructing unit 73 generates a decoded image (VOP) of the upper layer having a size corresponding to the size data FSZ_E based on only the upper layer data. , At the position indicated by the offset data FPOS_E. Further, for example, when an error occurs in the bit stream of the upper layer, or when the monitor 74 supports only low-resolution images, decoding of only the lower layer data is performed. Arranges a decoded image (VOP) of an upper layer having a size corresponding to the size data FSZ_B at a position indicated by the offset data FPOS_B based on only the lower layer data.
【0145】また、例えば、第2の空間スケーラビリテ
ィ(図5)が行われた場合(入力されたVOPの一部が
上位レイヤとされるとともに、そのVOP全体を縮小し
たものが下位レイヤとされた場合)において、下位レイ
ヤデータおよび上位レイヤデータの両方のデータが復号
されたときには、画像再構成部73は、サイズデータF
SZ_Bに対応する大きさの下位レイヤの復号画像を、
倍率FRにしたがって拡大し、その拡大画像を生成す
る。さらに、画像再構成部73は、オフセットデータF
POS_BをFR倍し、その結果得られる値に対応する
位置に、拡大画像を配置する。そして、画像再構成部7
3は、サイズデータFSZ_Eに対応する大きさの上位
レイヤの復号画像を、オフセットデータFPOS_Eに
よって示される位置に配置する。Further, for example, when the second spatial scalability (FIG. 5) is performed (a part of the input VOP is set as an upper layer, and a reduced whole of the VOP is set as a lower layer). In the case, when both the lower layer data and the upper layer data are decoded, the image reconstructing unit 73 outputs the size data F
A decoded image of a lower layer having a size corresponding to SZ_B is
The image is enlarged according to the magnification FR, and an enlarged image is generated. Further, the image reconstructing unit 73 outputs the offset data F
POS_B is multiplied by FR, and the enlarged image is arranged at a position corresponding to the value obtained as a result. Then, the image reconstruction unit 7
No. 3 arranges the decoded image of the upper layer of the size corresponding to the size data FSZ_E at the position indicated by the offset data FPOS_E.
【0146】この場合、上位レイヤの復号画像の部分
が、それ以外の部分に比較して高い解像度で表示される
ことになる。In this case, the decoded image portion of the upper layer is displayed with a higher resolution than the other portions.
【0147】なお、上位レイヤの復号画像を配置する場
合においては、その復号画像と、拡大画像とは合成され
る。When the decoded image of the upper layer is arranged, the decoded image and the enlarged image are combined.
【0148】また、図14(図13)には図示しなかっ
たが、上位レイヤ復号部93(VOP復号部72n)か
ら画像再構成部73に対しては、上述したデータの他、
倍率FRも供給されるようになされており、画像再構成
部73は、これを用いて、拡大画像を生成するようにな
されている。Although not shown in FIG. 14 (FIG. 13), the upper layer decoding unit 93 (VOP decoding unit 72 n ) sends the image reconstruction unit 73
The magnification FR is also supplied, and the image reconstruction unit 73 generates an enlarged image using the magnification FR.
【0149】一方、第2の空間スケーラビリティが行わ
れた場合において、下位レイヤデータのみが復号された
ときには、上述の第1の空間スケーラビリティが行われ
た場合と同様にして、画像が再構成される。On the other hand, when only the lower layer data is decoded when the second spatial scalability is performed, an image is reconstructed in the same manner as when the first spatial scalability is performed. .
【0150】さらに、第3の空間スケーラビリティ(図
6、図7)が行われた場合(入力されたVOPを構成す
る物体ごとに、その物体(オブジェクト)全体を上位レ
イヤとするとともに、その物体全体を間引いたものを下
位レイヤとした場合)においては、上述の第2の空間ス
ケーラビリティが行われた場合と同様にして、画像が再
構成される。Further, when the third spatial scalability (FIGS. 6 and 7) is performed (for each object constituting the input VOP, the entire object (object) is set as the upper layer, and (When the lower layer is obtained by thinning out), the image is reconstructed in the same manner as when the above-mentioned second spatial scalability is performed.
【0151】上述したように、オフセットデータFPO
S_BおよびFPOS_Eは、下位レイヤの拡大画像お
よび上位レイヤの画像を構成する、対応する画素どうし
が、絶対座標系において同一の位置に配置されるように
なっているため、以上のように画像を再構成すること
で、正確な(位置ずれのない)画像を得ることができ
る。As described above, the offset data FPO
S_B and FPOS_E are such that the corresponding pixels constituting the enlarged image of the lower layer and the image of the upper layer are arranged at the same position in the absolute coordinate system. With this configuration, an accurate (no displacement) image can be obtained.
【0152】次に、図1のエンコーダが出力する符号化
ビットストリームのシンタクスについて、例えば、MPEG
4規格のVideo Verification Model(Version10.0)(以
下、適宜、VM10.0と記述する)を例に説明する。Next, the syntax of the coded bit stream output from the encoder shown in FIG.
The following describes an example of the Video Verification Model (Version 10.0) of the four standards (hereinafter, appropriately referred to as VM 10.0).
【0153】図17は、VM10.0における符号化ビットス
トリームの構成を示している。FIG. 17 shows the configuration of an encoded bit stream in VM 10.0.
【0154】符号化ビットストリームは、VS(Visual
Object Sequence)を単位として構成される。ここで、
VSは、画像シーケンスであり、例えば、一本の番組や
映画などに相当する。The coded bit stream is VS (Visual
Object Sequence). here,
VS is an image sequence, and corresponds to, for example, one program or movie.
【0155】各VSは、1以上のVISO(Visual Obj
ect)から構成される。ここで、VISOには、幾つか
の種類がある。即ち、VISOには、例えば、静止画で
あるスチルテクスチャオブジェクト(Still Texture Ob
ject)や、顔画像から構成されるフェイスオブジェクト
(Face Object)、動画像のオブジェクトであるVO(V
ideo Object)などがある。従って、符号化ビットスト
リームが動画像のものである場合、VISOは、VOか
ら構成される。Each VS has one or more VISOs (Visual Obj
ect). Here, there are several types of VISO. That is, the VISO includes, for example, a still texture object (Still Texture Ob
ject), a face object composed of face images, and a VO (V
ideo Object). Therefore, when the encoded bit stream is that of a moving image, VISO is composed of VO.
【0156】VOは、1以上のVOL(Video Object L
ayer)から構成される(画像を階層化しないときは1の
VOLで構成され、画像を階層化する場合には、その階
層数だけのVOLで構成される)。A VO is composed of one or more VOLs (Video Object L
ayer) (when the image is not hierarchized, it is composed of one VOL, and when the image is hierarchized, it is composed of VOLs of the number of layers).
【0157】VOLは、必要な数のGOV(Group of V
OP)で構成され、GOVは、1以上のVOP(Video Ob
ject Plane)のシーケンスで構成される。なお、GOV
はなくても良く、この場合、VOLは、1以上のVOP
で構成されることになる。A VOL is a required number of GOVs (Group of V
OP), and the GOV is composed of one or more VOPs (Video Obs).
ject plane). In addition, GOV
In this case, VOL is not less than one VOP
It will be composed of
【0158】図18または図19は、VSまたはVOの
シンタクスをそれぞれ示している。VOは、画像全体ま
たは画像の一部(物体)のシーケンスに対応するビット
ストリームであり、従って、VSは、そのようなシーケ
ンスの集合で構成される(よって、VSは、例えば、一
本の番組などに相当する)。FIG. 18 or FIG. 19 shows the syntax of VS or VO, respectively. A VO is a bit stream corresponding to a sequence of an entire image or a part (object) of an image, and thus a VS is composed of a set of such sequences (thus, a VS is, for example, a single program). Etc.).
【0159】図20乃至図25は、VOLのシンタクス
を示している。FIGS. 20 to 25 show the syntax of a VOL.
【0160】VOLは、上述したようなスケーラビリテ
ィのためのクラスであり、video_object_layer_idで示
される番号によって識別される。即ち、例えば、下位レ
イヤのVOLについてのvideo_object_layer_idは0と
され、また、例えば、上位レイヤのVOLについてのvi
deo_object_layer_idは1とされる。なお、上述したよ
うに、スケーラブルのレイヤの数は2に限られることな
く、1や3以上を含む任意の数とすることができる。The VOL is a class for scalability as described above, and is identified by a number indicated by video_object_layer_id. That is, for example, the video_object_layer_id for the VOL of the lower layer is set to 0, and for example, the vi_object_layer_id for the VOL of the upper layer is set.
deo_object_layer_id is set to 1. As described above, the number of scalable layers is not limited to two, but may be any number including one or three or more.
【0161】また、各VOLについて、それが画像全体
であるのか、画像の一部であるのかは、video_object_l
ayer_shapeで識別される。このvideo_object_layer_sha
peは、VOLの形状を示すフラグで、例えば、以下のよ
うに設定される。For each VOL, whether it is the entire image or a part of the image is determined by video_object_l
Identified by ayer_shape. This video_object_layer_sha
pe is a flag indicating the shape of the VOL, and is set, for example, as follows.
【0162】即ち、VOLの形状が長方形状であると
き、video_object_layer_shapeは、例えば「00」とさ
れる。また、VOLが、ハードキー(0または1のうち
のいずれか一方の値をとる2値(Binary)の信号)によ
って抜き出される領域の形状をしているとき、video_ob
ject_layer_shapeは、例えば「01」とされる。さら
に、VOLが、ソフトキー(0乃至1の範囲の連続した
値(Gray-Scale)をとることが可能な信号(MPEG4
では、8ビットで表現される))によって抜き出される
領域の形状をしているとき(ソフトキーを用いて合成さ
れるものであるとき)、video_object_layer_shapeは、
例えば「10」とされる。That is, when the VOL is rectangular, the video_object_layer_shape is set to, for example, "00". When the VOL has a shape of an area extracted by a hard key (a binary (Binary) signal having one of 0 or 1), video_ob
ject_layer_shape is, for example, “01”. Further, a signal (MPEG4) in which the VOL can take soft keys (gray-scale) in a continuous range of 0 to 1
In this case, when represented by 8 bits)), the shape of the region extracted (when the image is synthesized using soft keys), video_object_layer_shape is
For example, “10” is set.
【0163】ここで、video_object_layer_shapeが「0
0」とされるのは、VOLの形状が長方形状であり、か
つ、そのVOLの絶対座標形における位置および大きさ
が、時間とともに変化しない、即ち、一定の場合であ
る。なお、この場合、その大きさ(横の長さと縦の長
さ)は、video_object_layer_widthとvideo_object_lay
er_heightによって示される。video_object_layer_widt
hおよびvideo_object_layer_heightは、いずれも10ビ
ットの固定長のフラグで、video_object_layer_shapeが
「00」の場合には、最初に、一度だけ伝送される(こ
れは、video_object_layer_shapeが「00」の場合、上
述したように、VOLの絶対座標系における大きさが一
定であるからである)。Here, video_object_layer_shape is set to “0”.
It is set to "0" when the VOL has a rectangular shape and the position and size of the VOL in the absolute coordinate form do not change with time, that is, are constant. In this case, the sizes (horizontal length and vertical length) are video_object_layer_width and video_object_lay
Indicated by er_height. video_object_layer_widt
h and video_object_layer_height are both 10-bit fixed-length flags. When video_object_layer_shape is “00”, they are transmitted only once first (this is as described above when video_object_layer_shape is “00”). , VOL in the absolute coordinate system are constant).
【0164】また、VOLが、下位レイヤまたは上位レ
イヤのうちのいずれであるかは、1ビットのフラグであ
るscalabilityによって示される。VOLが下位レイヤ
の場合、scalabilityは、例えば1とされ、それ以外の
場合、scalabilityは、例えば0とされる。Further, whether the VOL is a lower layer or an upper layer is indicated by scalability which is a 1-bit flag. If the VOL is a lower layer, the scalability is, for example, 1; otherwise, the scalability is, for example, 0.
【0165】さらに、VOLが、自身以外のVOLにお
ける画像を参照画像として用いる場合、その参照画像が
属するVOLは、上述したように、ref_layer_idで表さ
れる。なお、ref_layer_idは、上位レイヤについてのみ
伝送される。Further, when a VOL uses an image in a VOL other than itself as a reference image, the VOL to which the reference image belongs is represented by ref_layer_id as described above. Note that ref_layer_id is transmitted only for the upper layer.
【0166】また、VOLにおいて、hor_sampling_fac
tor_nとhor_sampling_factor_mは、下位レイヤのVOP
の水平方向の長さに対応する値と、上位レイヤのVOP
の水平方向の長さに対応する値をそれぞれ示す。従っ
て、下位レイヤに対する上位レイヤの水平方向の長さ
(水平方向の解像度の倍率)は、式hor_sampling_facto
r_n/hor_sampling_factor_mで与えられる。In the VOL, hor_sampling_fac
tor_n and hor_sampling_factor_m are lower layer VOPs
And the VOP of the upper layer
The values corresponding to the length in the horizontal direction are shown. Therefore, the horizontal length (horizontal resolution magnification) of the upper layer with respect to the lower layer is expressed by the formula hor_sampling_facto.
Given by r_n / hor_sampling_factor_m.
【0167】さらに、VOLにおいて、ver_sampling_f
actor_nとver_sampling_factor_mは、下位レイヤのVO
Pの垂直方向の長さに対応する値と、上位レイヤのVO
Pの垂直方向の長さに対応する値をそれぞれ示す。従っ
て、下位レイヤに対する上位レイヤの垂直方向の長さ
(垂直方向の解像度の倍率)は、式ver_sampling_facto
r_n/ver_sampling_factor_mで与えられる。Furthermore, in the VOL, ver_sampling_f
actor_n and ver_sampling_factor_m are the VOs of the lower layer
The value corresponding to the vertical length of P and the VO of the upper layer
The values corresponding to the vertical length of P are shown. Therefore, the vertical length (magnification of the vertical resolution) of the upper layer with respect to the lower layer is calculated by the expression ver_sampling_facto.
Given by r_n / ver_sampling_factor_m.
【0168】図26および図27は、GOVのシンタク
ス(Syntax)を示している。FIGS. 26 and 27 show the syntax of GOV.
【0169】GOV層は、符号化ビットストリームの先頭
だけでなく、符号化ビットストリームの任意の位置に挿
入することができるように、VOL層とVOP層との間に規定
されている(図17)。これにより、あるVOL#0が、VOP
#0,VOP#1,・・・,VOP#n,VOP#(n+1),・・・,VOP#m
といったVOPのシーケンスで構成される場合において、G
OV層は、その先頭のVOP#0の直前だけでなく、VOP#(n+1)
の直前(VOP#nとVOP#(n+1)との間)にも挿入することが
できる。従って、エンコーダにおいて、GOV層は、例え
ば、符号化ストリームの中の、ランダムアクセスさせた
い位置に挿入することができ、このGOV層を挿入するこ
とで、あるVOLを構成するVOPの一連のシーケンスは、複
数のグループ(GOV)に分けられて符号化されることに
なる。The GOV layer is defined between the VOL layer and the VOP layer so that it can be inserted not only at the head of the coded bit stream but also at any position in the coded bit stream (FIG. 17). ). As a result, a certain VOL # 0 becomes VOP
# 0, VOP # 1, ..., VOP # n, VOP # (n + 1), ..., VOP # m
In the case of a VOP sequence such as
The OV layer is not only immediately before the first VOP # 0, but also VOP # (n + 1)
(Between VOP # n and VOP # (n + 1)). Therefore, in the encoder, the GOV layer can be inserted, for example, at a position to be randomly accessed in the encoded stream. By inserting the GOV layer, a series of VOPs constituting a certain VOL becomes , Are encoded in a plurality of groups (GOV).
【0170】GOV層は、図26に示すように、グループ
スタートコード(group_start_code)、VOPタイムイン
クリメントレゾリューション(VOP_time_increment_reso
lusion),タイムコード(time_code)、クローズドGOP
(closed_gop)、ブロークンリンク(broken_link)、
GOVを構成するVOP(Group_of_VideoObjectPlan
e())、ネクストスタートコード(next_start_code())
が順次配置されて構成される。As shown in FIG. 26, the GOV layer has a group start code (group_start_code), a VOP time increment resolution (VOP_time_increment_reso).
lusion), time code (time_code), closed GOP
(Closed_gop), broken links (broken_link),
VOP (Group_of_VideoObjectPlan) that constitutes GOV
e ()), next start code (next_start_code ())
Are sequentially arranged.
【0171】次に、GOV層のセマンティクス(Semantic
s)について説明するが、GOV層のセマンティクスは、基
本的には、MPEG2のGOP層と同様であり、従って、特に記
述しない部分については、MPEG2Video規格(ISO/IEC1381
8-2)を参照されたい。Next, the semantics of the GOV layer (Semantic
s), the semantics of the GOV layer are basically the same as those of the GOP layer of MPEG2, and therefore, unless otherwise specified, the MPEG2 Video standard (ISO / IEC1381
Please refer to 8-2).
【0172】まず、group_start_codeは、000001B8
(16進数)で、GOVの開始位置を示す。VOP_time_incr
ement_resolusionは、後述するVOP_time_incrementによ
って示される同期点どうしの間隔である1秒間を、何分
割するかの分割数(分解能)を表す。First, group_start_code is 000001B8
(Hexadecimal) indicates the starting position of the GOV. VOP_time_incr
The ement_resolusion represents the number of divisions (resolution) of how many divisions are made into one second, which is an interval between synchronization points indicated by VOP_time_increment described later.
【0173】time_codeは、図27に示すように、時刻
の時間の単位を表すtime_code_hours、時刻の分の単位
を表すtime_code_minutes、marker_bit、および時刻の
秒の単位を表すtime_code_secondsで構成される。そし
て、このtime_codeのうちの、time_code_hours,time_c
ode_minutes,time_code_secondsによって、GOVの先頭の
時刻が表される。その結果、GOV層のtime_code(秒精度
先頭表示時刻)は、秒精度で、その先頭の時刻、即ち、
そのGOV層の符号化が開始された、VOPのシーケンス上の
絶対時刻を表現することとなる。具体的には、time_cod
eには、GOVの中で最初に表示されるVOPの絶対的な表示
時刻を秒精度で表したものが設定される。As shown in FIG. 27, the time_code is composed of time_code_hours representing the time unit of time, time_code_minutes representing the time unit, marker_bit, and time_code_seconds representing the unit of time. And of this time_code, time_code_hours, time_c
ode_minutes and time_code_seconds indicate the time at the beginning of the GOV. As a result, the time_code (second display time at the beginning of the second) of the GOV layer is the second time at the second accuracy, that is,
It represents the absolute time on the VOP sequence at which the encoding of the GOV layer has started. Specifically, time_cod
In e, the absolute display time of the VOP displayed first in the GOV is set in seconds.
【0174】なお、VM10.0において、time_codeは、「T
he parameters correspond to those defined in the I
EC standard publication 461 for "time and control
codes for video tape recorders". The time code ref
ers to the first plane ( in display order) after t
he GOV header」と記載されている。In VM 10.0, time_code is set to “T
he parameters correspond to those defined in the I
EC standard publication 461 for "time and control
codes for video tape recorders ". The time code ref
ers to the first plane (in display order) after t
he GOV header ".
【0175】time_codeのmarker_bitは、符号化ビット
ストリームにおいて、0が23個以上連続しないように
1とされる。The marker_bit of the time_code is set to 1 so that 23 or more 0s do not continue in the encoded bit stream.
【0176】next_start_code()は、次のGOVの先頭の位
置を与える。Next_start_code () gives the start position of the next GOV.
【0177】以上のようなGOVによれば、そのタイム
コードtime_codeにより、GOVのヘッダに続く、表示順
で、最初に表示されるVOPの絶対的な表示時刻を秒精度
で認識することが可能となる。なお、上述のように、GO
V層のtime_codeは秒精度であるため、VOPの表示時刻
の、さらに細かい精度の部分は、VOP毎に設定される
が、この点については、後述する。According to the GOV described above, it is possible to recognize the absolute display time of the first VOP displayed in the display order following the GOV header with second precision by the time code time_code. Become. Note that, as described above, GO
Since the time_code of the V layer is accurate to the second, a portion of the display time of the VOP with a finer accuracy is set for each VOP. This point will be described later.
【0178】なお、GOV層は、前述したように、本件
出願人による提案後に、MPEG4において導入された
ものである。As described above, the GOV layer was introduced in MPEG4 after the proposal by the present applicant.
【0179】次に、図28乃至図36は、VOP(Vide
o Object Plane Class)のシンタクスを示している。Next, FIGS. 28 to 36 show VOPs (Vide
o Indicates the syntax of the Object Plane Class).
【0180】VOPの大きさ(横と縦の長さ)は、例え
ば、10ビット固定長のVOP_widthとVOP_heightで表さ
れる。また、VOPの絶対座標系における位置は、例え
ば、10ビット固定長のVOP_horizontal_spatial_mc_re
fとVOP_vertical_mc_refで表される。なお、VOP_width
またはVOP_heightは、VOPの水平方向または垂直方向
の長さをそれぞれ表し、これらは、上述のサイズデータ
FSZ_BやFSZ_Eに相当する。また、VOP_horizo
ntal_spatial_mc_refまたはVOP_vertical_mc_refは、V
OPの水平方向または垂直方向の座標(xまたはy座
標)をそれぞれ表し、これらは、上述のオフセットデー
タFPOS_BやFPOS_Eに相当する。The VOP size (horizontal and vertical lengths) is represented by, for example, VOP_width and VOP_height having a fixed length of 10 bits. The position of the VOP in the absolute coordinate system is, for example, VOP_horizontal_spatial_mc_re of 10-bit fixed length.
f and VOP_vertical_mc_ref. Note that VOP_width
Alternatively, VOP_height represents the length of the VOP in the horizontal direction or the vertical direction, respectively, and corresponds to the size data FSZ_B or FSZ_E described above. Also, VOP_horizo
ntal_spatial_mc_ref or VOP_vertical_mc_ref is V
The horizontal and vertical coordinates (x or y coordinates) of the OP are respectively represented, and these correspond to the above-described offset data FPOS_B and FPOS_E.
【0181】VOP_width,VOP_height,VOP_horizontal_
spatial_mc_ref、およびVOP_vertical_mc_refは、video
_object_layer_shapeが「00」以外の場合にのみ伝送
される。即ち、video_object_layer_shapeが「00」の
場合、上述したように、VOPの大きさおよび位置はい
ずれも一定であるから、VOP_width,VOP_height,VOP_h
orizontal_spatial_mc_ref、およびVOP_vertical_mc_re
fは伝送する必要がない。この場合、受信側では、VO
Pは、その左上の頂点が、例えば、絶対座標系の原点に
一致するように配置され、また、その大きさは、図20
乃至図25に示したVOLのvideo_object_layer_width
およびvideo_object_layer_heightから認識される。VOP_width, VOP_height, VOP_horizontal_
spatial_mc_ref and VOP_vertical_mc_ref are video
It is transmitted only when _object_layer_shape is other than “00”. That is, when the video_object_layer_shape is “00”, as described above, since the size and position of the VOP are all constant, the VOP_width, VOP_height, and VOP_h
orizontal_spatial_mc_ref, and VOP_vertical_mc_re
f need not be transmitted. In this case, on the receiving side, VO
P is arranged such that its upper left vertex coincides with, for example, the origin of the absolute coordinate system.
To the video_object_layer_width of the VOL shown in FIG.
And video_object_layer_height.
【0182】なお、VOPにおいて、ref_select_code
は、上述したように、参照画像として用いる画像を表
す。[0182] In the VOP, ref_select_code
Represents an image used as a reference image, as described above.
【0183】ところで、VM10.0では、各VOP(Video Obje
ct Plane:従来のFrameに相当する)の表示時刻は、その
VOPで規定されているmodulo_time_baseおよびVOP_ti
me_increment(図28)、並びにそのVOPから構成さ
れるGOVで規定されているtime_code(図27)によ
って、次のように定められる。By the way, in VM 10.0, each VOP (Video Obje
The display time of ct Plane (corresponding to the conventional Frame) is modulo_time_base and VOP_ti defined by the VOP.
It is determined as follows by me_increment (FIG. 28) and time_code (FIG. 27) defined by the GOV composed of the VOP.
【0184】即ち、modulo_time_baseは、エンコーダの
ローカルな時間軸上における時刻を、1秒(1000ms(ミ
リ秒))の精度で表す。modulo_time_baseは、VOPヘッ
ダの中で伝送されるマーカ(marker)で表現され、必要
な数の「1」と、1つの「0」とで構成される。modulo_t
ime_baseを構成する「1」の数が、最後に(現在から遡
って、最も最近に)(直前に)表示されたI−VOP,
P−VOPで符号化/復号化されたmodulo_time_base、
またはGOVヘッダのtime_codeによって示された同期
点(1秒精度の時刻)からの累積時間を表す。That is, modulo_time_base represents the time on the local time axis of the encoder with an accuracy of one second (1000 ms (millisecond)). modulo_time_base is represented by a marker transmitted in the VOP header, and is composed of a required number of “1” and one “0”. modulo_t
The number of "1" s constituting the ime_base is the last (last most recently) (last) I-VOP,
Modulo_time_base encoded / decoded in P-VOP,
Alternatively, it indicates the accumulated time from the synchronization point (1 second accurate time) indicated by the time_code of the GOV header.
【0185】具体的には、VOPのmodulo_time_base
が、例えば、「0」の場合は、直前に表示されたI−V
OP,P−VOPのmodulo_time_base、またはGOVヘ
ッダのtime_codeによって示された同期点からの累積時
間が0秒であることを表す。また、modulo_time_base
が、例えば、「10」の場合は、直前に表示されたI−
VOP,P−VOPのmodulo_time_base、またはGOV
ヘッダのtime_codeによって示された同期点からの累積
時間が1秒であることを表す。さらに、modulo_time_ba
seが、例えば、「110」の場合は、直前に表示された
I−VOP,P−VOPのmodulo_time_base、またはG
OVヘッダのtime_codeによって示された同期点の累積
時間が2秒であることを表す。以上のように、VOPの
modulo_time_baseの「1」の数は、その直前に表示され
たI−VOP,P−VOPのmodulo_time_base、または
GOVヘッダのtime_codeによって示された同期点から
の秒数になっている。More specifically, the modulo_time_base of the VOP
Is, for example, "0", the I-V displayed immediately before
Indicates that the accumulated time from the synchronization point indicated by the modulo_time_base of the OP or P-VOP or the time_code of the GOV header is 0 second. Also, modulo_time_base
Is "10", for example, if the I-
VOP, modulo_time_base of P-VOP, or GOV
It indicates that the accumulated time from the synchronization point indicated by the time_code of the header is 1 second. Furthermore, modulo_time_ba
When se is, for example, “110”, modulo_time_base of the I-VOP or P-VOP displayed immediately before, or G
It indicates that the accumulated time of the synchronization point indicated by the time_code of the OV header is 2 seconds. As mentioned above,
The number of “1” in modulo_time_base is the number of seconds from the synchronization point indicated by the modulo_time_base of the I-VOP or P-VOP displayed immediately before or the time_code of the GOV header.
【0186】なお、VM10.0では、modulo_time_baseにつ
いて、「This value represents the local time base
at the one second resolution unit (1000 millisecon
ds).It is represented as a marker transmitted in t
he VOP header. The numberof consecutive "1" follow
ed by a "0" indicates the number of seconds has el
apsed since the synchronization point marked by th
e modulo_time_baseof the last displayed I/P-VOPs b
elonging to the same VOL. There are twoexceptions,
one for the first I/P-VOP after the GOV header, a
nd the other is for B-VOPs (in display order) to t
he first I-VOP after the GOV header.For the first
I/P-VOP after the GOV header, the modulo_time_base
indicates the time relative to the time_code in t
he GOV header.For the B-VOPs prior (in display ord
er) to the first I-VOP after the GOV header, themo
dulo_time_base indicates the time relative to the
time_code in the GOV header」と記載されている。[0186] In VM 10.0, modulo_time_base is described as "This value represents the local time base".
at the one second resolution unit (1000 millisecon
ds) .It is represented as a marker transmitted in t
he VOP header. The numberof consecutive "1" follow
ed by a "0" indicates the number of seconds has el
apsed since the synchronization point marked by th
e modulo_time_baseof the last displayed I / P-VOPs b
elonging to the same VOL. There are twoexceptions,
one for the first I / P-VOP after the GOV header, a
nd the other is for B-VOPs (in display order) to t
he first I-VOP after the GOV header.For the first
I / P-VOP after the GOV header, the modulo_time_base
indicates the time relative to the time_code in t
he GOV header.For the B-VOPs prior (in display ord
er) to the first I-VOP after the GOV header, themo
dulo_time_base indicates the time relative to the
time_code in the GOV header ".
【0187】即ち、ある注目VOPのmodulo_time_base
は、直前に表示されたI−VOP,P−VOPのmodulo
_time_baseによって示される同期点、即ち、直前に表示
されたI−VOP,P−VOPの表示時刻の秒精度の時
刻からの相対時間によって、注目VOPの秒精度の表示
時刻を表す。但し、GOVヘッダに続いて最初に符号化
/復号されるI−VOPまたはP−VOPのmodulo_tim
e_baseは、GOVヘッダのtime_codeからの相対時間に
よって、そのI−VOPまたはP−VOPの秒精度の表
示時刻を表し、また、GOVヘッダに続いて最初に符号
化/復号されるI−VOPより前に表示されるB−VO
Pのmodulo_time_baseも、GOVヘッダのtime_codeか
らの相対時間によって、そのB−VOPの秒精度の表示
時刻を表す。That is, modulo_time_base of a certain VOP of interest
Is the modulo of the I-VOP and P-VOP displayed immediately before
The synchronization point indicated by _time_base, that is, the relative time from the second-precision display time of the I-VOP or P-VOP displayed immediately before represents the second-precision display time of the target VOP. However, the modulo_tim of the I-VOP or P-VOP to be encoded / decoded first following the GOV header
e_base indicates the display time of the I-VOP or P-VOP with a second precision by the relative time from the time_code of the GOV header, and indicates the time before the first I / VOP encoded / decoded following the GOV header. B-VO displayed on
The modulo_time_base of P also indicates the display time of the B-VOP with a second precision by the relative time from the time_code of the GOV header.
【0188】なお、GOVヘッダに続いて最初に符号化
/復号されるI−VOPまたはP−VOP、およびその
ようなI−VOPより前に表示されるB−VOPに関し
て、GOVヘッダのtime_codeによって示される同期点
を、直前に表示されたI−VOP,P−VOPのmodulo
_time_baseによって示された同期点(直前に表示された
I−VOP,P−VOPの表示時刻の秒精度の時刻)と
考えれば、VOPのmodulo_time_baseは、どのようなV
OPについても、直前に表示されたI−VOP,P−V
OPのmodulo_time_baseによって示された同期点からの
時間によって、そのVOPの表示時刻を、秒精度で表す
ということができる。Note that the I-VOP or P-VOP encoded / decoded first following the GOV header and the B-VOP displayed before such I-VOP are indicated by the time_code of the GOV header. The synchronization point to be changed is a modulo of the I-VOP and P-VOP displayed immediately before.
_time_base, the modulo_time_base of the VOP is what kind of V, given the synchronization point (the time of the second precision of the display time of the I-VOP and P-VOP displayed immediately before).
As for OP, I-VOP, PV displayed immediately before
It can be said that the display time of the VOP is expressed in seconds with the time from the synchronization point indicated by the modulo_time_base of the OP.
【0189】VOP_time_incrementは、1秒以下の精度でV
OPの表示時刻を表すのに使用される。すなわち time_co
de及びmodulo_time_baseは、1秒の精度で時刻を表す
が、それ以下の精度は、VOP_time_incrementを用いて表
現される。VM10.0の場合、VOP_time_incrementの精度
は、上述したGOVレイヤのtime_increment_resolution
(図26)で示され、VOP_time_increment_resolution
=1000とすると、VOP_time_incrementは、VOPの表
示時刻を、1ms(=1000ミリ秒/VOP_time_incremen
t_resolution)単位で表すものとなる。VOP_time_increment is V with an accuracy of 1 second or less.
Used to indicate the display time of the OP. I.e. time_co
Although de and modulo_time_base represent time with an accuracy of one second, precisions lower than that are expressed using VOP_time_increment. In the case of VM 10.0, the accuracy of VOP_time_increment is the same as the time_increment_resolution of the GOV layer described above.
(FIG. 26), and VOP_time_increment_resolution
Assuming that = 1000, VOP_time_increment sets the display time of the VOP to 1 ms (= 1000 milliseconds / VOP_time_incremen).
t_resolution) unit.
【0190】図37および図38は、以上の定義に基づ
いて、time_code,modulo_time_baseとVOP_time_increme
ntとの関係を示した図である。FIGS. 37 and 38 show time_code, modulo_time_base and VOP_time_increme based on the above definitions.
FIG. 4 is a diagram showing a relationship with nt.
【0191】図37において、VOは、GOVヘッダ、
B1(B−VOP),I2(I−VOP)、B3,B4,P5(P
−VOP)....というVOPのシーケンスで構成されて
いる。いま、GOVヘッダのtime_codeが時刻t0 = 0h:
12m:43Sec(0時間12分43秒)を示していたとする
と、modulo_time_baseは、time_codeを基準とする時刻
を、1秒精度で表し、従って、t0+1秒、t0+2秒,
・・・という時刻を、同期点として表す。なお、図37
において、表示順は、B1,I2,B3,B4,P5,・・
・であるが、符号化/復号順は、GOVヘッダ、I2,
B1,P5,B3,B 4,・・・である。In FIG. 37, VO is a GOV header,
B1(B-VOP), ITwo(I-VOP), BThree, BFour, PFive(P
-VOP) .... is composed of a VOP sequence
I have. Now, the time_code of the GOV header is the time t0 = 0h:
12m: 43Sec (0:12:43)
And modulo_time_base is the time based on time_code
With one second precision and thus t0+1 second, t0+2 seconds,
.. Are represented as synchronization points. Note that FIG.
, The display order is B1, ITwo, BThree, BFour, PFive, ...
, But the encoding / decoding order is the GOV header, ITwo,
B1, PFive, BThree, B Four, ...
【0192】図37では、(後述する図38、図46、
図47においても同様)、各VOPについてのVOP_time
_incrementを、四角形で囲んだ数字で、modulo_time_ba
seを、四角形とダブルクオーテーション(”)で囲んだ
ビット列で、それぞれ示してあり、さらに、VOP_time_i
ncrement_resolutionを1000としてある。従って、
図37では、B1,I2,B3,B4,P5についてのVOP_time_i
ncrementがそれぞれ350,750,150,550,
350とされており、また、VOP_time_increment_resol
utionが1000であるから、各VOPの表示時刻の1秒以下の
値は、それぞれ350ms(350/1000秒),75
0ms(750/1000秒),150ms(150/10
00秒),550ms(550/1000秒),350ms
(350/1000秒)となる。In FIG. 37, (FIG. 38, FIG.
VOP_time for each VOP
_increment is a number enclosed in a square, modulo_time_ba
se is indicated by a bit string surrounded by a square and double quotation marks ("), respectively. In addition, VOP_time_i
ncrement_resolution is set to 1000. Therefore,
In FIG. 37, VOP_time_i for B 1 , I 2 , B 3 , B 4 , and P 5
ncrement is 350, 750, 150, 550, respectively
350 and VOP_time_increment_resol
Since the solution is 1000, the display time of each VOP for 1 second or less is 350 ms (350/1000 seconds) and 75, respectively.
0 ms (750/1000 seconds), 150 ms (150/10
00 seconds), 550 ms (550/1000 seconds), 350 ms
(350/1000 seconds).
【0193】いま、図37において、B1は、GOVヘ
ッダが符号化/復号された後、最初に符号化/復号され
るI−VOPであるI2より前に表示されるB−VOP
であるから、その表示時刻の基準は、GOVヘッダのti
me_codeで示される同期点である時刻t0となる。いま、
B1のtime_modulo_baseは、”0”であり、従って、B1
の表示時刻は、GOVヘッダのtime_codeで示された時刻t
0の、0+350/1000秒後の時刻、すなわち0h:12
m:34s+0s:350ms=0h:12m:34s:350msとなる。Now, in FIG. 37, B 1 is a B-VOP displayed before I 2 which is the first I-VOP to be encoded / decoded after the GOV header is encoded / decoded.
Therefore, the reference of the display time is ti of the GOV header.
the time t 0 is the synchronization point indicated by me_code. Now
The time_modulo_base of B 1 is “0”, so that B 1
Is displayed at the time t indicated by the time_code of the GOV header.
0 , 0 + 350/1000 seconds later, that is, 0h: 12
m: 34s + 0s: 350ms = 0h: 12m: 34s: 350ms.
【0194】次に、I2は、GOVヘッダが符号化/復
号された後、最初に符号化/復号されるI−VOPであ
るから、その表示時刻の基準は、GOVヘッダのtime_c
odeで示される同期点である時刻t0となる。いま、I2
のtime_modulo_baseは、”0”であり、従って、I2の
表示時刻は、GOVヘッダのtime_codeで示された時刻t0
の、0+750/1000秒の時刻 すなわち0h:12m:34s+0s:750
ms=0h:12m:34s:750msとなる。Next, since I 2 is an I-VOP that is encoded / decoded first after the GOV header is encoded / decoded, the reference of the display time is time_c of the GOV header.
It is time t 0 , which is the synchronization point indicated by ode. Now I 2
Time_modulo_base is “0”, so the display time of I 2 is the time t 0 indicated by the time_code of the GOV header.
Time of 0 + 750/1000 seconds, ie 0h: 12m: 34s + 0s: 750
ms = 0h: 12m: 34s: 750ms.
【0195】次に、B3は、I2の直後に表示されるた
め、その表示時刻の基準は、I2のmodulo_time_baseによ
って示された同期点となる。即ち、I2の表示時刻は、上
述したように、0h:12m:34s:750msであり、modulo_time_
baseは、時刻t0=0h:12m:34Secから0秒後の時刻である
0h:12m:34sを、同期点として示している。そして、B3
のmodulo_time_baseは、"10"であることから、B3の表
示時刻は、I2のmodulo_time_baseによって示される同
期点の、1+150/1000秒後の時刻、すなわち0
h:12m:34s+1s:150ms=0h:12m:35s:150msとなる。B4の表
示時刻も、B3の表示時刻と同様にして求めることがで
き、I2のmodulo_time_baseによって示される同期点の、
1+550/1000秒後の時刻、すなわち0h:12m:34s
+1s:550ms=0h:12m:35s:550msとなる。Next, since B 3 is displayed immediately after I 2 , the reference of the display time is a synchronization point indicated by modulo_time_base of I 2 . That is, display time of I 2, as described above, 0h: 12m: 34s: a 750 ms, Modulo_time_
base is the time 0 seconds after time t 0 = 0h: 12m: 34Sec
0h: 12m: 34s is shown as a synchronization point. And B 3
Is the modulo_time_base, since it is "10", the display time of B 3 is the synchronization point marked by the modulo_time_base of I 2, 1 + 150/1000 seconds later time, namely 0
h: 12m: 34s + 1s: 150ms = 0h: 12m: 35s: 150ms. The display time of B 4 can be obtained in the same manner as the display time of B 3 , and the synchronization point indicated by the modulo_time_base of I 2
Time after 1 + 550/1000 seconds, ie 0h: 12m: 34s
+ 1s: 550ms = 0h: 12m: 35s: 550ms.
【0196】次に、P5については、その前に表示される
B3,B4は共にB−VOPであるため、これらのmodulo
_time_baseによって示される同期点は、P5の表示時刻
の計算には用いられず、P5の直前に表示されるI/P
−VOPであるI2のmodulo_time_baseによって示され
る同期点(0h:12m:34Sec)が用いられる。また、図37
では、P5のtime_modulo_baseが、"110"であり、time_i
ncrementは、上述したように350であることから、そ
の表示時刻は、I2のmodulo_time_baseによって示され
る同期点の、2+350/1000秒後の時刻、すなわ
ち0h:12m:34s+2s:350ms=0h:12m:36s:350msとなる。[0196] Next, in order for P 5, B 3, B 4 to be displayed on the front are both B-VOP, these modulo
synchronization point marked by the _time_base is not used for calculating the display time of P 5, I / P, which is displayed immediately before the P 5
Synchronization point marked by the modulo_time_base of I 2 is -VOP (0h: 12m: 34Sec) is used. FIG.
In, time_modulo_base of P 5 is a "110", time_i
ncrement, since it is 350 as described above, the display time, the synchronization point marked by the modulo_time_base of I 2, 2 + 350/1000 seconds later time, i.e., 0h: 12m: 34s + 2s: 350ms = 0h: 12m: 36s: 350ms.
【0197】次に、図38では、VOが、GOVヘッ
ダ、B1,B2,I3,B4,P5,・・・というVOPの
シーケンスで構成されている。また、GOVヘッダのti
me_codeは、図37における場合と同様に、時刻t0 = 0
h:12m:43Sec(0時間12分43秒)を示している。Next, in FIG. 38, a VO is composed of a GOV header and a sequence of VOPs of B 1 , B 2 , I 3 , B 4 , P 5 ,. Also, the ti of the GOV header
me_code is the time t 0 = 0 as in the case of FIG.
h: 12m: 43Sec (0:12:43).
【0198】図38において、B1については、modulo_
time_base が”0”と、VOP_time_incrementが350と
なっている。そして、B1は、GOVヘッダが符号化/
復号された後、最初に符号化/復号されるI−VOPで
あるI3より前に表示されるB−VOPであるから、そ
の表示時刻は、GOVヘッダのtime_codeで示される同
期点である時刻t0を基準に計算される。従って、B1の
表示時刻は、図37のB1と同様に、0h:12m:34s+0s:350
ms=0h:12m:34s:350msとなる。[0198] In FIG. 38, for B 1, modulo_
The time_base is “0” and the VOP_time_increment is 350. Then, B 1 is, GOV header is encoded /
After being decoded, since it is first B-VOP displayed before I 3 which is I-VOP which is encoded / decoded, the display time is synchronous point indicated by the time_code of the GOV header time It is calculated based on t 0 . Therefore, the display time of B 1 represents, as with B 1 in FIG. 37, 0h: 12m: 34s + 0s: 350
ms = 0h: 12m: 34s: 350ms.
【0199】次に、B2は、B1と同様に、GOVヘッダ
が符号化/復号された後、最初に符号化/復号されるI
−VOPであるI3より前に表示されるB−VOPであ
るから、その表示時刻は、やはり、GOVヘッダのtime
_codeで示される同期点である時刻t0を基準に計算され
る。いま、B2のtime_modulo_baseが”0”で、VOP_tim
e_incrementが750となっているから、B2の表示時刻
は、GOVヘッダのtime_codeで示された時刻t0の、0+
750/1000秒後の時刻、すなわち0h:12m:34s+0s:
750ms=0h:12m:34s:750msとなる。[0199] Next, B 2, as with B 1, after the GOV header is encoded / decoded and encoded / decoded first I
Since a B-VOP displayed before I 3 which is -Vop, the display time is still, the GOV header time
It is calculated on the basis of the time t 0 is the synchronization point indicated by _CODE. Now, time_modulo_base of B 2 is at "0", VOP_tim
Since e_increment has become 750, the display time of B 2 is the time t 0 shown in time_code of the GOV header, 0 +
Time after 750/1000 seconds, that is, 0h: 12m: 34s + 0s:
750ms = 0h: 12m: 34s: 750ms.
【0200】次に、I3は、GOVの符号化/復号後、
最初に表示されるI−VOPであり、そのmodulo_time_
baseが”01”で、VOP_time_incrementが150であるた
め、その表示時刻は、time_codeによって示された同期
点より1+150/1000秒遅れとなる。従って、I3
の表示時刻は、時刻t0の、0+750/1000秒後
の時刻、すなわち0h:12m:34s+1s:150ms=0h:12m:35s:150
msとなる。Next, I 3 is obtained by encoding / decoding GOV.
This is the I-VOP displayed first, and its modulo_time_
Since the base is “01” and the VOP_time_increment is 150, the display time is delayed by 1 + 150/1000 seconds from the synchronization point indicated by the time_code. Therefore, I 3
Is the time 0 + 750/1000 seconds after time t 0 , that is, 0h: 12m: 34s + 1s: 150ms = 0h: 12m: 35s: 150
ms.
【0201】次に、B4については、その直前に表示さ
れるI/P−VOPであるI3のmodulo_time_baseによ
って示される同期点(I3の表示時刻の秒精度)、即
ち、0h:12m:35sを基準に、その表示時刻が計算される。
いま、B4のmodulo_time_baseは”0”で、VOP_time_in
crementが550であるため、その表示時刻は、0h:12m:35s
+0s:550ms=0h:12m:35s:550msとなる。[0202] Next, the B 4, synchronization point marked by the modulo_time_base of I 3 is I / P-VOP displayed immediately before (seconds accuracy of the display time of I 3), i.e., 0h: 12m: The display time is calculated based on 35s.
Now, modulo_time_base of B 4 is "0", VOP_time_in
Because the crement is 550, the display time is 0h: 12m: 35s
+ 0s: 550ms = 0h: 12m: 35s: 550ms
【0202】次に、P5については、その直前に表示さ
れるI/P−VOPであるI3のmodulo_time_baseによ
って示される同期点、即ち、B4と同様に、0h:12m:35s
を基準に、その表示時刻が計算される。いま、P5のmod
ulo_time_baseは”10”で、VOP_time_incrementが350
であるため、その表示時刻は、0h:12m:35s+1s:350ms=0
h:12m:36s:350msとなる。[0202] Next, the P 5, synchronization point marked by the modulo_time_base of I 3 is I / P-VOP displayed immediately before, i.e., as with B 4, 0h: 12m: 35s
, The display time is calculated. Now, mod of P 5
ulo_time_base is “10” and VOP_time_increment is 350
Therefore, the display time is 0h: 12m: 35s + 1s: 350ms = 0
h: 12m: 36s: 350ms.
【0203】ここで、以上のように、VM10.0では、表示
時刻の計算に、I/P-VOPのmodulo_time_baseによって示
される同期点(これは、その表示時刻の秒精度に等し
い)は用いられるが、B-VOPのmodulo_time_baseによっ
て示される同期点は用いられない。これは、主として次
のような理由による。即ち、B-VOPは、表示順では、I/P
VOPに挟まれているが、符号化/復号化順では、B-VOPを
挟んでいるI/PVOPが符号化/復号された後に符号化/復
号される。このため、仮に、表示時刻の計算に、B-VOP
のmodulo_time_baseによって示される同期点を用いるこ
ととすると、即ち、B−VOPの表示時刻の秒精度を用
いることとすると、表示順においてB−VOPの直後に
位置するI/P-VOPは、すでに符号化/復号されているの
にもかかわらず、そのB-VOPの符号化/復号が終了する
までは、I/P-VOPの表示時刻を求めることができず、処
理が煩雑になるためである。Here, as described above, in VM 10.0, the synchronization point indicated by modulo_time_base of the I / P-VOP (which is equal to the second precision of the display time) is used for the calculation of the display time. However, the synchronization point indicated by the modulo_time_base of the B-VOP is not used. This is mainly due to the following reasons. In other words, B-VOPs are displayed as I / P
Although sandwiched between VOPs, in the encoding / decoding order, the I / PVOP sandwiching the B-VOP is encoded / decoded after being encoded / decoded. Therefore, if the display time is calculated, the B-VOP
If the synchronization point indicated by modulo_time_base is used, that is, if the second precision of the display time of the B-VOP is used, the I / P-VOP located immediately after the B-VOP in the display order is already encoded. This is because the display time of the I / P-VOP cannot be obtained until the encoding / decoding of the B-VOP is completed despite the encoding / decoding, and the processing becomes complicated. .
【0204】次に、VM10.0では、上述したとおり、GOV
レイヤを採用しており、これにより、効率的なランダム
アクセスを可能としている。即ち、GOVレイヤのtime_co
deにより、GOVの絶対的な開始時刻(但し、秒精度)が
定まり、この開始時刻とtime_modulo_base,VOP_time_in
crementにより、上述したように、そのGOVに含まれ
る各VOPの絶対的な表示時刻が容易に求められる。そし
て、この表示時刻を参照することにより、符号化ビット
ストリームの途中にあるVOPにアクセスすること、すな
わちランダムアクセスすることが可能となる。Next, in the VM 10.0, as described above, the GOV
Layers are used, thereby enabling efficient random access. That is, time_co of the GOV layer
The absolute departure time of GOV (however, second precision) is determined by de, and this start time and time_modulo_base, VOP_time_in
As described above, the absolute display time of each VOP included in the GOV is easily obtained by the crement. Then, by referring to the display time, it becomes possible to access a VOP in the middle of the encoded bit stream, that is, to make random access.
【0205】ところで、VM10.0では、「The GOV layer
is an optional layer, so the bitstream can have an
y (include non) number of the GOV header, and the
frequency of the GOV header is an encoder issue.Si
nce the GOV header shall be followed by the I-VO
P.」と定義されていることから、GOVレイヤの挿入につ
いては、符号化ビットストリームの中で、GOVヘッダ
の後にI-VOPを配置しなければならないという制限があ
る点を除き、エンコーダ側で、その数と頻度を、自由に
設定することができる。By the way, in VM 10.0, “The GOV layer
is an optional layer, so the bitstream can have an
y (include non) number of the GOV header, and the
frequency of the GOV header is an encoder issue.Si
nce the GOV header shall be followed by the I-VO
P. ", the insertion of the GOV layer is performed on the encoder side except that the I-VOP must be placed after the GOV header in the encoded bit stream. The number and frequency can be set freely.
【0206】即ち、VM10.0では、スケーラビリティを実
現するための階層化を行った場合に、各階層におけるG
OVの挿入位置は、特に規定されていない。従って、例
えば、上位レイヤと下位レイヤとの2階層に階層化した
場合には、上位レイヤまたは下位レイヤそれぞれについ
て、独立に、I-VOPを、ヘッダの後に配置(但し、符号
化ビットストリームの中で)した形のGOVを構成する
ことができる。That is, in VM 10.0, when hierarchization for realizing scalability is performed, G
The insertion position of the OV is not particularly defined. Therefore, for example, when the layers are hierarchized into two layers of an upper layer and a lower layer, an I-VOP is independently arranged after the header for each of the upper layer and the lower layer (however, in the coded bit stream, ) Can be constructed.
【0207】一方、MPEG4では、上位レイヤは、必
ずしもI-VOPを使用しなくてもエンコード/デコードが
可能である。これは、上位レイヤについては、基本的
に、下位レイヤのVOPが参照画像として用いられるか
らであり、MPEG4では、このように、下位レイヤの
VOPを参照画像として用いることで、符号化効率を向
上させている。On the other hand, in MPEG4, the upper layer can encode / decode without necessarily using the I-VOP. This is because the VOP of the lower layer is basically used as a reference image for the upper layer. In MPEG4, the coding efficiency is improved by using the VOP of the lower layer as the reference image. Let me.
【0208】しかしながら、上述したように、GOVを用
いるためには、符号化/復号化順でGOVヘッダの後にI-V
OPを配置しなければならない。そして、I-VOPのデータ
量は、一般に、P-VOPやB-VOPのデータ量より大きいか
ら、I-VOPを使用しなくても問題のない上位レイヤにI-V
OPを使用しなくてはならないことは、符号化効率を低下
させることになる。However, as described above, in order to use the GOV, it is necessary to add the IV after the GOV header in the encoding / decoding order.
OP must be deployed. And, since the data amount of the I-VOP is generally larger than the data amount of the P-VOP or B-VOP, the upper layer that does not have a problem even without using the I-VOP has
Having to use an OP reduces coding efficiency.
【0209】そこで、符号化効率の低下を防止するため
に、VM10.0で規定されている上述の定義は、「The GOV
layer is an optional layer, so the bitstream can h
aveany (include non) number of the GOV header, and
the frequency of the GOVheader is an encoder issu
e.Since thr GOV header shall be followed by the I-
VOP in base layer.」と変更し、下位レイヤについての
み、GOVヘッダの後にI-VOPを配置しなければならな
いという制限をつけるべきであり、上位レイヤについて
は、そのような制限をつけるべきではない。Therefore, in order to prevent a decrease in coding efficiency, the above definition defined in VM 10.0 is “The GOV
layer is an optional layer, so the bitstream can h
aveany (include non) number of the GOV header, and
the frequency of the GOVheader is an encoder issu
e.Since thr GOV header shall be followed by the I-
VOP in base layer. ", And should place a restriction that the I-VOP must be placed after the GOV header only for the lower layer, and not for the upper layer. .
【0210】図1のエンコーダまたは図13のデコーダ
は、上述の変更後の定義にしたがって、それぞれ符号化
または復号が行われるようになされている。The encoder shown in FIG. 1 or the decoder shown in FIG. 13 performs encoding or decoding, respectively, according to the definition after the change.
【0211】次に、VM10.0では、下位レイヤと上位レイ
ヤのGOVの時間的な位置関係については、特に制限がな
い。従って、下位レイヤのGOVの最初のVOPまたは最
後のVOPそれぞれと、上位レイヤの最初のVOPまた
は最後のVOPそれぞれとの時間的な位置は、必ずしも
一致しなくてもよいこととなる。Next, in the VM 10.0, there is no particular restriction on the temporal positional relationship between the GOVs of the lower layer and the upper layer. Therefore, the first VOP or the last VOP of the GOV of the lower layer and the first VOP or the last VOP of the upper layer do not always need to coincide with each other.
【0212】しかしながら、下位レイヤと上位レイヤと
で、GOVの挿入位置が異なる場合に、その符号化ビット
ストリームにランダムアクセスするときには、上位レイ
ヤのVOPが参照する下位レイヤの復号画像を得るため
に、本来表示されない下位レイヤのVOPを復号しなけ
ればならないケースが生じ、この場合、迅速で、効率的
なランダムアクセスが困難となる。However, when the insertion position of the GOV is different between the lower layer and the upper layer, when random access is made to the encoded bit stream, in order to obtain a decoded image of the lower layer referred to by the VOP of the upper layer, In some cases, it is necessary to decode a VOP of a lower layer that is not originally displayed. In this case, it is difficult to perform quick and efficient random access.
【0213】即ち、いま、下位レイヤの、表示順で#i
番目のI−VOPまたはP−VOPを、それぞれ、Ibi
またはPbiとそれぞれ表すとともに、上位レイヤの、表
示順で#i番目のP−VOPを、Peiと表し、例えば、
図39に示すように、Ib1,Pb2,Pb3,Pb4,Pb5,
Ib6,Pb7,Pb8,Pb9,Pb10,Ib11,Pb12,
Pb 13,・・・で構成される下位レイヤと、Pe1,
Pe2,Pe3,Pe4,Pe5,Pe6,Pe7,Pe8,Pe9,P
e10,Pe11,Pe12,Pe13,・・・で構成される上位レ
イヤとからなる符号化ビットストリームを考える。That is, #i in the display order of the lower layer
Th the I-VOP or P-VOP, respectively, I bi
Or P bi, and the # i-th P-VOP in the display order of the upper layer is represented as P ei .
As shown in FIG. 39, I b1 , P b2 , P b3 , P b4 , P b5 ,
I b6, P b7, P b8 , P b9, P b10, I b11, P b12,
P b 13, and the lower layer composed of a ···, P e1,
P e2, P e3, P e4 , P e5, P e6, P e7, P e8, P e9, P
e10, P e11, P e12, P e13, consider an encoded bit stream consisting of a composed upper layer in ....
【0214】図39において、下位レイヤのIb1,
Pb2,Pb3,Pb4,Pb5,Ib6,Pb7,Pb8,Pb9,P
b10,Ib11,Pb12,Pb13,・・・それぞれと、上位レ
イヤのP e1,Pe2,Pe3,Pe4,Pe5,Pe6,Pe7,P
e8,Pe9,Pe10,Pe11,Pe12,Pe13,・・・それぞ
れとは、同一時刻に表示されるVOPであり、さらに、
上位レイヤのPe1乃至Pe13それぞれは、下位レイヤの
Ib1乃至Pb13それぞれを参照画像として符号化されて
いる。即ち、空間スケーラビリティが実現されている。
そして、図39では、下位レイヤのIb1乃至Pb5がGO
Vb1を、Ib6乃至P b10がGOVb2を、それぞれ構成し
ており、上位レイヤのPe1乃至Pe4がGOVe 1を、Pe5
乃至Pe8がGOVe2を、Pe9乃至Pe12がGOVe3を、
それぞれ構成している。即ち、下位レイヤでは、5つの
VOPごとにGOVが構成され、上位レイヤでは、4つ
のVOPごとにGOVが構成されている。In FIG. 39, the lower layer Ib1,
Pb2, Pb3, Pb4, Pb5, Ib6, Pb7, Pb8, Pb9, P
b10, Ib11, Pb12, Pb13, ... each and the top level
Ear P e1, Pe2, Pe3, Pe4, Pe5, Pe6, Pe7, P
e8, Pe9, Pe10, Pe11, Pe12, Pe13, ...
This is a VOP displayed at the same time,
Upper layer Pe1Or Pe13Each is a lower layer
Ib1Or Pb13Each is encoded as a reference image
I have. That is, spatial scalability is realized.
Then, in FIG. 39, the lower layer Ib1Or Pb5Is GO
Vb1To Ib6Or P b10Is GOVb2And configure
And the upper layer Pe1Or Pe4Is GOVe 1And Pe5
Or Pe8Is GOVe2And Pe9Or Pe12Is GOVe3To
Each is composed. That is, in the lower layer, five
A GOV is configured for each VOP, and four
GOV is configured for each VOP.
【0215】この場合において、例えば、上位レイヤの
GOVe2の先頭にランダムアクセスするとしたとき、そ
の先頭のPe5は、下位レイヤのGOVb1のPb5の復号画像
を参照画像として用いて復号されるから、Pb5を復号す
る必要がある。しかしながら、Pb5は、下位レイヤのG
OVb1を構成するVOP(最後に表示されるVOP)で
あり、従って、Pb5を復号するには、GOVb1を構成す
るVOPを順次復号する必要がある。そして、P65が復
号されるまでの間は、そのP65を参照画像として用いる
上位レイヤのPe5を復号することができないから、迅速
なランダムアクセスが困難となる。[0215] In this case, for example, when a random access to the beginning of GOV e2 of the upper layer, the head of P e5 is decoded using the decoded image of P b5 of GOV b1 of the lower layer as a reference picture Therefore, it is necessary to decode Pb5 . However, P b5 is the lower layer G
This is the VOP that constitutes OV b1 (the last displayed VOP). Therefore, to decode P b5 , it is necessary to sequentially decode the VOPs that constitute GOV b1 . Until the P 65 is decoded, not possible to decode the P e5 upper layer using the P 65 as a reference picture, fast random access is difficult.
【0216】このようなことは、時間スケーラビリティ
の場合も、同様に生ずる。Such a situation also occurs in the case of time scalability.
【0217】即ち、いま、図40に示すように、b1,
b2,b3,b4,b5,・・・で表されるVOPで構成さ
れる下位レイヤと、e1,e2,e3,e4,e5,e6,e
7,e8,・・・で表されるVOPで構成される上位レイ
ヤとからなる符号化ビットストリームを考える。なお、
e1,b1,e2,b2,e3,e4,b3,e5,e6,b4,
e7,e8,b5,・・・が、一連の画像シーケンスを構
成しており、図40では、そのような画像シーケンスか
ら、b1,b2,b3,b4,b5,・・・が抽出されて下
位レイヤが構成され、 e1,e2,e3,e4,e5,
e6,e7,e8,・・・が抽出されて上位レイヤが構成
されている。That is, as shown in FIG. 40, b 1 ,
.., and e 1 , e 2 , e 3 , e 4 , e 5 , e 6 , e, and lower layers composed of VOPs represented by b 2 , b 3 , b 4 , b 5 ,.
7, e 8, consider a coded bit stream of the upper layer composed of a VOP represented by .... In addition,
e 1 , b 1 , e 2 , b 2 , e 3 , e 4 , b 3 , e 5 , e 6 , b 4 ,
e 7 , e 8 , b 5 ,... constitute a series of image sequences, and in FIG. 40, from such image sequences, b 1 , b 2 , b 3 , b 4 , b 5 ,. Are extracted to form a lower layer, e 1 , e 2 , e 3 , e 4 , e 5 ,
e 6 , e 7 , e 8 ,... are extracted to form an upper layer.
【0218】そして、図40では、下位レイヤのb1乃
至b3がGOVb1を、b4乃至b6がGOVb2を、それぞ
れ構成しており、上位レイヤのe1乃至e3がGOV
e1を、e4乃至e6がGOVe2を、e7乃至e9がGOVe3
を、それぞれ構成している。即ち、下位レイヤおよび上
位レイヤの両方とも、3つのVOPごとにGOVが構成
されている。なお、e1はb1を、e2およびe3はb
2を,e4およびe5はb3を,e 6およびe7はb4を,e8
はb5を、それぞれ参照画像として用いている。In FIG. 40, b in the lower layer1No
To bThreeIs GOVb1And bFourOr b6Is GOVb2Each
And the upper layer e1Or eThreeIs GOV
e1To eFourOr e6Is GOVe2To e7Or e9Is GOVe3
, Respectively. That is, lower layer and upper
GOV is configured for every three VOPs in both layers
Have been. Note that e1Is b1To eTwoAnd eThreeIs b
TwoTo eFourAnd eFiveIs bThreeTo e 6And e7Is bFourTo e8
Is bFiveAre used as reference images.
【0219】この場合において、例えば、上位レイヤの
GOVe2の先頭にランダムアクセスするとしたとき、そ
の先頭のe4は、下位レイヤのGOVb1のb3の復号画像
を参照画像として用いて復号されるから、まずは、b3
を復号する必要がある。しかしながら、b3は、下位レ
イヤのGOVb1を構成するVOP(最後に表示されるV
OP)であり、従って、e4を復号するには、GOVb1
を構成するVOPを順次復号する必要がある。そして、
b3を復号するまでの間は、ランダムアクセスする目的
である上位レイヤのe4を復号することができないか
ら、やはり、迅速なランダムアクセスが困難となる。[0219] In this case, for example, when a random access to the beginning of GOV e2 of the upper layer, the head of the e 4 is decoded using the decoded image of b 3 of GOV b1 of the lower layer as a reference picture First, b 3
Need to be decrypted. However, b 3 is displayed on the VOP (last constituting the GOV b1 of the lower layer V
A OP), therefore, in order to decode the e 4 is, GOV b1
Must be sequentially decoded. And
until the decode b 3 is not possible to decode the e 4 of the upper layer is a purpose of the random access again, rapid random access is difficult.
【0220】そこで、下位レイヤのGOVの最初に表示
されるVOPの表示時刻と同時刻またはその直後に表示
される上位レイヤのVOPが、上位レイヤのGOVの最
初に表示されるものとなるように、上位レイヤを、GO
Pに分けるようにする。このようにすることで、上位レ
イヤと下位レイヤとのGOVが1対1に対応することにな
り、迅速なランダムアクセスが妨げられることを防止す
ることができる。Therefore, the VOP of the upper layer displayed at the same time as or immediately after the display time of the VOP displayed first of the GOV of the lower layer is set so as to be displayed first of the GOV of the upper layer. , Upper layer, GO
Divide into P. By doing so, the GOV between the upper layer and the lower layer has a one-to-one correspondence, and it is possible to prevent rapid random access from being hindered.
【0221】即ち、例えば、図39に示した場合と同様
に、上位レイヤおよび下位レイヤが構成される場合にお
いて、下位レイヤのPb5が、最初に表示されるVOPと
なるように、下位レイヤのGOVを構成したときには、
図41に示すように、そのP b5の表示時刻と同時刻に表
示される上位レイヤのPe5が最初に表示されるVOPと
なるように、上位レイヤのGOVを構成する。また、例
えば、下位レイヤのP b10が、最初に表示されるVOP
となるように、下位レイヤのGOVを構成したときに
も、図41に示すように、そのPb10の表示時刻と同時
刻に表示される上位レイヤのPe10が最初に表示される
ものとなるように、上位レイヤのGOVを構成する。That is, for example, the same as in the case shown in FIG.
If upper and lower layers are configured,
And the lower layer Pb5Is the first VOP displayed
So that the lower layer GOV is configured as
As shown in FIG. b5At the same time as
P of the upper layer showne5Is the first VOP displayed
Thus, the GOV of the upper layer is configured. Also examples
For example, P in the lower layer b10Is the first displayed VOP
When the lower layer GOV is configured so that
Also, as shown in FIG.b10At the same time as the display time
P of the upper layer displayed at the momente10Appears first
The upper layer GOV is configured so that
【0222】さらに、例えば、図40に示した場合と同
様に、上位レイヤおよび下位レイヤが構成される場合に
おいて、下位レイヤのb2が、最初に表示されるVOP
となるように、下位レイヤのGOVを構成したときに
は、図42に示すように、そのb2の表示時刻の直後に
表示される上位レイヤのe3が最初に表示されるVOP
となるように、上位レイヤのGOVを構成する。また、
例えば、下位レイヤのb4が、最初に表示されるVOP
となるように、下位レイヤのGOVを構成したときに
は、図42に示すように、そのb4の表示時刻の直後に
表示される上位レイヤのe7が最初に表示されるVOP
となるように、上位レイヤのGOVを構成する。[0222] Further, for example, VOP in the same manner as shown in FIG. 40, when the upper layer and the lower layer is formed, the lower layer b 2 is initially displayed
As will be, VOP when configuring the GOV of the lower layer, as shown in FIG. 42, the upper layer of e 3 that appears immediately after the display time of the b 2 is first displayed
The GOV of the upper layer is configured so that Also,
For example, VOP b 4 of the lower layer is to be displayed first
As will be, VOP when configuring the GOV of the lower layer, as shown in FIG. 42, the upper layer of e 7 that appears immediately after the display time of the b 4 is first displayed
The GOV of the upper layer is configured so that
【0223】なお、GOVについては、GOVヘッダが各GOV
毎に符号化されるが、そのエンコード結果は、GOVの中
で最初に符号化/復号されるVOPの直前に配置される。
そして、GOVヘッダのtime_codeとしては、GOVの中で最
初に表示されるVOPの表示時刻が秒精度でエンコードさ
れる。[0223] For the GOV, the GOV header is
It is encoded every time, but the encoding result is placed immediately before the VOP to be encoded / decoded first in the GOV.
As the time_code of the GOV header, the display time of the VOP displayed first in the GOV is encoded with second precision.
【0224】従って、図41において、例えば、Pb5が
最初に表示される下位レイヤのGOVのGOVヘッダに配
置されるtime_codeは、そのPb5の表示時刻の秒精度と
なり、Pe5が最初に表示される上位レイヤのGOVのGO
Vヘッダに配置されるtime_codeは、Pe5の表示時刻の秒
精度となる。そして、図41では、Pb5とPe5の表示時
刻は同一であり、よって、Pb5が最初に表示される下位
レイヤのGOVのGOVヘッダに配置されるtime_codeと、
Pe5が最初に表示される上位レイヤのGOVのGOVヘッ
ダに配置されるtime_codeも同一の値となる。[0224] Thus, in FIG. 41, for example, time_code becomes a second resolution of the display time of the P b5, first displayed P e5 to P b5 is placed GOV header of GOV of the lower layer to be displayed first GOV GO of upper layer
Time_code placed in V header, the second resolution of the display time of P e5. Then, in FIG. 41, the display time of P b5 and P e5 are the same, therefore, the time_code of P b5 is initially placed in the GOV header of the GOV of the lower layer to be displayed,
Time_code of P e5 is initially placed in the GOV header of a GOV of the high-level layer to be displayed the same value.
【0225】また、図42において、例えば、b2が最
初に表示される下位レイヤのGOVのGOVヘッダに配置
されるtime_codeは、b2の表示時刻の秒精度となり、e
3が最初に表示される上位レイヤのGOVのGOVヘッダに
配置されるtime_codeは、e3の表示時刻の秒精度とな
る。In FIG. 42, for example, the time_code placed in the GOV header of the GOV of the lower layer in which b 2 is displayed first is the second precision of the display time of b 2 ,
Time_code of 3 is placed first in the GOV header of a GOV of the high-level layer to be displayed, the second resolution of the display time of e 3.
【0226】次に、下位レイヤのGOVを構成する処理
(GOVヘッダの挿入処理)は、図9に示した下位レイ
ヤ符号化部25のVLC器36(以下、適宜、下位VL
C器36という)において、また、下位レイヤのGOV
の最初に表示されるVOPの表示時刻と同時刻またはそ
の直後に表示される上位レイヤのVOPが、上位レイヤ
のGOVの最初に表示されるものとなるように、上位レ
イヤのGOPを構成する処理は、図10に示した上位レ
イヤ符号化部23のVLC器36(以下、適宜、上位V
LC器36という)において、それぞれ行われるように
なされている。Next, the process of constructing the GOV of the lower layer (the process of inserting the GOV header) is performed by the VLC unit 36 (hereinafter referred to as the lower VL as appropriate) of the lower layer encoder 25 shown in FIG.
C unit 36) and the lower layer GOV
Of the upper layer GOP so that the upper layer VOP displayed at the same time as or immediately after the display time of the first displayed VOP becomes the first displayed VOP of the upper layer GOV. Is the VLC unit 36 (hereinafter referred to as “upper V” as appropriate) of the upper layer encoder 23 shown in FIG.
LC unit 36).
【0227】そこで、図43または図44のフローチャ
ートを参照して、下位VLC器36または上位VLC器
36が行うGOVの構成処理について説明する。The GOV configuration process performed by the lower VLC unit 36 or the upper VLC unit 36 will be described with reference to the flowchart of FIG. 43 or 44.
【0228】まず、図43のフローチャートを参照し
て、下位VLC器36によるGOVの構成処理について
説明する。First, with reference to the flowchart of FIG. 43, the process of configuring the GOV by the lower VLC unit 36 will be described.
【0229】下位VLC器36では、まず最初に、ステ
ップS1において、いま処理の対象となっている下位レ
イヤのVOPのデータが、GOVの中で最初にエンコー
ドされたものであるかどうかが判定され、最初にエンコ
ードされたものでないと判定された場合、次の下位レイ
ヤのVOPのデータが供給されるのを待って、ステップ
S1に戻る。また、ステップS1において、処理の対象
となっている下位レイヤのVOPのデータが、GOVの
中で最初にエンコードされたものであると判定された場
合、ステップS2に進み、その最初にエンコードされた
VOPのデータの前に、GOVヘッダが挿入され、ステ
ップS3に進む。ステップS3では、下位レイヤにGO
Vヘッダを挿入した旨のGOVヘッダ挿入信号が、その
下位レイヤのGOVの中で最初に表示されるVOPの表
示時刻とともに、上位VLC器36に出力され、次の下
位レイヤのVOPのデータが供給されるのを待って、ス
テップS1に戻る。In the lower VLC unit 36, first, in step S1, it is determined whether or not the data of the VOP of the lower layer being processed is the first encoded data in the GOV. If it is determined that the data is not the first encoded one, the process returns to step S1 after waiting for the supply of the data of the next lower layer VOP. If it is determined in step S1 that the VOP data of the lower layer to be processed is the first encoded data in the GOV, the process proceeds to step S2, and the first encoded data is processed. A GOV header is inserted before the data of the VOP, and the process proceeds to step S3. In step S3, GO is assigned to the lower layer.
A GOV header insertion signal indicating that the V header has been inserted is output to the upper VLC unit 36 together with the display time of the first VOP displayed in the lower layer GOV, and data of the next lower layer VOP is supplied. Then, the process returns to step S1.
【0230】次に、図44のフローチャートを参照し
て、上位VLC器によるGOVの構成処理について説明
する。Next, a description will be given, with reference to the flowchart in FIG. 44, of the GOV configuration processing by the upper VLC unit.
【0231】上位VLC器36では、まず最初に、ステ
ップS11において、下位VLC器36から、GOVヘ
ッダ挿入信号が送信されてきたかどうかが判定され、送
信されてきていないと判定された場合、ステップS11
に戻る。また、ステップS11において、GOVヘッダ
挿入信号が送信されてきたと判定された場合、ステップ
S12に進み、そのGOVヘッダ挿入信号とともに送信
されてくる、下位レイヤのGOVの中で最初に表示され
るVOPの表示時刻が認識される。さらに、ステップS
12において、その表示時刻と同時刻またはその直後に
表示される上位レイヤのVOPが、上位レイヤのGOP
の最初に表示されるものとなるように、GOVヘッダ
が、符号化ビットストリームに挿入され、ステップS1
1に戻る。In the upper VLC unit 36, first, in step S11, it is determined whether or not the GOV header insertion signal has been transmitted from the lower VLC unit 36. If it is determined that the GOV header insertion signal has not been transmitted, the process proceeds to step S11.
Return to When it is determined in step S11 that the GOV header insertion signal has been transmitted, the process proceeds to step S12, in which the first displayed VOP of the lower layer GOV transmitted with the GOV header insertion signal is transmitted. The display time is recognized. Further, step S
In 12, the VOP of the upper layer displayed at or immediately after the display time is the GOP of the upper layer.
Is inserted into the coded bitstream so that it is displayed first in step S1.
Return to 1.
【0232】なお、図13のデコーダでは、ランダムア
クセスが指令された場合、符号化ビットストリームの中
のGOVヘッダに配置されたtime_code、並びにVOP
ヘッダに配置されたmodulo_time_baseおよびVOP_time_i
ncrementを用いて、上述したように、ランダムアクセス
すべきVOPの表示時刻が求められ、その表示時刻に基
づき、ランダムアクセスが行われる。In the decoder of FIG. 13, when random access is instructed, time_code and VOP placed in the GOV header in the encoded bit stream
Modulo_time_base and VOP_time_i located in header
As described above, the display time of the VOP to be randomly accessed is obtained using ncrement, and random access is performed based on the display time.
【0233】次に、MPEG4では、下位レイヤおよび
上位レイヤを構成するVOPのピクチャタイプのシーケ
ンス(ピクチャストラクチャ)については、特に規定さ
れていない。[0233] Next, in MPEG4, a sequence (picture structure) of a picture type of a VOP constituting the lower layer and the upper layer is not particularly specified.
【0234】そこで、図1のエンコーダでは、例えば、
符号化対象の画像を構成するオブジェクトのシーケンス
を、空間スケーラビリティを実現するための、例えば、
下位レイヤと上位レイヤなどの2以上の階層に階層化し
た場合には、上位レイヤのVOPを、その表示順序と同
一の順序で符号化するようになされている。In the encoder of FIG. 1, for example,
For realizing spatial scalability, a sequence of objects constituting an image to be encoded is, for example,
When hierarchized into two or more layers, such as a lower layer and an upper layer, the VOPs of the upper layer are encoded in the same order as the display order.
【0235】即ち、図45は、空間スケーラブル符号化
における上位レイヤと下位レイヤのピクチャストラクチ
ャを示している。なお、図45においては、下位レイヤ
の、表示順で#i番目のI−VOP,P−VOP、また
はB−VOPを、それぞれ、Ibi,Pbi、またはBbiと
それぞれ表し、上位レイヤの、表示順で#i番目のP−
VOPまたはB−VOPを、それぞれ、PeiまたはBei
とそれぞれ表してある。FIG. 45 shows the picture structure of the upper layer and the lower layer in the spatial scalable coding. In FIG. 45, the # i-th I-VOP, P-VOP, or B-VOP in the display order of the lower layer is represented as Ibi , Pbi , or Bbi , respectively, and the upper layer is represented by Ibi , Pbi , or Bbi . , # I-th P-
The VOP or B-VOP, respectively, P ei or B ei
Respectively.
【0236】図45では、I−VOPである下位レイヤ
のIb3が、最初に符号化/復号される。その後、この下
位レイヤのIb3を参照画像として用い、下位レイヤの最
初に表示されるBb1が符号化/復号される。空間スケー
ラブル符号化の上位レイヤのVOPは、基本的に、同時
刻に表示される下位レイヤのVOPが参照画像として用
いられるため、下位レイヤのBb1の符号化/復号後は、
それを参照画像として用いる上位レイヤのBe1が符号化
/復号される。続いて、下位レイヤの2番目に表示され
るBb2が、既に符号化/復号されている下位レイヤのI
b3を参照画像として符号化/復号され、その同時刻に表
示される上位レイヤであるBe2が、下位レイヤのBb2と、
上位レイヤのBe1を参照画像として符号化/復号され
る。[0236] In Figure 45, I b3 of the lower layer is I-VOP is encoded / decoded first. Then, using the I b3 of the lower layer as a reference picture, B b1 are first displayed in the lower layer is encoded / decoded. Since the lower layer VOP displayed at the same time is basically used as the reference image for the VOP of the upper layer of spatial scalable coding, after encoding / decoding of B b1 of the lower layer,
Be1 of the upper layer using this as a reference image is encoded / decoded. Next, B b2 displayed second in the lower layer is the I / O of the lower layer that has already been encoded / decoded.
b3 encoded / decoded as a reference image, B e2 which is an upper layer to be displayed on the same time, the B b2 of the lower layer,
Encoding / decoding is performed using the upper layer Be1 as a reference image.
【0237】そして、上位レイヤのPe3が、下位レイヤ
のIb3を参照画像として用いて符号化/復号される。そ
の後、下位レイヤBb4の符号化/復号のための参照画像
となる下位レイヤのPb6が符号化/復号され、その下位
レイヤのPb6と、同じく下位レイヤのIb3を参照画像と
して用いて、下位レイヤのBb4が符号化/復号される。
そして、その下位レイヤのBb4と、上位レイヤのPe3を
参照画像として用いて、上位レイヤのBe4が符号化/復
号される。Then, the upper layer Pe3 is encoded / decoded using the lower layer Ib3 as a reference image. Thereafter, P b6 of the lower layer as a reference picture for encoding / decoding of the lower layer B b4 is encoded / decoded, and P b6 of the lower layer, again using I b3 of the lower layer as a reference picture , The lower layer B b4 is encoded / decoded.
Then, using the lower layer B b4 and the upper layer P e3 as reference images, the upper layer Be 4 is encoded / decoded.
【0238】その後、下位レイヤのBb5が、下位レイヤ
のIb3およびPb6を参照画像として符号化/復号され、
その下位レイヤのBb5と、上位レイヤのBe4を参照画像
として、上位レイヤのBe5が符号化/復号される。そし
て、下位レイヤのPb6は、既に符号化/復号されている
ので、その下位レイヤのPb6と、上位レイヤのBe5を参
照画像として、上位レイヤのBe6が符号化/復号され
る。Thereafter, B b5 of the lower layer is encoded / decoded using I b3 and P b6 of the lower layer as reference images, and
Using the lower layer B b5 and the upper layer Be 4 as reference images, the upper layer Be 5 is encoded / decoded. Then, P b6 of lower layer, because it is already coded / decoded, a P b6 of the lower layer, as a reference image B e5 of the upper layer, B e6 pertaining to the high-level layer is encoded / decoded.
【0239】その後、下位レイヤのBb7の参照画像とし
て用いられる下位レイヤのPb9が符号化/復号され、そ
の下位レイヤのPb9と、同じく下位レイヤのPb6を参照
画像として、下位レイヤのBb7が符号化/復号される。
続いて、その下位レイヤのB b7と、上位レイヤのBe6を
参照画像として、上位レイヤのBe7が符号化/復号さ
れ、既に符号化/復号されている下位レイヤのPb6およ
びPb9を参照画像として、下位レイヤのBb8が符号化/
復号される。そして、その下位レイヤのBb8と、上位レ
イヤのBe7を参照画像として、上位レイヤのBe8が符号
化/復号され、その上位レイヤのBe8と、下位レイヤの
Pb9を参照画像として、上位レイヤのBe9が符号化/復
号される。Thereafter, the lower layer Bb7As a reference image
P of lower layer usedb9Is encoded / decoded,
P of lower layer ofb9And the lower layer Pb6See
As an image, B of lower layerb7Are encoded / decoded.
Then, B of the lower layer b7And B in the upper layere6To
As a reference image, B of the upper layere7Is encoded / decoded
And the P of the lower layer that has already been encoded / decodedb6And
And Pb9Is used as a reference image, and B in the lower layerb8Is encoded /
Decrypted. And B of the lower layerb8And
Ear Be7Is used as a reference image, and B in the upper layere8Is the sign
Be8And the lower layer
Pb9Is used as a reference image, and B in the upper layere9Is encoding / decoding
No.
【0240】従って、下位レイヤに注目すれば、Bb1,
Bb2,Ib3,Bb4,Bb5,Pb6,B b7,Bb8,Pb9の順
で表示されるVOPが、Ib3,Bb1,Bb2,Pb6,
Bb4,B b5,Pb9,Bb7,Bb8の順で符号化/復号され
ていく。Therefore, if attention is paid to the lower layer, Bb1,
Bb2, Ib3, Bb4, Bb5, Pb6, B b7, Bb8, Pb9Order
The VOP indicated byb3, Bb1, Bb2, Pb6,
Bb4, B b5, Pb9, Bb7, Bb8Are encoded / decoded in the order
To go.
【0241】一方、上位レイヤに注目した場合には、B
e1,Be2,Pe3,Be4,Be5,Be6,Be7,Be8,Be9
の順で表示されるVOPが、やはり、Be1,Be2,
Pe3,B e4,Be5,Be6,Be7,Be8,Be9の順で符号
化/復号されていく。即ち、上位レイヤのVOPは、そ
の表示順序と同一の順序で符号化/復号される。On the other hand, when attention is paid to the upper layer, B
e1, Be2, Pe3, Be4, Be5, Be6, Be7, Be8, Be9
Is displayed in the order ofe1, Be2,
Pe3, B e4, Be5, Be6, Be7, Be8, Be9Sign in the order
And decrypted. That is, the VOP of the upper layer is
Are encoded / decoded in the same order as the display order.
【0242】このように、上位レイヤのVOPを、その
表示順序と同一の順序で符号化/復号するようにした場
合には、表示順序と異なる順序で符号化/復号を行う場
合に比較して、処理の容易化を図ることができる。As described above, when the VOPs of the upper layer are encoded / decoded in the same order as the display order, the VOPs are encoded / decoded in a different order from the display order. In addition, the processing can be facilitated.
【0243】ここで、空間スケーラブル符号化を行う場
合でも、図1のエンコーダ/図13のデコーダには、図
45に示したピクチャストラクチャと異なるピクチャス
トラクチャを対象に、符号化/復号を行わせることが可
能である。即ち、図1のエンコーダ/図13のデコーダ
に符号化/復号を行わせるピクチャストラクチャは、図
45に示したものに限定されるものではない。同様に、
参照関係や符号化/復号順序も、図45に示したものに
限定されるものではない。Here, even when spatial scalable encoding is performed, the encoder / decoder shown in FIG. 1 can perform encoding / decoding on a picture structure different from the picture structure shown in FIG. 45. Is possible. That is, the picture structure that causes the encoder in FIG. 1 / the decoder in FIG. 13 to perform encoding / decoding is not limited to that shown in FIG. Similarly,
The reference relation and the encoding / decoding order are not limited to those shown in FIG.
【0244】なお、図45に示した参照関係は、MPE
G4のref_select_codeで規定される参照関係を満たす
ものである。また、空間スケーラブル符号化を行う場合
に、上位レイヤのVOPを、その表示順序と同一の順序
で符号化/復号する手法は、GOVの有無にかかわらず
適用可能である。Note that the reference relationship shown in FIG.
This satisfies the reference relationship defined by ref_select_code of G4. In addition, when performing spatial scalable encoding, a method of encoding / decoding upper layer VOPs in the same order as the display order is applicable regardless of the presence or absence of GOV.
【0245】ところで、図45に示したピクチャストラ
クチャにおいては、上位レイヤの3番目に表示されるP
e3の後に表示されるVOPは、すべてB−VOPになっ
ている。By the way, in the picture structure shown in FIG. 45, the P displayed in the third upper layer
The VOPs displayed after e3 are all B-VOPs.
【0246】一方、VOPの表示時刻は、VOPヘッダのmodu
lo_time_base,VOP_time_incrementに基づき、GOVヘッ
ダのtime_code、または直前に表示されるI/P-VOPのmodu
lo_time_baseによって示される同期点を基準として求め
られる(但し、直前に表示されたI/P-VOPのmodulo_time
_baseによって示される同期点、即ち、直前に表示され
たI/P-VOPの秒精度の表示時刻も、元をたどれば、GOVヘ
ッダのtime_codeによって示される同期点を基準として
求められるから、すべてのVOPの表示時刻は、結局は、G
OVヘッダのtime_codeによって示される同期点を基準と
して求められるということができる)。[0246] On the other hand, the display time of the VOP corresponds to the modu of the VOP header.
Based on lo_time_base and VOP_time_increment, time_code of GOV header or modu of I / P-VOP displayed immediately before
It is calculated based on the synchronization point indicated by lo_time_base (however, modulo_time of the I / P-VOP displayed immediately before
Since the synchronization point indicated by _base, that is, the display time with the second precision of the I / P-VOP displayed immediately before can also be obtained based on the synchronization point indicated by time_code of the GOV header, The display time of the VOP is, after all, G
It can be said that it is obtained based on the synchronization point indicated by the time_code of the OV header).
【0247】従って、図45の下位レイヤについては、
Bb1,Bb2,Ib3の表示時刻は、GOVヘッダのtime_code
を、Bb4,Bb5,Pb6の表示時刻は、その直前に表示され
るIb3の秒精度の表示時刻を、Bb7,Bb8,Pb9の表示時刻
は、その直前に表示されるPb6の秒精度の表示時刻を、
それぞれ用いて計算される。Accordingly, for the lower layer in FIG.
The display time of B b1 , B b2 , I b3 is the time_code of the GOV header
, The display time of B b4 , B b5 , and P b6 is the display time of the second precision of I b3 displayed immediately before it, and the display time of B b7 , B b8 , and P b9 is displayed immediately before that The display time of the second precision of P b6 ,
It is calculated using each.
【0248】一方、図45の上位レイヤについては、B
e1,Be2,Pe3の表示時刻は、GOVヘッダのtime_codeを用い
て計算される。そして、Pe3の後に表示されるVOPは、
上述したように、すべてB−VOPであるから、そのB
−VOPの表示時刻は、直前に表示されるPe3の秒精度
の表示時刻を用いて計算される。その結果、Pe3の後に
表示されるB-VOPのmodulo_time_baseのビット数が増大
し、符号化効率が劣化することになる。On the other hand, for the upper layer in FIG.
e1, the display time of B e2, P e3 is calculated using the time_code of the GOV header. Then, VOP to be displayed after P e3 is,
As described above, since all are B-VOPs,
Display time of -VOP is calculated using the display time of one-second resolution of P e3 displayed immediately before. As a result, the number of bits of the modulo_time_base of B-VOP is displayed is increased after P e3, coding efficiency is degraded.
【0249】即ち、注目している注目VOPのmodulo_time
_baseは、最下位ビットに0を配置し、その上位ビット
に、直前に表示されるI/P-VOPの表示時刻の秒精度と、
注目VOPの表示時刻の秒精度との差分と同一の数の1を
配置して構成される。従って、modulo_time_baseは、I/
P-VOPがあると、その後に、いわば”0”にリセットさ
れ、これにより、そのビット数の増大の防止が図られて
いる。That is, the modulo_time of the noted VOP of interest
_base arranges 0 in the least significant bit, and in the upper bit, the second precision of the display time of the I / P-VOP displayed immediately before,
The same number of 1s as the difference between the display time of the target VOP and the second precision is arranged. Therefore, modulo_time_base is
If there is a P-VOP, it is reset to "0", so to speak, thereby preventing an increase in the number of bits.
【0250】しかしながら、図45に示した上位レイヤ
については、Pe3の後に表示されるVOPは、すべてB−
VOPであるから、modulo_time_baseのリセットが行わ
れず、そのビット数が増大することになる。However, for the upper layer shown in FIG. 45, all VOPs displayed after Pe3 are B-
Since this is a VOP, the modulo_time_base is not reset, and the number of bits increases.
【0251】具体的には、図46に示すように、下位レ
イヤについては、Ib3,Pb6,Pb6それぞれの後におい
て、modulo_time_baseは、”0”にリセットされる。そ
して、Ib3の後のBb4、Pb6の後のBb7、またはPb6の
後のBb10については、Ib3,Pb6,Pb6から、Bb4,
Bb7,Bb10までのそれぞれの表示間隔の秒精度に対応
した数の”1”が、”0”にリセットされたmodulo_tim
e_baseの上位ビットに付される(図46では、Ib3,P
b6,Pb6から、Bb4,Bb7,Bb10までのそれぞれの表
示間隔は、いずれも1秒未満であるため、それぞれのmo
dulo_time_baseは、”0”の上位ビットとして0個の”
1”が付された”0”となっている)。[0251] Specifically, as shown in FIG. 46, the lower layer, after each I b3, P b6, P b6 , modulo_time_base is reset to "0". Then, the B b7 or B b10 after P b6, after B b4, P b6 after I b3 is, I b3, P b6, from P b6, B b4,
The modulo_tim in which the number “1” corresponding to the second precision of each display interval up to B b7 and B b10 is reset to “0”
It is added to the upper bits of e_base (in FIG. 46, I b3 , P
Since the display intervals from b6 and Pb6 to Bb4 , Bb7 and Bb10 are all less than 1 second, the respective mo
dulo_time_base is the number of “0” as upper bits of “0”.
"0" to which "1" is added).
【0252】これに対して、上位レイヤについては、P
e3の後において、modulo_time_baseが”0”にリセット
された後は、Pe3の秒精度の表示時刻を基準とした秒精
度の表示時刻が、1秒増加するごとに、VOPに付されるm
odulo_time_baseも、1ビットずつ増加していく。その
結果、図46に示すように、Pe3の後においてmodulo_t
ime_baseが”0”にリセットされた後、その後に表示さ
れるBe4,Be5,Be6,Be7,Be8,Be9,Be10のmod
ulo_time_baseは、それぞれ"0","10","10","110","11
0","1110","1110"となり、そのビット数が増大してい
く。On the other hand, for the upper layer, P
In After e3, after modulo_time_base is reset to "0", S S display time accuracy of the display time as a reference accuracy P e3 are each increase of 1 sec, subjected to VOP m
odulo_time_base also increases by one bit. As a result, as shown in FIG. 46, after P e3 , modulo_t
After ime_base is reset to "0", B e4, the subsequently displayed B e5, B e6, B e7 , B e8, mod of B e9, B e10
ulo_time_base is "0", "10", "10", "110", "11
0 "," 1110 "," 1110 ", and the number of bits increases.
【0253】そこで、例えば、図45に示したように、
空間スケーラブル符号化において、上位レイヤの符号化
/復号が表示順序と同一順序で行われる場合には、上位
レイヤのB-VOPの後においても、modulo_time_baseを”
0”にリセットし、そのB-VOPと、次に表示されるVOPと
の秒精度の表示時刻の差分と同一の数の”1”を、”
0”の上位ビットとして付加して、次に表示されるVOP
のmodulo_time_baseを構成するようにする。この場合、
上位レイヤのVOPの表示時刻は、そのVOPの直前に表示さ
れるVOP(I,P,BのいずれのVOPであっても良い)の
秒精度の表示時刻を基準にして計算されることになる。
なお、注目VOPの前に表示されるVOPが存在しない場合、
即ち、注目VOPが、GOVにおいて、最初に表示されるV
OPである場合には、その直線に表示されるVOPは存在し
ないため、この最初に表示されるVOPについては、例え
ば、time_codeを基準として、modulo_time_baseの構
成、および表示時刻の計算を行うこととする。Therefore, for example, as shown in FIG.
In the spatial scalable coding, when the encoding / decoding of the upper layer is performed in the same order as the display order, the modulo_time_base is set to "" even after the B-VOP of the upper layer.
0 ”, and the same number of“ 1 ”as the difference between the display time of the B-VOP and the next displayed VOP with the second precision,
VOP to be displayed next by adding it as upper bits of 0 "
Make up modulo_time_base. in this case,
The display time of the VOP of the upper layer is calculated based on the display time of the second precision of the VOP (which may be any one of I, P, and B) displayed immediately before the VOP. .
If there is no VOP displayed before the VOP of interest,
That is, the target VOP is the first V displayed in the GOV.
In the case of the OP, since there is no VOP displayed on the straight line, for the first displayed VOP, for example, the configuration of the modulo_time_base and the calculation of the display time are calculated based on the time_code. .
【0254】図47は、modulo_time_baseの構成方法お
よびVOPの表示時刻の計算方法を、上述のように変更し
た場合における、図45に示したピクチャストラクチャ
のmodulo_time_baseを示している。FIG. 47 shows the modulo_time_base of the picture structure shown in FIG. 45 when the method of configuring modulo_time_base and the method of calculating the display time of the VOP are changed as described above.
【0255】この場合、上位レイヤの最初に表示される
Be1については、その表示時刻の秒精度(図47では、0
h:12m:34s)と、time_code(図47では、0h:12m:34s)
との差分が0となるから、そのmodulo_time_baseは、”
0”に、0個の”1”を付加した”0”となる。Be2に
ついても、その表示時刻の秒精度(図47では、0h:12
m:34s)と、その直前に表示されるBe1の表示時刻の秒
精度(図47では、0h:12m:34s)との差分が0となるか
ら、そのmodulo_time_baseは、”0”に、0個の”1”
を付加した”0”となる。Pe3については、その表示時
刻の秒精度(図47では、0h:12m:35s)と、その直前に
表示されるBe2の表示時刻の秒精度(図47では、0h:1
2m:34s)との差分が1となるから、そのmodulo_time_ba
seは、”0”に、1個の”1”を付加した”10”とな
る。Be4については、その表示時刻の秒精度(図47で
は、0h:12m:35s)と、その直前に表示されるPe3の表示
時刻の秒精度(図47では、0h:12m:35s)との差分が0
となるから、そのmodulo_time_baseは、”0”に、0個
の”1”を付加した”0”となる。即ち、Be4の表示時
刻の秒精度と、その直前に表示されるPe3の表示時刻の
秒精度との差分が1秒に満たないため、いわば、Be4に
おいて、modulo_time_baseはリセットされる。In this case, the upper layer is displayed first.
For B e1 , the second accuracy of the display time (0 in FIG. 47)
h: 12m: 34s) and time_code (0h: 12m: 34s in FIG. 47)
Is 0, so the modulo_time_base is "
"A, 0 for" 0 for even .B e2 becomes "obtained by adding" 1 0 ", the second resolution (Figure 47 of the display time, 0h: 12
m: a 34s), the second resolution (Figure 47 the display time of B e1 displayed immediately before, 0h: 12m: from the difference between the 34s) is 0, the modulo_time_base is, "0", 0 Pieces of "1"
Is added to “0”. Regarding Pe3 , the second precision of the display time (0h: 12m: 35s in FIG. 47) and the second precision of the display time of Be2 displayed immediately before (0h: 1 in FIG. 47).
2m: 34s) is 1, so the modulo_time_ba
se is “10” obtained by adding one “1” to “0”. For Be4 , the second accuracy of the display time (0h: 12m: 35s in FIG. 47) and the second accuracy of the display time of Pe3 displayed immediately before (0h: 12m: 35s in FIG. 47) Is 0
Therefore, the modulo_time_base becomes “0” obtained by adding zero “1” to “0”. That is, since the difference between the seconds accuracy of the display time of B e4, the second resolution of the display time of P e3 displayed immediately before is less than 1 second, so to speak, in the B e4, modulo_time_base is reset.
【0256】Be5については、その表示時刻の秒精度
(図47では、0h:12m:36s)と、その直前に表示される
Be4の表示時刻の秒精度(図47では、0h:12m:35s)と
の差分が1となるから、そのmodulo_time_baseは、”
0”に、1個の”1”を付加した”0”となる。Be6に
ついては、その表示時刻の秒精度(図47では、0h:12
m:36s)と、その直前に表示されるBe5の表示時刻の秒
精度(図47では、0h:12m:36s)との差分が0となるか
ら、そのmodulo_time_baseは、Be4における場合と同様
に、”0”にリセットされる。[0256] For B e5 is (in FIG. 47, 0h: 12m: 36s) seconds accuracy of the display time and, in second resolution (Figure 47 the display time of B e4 displayed immediately before, 0h: 12m: Since the difference from 35s) is 1, its modulo_time_base is "
It becomes “0” which is obtained by adding one “1” to “0.” For Be6 , the second precision of the display time (0h: 12 in FIG. 47)
m: a 36 s), the second resolution (Figure 47 the display time of B e5 to be displayed immediately before, 0h: 12m: from the difference between 36 s) is 0, the modulo_time_base is, similarly to the case of B e4 Is reset to "0".
【0257】以下、同様にして、Be7,Be8,Be9,Be10のmo
dulo_time_baseは、図47に示すように、それぞれ、"1
0","0","10","0"となる。[0257] In the same manner, B e7, B e8, B e9, mo of B e10
dulo_time_base is “1” as shown in FIG.
0 "," 0 "," 10 "," 0 ".
【0258】次に、modulo_time_baseを設定する処理
(modulo_time_base設定処理)は、下位レイヤまたは上
位レイヤそれぞれについて、図9に示した下位レイヤ符
号化部25のVLC器36(下位VLC器36)、また
は図10に示した上位レイヤ符号化部23のVLC器3
6(上位VLC器36)において、それぞれ行われるよ
うになされている。Next, the process of setting the modulo_time_base (modulo_time_base setting process) is performed for the lower layer or the upper layer by using the VLC unit 36 (lower VLC unit 36) of the lower layer encoding unit 25 shown in FIG. VLC unit 3 of the upper layer encoding unit 23 shown in FIG.
6 (upper VLC unit 36).
【0259】そこで、図48のフローチャートを参照し
て、上位VLC器36が行うmodulo_time_base設定処理
について説明する。The following describes the modulo_time_base setting processing performed by the upper VLC unit 36 with reference to the flowchart shown in FIG.
【0260】上位VLC器36では、いま処理の対象と
なっているVOPを注目VOPとして、ステップS21におい
て、その注目VOPと、直前に表示されるVOPとの秒精度の
表示時刻の差分Dが求められ、ステップS22に進み、
Dが0に等しいかどうかが判定される。ステップS22
において、Dが0に等しいと判定された場合、ステップ
S23に進み、modulo_time_baseが”0”にリセットさ
れ、ステップS28に進む。ステップS28では、”
0”にリセットされたmodulo_time_baseが、注目VOPに
設定され、次の処理対象となるVOPが供給されるのを待
って、ステップS21に戻る。In the upper VLC unit 36, the VOP currently being processed is set as the target VOP, and in step S21, a difference D between the target VOP and the VOP displayed immediately before is displayed with a second-accuracy display time. Proceeds to step S22,
It is determined whether D is equal to zero. Step S22
When it is determined that D is equal to 0, the process proceeds to step S23, modulo_time_base is reset to "0", and the process proceeds to step S28. In step S28, "
The modulo_time_base reset to "0" is set as the target VOP, and the process returns to step S21 after waiting for the supply of the next VOP to be processed.
【0261】一方、ステップS22において、Dが0に
等しくないと判定された場合、ステップS24に進み、
modulo_time_baseが”0”にリセットされる。そして、
ステップS25において、modulo_time_baseの最上位ビ
ットとして、”1”が追加され、ステップS26に進
む。ステップS26では、Dが1だけデクリメントさ
れ、ステップS27に進み、Dが0に等しいかどうかが
判定される。ステップS27において、Dが0に等しく
ないと判定された場合、ステップS25に戻り、以下、
ステップS27でDが0に等しいと判定されるまで、ス
テップS25乃至S27の処理が繰り返される。On the other hand, if it is determined in step S22 that D is not equal to 0, the process proceeds to step S24,
modulo_time_base is reset to “0”. And
In step S25, “1” is added as the most significant bit of modulo_time_base, and the process proceeds to step S26. In step S26, D is decremented by 1, and the process proceeds to step S27 to determine whether D is equal to 0. If it is determined in step S27 that D is not equal to 0, the process returns to step S25, and
Until it is determined in step S27 that D is equal to 0, the processing of steps S25 to S27 is repeated.
【0262】そして、ステップS27において、Dが0
に等しいと判定された場合、即ち、注目VOPと、直前に
表示されるVOPとの秒精度の表示時刻の差分と同一の数
の”1”が、”0”に付加されたmodulo_time_baseが構
成された場合、ステップS28に進み、そのmodulo_tim
e_baseが、注目VOPに設定され、次の処理対象となるVOP
が供給されるのを待って、ステップS21に戻る。Then, in step S27, D is set to 0.
Is determined, that is, modulo_time_base in which the same number of “1” as the difference between the display time of the second precision and the noticed VOP and the VOP displayed immediately before are added to “0” is formed. If so, the process proceeds to step S28, and the modulo_tim
e_base is set to the VOP of interest and the VOP to be processed next
, And returns to step S21.
【0263】なお、下位VLC器36では、図48のス
テップS21において、注目VOPと、直前に表示されるV
OP(I/P/B-VOP)との秒精度の表示時刻の差分ではな
く、注目VOPと、直前に表示されるI/P-VOPとの秒精度の
表示時刻の差分Dが求められることを除けば、上位VL
C器36と同様のmodulo_time_base設定処理が行われ
る。In the lower VLC unit 36, in step S21 in FIG. 48, the target VOP and the V
The difference D between the target VOP and the immediately preceding I / P-VOP displayed in second precision, not the difference in display time in second precision from the OP (I / P / B-VOP), is obtained. Except for the top VL
A modulo_time_base setting process similar to that of the C unit 36 is performed.
【0264】また、図13のデコーダでは、下位レイヤ
のVOPの表示時刻は、その直前に表示されるI/P-VOPの秒
精度の表示時刻(またはtime_code)を基準として求め
られるが、上位レイヤのVOPの表示時刻は、その直前に
表示されるVOP(I,P,Bを問わない)の秒精度の表
示時刻(またはtime_code)を基準として求められる。In the decoder of FIG. 13, the display time of the VOP of the lower layer is obtained with reference to the display time (or time_code) of the second precision of the I / P-VOP displayed immediately before, but the display time of the upper layer is The display time of the VOP is determined based on the display time (or time_code) with the second precision of the VOP (regardless of I, P, B) displayed immediately before.
【0265】ところで、図45に示した場合において
は、上位レイヤのBe1の符号化/復号は、同時刻に表示
される下位レイヤのBb1のみを参照画像として行われ
る。[0265] Incidentally, in the case shown in FIG. 45, the coding / decoding of B e1 pertaining to the high-level layer is carried out only B b1 of the lower layer to be displayed at the same time as a reference picture.
【0266】上位レイヤのBe1は、B-VOPであるが、B-V
OPは、通常、I/P-VOPよりも発生ビット量が少なくなる
ように符号化されるため、Be1の復号画像の画質は劣化
する可能性が高い。さらに、Be1の復号画像の画質が劣
化する場合には、そのBe1を参照画像として用いるBe2の
復号画像の画質も劣化する可能性が高い。即ち、図45
に示した場合では、上位レイヤにおいて、P-VOPである
Pe3が表示される前に表示されるB-VOPの画質は劣化す
る可能性が高い。The upper layer B e1 is a B-VOP, but the BV
OP is normally to be encoded so that fewer bits generated than I / P-VOP, the image quality of the decoded image of B e1 is likely to deteriorate. Furthermore, if the quality of the decoded image of B e1 deteriorates is likely to deteriorate image quality of the decoded image of B e2 using the B e1 as a reference picture. That is, FIG.
In the case shown in (2), the image quality of the B-VOP displayed before the P-VOP Pe3 is displayed in the upper layer is likely to deteriorate.
【0267】そこで、そのような画質の劣化を防止(低
減)するために、例えば、図45に示した、空間スケー
ラビリティを実現するピクチャストラクチャについて
は、その符号化/復号順序と参照関係を、例えば、図4
9に示すようにすることができる。In order to prevent (reduce) such image quality deterioration, for example, for a picture structure for realizing spatial scalability shown in FIG. , FIG.
As shown in FIG.
【0268】即ち、図49では、下位レイヤのI-VOPを
符号化/復号した場合には、上位レイヤにおいて、下位
レイヤのI-VOPの表示時刻と同時刻に表示されるP-VOP
が、下位レイヤのI-VOPの直後に符号化/復号される。That is, in FIG. 49, when the I-VOP of the lower layer is encoded / decoded, the P-VOP displayed in the upper layer at the same time as the display time of the I-VOP of the lower layer
Are encoded / decoded immediately after the lower layer I-VOP.
【0269】従って、図49に示した場合においては、
まず最初に、下位レイヤの最初に表示されるI-VOPであ
るIb3が符号化/復号される。そして、下位レイヤのIb3
と同時刻に表示される上位レイヤのP-VOPであるPe3が、
直前に符号化/復号されたIb 3を参照画像として用いて
符号化/復号される。Therefore, in the case shown in FIG. 49,
First, I b3 is I-VOP which is first displayed in the lower layer is encoded / decoded. And I b3 of the lower layer
P e3 which is the P-VOP of the upper layer displayed at the same time as
Is encoded / decoded using encoded / decoded I b 3 as a reference image immediately before.
【0270】その後、さらに、下位レイヤのIb3を参照
画像として用いて、下位レイヤのBb1が符号化/復号さ
れる。次に、上位レイヤのBe1が符号化/復号される
が、この上位レイヤのBe1の符号化/復号には、下位レ
イヤのBb1だけでなく、上位レイヤのPe1も、参照画像と
して用いられる。これは、MPEG4では、空間スケーラブ
ル符号化におけるB-VOPについては、前方予測(forward
prediction)につき、「most recent decoded enhance
ment VOP of the same layer」を参照画像として用いる
ことが定められているためであり、図49における場
合、「most recent decoded enhancement VOP of the s
ame layer」は、Pe3であるからである。[0270] Then, further, using I b3 of the lower layer as a reference picture, B b1 of the lower layer is encoded / decoded. Next, B e1 pertaining to the high-level layer is encoded / decoded, the coding / decoding of B e1 of the upper layer, as well as B b1 of the lower layer, P e1 of the upper layer also as a reference image Used. This is because, in MPEG4, for B-VOP in spatial scalable coding, forward prediction (forward
prediction), "most recent decoded enhance
ment VOP of the same layer ”is used as a reference image. In FIG. 49,“ most recent decoded enhancement VOP of the same layer ”is used.
ame layer "is because it is P e3.
【0271】上位レイヤのBe1の符号化/復号後は、下
位レイヤのBb2が、同じく下位レイヤのIb3を参照画像
として符号化/復号され、その後、上位レイヤのBe1お
よび下位レイヤのBb2を参照画像として用いて、上位レ
イヤのBe2が符号化/復号される。続いて、下位レイヤ
のPb6が符号化/復号化され、以下、図45における場
合と同様にして、下位レイヤのBb4、上位レイヤのBe4、
下位レイヤのBb5、上位レイヤのBe5、下位レイヤの
Pb9、下位レイヤのBb7、上位レイヤのBe7、下位レイヤ
のBb8、上位レイヤのBe8,Be9の順で符号化/復号され
る。After the encoding / decoding of the upper layer B e1 , the lower layer B b2 is encoded / decoded similarly using the lower layer I b3 as a reference image, and thereafter, the upper layer B e1 and the lower layer B b1 are encoded / decoded. with B b2 as a reference picture, B e2 of the high-level layer is encoded / decoded. Subsequently, P b6 of the lower layer is encoded / decoded, below, in the same manner as in FIG. 45, the lower layer B b4, the upper layer B e4,
B b5 of lower layer, B e5 of upper layer,
P b9, the lower layer B b7, the upper layer B e7, the lower layer B b8, is encoded / decoded in order of the upper layer B e8, B e9.
【0272】以上のように、下位レイヤのI-VOPを符号
化/復号した場合には、上位レイヤにおいて、下位レイ
ヤのI-VOPの表示時刻と同時刻に表示されるP-VOPを、下
位レイヤのI-VOPの直後に符号化/復号するようにする
ことで、上位レイヤにおいては、そのP-VOPを参照画像
として、最初に表示されるB-VOPが符号化/復号される
ことになるので(図49では、Pe3を参照画像として、
Be1が符号化/復号されることになるので)、上位レイ
ヤにおいて、P-VOPの前に表示されるB-VOPの画質の劣化
を防止することが可能となる。As described above, when the I-VOP of the lower layer is encoded / decoded, the P-VOP displayed at the same time as the display time of the I-VOP of the lower layer is changed to the lower layer in the upper layer. By encoding / decoding immediately after the I-VOP of the layer, in the upper layer, the B-VOP displayed first is encoded / decoded using the P-VOP as a reference image. (In FIG. 49, P e3 is used as a reference image,
Since Be1 is encoded / decoded), it is possible to prevent the image quality of the B-VOP displayed before the P-VOP from deteriorating in the upper layer.
【0273】ここで、図1のエンコーダ/図13のデコ
ーダには、図49に示した参照関係や符号化/復号順序
以外の参照関係や符号化/復号順序に基づいて、符号化
/復号を行わせることが可能である。即ち、参照関係や
符号化/復号順序は、図49に示したものに限定される
ものではない。Here, the encoder / decoder shown in FIG. 1 performs encoding / decoding on the basis of the reference relationship other than the reference relationship and the encoding / decoding order shown in FIG. 49 and the encoding / decoding order. It is possible to do. That is, the reference relation and the encoding / decoding order are not limited to those shown in FIG.
【0274】なお、図49に示した参照関係は、MPE
G4のref_select_codeで規定される参照関係を満たす
ものである。また、空間スケーラブル符号化を行う場合
に、図49に示した順序で符号化/復号を行う手法は、
GOVの有無にかかわらず適用可能である。Note that the reference relationship shown in FIG.
This satisfies the reference relationship defined by ref_select_code of G4. In addition, when performing spatial scalable encoding, a method of performing encoding / decoding in the order shown in FIG.
Applicable with or without GOV.
【0275】さらに、図49に示した参照関係にしたが
って符号化/復号を行う場合には、その符号化/復号順
序は、上述した場合と異なる順序とすることが可能であ
る。即ち、例えば、下位レイヤのすべてのVOPを符号化
/復号した後に、上位レイヤのVOPの符号化/復号を行
うようにすることなどが可能である。但し、図49で
は、上位レイヤのVOPの符号化/復号のための参照画像
として、下位レイヤのVOPを用いているため、この場
合、上位レイヤのVOPの符号化/復号のための参照画像
として用いる下位レイヤのVOPを、その上位レイヤのVOP
の符号化/復号が終了するまで、長時間、保持すること
が必要となることがある。そのような長時間の保持を避
けるためには、図49で説明したような符号化/復号順
序を採用するのが望ましい。なお、このことは、図45
に示した場合についても、同様である。Further, when encoding / decoding is performed according to the reference relationship shown in FIG. 49, the encoding / decoding order may be different from the above-described case. That is, for example, it is possible to encode / decode all VOPs in the lower layer and then encode / decode the VOPs in the upper layer. However, in FIG. 49, since the lower layer VOP is used as the reference image for encoding / decoding the upper layer VOP, in this case, the reference image is used as the reference image for encoding / decoding the upper layer VOP. The VOP of the lower layer to be used is the VOP of the upper layer
May need to be held for a long time until the encoding / decoding of is completed. In order to avoid such a long holding, it is desirable to adopt the encoding / decoding order as described with reference to FIG. This is shown in FIG.
The same applies to the case shown in FIG.
【0276】次に、本実施の形態では、迅速で、効率的
なランダムアクセスが妨げられることを防止するため
に、図39乃至図42で説明したように、下位レイヤの
GOVの最初に表示されるVOPの表示時刻と同時刻ま
たはその直後に表示される上位レイヤのVOPが、上位
レイヤのGOVの最初に表示されるものとなるように、
上位レイヤを、GOVに分けるようにした。Next, in the present embodiment, in order to prevent quick and efficient random access from being hindered, as shown in FIG. 39 to FIG. 42, the GOV of the lower layer is displayed first. The VOP of the upper layer displayed at the same time as or immediately after the display time of the upper VOP is displayed first at the top of the GOV of the upper layer.
The upper layer is divided into GOVs.
【0277】しかしながら、GOVヘッダのtime_codeに
は、GOVの中で最初に表示されるVOPの表示時刻を秒精度
で設定するようにしたため、下位レイヤのGOVの最初
に表示されるVOPの表示時刻の直後に表示される上位
レイヤのVOPが、上位レイヤのGOVの最初に表示さ
れるものとなるように、上位レイヤのGOVを構成した
場合には、下位レイヤのGOVのtime_codeに設定され
る値(秒精度先頭表示時刻)と、その下位レイヤのGO
Vに対応する上位レイヤのGOVのtime_codeに設定さ
れる値とが一致しないことがある。However, in the time_code of the GOV header, since the display time of the VOP displayed first in the GOV is set with the second precision, the display time of the VOP displayed first in the lower layer GOV is set. When the GOV of the upper layer is configured so that the VOP of the upper layer displayed immediately after is displayed first in the GOV of the upper layer, the value set in the time_code of the GOV of the lower layer ( Second precision first display time) and GO of the lower layer
The value set in the time_code of the GOV of the upper layer corresponding to V may not match.
【0278】即ち、図50は、時間的スケーラブル符号
化を行う場合の、下位レイヤおよび上位レイヤの構成例
を示している。That is, FIG. 50 shows a configuration example of a lower layer and an upper layer when performing temporal scalable coding.
【0279】いま、図50において、下位レイヤのBb2
を、最初に表示されるVOPとして、GOVを構成した場
合、上位レイヤについては、下位レイヤのGOVの最初
に表示されるBb2の表示時刻の直後に表示される上位レ
イヤのVOPであるBe3が最初に表示されるVOPとなる
ように、上位レイヤのGOPが構成される。この場合、
下位レイヤで構成されるGOVのGOVヘッダのtime_code
には、そのGOVの中で最初に表示されるBb2の表示時刻が
秒精度で設定される。同様に、上位レイヤで構成される
GOVのGOVヘッダのtime_codeには、そのGOVの中で最
初に表示されるBe3の表示時刻が秒精度で設定される。Now, in FIG. 50, B b2 of the lower layer
And a VOP which is first displayed, when implementing an GOV, for the upper layer is the VOP of the upper layer that appears immediately after the display time of B b2 to be displayed first in the GOV subordinate layer B e3 GOP of the upper layer is configured such that is the VOP displayed first. in this case,
Time_code of GOV header of GOV composed of lower layers
In, the display time of B b2 displayed first in the GOV is set with second precision. Similarly, the time_code of the GOV header of GOV composed of an upper layer, the first display time of B e3 displayed in the GOV is set in seconds accuracy.
【0280】即ち、図50では、Bb2の表示時刻は、01
h:12m:33sから01h:12m:34sの間の時刻であり、Be3の表
示時刻は、01h:12m:34sから01h:12m:35sの間の時刻であ
るから、下位レイヤで構成されるGOVのGOVヘッダのt
ime_codeには、01h:12m:33sが設定され、上位レイヤで
構成されるGOVのGOVヘッダのtime_codeには、01h:12
m:34sが設定される。従って、下位レイヤのGOVのtim
e_codeに設定される値と、その下位レイヤのGOVに対
応する上位レイヤのGOVのtime_codeに設定される値
とは一致しない。That is, in FIG. 50, the display time of B b2 is 01
h: 12m: 01h from the 33s: 12m: is the time between the 34s, the display time of B e3 is, 01h: 12m: 01h from the 34s: 12m: because it is the time between the 35s, composed of a lower layer T of GOV header of GOV
01h: 12m: 33s is set in ime_code, and 01h: 12 is set in time_code of the GOV header of the GOV composed of the upper layer.
m: 34s is set. Therefore, the tim of the lower layer GOV
The value set in e_code does not match the value set in time_code of the GOV of the upper layer corresponding to the GOV of the lower layer.
【0281】そして、このように、下位レイヤのGOV
のtime_codeに設定される値と、その下位レイヤのGO
Vに対応する上位レイヤのGOVのtime_codeに設定さ
れる値とが一致しない場合には、符号化ビットストリー
ムにランダムアクセスする際に、下位レイヤと上位レイ
ヤとにおいて、異なる秒精度の時刻(time_codeによっ
て示される同期点)を基準に、VOPの表示時刻を計算し
なければならないことになる。As described above, the GOV of the lower layer is
Set to the time_code of the
If the value set in the time_code of the GOV of the upper layer corresponding to V does not match, when random access is made to the encoded bit stream, the lower layer and the upper layer have different second-accurate times (time_code Based on the indicated synchronization point), the display time of the VOP must be calculated.
【0282】そこで、上位レイヤのGOVのtime_code
には、その上位レイヤに対応する下位レイヤのGOVの
time_codeに設定される値と同一の値を設定するように
することができる。Therefore, the time_code of the GOV of the upper layer
Contains the GOV of the lower layer corresponding to the upper layer.
The same value as the value set in time_code can be set.
【0283】即ち、図51は、図50における場合と同
様の時間的スケーラブル符号化を行う場合の、下位レイ
ヤおよび上位レイヤの構成例を示している。That is, FIG. 51 shows an example of the configuration of the lower layer and the upper layer when performing temporal scalable encoding similar to the case shown in FIG.
【0284】いま、図51において、図50における場
合と同様に、下位レイヤのBb2を、最初に表示されるVO
Pとして、GOVを構成した場合、上位レイヤについて
は、下位レイヤのGOVの最初に表示されるBb2の表示
時刻の直後に表示される上位レイヤのVOPであるBe3
が最初に表示されるVOPとなるように、上位レイヤのG
OPが構成される。Now, in FIG. 51, as in the case of FIG. 50, B b2 of the lower layer is changed to the VO displayed first.
As When the P, configuring the GOV, the upper layer is the VOP of the upper layer that appears immediately after the display time of B b2 to be displayed in the first GOV of the lower layer B e3
Is the first VOP displayed, so that G in the upper layer
The OP is configured.
【0285】そして、この場合、下位レイヤで構成され
るGOVのGOVヘッダのtime_codeには、図50における
場合と同様に、そのGOVの中で最初に表示されるBb2の表
示時刻を秒精度で設定する。従って、下位レイヤで構成
されるGOVのGOVヘッダのtime_codeには、01h:12m:33
sが設定される。[0285] Then, in this case, the GOV header of the GOV composed of a lower layer time_code, as in FIG. 50, a first display time of B b2 to be displayed in the GOV seconds accuracy Set. Therefore, the time_code of the GOV header of the GOV composed of the lower layer is 01h: 12m: 33
s is set.
【0286】一方、上位レイヤで構成されるGOVのGO
Vヘッダのtime_codeには、その上位レイヤのGOVに対
応する下位レイヤのGOVのtime_codeに設定される値
と同一の値を設定する。従って、下位レイヤで構成され
るGOVのGOVヘッダのtime_codeにも、01h:12m:33sが
設定される。On the other hand, GOV GO composed of upper layers
In the time_code of the V header, the same value as the value set in the time_code of the GOV of the lower layer corresponding to the GOV of the upper layer is set. Therefore, 01h: 12m: 33s is also set in the time_code of the GOV header of the GOV formed in the lower layer.
【0287】この場合、符号化ビットストリームにラン
ダムアクセスする際に、下位レイヤと上位レイヤとにお
いて、異なる秒精度の時刻(time_codeによって示され
る同期点)を基準に、VOPの表示時刻を計算しなければ
ならなくなることを防止することができる。即ち、下位
レイヤと上位レイヤとにおいて、常に、同一の秒精度の
時刻(time_codeによって示される同期点)を基準に、V
OPの表示時刻を計算することが可能となる。In this case, when performing random access to the encoded bit stream, the display time of the VOP must be calculated in the lower layer and the upper layer based on different second-accurate times (synchronization points indicated by time_code). Can be prevented. That is, in the lower layer and the upper layer, V is always based on the same second-accurate time (synchronization point indicated by time_code).
The display time of the OP can be calculated.
【0288】なお、上位レイヤで構成されるGOVのGO
Vヘッダのtime_codeに、その上位レイヤのGOVに対応
する下位レイヤのGOVのtime_codeに設定される値と
同一の値を設定する場合も、上位レイヤで構成されるG
OVのGOVヘッダのtime_codeに、そのGOVの中で最初に
表示されるVOPの表示時刻を秒精度で設定する場合と同
様にして、図1のエンコーダでは、modulo_time_baseお
よびVOP_time_incrementを求めることができ、また、図
13のデコーダでは、そのmodulo_time_baseおよびVOP_
time_increment、並びにtime_codeを用いて、VOPの表示
時刻を求めることができる。[0288] The GOV GO composed of upper layers
Even when the same value as the time_code of the GOV of the lower layer corresponding to the GOV of the upper layer is set in the time_code of the V header, the G configured by the upper layer
In the encoder of FIG. 1, modulo_time_base and VOP_time_increment can be obtained in the same manner as in the case where the display time of the first VOP displayed in the GOV is set to the time_code of the GOV header of the OV with the second precision. In the decoder of FIG. 13, the modulo_time_base and VOP_
The display time of the VOP can be obtained by using time_increment and time_code.
【0289】次に、以上説明したエンコーダおよびデコ
ーダは、それ専用のハードウェアによって実現すること
もできるし、コンピュータに、上述したような処理を行
わせるためのプログラムを実行させることによっても実
現することができる。Next, the encoder and decoder described above can be realized by dedicated hardware, or can be realized by causing a computer to execute a program for performing the above-described processing. Can be.
【0290】即ち、図52は、図1のエンコーダまたは
図13のデコーダとして機能するコンピュータの一実施
の形態の構成例を示している。That is, FIG. 52 shows an example of the configuration of an embodiment of a computer functioning as the encoder in FIG. 1 or the decoder in FIG.
【0291】ROM(Read Only Memory)201は、例
えば、ブートプログラムなどを記憶している。CPU
(Central Processing Unit)202は、例えば、HD
(HardDisk)206に記憶されたプログラムを、RAM
(Read Only Memory)203上に展開して実行すること
で、各種の処理を行うようになされている。RAM20
3は、CPU202が実行するプログラムや、CPU2
02の処理上必要なデータを一時記憶するようになされ
ている。入力部204は、例えば、キーボードやマウス
などでなり、必要なコマンドやデータを入力するときな
どに操作される。出力部205は、例えば、ディスプレ
イなどでなり、CPU202の制御にしたがったデータ
を表示する。HD206は、CPU202が実行すべき
プログラム、さらには、エンコード対象の画像データ
や、エンコード後のデータ(符号化ビットストリー
ム)、デコード後の画像データなどを記憶するようにな
されている。通信I/F(Interface)207は、外部
との通信を制御することにより、例えば、エンコード対
象の画像データを、外部から受信したり、また、エンコ
ード後の符号化ビットストリームを外部に送信したりす
るようになされている。また、通信I/F207は、外
部でエンコードされた符号化ビットストリームを受信し
たり、また、デコード後の画像データを、外部に送信す
るようにもなされている。The ROM (Read Only Memory) 201 stores, for example, a boot program. CPU
(Central Processing Unit) 202 is, for example, an HD
(HardDisk) The program stored in 206 is stored in RAM
(Read Only Memory) 203 is loaded and executed to perform various processes. RAM 20
3 is a program executed by the CPU 202 and the CPU 2
02 is temporarily stored. The input unit 204 includes, for example, a keyboard and a mouse, and is operated to input necessary commands and data. The output unit 205 includes, for example, a display and displays data according to the control of the CPU 202. The HD 206 stores a program to be executed by the CPU 202, as well as image data to be encoded, encoded data (encoded bit stream), decoded image data, and the like. The communication I / F (Interface) 207 controls communication with the outside, for example, receives image data to be encoded from the outside, and transmits an encoded bit stream after encoding to the outside. It has been made to be. Further, the communication I / F 207 is configured to receive an externally encoded bit stream, and to transmit decoded image data to the outside.
【0292】以上のように構成されるコンピュータのC
PU202に、上述したような処理を行うためのプログ
ラムを実行させることにより、このコンピュータは、図
1に示したエンコーダや、図13に示したデコーダとし
て機能することになる。The computer C configured as described above
By causing the PU 202 to execute a program for performing the above-described processing, the computer functions as the encoder illustrated in FIG. 1 and the decoder illustrated in FIG.
【0293】なお、本発明の適用範囲は、MPEG4に
準拠した範囲に限られるものではない。The scope of the present invention is not limited to the range based on MPEG4.
【0294】[0294]
【発明の効果】本発明の画像符号化装置および画像符号
化方法によれば、画像を構成するオブジェクトのシーケ
ンスが下位階層である第1の階層と、上位階層である第
2の階層に階層化され、オブジェクトのシーケンスの第
1または第2の階層が、1以上のグループに分けられて
それぞれ符号化される。さらに、第1または第2の階層
のグループに、その最初に表示されるオブジェクトの表
示時刻を秒精度で表す秒精度先頭表示時刻がそれぞれ含
められ、第1または第2の階層のオブジェクトそれぞれ
に、秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報が付加
される。そして、第2の階層のオブジェクトに秒精度相
対時刻情報が付加される際に、表示順で隣接するオブジ
ェクトどうしの表示時刻の差に基づいて、第2の階層の
オブジェクトに付加される秒精度相対時刻情報がリセッ
トされる。従って、符号化効率の劣化を防止することが
可能となる。 According to the present invention, an image encoding apparatus and an image encoding apparatus are provided.
According to the conversion method , the sequence of objects constituting an image is
The first hierarchy is a lower hierarchy, and the first hierarchy is a higher hierarchy.
Layered into two levels, the first
The first or second level is divided into one or more groups
Each is encoded. Further, the first or second hierarchy
Table of objects initially displayed in a group
The second display time, which is the second
Each of the objects in the first or second hierarchy
To the object based on the second display time
Seconds relative time information indicating the seconds accuracy of the display time of the event is added.
Is done. Then, the second-precision phase is added to the object of the second hierarchy.
When time-to-time information is added, adjacent objects in display order
Based on the display time difference between
The relative second time information added to the object is reset.
Is Therefore, it is possible to prevent the coding efficiency from deteriorating.
【0295】本発明の画像復号装置および画像復号方法
によれば、画像を構成するオブジェクトのシーケンスを
下位階層である第1の階層と、上位階層である第2の階
層に階層化し、オブジェクトのシーケンスの第1または
第2の階層を、1以上のグループに分けてそれぞれ符号
化し、第1または第2の階層のグループに、その最初に
表示されるオブジェクトの表示時刻を秒精度で表す秒精
度先頭表示時刻をそれぞれ含め、第1または第2の階層
のオブジェクトそれぞれに、秒精度先頭表示時刻を基準
とする、そのオブジェクトの表示時刻の秒精度を表す秒
精度相対時刻情報を付加し、第2の階層のオブジェクト
に秒精度相対時刻情報を付加する際に、表示順で隣接す
るオブジェクトどうしの表示時刻の差に基づいて、第2
の階層のオブジェクトに付加する秒精度相対時刻情報を
リセットすることにより得られる符号化ビットストリー
ムが受信されて復号される。従って、符号化効率の劣化
を防止された符号化ビットストリームを復号することが
できる。According to the image decoding apparatus and the image decoding method of the present invention , the sequence of objects constituting an image is
A first hierarchy which is a lower hierarchy and a second hierarchy which is an upper hierarchy
Hierarchized into layers, the first or
Divide the second layer into one or more groups and code each
Into a first or second level group,
Seconds precision that indicates the display time of the displayed object with second precision
First or second level, including the first display time
Based on the first display time in seconds for each object
, The second representing the second precision of the display time of the object
Adds precision relative time information to the second layer object
When adding the second precision relative time information to the
Based on the difference between the display times of the objects
Second relative time information to be added to the object at
Coded bitstream obtained by reset
The system is received and decoded . Therefore, it is possible to decode the coded bit stream in which the deterioration of the coding efficiency is prevented.
【0296】本発明の記録媒体によれば、画像を構成す
るオブジェクトのシーケンスを下位階層である第1の階
層と、上位階層である第2の階層に階層化し、オブジェ
クトのシーケンスの第1または第2の階層を、1以上の
グループに分けてそれぞれ符号化し、第1または第2の
階層のグループに、その最初に表示されるオブジェクト
の表示時刻を秒精度で表す秒精度先頭表示時刻をそれぞ
れ含め、第1または第2の階層のオブジェクトそれぞれ
に、秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
し、第2の階層のオブジェクトに秒精度相対時刻情報を
付加する際に、表示順で隣接するオブジェクトどうしの
表示時刻の差に基づいて、第2の階層のオブジェクトに
付加する秒精度相対時刻情報をリセットすることにより
得られる符号化ビットストリームが記録されている。従
って、符号化効率の劣化の防止された符号化ビットスト
リームを提供することができる。According to the recording medium of the present invention , an image
The sequence of objects that are
Layer and a second layer, which is a higher layer,
The first or second layer of the sequence of events
Each group is encoded and the first or second
The first visible object in a group in the hierarchy
The first display time of second precision, which represents the display time of
Including the objects of the first or second hierarchy
To the object based on the second display time
Seconds relative time information indicating the second accuracy of the display time of the event is added.
And second-second relative time information is stored in the second layer object.
When adding, objects that are adjacent in the display order
Based on the display time difference, the objects in the second layer
By resetting the second precision relative time information to be added
The resulting coded bit stream is recorded. Therefore, it is possible to provide an encoded bit stream in which the encoding efficiency is prevented from deteriorating.
【図1】本発明を適用したエンコーダの一実施の形態の
構成例を示すブロック図である。FIG. 1 is a block diagram illustrating a configuration example of an embodiment of an encoder to which the present invention has been applied.
【図2】時刻によって、VOの位置、大きさが変化する
ことを説明するための図である。FIG. 2 is a diagram for explaining that a position and a size of a VO change with time.
【図3】図1のVOP符号化部31乃至3Nの構成例を示
すブロック図である。3 is a block diagram showing a configuration example of VOP encoding unit 3 1 to 3 N in FIG.
【図4】空間スケーラビリティを説明するための図であ
る。FIG. 4 is a diagram for explaining spatial scalability.
【図5】空間スケーラビリティを説明するための図であ
る。FIG. 5 is a diagram for explaining spatial scalability.
【図6】空間スケーラビリティを説明するための図であ
る。FIG. 6 is a diagram for describing spatial scalability.
【図7】空間スケーラビリティを説明するための図であ
る。FIG. 7 is a diagram for describing spatial scalability.
【図8】VOPのサイズデータおよびオフセットデータ
の決定方法を説明するための図である。FIG. 8 is a diagram for explaining a method of determining size data and offset data of a VOP.
【図9】図3の下位レイヤ符号化部25の構成例を示す
ブロック図である。9 is a block diagram illustrating a configuration example of a lower layer encoding unit 25 in FIG.
【図10】図3の上位レイヤ符号化部23の構成例を示
すブロック図である。10 is a block diagram illustrating a configuration example of an upper layer encoding unit 23 in FIG.
【図11】空間スケーラビリティを説明するための図で
ある。FIG. 11 is a diagram for describing spatial scalability.
【図12】時間スケーラビリティを説明するための図で
ある。FIG. 12 is a diagram for explaining time scalability.
【図13】本発明を適用したデコーダの一実施の形態の
構成例を示すブロック図である。FIG. 13 is a block diagram illustrating a configuration example of an embodiment of a decoder to which the present invention has been applied.
【図14】図13のVOP復号部721乃至72Nの他の
構成例を示すブロック図である。14 is a block diagram illustrating another configuration example of the VOP decoding unit 72 1 to 72 N of Figure 13.
【図15】図14の下位レイヤ復号部95の構成例を示
すブロック図である。15 is a block diagram illustrating a configuration example of a lower layer decoding unit 95 in FIG.
【図16】図14の上位レイヤ復号部93の構成例を示
すブロック図である。16 is a block diagram illustrating a configuration example of an upper layer decoding unit 93 in FIG.
【図17】MPEG4規格のVideo Verification Model(Vers
ion10.0)における符号化ビットストリームの構成を示す
図である。[Fig. 17] Video Verification Model (Vers
FIG. 21 is a diagram illustrating the configuration of an encoded bit stream in (Ion10.0).
【図18】VSのシンタックスを示す図である。FIG. 18 is a diagram illustrating the syntax of a VS.
【図19】VOのシンタクスを示す図である。FIG. 19 is a diagram illustrating the syntax of a VO.
【図20】VOLのシンタクスを示す図である。FIG. 20 is a diagram illustrating the syntax of a VOL.
【図21】VOLのシンタクスを示す図である。FIG. 21 is a diagram illustrating the syntax of a VOL.
【図22】VOLのシンタクスを示す図である。FIG. 22 is a diagram illustrating the syntax of a VOL.
【図23】VOLのシンタクスを示す図である。FIG. 23 is a diagram illustrating the syntax of a VOL.
【図24】VOLのシンタクスを示す図である。FIG. 24 is a diagram illustrating the syntax of a VOL.
【図25】VOLのシンタクスを示す図である。FIG. 25 is a diagram illustrating the syntax of a VOL.
【図26】GOVのシンタクスを示す図である。FIG. 26 is a diagram illustrating the syntax of GOV.
【図27】GOVのシンタクスを示す図である。FIG. 27 is a diagram illustrating the syntax of GOV.
【図28】VOPのシンタクスを示す図である。FIG. 28 is a diagram illustrating the syntax of a VOP.
【図29】VOPのシンタクスを示す図である。FIG. 29 is a diagram illustrating the syntax of a VOP.
【図30】VOPのシンタクスを示す図である。FIG. 30 is a diagram illustrating the syntax of a VOP.
【図31】VOPのシンタクスを示す図である。FIG. 31 is a diagram illustrating the syntax of a VOP.
【図32】VOPのシンタクスを示す図である。FIG. 32 is a diagram illustrating the syntax of a VOP.
【図33】VOPのシンタクスを示す図である。FIG. 33 is a diagram illustrating the syntax of a VOP.
【図34】VOPのシンタクスを示す図である。FIG. 34 is a diagram illustrating VOP syntax.
【図35】VOPのシンタクスを示す図である。FIG. 35 is a diagram illustrating the syntax of a VOP.
【図36】VOPのシンタクスを示す図である。FIG. 36 is a diagram illustrating the syntax of a VOP.
【図37】time_code,modulo_time_base,VOP_time_in
crementの関係を示す図である。[FIG. 37] time_code, modulo_time_base, VOP_time_in
It is a figure which shows the relationship of crement.
【図38】time_code,modulo_time_base,VOP_time_in
crementの関係を示す図である。FIG. 38: time_code, modulo_time_base, VOP_time_in
It is a figure which shows the relationship of crement.
【図39】下位レイヤと上位レイヤとで独立にGOVを
構成した状態を示す図である。FIG. 39 is a diagram illustrating a state in which GOVs are independently configured in a lower layer and an upper layer.
【図40】下位レイヤと上位レイヤとで独立にGOVを
構成した状態を示す図である。FIG. 40 is a diagram showing a state in which a lower layer and an upper layer independently constitute a GOV.
【図41】上位レイヤのGOVを、下位レイヤのGOV
と対応付けて構成した状態を示す図である。FIG. 41 shows the GOV of the upper layer as the GOV of the lower layer.
It is a figure showing the state constituted in association with.
【図42】上位レイヤのGOVを、下位レイヤのGOV
と対応付けて構成した状態を示す図である。FIG. 42 shows the GOV of the upper layer as the GOV of the lower layer.
It is a figure showing the state constituted in association with.
【図43】上位レイヤのGOVを、下位レイヤのGOV
と対応付けて構成する場合の、図9のVLC器36の処
理を説明するためのフローチャートである。FIG. 43 shows the GOV of the upper layer as the GOV of the lower layer.
10 is a flowchart for explaining the processing of the VLC unit 36 in FIG.
【図44】上位レイヤのGOVを、下位レイヤのGOV
と対応付けて構成する場合の、図10のVLC器36の
処理を説明するためのフローチャートである。FIG. 44 shows the GOV of the upper layer as the GOV of the lower layer.
11 is a flowchart for explaining the processing of the VLC unit 36 in FIG.
【図45】空間スケーラブル符号化における上位レイヤ
と下位レイヤのピクチャストラクチャの例を示す図であ
る。FIG. 45 is a diagram illustrating an example of a picture structure of an upper layer and a lower layer in spatial scalable encoding.
【図46】modulo_time_baseのビット数が増大する場合
を説明するための図である。[Fig. 46] Fig. 46 is a diagram for describing a case where the number of bits of modulo_time_base increases.
【図47】modulo_time_baseのビット数の増大を防止す
る方法を説明するための図である。[Fig. 47] Fig. 47 is a diagram for describing a method for preventing an increase in the number of bits of modulo_time_base.
【図48】modulo_time_baseのビット数の増大を防止す
る処理を説明するための図である。[Fig. 48] Fig. 48 is a diagram for describing processing for preventing an increase in the number of bits of modulo_time_base.
【図49】画質の劣化を防止するための符号化/復号順
序と参照関係を説明するための図である。[Fig. 49] Fig. 49 is a diagram for describing an encoding / decoding order and a reference relationship for preventing image quality deterioration.
【図50】下位レイヤと上位レイヤとのtime_codeが一
致しない状態を示す図である。[Fig. 50] Fig. 50 is a diagram illustrating a state where the time_codes of the lower layer and the upper layer do not match.
【図51】下位レイヤと上位レイヤとのtime_codeを一
致させる方法を説明するための図である。[Fig. 51] Fig. 51 is a diagram for describing a method of matching time_codes of a lower layer and an upper layer.
【図52】本発明を適用したエンコーダおよびデコーダ
の他の実施の形態の構成例を示すブロック図である。FIG. 52 is a block diagram illustrating a configuration example of another embodiment of an encoder and a decoder to which the present invention has been applied.
【図53】従来のエンコーダの一例の構成を示すブロッ
ク図である。FIG. 53 is a block diagram illustrating a configuration of an example of a conventional encoder.
【図54】従来のデコーダの一例の構成を示すブロック
図である。FIG. 54 is a block diagram illustrating a configuration of an example of a conventional decoder.
1 VO構成部, 21乃至2N VOP構成部, 31
乃至3N VOP符号化部, 4 多重化部, 21
画像階層化部, 23 上位レイヤ符号化部,24 解
像度変換部, 25 下位レイヤ符号化部, 26 多
重化部, 31フレームメモリ, 32 動きベクトル
検出器, 33 演算器, 34 DCT器, 35
量子化器, 36 VLC器, 38 逆量子化器,
39IDCT器, 40 演算器, 41 フレームメ
モリ, 42 動き補償器,53 フレームメモリ,
71 逆多重化部, 721乃至72N VOP復号部,
73 画像再構成部, 91 逆多重化部, 93
上位レイヤ復号部,94 解像度変換部, 95 下位
レイヤ復号部, 102 IVLC器,103 逆量子
化器, 104 IDCT器, 105 演算器, 1
06 フレームメモリ, 107 動き補償器, 11
2 フレームメモリ, 201ROM, 202 CP
U, 203 RAM, 204 入力部, 205出
力部, 206 HD, 207 通信I/F1 VO component, 2 1 to 2 N VOP component, 3 1
To 3 N VOP encoding unit, 4 multiplexing unit, 21
Image layering unit, 23 upper layer encoding unit, 24 resolution conversion unit, 25 lower layer encoding unit, 26 multiplexing unit, 31 frame memory, 32 motion vector detector, 33 arithmetic unit, 34 DCT unit, 35
Quantizer, 36 VLC unit, 38 inverse quantizer,
39 IDCT unit, 40 arithmetic unit, 41 frame memory, 42 motion compensator, 53 frame memory,
71 demultiplexer, 72 1 to 72 N VOP decoder,
73 image reconstruction unit, 91 demultiplexing unit, 93
Upper layer decoding unit, 94 resolution conversion unit, 95 lower layer decoding unit, 102 IVLC unit, 103 inverse quantizer, 104 IDCT unit, 105 arithmetic unit, 1
06 frame memory, 107 motion compensator, 11
2 frame memory, 201 ROM, 202 CP
U, 203 RAM, 204 input unit, 205 output unit, 206 HD, 207 communication I / F
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−98143(JP,A) (58)調査した分野(Int.Cl.7,DB名) H04N 7/24 - 7/68 H04N 5/91 - 5/95 ────────────────────────────────────────────────── ─── Continuation of front page (56) References JP-A-8-98143 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) H04N 7 /24-7/68 H04N 5 / 91-5/95
Claims (5)
化ビットストリームを出力する画像符号化装置であっ
て、 前記画像を構成するオブジェクトのシーケンスを下位階
層である第1の階層と、上位階層である第2の階層に階
層化する階層化手段と、 前記階層化手段が出力する、前記オブジェクトのシーケ
ンスの第1または第2の階層を、1以上のグループに分
けてそれぞれ符号化し、前記第1または第2の階層のグ
ループに、その最初に表示されるオブジェクトの表示時
刻を秒精度で表す秒精度先頭表示時刻をそれぞれ含める
符号化手段と、 前記第1または第2の階層のオブジェクトそれぞれに、
前記秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
する付加手段と を備え、 前記付加手段は、前記第2の階
層のオブジェクトに前記秒精度相対時刻情報を付加する
際に、表示順で隣接するオブジェクトどうしの表示時刻
の差に基づいて、前記第2の階層のオブジェクトに付加
する前記秒精度相対時刻情報をリセットする ことを特徴
とする画像符号化装置。[Claim 1] An image was encoded, an image encoding apparatus that outputs a coded bit stream obtained as a result of the lower floor of the sequence of objects constituting the image
Layering means for layering into a first layer, which is a layer, and a second layer, which is a higher layer; and at least one first or second layer of the sequence of objects output by the layering means. Encoding means that respectively encodes the first and second hierarchical groups, and includes a second-precision leading display time that represents the display time of the first displayed object in second precision in the first or second layer group; For each of the objects in the first or second hierarchy,
Referenced to the second resolution first display time comprises adding means for adding second resolution relative time information representing a second resolution of the display time of the object, said additional means, said second object of the second hierarchy Add precision relative time information
At this time, based on the display time difference between the objects adjacent in the display order, the object is added to the object in the second hierarchy.
Image coding apparatus characterized by resetting the second resolution relative time information.
化ビットストリームを出力する画像符号化方法であっ
て、 前記画像を構成するオブジェクトのシーケンスを下位階
層である第1の階層と、上位階層である第2の階層に階
層化する階層化ステップと、 前記オブジェクトのシーケンスの第1または第2の階層
を、1以上のグループに分けてそれぞれ符号化し、前記
第1または第2の階層のグループに、その最初に表示さ
れるオブジェクトの表示時刻を秒精度で表す秒精度先頭
表示時刻をそれぞれ含める符号化ステップと、 前記第1または第2の階層のオブジェクトそれぞれに、
前記秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
する付加ステップと を備え、 前記付加ステップにおいて、 前記第2の階層のオブジェ
クトに前記秒精度相対時刻情報を付加する際に、表示順
で隣接するオブジェクトどうしの表示時刻の差に基づい
て、前記第2の階層のオブジェクトに付加する前記秒精
度相対時刻情報をリセットすることを特徴とする画像符
号化方法。2. An image encoding, an image encoding method which outputs a coded bit stream obtained as a result of the lower floor of the sequence of objects constituting the image
A layering step of layering a first layer which is a layer and a second layer which is a higher layer ; and encoding the first or second layer of the sequence of objects into one or more groups, respectively. the first or second group of layers, the coding step that including each second resolution first display time representing a display time of an object to be the first in the second resolution, the first or second hierarchical For each object of
An adding step of adding second-accuracy relative time information indicating the second accuracy of the display time of the object with reference to the second-accuracy leading display time , wherein in the adding step, the object of the second hierarchy is added.
Resetting the second-precision relative time information to be added to the object in the second hierarchy based on a difference in display time between objects adjacent in the display order when adding the second-precision relative time information to the object. An image encoding method characterized by the following.
層である第1の階層と、上位階層である第2の階層に階
層化し、 前記オブジェクトのシーケンスの第1または第2の階層
を、1以上のグループに分けてそれぞれ符号化し、前記
第1または第2の階層のグループに、その最初に表示さ
れるオブジェクトの表示時刻を秒精度で表す秒精度先頭
表示時刻をそれぞれ含め、 前記第1または第2の階層のオブジェクトそれぞれに、
前記秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
し、 前記第2の階層のオブジェクトに前記秒精度相対時刻情
報を付加する際に、表示順で隣接するオブジェクトどう
しの表示時刻の差に基づいて、前記第2の階層のオブジ
ェクトに付加する前記秒精度相対時刻情報をリセットす
る ことにより得られる符号化ビットストリームを受信す
る受信手段と、 前記符号化ビットストリームを復号する復号手段とを備
えることを特徴とする画像復号装置。3. An image decoding apparatus for decoding an image, the lower floor a sequence of objects composing the picture
Hierarchized into a first layer that is a layer and a second layer that is a higher layer, the first or second layer of the sequence of objects is divided into one or more groups and encoded, and the first or second layer is encoded. The second hierarchy group includes a second-precision head display time that represents the display time of the first displayed object in second precision, and the first or second hierarchy object includes:
Adds second-precision relative time information that represents the second precision of the display time of the object, based on the second-precision first display time
Then, the second-precision relative time information is added to the object of the second hierarchy.
When adding information, the
Based on the difference between the display times of the objects,
Resets the relative second time information added to the project.
Image decoding apparatus characterized by comprising: a receiving means for receiving a coded bit stream obtained, and decoding means for decoding the coded bit stream by that.
層である第1の階層と、上位階層である第2の階層に階
層化し、 前記オブジェクトのシーケンスの第1または第2の階層
を、1以上のグループに分けてそれぞれ符号化し、前記
第1または第2の階層のグループに、その最初に表示さ
れるオブジェクトの表示時刻を秒精度で表す秒精度先頭
表示時刻をそれぞれ含め、 前記第1または第2の階層のオブジェクトそれぞれに、
前記秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
し、 前記第2の階層のオブジェクトに前記秒精度相対時刻情
報を付加する際に、表示順で隣接するオブジェクトどう
しの表示時刻の差に基づいて、前記第2の階層のオブジ
ェクトに付加する前記秒精度相対時刻情報をリセットす
る ことにより得られる符号化ビットストリームを受信
し、 前記符号化ビットストリームを復号することを特徴とす
る画像復号方法。4. An image decoding method for decoding an image, the lower floor a sequence of objects composing the picture
Hierarchized into a first layer that is a layer and a second layer that is a higher layer, the first or second layer of the sequence of objects is divided into one or more groups and encoded, and the first or second layer is encoded. The second hierarchy group includes a second-precision head display time that represents the display time of the first displayed object in second precision, and the first or second hierarchy object includes:
Adds second-precision relative time information that represents the second precision of the display time of the object, based on the second-precision first display time
Then, the second-precision relative time information is added to the object of the second hierarchy.
When adding information, the
Based on the difference between the display times of the objects,
Resets the relative second time information added to the project.
That receives the encoded bit stream obtained by the image decoding method characterized by decoding the encoded bit stream.
ストリームが記録されている記録媒体であって、 前記画像を構成するオブジェクトのシーケンスを下位階
層である第1の階層と、上位階層である第2の階層に階
層化し、 前記オブジェクトのシーケンスの第1または第2の階層
を、1以上のグループに分けてそれぞれ符号化し、前記
第1または第2の階層のグループに、その最初に表示さ
れるオブジェクトの表示時刻を秒精度で表す秒精度先頭
表示時刻をそれぞれ含め、 前記第1または第2の階層のオブジェクトそれぞれに、
前記秒精度先頭表示時刻を基準とする、そのオブジェク
トの表示時刻の秒精度を表す秒精度相対時刻情報を付加
し、 前記第2の階層のオブジェクトに前記秒精度相対時刻情
報を付加する際に、表示順で隣接するオブジェクトどう
しの表示時刻の差に基づいて、前記第2の階層のオブジ
ェクトに付加する前記秒精度相対時刻情報をリセットす
る ことにより得られる符号化ビットストリームが記録さ
れていることを特徴とする記録媒体。5. A recording medium on which an encoded bit stream obtained by encoding an image is recorded, wherein a sequence of objects forming the image is stored in a lower order floor.
Hierarchized into a first layer that is a layer and a second layer that is a higher layer, the first or second layer of the sequence of objects is divided into one or more groups and encoded, and the first or second layer is encoded. The second hierarchy group includes a second-precision head display time that represents the display time of the first displayed object in second precision, and the first or second hierarchy object includes:
Adds second-precision relative time information that represents the second precision of the display time of the object, based on the second-precision first display time
Then, the second-precision relative time information is added to the object of the second hierarchy.
When adding information, the
Based on the difference between the display times of the objects,
Resets the relative second time information added to the project.
Recording medium obtained coded bit stream is characterized in that it is recorded by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000194005A JP3345887B2 (en) | 1998-06-19 | 2000-06-28 | Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000194005A JP3345887B2 (en) | 1998-06-19 | 2000-06-28 | Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17349998A Division JP2000013790A (en) | 1998-06-19 | 1998-06-19 | Image encoding device, image encoding method, image decoding device, image decoding method, and providing medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001045481A JP2001045481A (en) | 2001-02-16 |
JP3345887B2 true JP3345887B2 (en) | 2002-11-18 |
Family
ID=18692902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000194005A Expired - Fee Related JP3345887B2 (en) | 1998-06-19 | 2000-06-28 | Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3345887B2 (en) |
-
2000
- 2000-06-28 JP JP2000194005A patent/JP3345887B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001045481A (en) | 2001-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100629092B1 (en) | Picture encoding apparatus, picture encoding method, picture decoding apparatus, picture decoding method and presentation medium | |
JP3380983B2 (en) | Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium | |
JP3263807B2 (en) | Image encoding apparatus and image encoding method | |
JP3413720B2 (en) | Image encoding method and apparatus, and image decoding method and apparatus | |
JP3413721B2 (en) | Image encoding method and apparatus, and image decoding method and apparatus | |
JP3344577B2 (en) | Image encoding device and image encoding method, image decoding device and image decoding method, and recording method | |
JP3345887B2 (en) | Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium | |
JP3380980B2 (en) | Image encoding method, image decoding method, and image decoding device | |
JP2001054120A (en) | Image coder, image coding method, image decoder, image decoding method and recording medium | |
JP3380981B2 (en) | Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium | |
JP3263812B2 (en) | Image encoding device and image encoding method, and image decoding device and image decoding method | |
JP2001045496A (en) | Image coder and image coding method, image decoder and image decoding method, and recorind medium and recording method | |
JP2001061145A (en) | Image coding device and method therefor, and image decoding device and method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020805 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080906 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090906 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090906 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100906 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110906 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120906 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130906 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |