JP3380980B2 - Image encoding method, image decoding method, and image decoding device - Google Patents

Image encoding method, image decoding method, and image decoding device

Info

Publication number
JP3380980B2
JP3380980B2 JP08075898A JP8075898A JP3380980B2 JP 3380980 B2 JP3380980 B2 JP 3380980B2 JP 08075898 A JP08075898 A JP 08075898A JP 8075898 A JP8075898 A JP 8075898A JP 3380980 B2 JP3380980 B2 JP 3380980B2
Authority
JP
Japan
Prior art keywords
vop
time
image
precision
time information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08075898A
Other languages
Japanese (ja)
Other versions
JPH10336669A (en
Inventor
陽一 矢ヶ崎
輝彦 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP08075898A priority Critical patent/JP3380980B2/en
Publication of JPH10336669A publication Critical patent/JPH10336669A/en
Application granted granted Critical
Publication of JP3380980B2 publication Critical patent/JP3380980B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、画像符号化方法
並びに画像復号方法および画像復号装置に関する。特
に、例えば、動画像データを、光磁気ディスクや磁気テ
ープなどの記録媒体に記録し、これを再生してディスプ
レイなどに表示したり、テレビ会議システム、テレビ電
話システム、放送用機器、マルチメディアデータベース
検索システムなどのように、動画像データを伝送路を介
して送信側から受信側に伝送し、受信側において、受信
された動画像データを表示する場合や、編集して記録す
る場合などに用いて好適な画像符号化方法、並びに画像
復号方法および画像復号装置に関する。
TECHNICAL FIELD The present invention relates to an image coding method ,
The present invention also relates to an image decoding method and an image decoding device . In particular, for example, moving image data is recorded on a recording medium such as a magneto-optical disk or a magnetic tape and is reproduced and displayed on a display or the like, or a video conference system, a video telephone system, broadcasting equipment, a multimedia database. Used when transmitting moving image data from the transmitting side to the receiving side via a transmission line and displaying the received moving image data, or when editing and recording, etc. And an image decoding method , an image decoding method, and an image decoding apparatus .

【0002】[0002]

【従来の技術】例えば、テレビ会議システム、テレビ電
話システムなどのように、動画像データを遠隔地に伝送
するシステムにおいては、伝送路を効率良く利用するた
め、画像データを、そのライン相関やフレーム間相関を
利用して圧縮符号化するようになされている。
2. Description of the Related Art In a system for transmitting moving image data to a remote place, such as a video conference system or a video telephone system, for example, the image data is line-correlated or framed in order to use the transmission line efficiently. The compression coding is performed by using the inter-correlation.

【0003】動画像の高能率符号化方式として代表的な
ものとしてMPEG(Moving Picture Experts Group)(蓄
積用動画像符号化)方式がある。これはISO−IEC
/JTC1/SC2/WG11において議論され、標準
案として提案されたものであり、動き補償予測符号化と
DCT(Discrete Cosine Transform)符号化を組み合
わせたハイブリッド方式が採用されている。
A typical example of a high-efficiency coding method for moving images is the Moving Picture Experts Group (MPEG) (moving image coding for storage) method. This is ISO-IEC
/ JTC1 / SC2 / WG11, and it was proposed as a standard proposal, and a hybrid system combining motion compensation predictive coding and DCT (Discrete Cosine Transform) coding is adopted.

【0004】MPEGでは、様々なアプリケーションや
機能に対応するために、いくつかのプロファイルおよび
レベルが定義されている。最も基本となるのが、メイン
プロファイルメインレベル(MP@ML(Main Profile
at Main Level))である。
In MPEG, several profiles and levels are defined in order to support various applications and functions. The most basic is the main profile main level (MP @ ML (Main Profile
at Main Level)).

【0005】図38は、MPEG方式におけるMP@M
Lのエンコーダの一例の構成を示している。
FIG. 38 shows MP @ M in the MPEG system.
The structure of an example of the encoder of L is shown.

【0006】符号化すべき画像データは、フレームメモ
リ31に入力され、一時記憶される。そして、動きベク
トル検出器32は、フレームメモリ31に記憶された画
像データを、例えば、16画素×16画素などで構成さ
れるマクロブロック単位で読み出し、その動きベクトル
を検出する。
Image data to be encoded is input to the frame memory 31 and temporarily stored. Then, the motion vector detector 32 reads out the image data stored in the frame memory 31, for example, in units of macroblocks composed of 16 pixels × 16 pixels, and detects the motion vector.

【0007】ここで、動きベクトル検出器32において
は、各フレームの画像データを、Iピクチャ(フレーム
内符号化)、Pピクチャ(前方予測符号化)、またはB
ピクチャ(両方向予測符号化)のうちのいずれかとして
処理する。なお、シーケンシャルに入力される各フレー
ムの画像を、I,P,Bピクチャのいずれのピクチャと
して処理するかは、例えば、予め定められている(例え
ば、I,B,P,B,P,・・・B,Pとして処理され
る)。
Here, in the motion vector detector 32, the image data of each frame is converted into an I picture (intra-frame coding), a P picture (forward prediction coding), or a B picture.
It is processed as one of the pictures (bidirectional predictive coding). It should be noted that which of I, P, and B pictures to process the images of the sequentially input frames is predetermined, for example (for example, I, B, P, B, P ,. .. are treated as B and P).

【0008】即ち、動きベクトル検出器32は、フレー
ムメモリ31に記憶された画像データの中の、予め定め
られた所定の参照フレームを参照し、その参照フレーム
と、現在符号化の対象となっているフレームの16画素
×16ラインの小ブロック(マクロブロック)とをパタ
ーンマッチング(ブロックマッチング)することによ
り、そのマクロブロックの動きベクトルを検出する。
That is, the motion vector detector 32 refers to a predetermined reference frame in the image data stored in the frame memory 31, and the reference frame and the current encoding target. The motion vector of the macroblock is detected by pattern matching (block matching) with a small block (macroblock) of 16 pixels × 16 lines of the existing frame.

【0009】ここで、MPEGにおいては、画像の予測
モードには、イントラ符号化(フレーム内符号化)、前
方予測符号化、後方予測符号化、両方向予測符号化の4
種類があり、Iピクチャはイントラ符号化され、Pピク
チャはイントラ符号化または前方予測符号化のいずれか
で符号化され、Bピクチャはイントラ符号化、前方予測
符号化、後方予測符号化、または両方法予測符号化のい
ずれかで符号化される。
Here, in MPEG, there are four image prediction modes: intra coding (intra-frame coding), forward predictive coding, backward predictive coding, and bidirectional predictive coding.
There are types, I pictures are intra coded, P pictures are coded with either intra coding or forward predictive coding, and B pictures are intra coded, forward predictive coded, backward predictive coded, or both. It is encoded by any of the method predictive encodings.

【0010】即ち、動きベクトル検出器32は、Iピク
チャについては、予測モードとしてイントラ符号化モー
ドを設定する。この場合、動きベクトル検出器32は、
動きベクトルの検出は行わず、予測モード(イントラ予
測モード)を、VLC(可変長符号化)器36および動
き補償器42に出力する。
That is, the motion vector detector 32 sets the intra coding mode as the prediction mode for the I picture. In this case, the motion vector detector 32
The motion vector is not detected, and the prediction mode (intra prediction mode) is output to the VLC (variable length coding) unit 36 and the motion compensator 42.

【0011】また、動きベクトル検出器32は、Pピク
チャについては、前方予測を行い、その動きベクトルを
検出する。さらに、動きベクトル検出器32は、前方予
測を行うことにより生じる予測誤差と、符号化対象のマ
クロブロック(Pピクチャのマクロブロック)の、例え
ば分散とを比較する。その比較の結果、マクロブロック
の分散の方が予測誤差より小さい場合、動きベクトル検
出器32は、予測モードとしてイントラ符号化モードを
設定し、VLC器36および動き補償器42に出力す
る。また、動きベクトル検出器32は、前方予測を行う
ことにより生じる予測誤差の方が小さければ、予測モー
ドとして前方予測符号化モードを設定し、検出した動き
ベクトルとともに、VLC器36および動き補償器42
に出力する。
The motion vector detector 32 also performs forward prediction for P pictures to detect the motion vector. Further, the motion vector detector 32 compares the prediction error generated by performing the forward prediction with, for example, the variance of the macroblock to be encoded (macroblock of P picture). As a result of the comparison, when the variance of the macroblock is smaller than the prediction error, the motion vector detector 32 sets the intra coding mode as the prediction mode and outputs it to the VLC unit 36 and the motion compensator 42. Further, if the prediction error caused by performing the forward prediction is smaller, the motion vector detector 32 sets the forward prediction coding mode as the prediction mode, and the detected motion vector, the VLC unit 36, and the motion compensator 42 are set.
Output to.

【0012】さらに、動きベクトル検出器32は、Bピ
クチャについては、前方予測、後方予測、および両方向
予測を行い、それぞれの動きベクトルを検出する。そし
て、動きベクトル検出器32は、前方予測、後方予測、
および両方向予測についての予測誤差の中の最小のもの
(以下、適宜、最小予測誤差という)を検出し、その最
小予測誤差と、符号化対象のマクロブロック(Bピクチ
ャのマクロブロック)の、例えば分散とを比較する。そ
の比較の結果、マクロブロックの分散の方が最小予測誤
差より小さい場合、動きベクトル検出器32は、予測モ
ードとしてイントラ符号化モードを設定し、VLC器3
6および動き補償器42に出力する。また、動きベクト
ル検出器32は、最小予測誤差の方が小さければ、予測
モードとして、その最小予測誤差が得られた予測モード
を設定し、対応する動きベクトルとともに、VLC器3
6および動き補償器42に出力する。
Further, the motion vector detector 32 performs forward prediction, backward prediction, and bidirectional prediction for the B picture, and detects each motion vector. Then, the motion vector detector 32 uses forward prediction, backward prediction,
And a minimum prediction error (hereinafter, appropriately referred to as a minimum prediction error) among the prediction errors for bidirectional prediction, and the minimum prediction error and, for example, the variance of the macroblock to be encoded (the macroblock of the B picture). Compare with. As a result of the comparison, when the variance of the macroblock is smaller than the minimum prediction error, the motion vector detector 32 sets the intra coding mode as the prediction mode, and the VLC unit 3
6 and the motion compensator 42. If the minimum prediction error is smaller, the motion vector detector 32 sets the prediction mode in which the minimum prediction error is obtained as the prediction mode, and the VLC unit 3 with the corresponding motion vector.
6 and the motion compensator 42.

【0013】動き補償器42は、動きベクトル検出器3
2から予測モードと動きベクトルの両方を受信すると、
その予測モードおよび動きベクトルにしたがって、フレ
ームメモリ41に記憶されている、符号化され、かつ既
に局所復号された画像データを読み出し、この読み出さ
れた画像データを、予測画像データとして、演算器33
および40に供給する。
The motion compensator 42 is a motion vector detector 3
When receiving both the prediction mode and the motion vector from 2,
According to the prediction mode and the motion vector, the coded and already locally-decoded image data stored in the frame memory 41 is read out, and the read-out image data is used as predicted image data as the calculator 33.
And 40.

【0014】演算器33は、動きベクトル検出器32が
フレームメモリ31から読み出した画像データと同一の
マクロブロックをフレームメモリ31から読み出し、そ
のマクロブロックと、動き補償器42からの予測画像と
の差分を演算する。この差分値は、DCT器34に供給
される。
The calculator 33 reads from the frame memory 31 the same macroblock as the image data read from the frame memory 31 by the motion vector detector 32, and the difference between the macroblock and the predicted image from the motion compensator 42. Is calculated. This difference value is supplied to the DCT device 34.

【0015】一方、動き補償器42は、動きベクトル検
出器32から予測モードのみを受信した場合、即ち、予
測モードがイントラ符号化モードである場合には、予測
画像を出力しない。この場合、演算器33(演算器40
も同様)は、特に処理を行わず、フレームメモリ31か
ら読み出したマクロブロックを、そのままDCT器34
に出力する。
On the other hand, the motion compensator 42 does not output the predicted image when it receives only the prediction mode from the motion vector detector 32, that is, when the prediction mode is the intra coding mode. In this case, the calculator 33 (calculator 40
The same applies to the macro block read from the frame memory 31 without performing any processing.
Output to.

【0016】DCT器34では、演算器33の出力デー
タに対して、DCT処理が施され、その結果得られるD
CT係数が、量子化器35に供給される。量子化器35
では、バッファ37のデータ蓄積量(バッファ37に記
憶されているデータの量)(バッファフィードバック)
に対応して量子化ステップ(量子化スケール)が設定さ
れ、その量子化ステップで、DCT器34からのDCT
係数が量子化される。この量子化されたDCT係数(以
下、適宜、量子化係数という)は、設定された量子化ス
テップとともに、VLC器36に供給される。
In the DCT unit 34, DCT processing is performed on the output data of the arithmetic unit 33, and the resulting D is obtained.
The CT coefficient is supplied to the quantizer 35. Quantizer 35
Then, the amount of data accumulated in the buffer 37 (the amount of data stored in the buffer 37) (buffer feedback)
The quantization step (quantization scale) is set in correspondence with the DCT from the DCT unit 34 at the quantization step.
The coefficients are quantized. The quantized DCT coefficient (hereinafter, appropriately referred to as a quantized coefficient) is supplied to the VLC unit 36 together with the set quantization step.

【0017】VLC器36では、量子化器35より供給
される量子化係数が、例えばハフマン符号などの可変長
符号に変換され、バッファ37に出力される。さらに、
VLC器36は、量子化器35からの量子化ステップ、
動きベクトル検出器32からの予測モード(イントラ符
号化(画像内予測符号化)、前方予測符号化、後方予測
符号化、または両方向予測符号化のうちのいずれが設定
されたかを示すモード)および動きベクトルも可変長符
号化し、その結果得られる符号化データを、バッフ37
に出力する。
In the VLC unit 36, the quantized coefficient supplied from the quantizer 35 is converted into a variable length code such as Huffman code, and output to the buffer 37. further,
The VLC unit 36 uses the quantization step from the quantizer 35,
Prediction mode from motion vector detector 32 (mode indicating which of intra coding (intra-picture predictive coding), forward predictive coding, backward predictive coding, or bidirectional predictive coding) is set and motion The vector is also variable-length coded, and the resulting coded data is stored in the buffer 37.
Output to.

【0018】バッファ37は、VLC器36からの符号
化データを一時蓄積することにより、そのデータ量を平
滑化し、符号化ビットストリームとして、例えば、伝送
路に出力し、または記録媒体に記録する。
The buffer 37 smoothes the data amount by temporarily storing the coded data from the VLC unit 36, and outputs it as a coded bit stream to, for example, a transmission line or records it on a recording medium.

【0019】また、バッファ37は、そのデータ蓄積量
を量子化器35に出力しており、量子化器35は、この
バッファ37からのデータ蓄積量にしたがって量子化ス
テップを設定する。即ち、量子化器35は、バッファ3
7がオーバーフローしそうなとき、量子化ステップを大
きくし、これにより、量子化係数のデータ量を低下させ
る。また、量子化器35は、バッファ37がアンダーフ
ローしそうなとき、量子化ステップを小さくし、これに
より、量子化係数のデータ量を増大させる。このように
して、バッファ37のオーバフローとアンダフローを防
止するようになっている。
The buffer 37 also outputs the data storage amount to the quantizer 35, and the quantizer 35 sets the quantization step in accordance with the data storage amount from the buffer 37. That is, the quantizer 35 uses the buffer 3
When 7 is about to overflow, the quantization step is increased, thereby reducing the data amount of the quantization coefficient. The quantizer 35 reduces the quantization step when the buffer 37 is likely to underflow, thereby increasing the data amount of the quantization coefficient. In this way, overflow and underflow of the buffer 37 are prevented.

【0020】量子化器35が出力する量子化係数と量子
化ステップは、VLC器36だけでなく、逆量子化器3
8にも供給されるようになされている。逆量子化器38
では、量子化器35からの量子化係数が、同じく量子化
器35からの量子化ステップにしたがって逆量子化さ
れ、これによりDCT係数に変換される。このDCT係
数は、IDCT器(逆DCT器)39に供給される。I
DCT器39では、DCT係数が逆DCT処理され、そ
の処理の結果得られるデータが、演算器40に供給され
る。
The quantizing coefficient and the quantizing step output by the quantizer 35 are not limited to those of the VLC unit 36, but also of the inverse quantizer 3.
It is designed to be supplied to 8 as well. Inverse quantizer 38
Then, the quantized coefficient from the quantizer 35 is inversely quantized in accordance with the quantization step from the quantizer 35, and converted into the DCT coefficient. The DCT coefficient is supplied to the IDCT device (inverse DCT device) 39. I
In the DCT unit 39, the DCT coefficient is subjected to inverse DCT processing, and the data obtained as a result of the processing is supplied to the arithmetic unit 40.

【0021】演算器40には、IDCT器39の出力デ
ータの他、上述したように、動き補償器42から、演算
器33に供給されている予測画像と同一のデータが供給
されている。演算器40は、IDCT器39の出力デー
タ(予測残差(差分データ))と、動き補償器42から
の予測画像データとを加算することで、元の画像データ
を局所復号し、この局所復号された画像データ(局所復
号画像データ)が出力される(但し、予測モードがイン
トラ符号化である場合には、IDCT器39の出力デー
タは、演算器40をスルーして、そのまま、局所復号画
像データとして、フレームメモリ41に供給される)。
なお、この復号画像データは、受信側において得られる
復号画像データと同一のものである。
In addition to the output data of the IDCT unit 39, the arithmetic unit 40 is supplied with the same data as the predicted image supplied to the arithmetic unit 33 from the motion compensator 42 as described above. The arithmetic unit 40 locally decodes the original image data by adding the output data (prediction residual (difference data)) of the IDCT unit 39 and the predicted image data from the motion compensator 42, and this local decoding Output image data (locally decoded image data) is output (however, when the prediction mode is intra-coding, the output data of the IDCT unit 39 passes through the arithmetic unit 40 and is directly output as the locally decoded image. It is supplied to the frame memory 41 as data).
The decoded image data is the same as the decoded image data obtained on the receiving side.

【0022】演算器40において得られた復号画像デー
タ(局所復号画像データ)は、フレームメモリ41に供
給されて記憶され、その後、インター符号化(前方予測
符号化、後方予測符号化、量方向予測符号化)される画
像に対する参照画像データ(参照フレーム)として用い
られる。
The decoded image data (locally decoded image data) obtained by the arithmetic unit 40 is supplied to and stored in the frame memory 41, and thereafter, inter-encoding (forward predictive coding, backward predictive coding, quantity direction prediction). It is used as reference image data (reference frame) for an image to be encoded.

【0023】次に、図39は、図38のエンコーダから
出力される符号化データを復号する、MPEGにおける
MP@MLのデコーダの一例の構成を示している。
Next, FIG. 39 shows an example of the configuration of an MP @ ML decoder in MPEG for decoding the encoded data output from the encoder of FIG.

【0024】伝送路を介して伝送されてきた符号化ビッ
トストリーム(符号化データ)が図示せぬ受信装置で受
信され、または記録媒体に記録された符号化ビットスト
リーム(符号化データ)が図示せぬ再生装置で再生さ
れ、バッファ101に供給されて記憶される。
The encoded bit stream (encoded data) transmitted through the transmission path is received by a receiver (not shown) or the encoded bit stream (encoded data) recorded on a recording medium is illustrated. It is reproduced by a reproducing device, is supplied to the buffer 101, and is stored therein.

【0025】IVLC器(逆VLC器(可変長復号
器))102は、バッファ101に記憶された符号化デ
ータを読み出し、可変長復号することにより、その符号
化データを、マクロブロック単位で、動きベクトル、予
測モード、量子化ステップ、および量子化係数に分離す
る。これらのデータのうち、動きベクトルおよび予測モ
ードは動き補償器107に供給され、量子化ステップお
よびマクロブロックの量子化係数は逆量子化器103に
供給される。
The IVLC unit (inverse VLC unit (variable length decoder)) 102 reads the encoded data stored in the buffer 101 and performs variable length decoding to move the encoded data in macroblock units. Separate into vector, prediction mode, quantization step, and quantized coefficient. Of these data, the motion vector and the prediction mode are supplied to the motion compensator 107, and the quantization step and the quantized coefficient of the macroblock are supplied to the inverse quantizer 103.

【0026】逆量子化器103は、IVLC器102よ
り供給されたマクロブロックの量子化係数を、同じくI
VLC器102より供給された量子化ステップにしたが
って逆量子化し、その結果得られるDCT係数を、ID
CT器104に出力する。IDCT器104は、逆量子
化器103からのマクロブロックのDCT係数を逆DC
Tし、演算器105に供給する。
The inverse quantizer 103 uses the quantization coefficient of the macroblock supplied from the IVLC unit 102 as I
Inverse quantization is performed according to the quantization step supplied from the VLC unit 102, and the resulting DCT coefficient is ID
Output to the CT device 104. The IDCT unit 104 inverts the DCT coefficient of the macroblock from the inverse quantizer 103 to the inverse DC.
Then, it is supplied to the arithmetic unit 105.

【0027】演算器105には、IDCT器104の出
力データの他、動き補償器107の出力データも供給さ
れている。即ち、動き補償器107は、フレームメモリ
106に記憶されている、既に復号された画像データ
を、図38の動き補償器42における場合と同様に、I
VLC器102からの動きベクトルおよび予測モードに
したがって読み出し、予測画像データとして、演算器1
05に供給する。演算器105は、IDCT器104の
出力データ(予測残差(差分値))と、動き補償器10
7からの予測画像データとを加算することで、元の画像
データを復号する。この復号画像データは、フレームメ
モリ106に供給されて記憶される。なお、IDCT器
104の出力データが、イントラ符号化されたものであ
る場合には、その出力データは、演算器105をスルー
して、復号画像データとして、そのままフレームメモリ
106に供給されて記憶される。
The output data of the motion compensator 107 as well as the output data of the IDCT device 104 is supplied to the arithmetic unit 105. That is, the motion compensator 107 sets the already-decoded image data stored in the frame memory 106 to I as in the case of the motion compensator 42 of FIG.
According to the motion vector and the prediction mode from the VLC unit 102, the arithmetic unit 1 is used as predicted image data.
Supply to 05. The calculator 105 outputs the output data (prediction residual (difference value)) of the IDCT unit 104 and the motion compensator 10
The original image data is decoded by adding it to the predicted image data from 7. The decoded image data is supplied to and stored in the frame memory 106. If the output data of the IDCT device 104 is intra-coded, the output data passes through the arithmetic unit 105 and is directly supplied to the frame memory 106 and stored as decoded image data. It

【0028】フレームメモリ106に記憶された復号画
像データは、その後に復号される画像データの参照画像
データとして用いられる。さらに、復号画像データは、
出力再生画像として、例えば、図示せぬディスプレイな
どに供給されて表示される。
The decoded image data stored in the frame memory 106 is used as reference image data for image data to be subsequently decoded. Furthermore, the decoded image data is
The output reproduction image is supplied and displayed on, for example, a display (not shown).

【0029】なお、MPEG1および2では、Bピクチ
ャは、参照画像データとして用いられないため、エンコ
ーダまたはデコーダのそれぞれにおいて、フレームメモ
リ41(図38)または106(図39)には記憶され
ない。
In MPEG1 and MPEG2, since B picture is not used as reference image data, it is not stored in the frame memory 41 (FIG. 38) or 106 (FIG. 39) in the encoder or the decoder, respectively.

【0030】[0030]

【発明が解決しようとする課題】以上の図38、図39
に示したエンコーダ、デコーダは、MPEG1/2の規
格に準拠したものであるが、現在、画像を構成する物体
などのオブジェクトのシーケンスであるVO(Video Ob
ject)単位で符号化を行う方式につき、ISO−IEC
/JTC1/SC29/WG11において、MPEG
(Moving Picture Experts Group)4として標準化作業
が進められている。
[Problems to be Solved by the Invention]
The encoders and decoders shown in (1) are compliant with the MPEG1 / 2 standard, but are currently VO (Video Ob) which is a sequence of objects such as objects forming an image.
ISO-IEC for the method of encoding in units of
In / JTC1 / SC29 / WG11, MPEG
(Moving Picture Experts Group) 4 is in the process of standardization.

【0031】ところで、MPEG4については、主とし
て、通信の分野で利用されるものとして、標準化作業が
進められていたため、MPEG1/2において規定され
ているGOP(Group Of Picture)は、MPEG4では
規定されておらず、従って、MPEG4が蓄積メディア
に利用された場合には、効率的なランダムアクセスが困
難になることが予想される。
Meanwhile, with regard to MPEG4, since standardization work has been advanced mainly for use in the field of communication, GOP (Group Of Picture) defined in MPEG1 / 2 is defined in MPEG4. Therefore, if MPEG4 is used as a storage medium, it is expected that efficient random access will be difficult.

【0032】本発明は、このような状況に鑑みてなされ
たものであり、効率的なランダムアクセスをすることが
できるようにするものである。
The present invention has been made in view of such a situation, and makes it possible to perform efficient random access.

【0033】[0033]

【課題を解決するための手段】本発明の画像符号化方法
は、複数のVOPをグループ化し、各グループのVOP
の符号化を開始した絶対時刻を表す絶対時刻情報をグル
ープ単位に付加する第1の付加ステップと、グループ内
における相対時刻を、秒精度で表す秒精度時刻情報を生
成する秒精度時刻情報生成ステップと、I−VOP,P
−VOP、またはB−VOPそれぞれの表示時刻の直前
の秒精度時刻情報から、それぞれの表示時刻までの時間
を、秒精度より細かい精度で表す詳細時間情報を生成す
る詳細時間情報生成ステップと、I−VOP,P−VO
P、またはB−VOPの表示時刻を表す情報として、秒
精度時刻情報および詳細時間情報を、対応するI−VO
P,P−VOP、またはB−VOPにそれぞれ付加する
第2の付加ステップとを備え、秒精度時刻情報生成ステ
ップにおいて、所定のVOPについての秒精度時刻情報
として、絶対時刻情報から、所定のVOPの表示時刻ま
での時間を、秒精度で表したもの、または所定のVOP
の直前に表示されるI−VOPもしくはP−VOPの表
示時刻から、所定のVOPの表示時刻までの時間を、秒
精度で表したものを生成し、絶対時刻情報に、I−VO
P,P−VOP、またはB−VOPそれぞれに付加され
ている秒精度時刻情報および詳細時間情報を加算した時
刻を、I−VOP,P−VOP、またはB−VOPそれ
ぞれの表示時刻とすることを特徴とする。
According to the image coding method of the present invention, a plurality of VOPs are grouped, and the VOPs of each group are grouped.
First addition step of adding absolute time information indicating the absolute time at which the encoding of the above is started in units of groups, and second precision time information generation step of generating second precision time information indicating relative time within the group with second precision And I-VOP, P
-VOP or B-VOP, detailed time information generation step of generating detailed time information representing the time from the second precision time information immediately before each display time to each display time with a precision finer than the second precision; -VOP, P-VO
As the information indicating the display time of the P or B-VOP, the second precision time information and the detailed time information are stored in the corresponding I-VO.
P, P-VOP, or a second addition step of adding to each of the B-VOPs, and in the second precision time information generation step, from the absolute time information to the predetermined VOP as the second precision time information for the predetermined VOP. The time up to the display time of is expressed in seconds precision or a predetermined VOP
The time from the display time of the I-VOP or the P-VOP displayed immediately before the display time of the predetermined VOP to the display time of the predetermined VOP is generated with the second precision, and the absolute time information is added to the I-VO.
Added to P, P-VOP, or B-VOP respectively
When the second precision time information and the detailed time information are added
The I-VOP, P-VOP, or B-VOP
It is characterized in that each display time .

【0034】本発明の画像復号方法は、絶対時刻情報
に、I−VOP,P−VOP、またはB−VOPそれぞ
れに付加されている秒精度時刻情報および詳細時間情報
を加算することで、I−VOP,P−VOP、またはB
−VOPそれぞれの表示時刻を求める表示時刻算出ステ
ップと、I−VOP,P−VOP、またはB−VOP
を、対応する表示時刻にしたがって復号する復号ステッ
プとを備え、所定のVOPについての秒精度時刻情報と
して、絶対時刻情報から、所定のVOPの表示時刻まで
の時間を、秒精度で表したもの、または所定のVOPの
直前に表示されるI−VOPもしくはP−VOPの表示
時刻から、所定のVOPの表示時刻までの時間を、秒精
度で表したものが用いられていることを特徴とする。
The image decoding method of the present invention uses absolute time information.
I-VOP, P-VOP, or B-VOP respectively
Second precision time information and detailed time information added to this
By adding I-VOP, P-VOP, or B
-Display time calculation step for obtaining display time of each VOP, and I-VOP, P-VOP, or B-VOP
And a decoding step of decoding according to the corresponding display time, wherein the time from the absolute time information to the display time of the predetermined VOP is represented with second accuracy as the second accuracy time information for the predetermined VOP. Alternatively, it is characterized in that the time from the display time of the I-VOP or P-VOP displayed immediately before the predetermined VOP to the display time of the predetermined VOP is expressed in seconds accuracy.

【0035】本発明の画像復号装置は、絶対時刻情報
に、I−VOP,P−VOP、またはB−VOPそれぞ
れに付加されている秒精度時刻情報および詳細時間情報
を加算することで、I−VOP,P−VOP、またはB
−VOPそれぞれの表示時刻を求める表示時刻算出手段
と、I−VOP,P−VOP、またはB−VOPを、対
応する表示時刻にしたがって復号する復号手段とを備
え、所定のVOPについての秒精度時刻情報として、絶
対時刻情報から、所定のVOPの表示時刻までの時間
を、秒精度で表したもの、または所定のVOPの直前に
表示されるI−VOPもしくはP−VOPの表示時刻か
ら、所定のVOPの表示時刻までの時間を、秒精度で表
したものが用いられていることを特徴とする。
The image decoding apparatus according to the present invention uses absolute time information.
I-VOP, P-VOP, or B-VOP respectively
Second precision time information and detailed time information added to this
By adding I-VOP, P-VOP, or B
-Display time calculating means for obtaining the display time of each VOP
And I-VOP, P-VOP, or B-VOP
And a decoding means for decoding according to the corresponding display time.
Yes, as the second precision time information for a given VOP,
Time from the time information to the display time of the specified VOP
In seconds precision, or immediately before a given VOP
Is it the display time of the displayed I-VOP or P-VOP?
, The time until the display time of the specified VOP is displayed with second accuracy.
It is characterized by the fact that it is used.

【0036】[0036]

【0037】[0037]

【0038】[0038]

【0039】[0039]

【0040】[0040]

【0041】[0041]

【0042】[0042]

【0043】本発明の画像符号化方法においては、複数
のVOPがグループ化され、各グループのVOPの符号
化を開始した絶対時刻を表す絶対時刻情報がグループ単
位に付加される。さらに、グループ内における相対時刻
を、秒精度で表す秒精度時刻情報が生成されるととも
に、I−VOP,P−VOP、またはB−VOPそれぞ
れの表示時刻の直前の秒精度時刻情報から、それぞれの
表示時刻までの時間を、秒精度より細かい精度で表す詳
細時間情報が生成される。そして、I−VOP,P−V
OP、またはB−VOPの表示時刻を表す情報として、
秒精度時刻情報および詳細時間情報が、対応するI−V
OP,P−VOP、またはB−VOPにそれぞれ付加さ
れる。この場合に、所定のVOPについての秒精度時刻
情報として、絶対時刻情報から、所定のVOPの表示時
刻までの時間を、秒精度で表したもの、または所定のV
OPの直前に表示されるI−VOPもしくはP−VOP
の表示時刻から、所定のVOPの表示時刻までの時間
を、秒精度で表したものが生成され、絶対時刻情報に、
I−VOP,P−VOP、またはB−VOPそれぞれに
付加されている秒精度時刻情報および詳細時間情報を加
算した時刻が、I−VOP,P−VOP、またはB−V
OPそれぞれの表示時刻とされる。
In the image coding method of the present invention, a plurality of VOPs are grouped, and absolute time information indicating the absolute time when the coding of the VOPs of each group is started is added in group units. Further, second precision time information representing relative time in the group with second precision is generated, and from the second precision time information immediately before the display time of each I-VOP, P-VOP, or B-VOP, the respective precision time information is displayed. Detailed time information is generated that represents the time until the display time with a precision finer than the second precision. And I-VOP, P-V
As information indicating the display time of OP or B-VOP,
Second precision time information and detailed time information correspond to IV
It is added to OP, P-VOP, or B-VOP, respectively. In this case, as the second precision time information about the predetermined VOP, the time from the absolute time information to the display time of the predetermined VOP is represented by the second precision or the predetermined VOP.
I-VOP or P-VOP displayed immediately before OP
The time from the display time of to the display time of the predetermined VOP is represented with second precision, and the absolute time information is
For each I-VOP, P-VOP, or B-VOP
Adds the second precision time information and detailed time information
The calculated time is I-VOP, P-VOP, or B-V
The display time of each OP is set.

【0044】本発明の画像復号方法および画像復号装置
においては、絶対時刻情報に、I−VOP,P−VO
P、またはB−VOPそれぞれに付加されている秒精度
時刻情報および詳細時間情報を加算することで、I−V
OP,P−VOP、またはB−VOPそれぞれの表示時
刻が求められ、I−VOP,P−VOP、またはB−V
OPが、対応する表示時刻にしたがって復号される。こ
の場合に、所定のVOPについての秒精度時刻情報とし
て、絶対時刻情報から、所定のVOPの表示時刻までの
時間を、秒精度で表したもの、または所定のVOPの直
前に表示されるI−VOPもしくはP−VOPの表示時
刻から、所定のVOPの表示時刻までの時間を、秒精度
で表したものが用いられている。
In the image decoding method and the image decoding apparatus of the present invention, the absolute time information includes I-VOP and P-VO.
Second accuracy added to each P or B-VOP
By adding the time information and the detailed time information, the IV
When displaying OP, P-VOP, or B-VOP respectively
Is required, I-VOP, P-VOP, or B-V
The OP is decoded according to the corresponding display time. In this case, as the second precision time information for the predetermined VOP, the time from the absolute time information to the display time of the predetermined VOP is expressed in second precision, or the I-displayed immediately before the predetermined VOP. The time from the display time of the VOP or the P-VOP to the display time of the predetermined VOP, which is expressed in seconds, is used.

【0045】[0045]

【0046】[0046]

【0047】[0047]

【0048】[0048]

【0049】[0049]

【0050】[0050]

【0051】[0051]

【0052】[0052]

【0053】[0053]

【発明の実施の形態】DETAILED DESCRIPTION OF THE INVENTION

【0054】[0054]

【0055】[0055]

【0056】[0056]

【0057】[0057]

【0058】[0058]

【0059】[0059]

【0060】[0060]

【0061】図1は、本発明を適用したエンコーダの一
実施の形態の構成例を示している。
FIG. 1 shows a configuration example of an embodiment of an encoder to which the present invention is applied.

【0062】符号化すべき画像(動画像)データは、V
O(Video Object)構成部1に入力され、VO構成部1
では、そこに入力される画像を構成するオブジェクトご
とに、そのシーケンスであるVOが構成され、VOP構
成部21乃至2Nに出力される。即ち、VO構成部1にお
いてN個のVO#1乃至VO#Nが構成された場合、そ
のN個のVO#1乃至VO#Nは、VOP構成部21
至2Nにそれぞれ出力される。
The image (moving image) data to be encoded is V
O (Video Object) component 1 is input to VO component 1
Then, a VO, which is the sequence, is constructed for each object constituting the image input thereto, and is output to the VOP constructing sections 2 1 to 2 N. That is, when N VO # 1 to VO # N are configured in the VO configuration unit 1, the N VO # 1 to VO # N are output to the VOP configuration units 2 1 to 2 N , respectively.

【0063】具体的には、例えば、符号化すべき画像デ
ータが、独立した背景F1のシーケンスと前景F2のシ
ーケンスとから構成される場合、VO構成部1は、例え
ば、前景F2のシーケンスを、VO#1として、VOP
構成部21に出力するとともに、背景F1のシーケンス
を、VO#2として、VOP構成部22に出力する。
Specifically, for example, when the image data to be encoded is composed of the sequence of the background F1 and the sequence of the foreground F2 which are independent, the VO constructing unit 1 changes the sequence of the foreground F2 to VO, for example. VOP as # 1
The sequence of the background F1 is output to the VOP constructing unit 2 2 as VO # 2 while being output to the constructing unit 2 1 .

【0064】なお、VO構成部1は、符号化すべき画像
データが、例えば、背景F1と前景F2とを、既に合成
したものである場合、所定のアルゴリズムにしたがっ
て、画像を領域分割することにより、背景F1と前景F
2とを取り出し、それぞれのシーケンスとしてのVO
を、対応するVOP構成部2n(但し、n=1,2,・
・・,N)に出力する。
If the image data to be encoded is, for example, a background F1 and a foreground F2 that have already been combined, the VO construction unit 1 divides the image into regions by a predetermined algorithm. Background F1 and foreground F
2 and take out VO as each sequence
To the corresponding VOP component 2 n (where n = 1, 2, ...
.., N)

【0065】VOP構成部2nは、VO構成部1の出力
から、VOP(VO Plane)を構成する。即ち、例えば、
各フレームから物体を抽出し、その物体を囲む、例え
ば、最小の長方形(以下、適宜、最小長方形という)を
VOPとする。なお、このとき、VOP構成部2nは、
その横および縦の画素数が、例えば、16の倍数となる
ようにVOPを構成する。VO構成部2nは、VOPを
構成すると、そのVOPを、VOP符号化部3nに出力
する。
The VOP constructing unit 2 n constructs a VOP (VO Plane) from the output of the VO constructing unit 1. That is, for example,
An object is extracted from each frame, and a minimum rectangle (hereinafter, appropriately referred to as a minimum rectangle) surrounding the object is set as a VOP. At this time, the VOP component 2 n
The VOP is configured such that the number of horizontal and vertical pixels is, for example, a multiple of 16. When the VO constructing unit 2 n constructs the VOP, the VO constructing unit 2 n outputs the VOP to the VOP encoding unit 3 n .

【0066】さらに、VOP構成部2nは、VOPの大
きさ(例えば、横および縦の長さ)を表すサイズデータ
(VOP size)と、フレームにおける、そのVOPの位置
(例えば、フレームの最も左上を原点とするときの座
標)を表すオフセットデータ(VOP offset)とを検出
し、これらのデータも、VOP符号化部3nに供給す
る。
Further, the VOP constructing section 2 n includes size data (VOP size) representing the size (for example, the horizontal and vertical lengths) of the VOP and the position of the VOP in the frame (for example, the upper leftmost part of the frame). The offset data (VOP offset) representing the coordinate when the origin is the origin is detected, and these data are also supplied to the VOP encoding unit 3 n .

【0067】VOP符号化部3nは、VOP構成部2n
出力を、例えば、MPEGや、H.263などの規格に
準拠した方式で符号化し、その結果得られるビットスト
リームを、多重化部4に出力する。多重化部4は、VO
P符号化部31乃至3Nからのビットストリームを多重化
し、その結果得られる多重化データを、例えば、地上波
や、衛星回線、CATV網その他の伝送路5を介して伝
送し、または、例えば、磁気ディスク、光磁気ディス
ク、光ディスク、磁気テープその他の記録媒体6に記録
する。
The VOP encoding unit 3 n outputs the output of the VOP forming unit 2 n to, for example, MPEG or H.264. It is encoded by a method compliant with standards such as H.263 and the resulting bit stream is output to the multiplexing unit 4. The multiplexing unit 4 uses the VO
The bit streams from the P coding units 3 1 to 3 N are multiplexed, and the resulting multiplexed data is transmitted, for example, via a terrestrial wave, a satellite line, a CATV network, or another transmission line 5, or For example, it is recorded on a recording medium 6 such as a magnetic disk, a magneto-optical disk, an optical disk, a magnetic tape or the like.

【0068】ここで、VOおよびVOPについて説明す
る。
Here, VO and VOP will be described.

【0069】VOは、ある合成画像のシーケンスが存在
する場合の、その合成画像を構成する各オブジェクト
(物体)のシーケンスであり、VOPは、ある時刻にお
けるVOを意味する。即ち、例えば、いま、画像F1お
よびF2を合成して構成される合成画像F3がある場
合、画像F1またはF2が時系列に並んだものが、それ
ぞれVOであり、ある時刻における画像F1またはF2
が、それぞれVOPである。従って、VOは、異なる時
刻の、同一オブジェクトのVOPの集合ということがで
きる。
VO is a sequence of objects (objects) forming a composite image when a sequence of the composite image exists, and VOP means VO at a certain time. That is, for example, when there is a composite image F3 that is composed by combining the images F1 and F2, the images in which the images F1 and F2 are arranged in time series are VO, respectively, and the images F1 and F2 at a certain time.
Are VOPs. Therefore, a VO can be said to be a set of VOPs of the same object at different times.

【0070】なお、例えば、画像F1を背景とするとと
もに、画像F2を前景とすると、合成画像F3は、画像
F2を抜くためのキー信号を用いて、画像F1およびF
2を合成することによって得られるが、この場合におけ
る画像F2のVOPには、その画像F2を構成する画像
データ(輝度信号および色差信号)の他、適宜、そのキ
ー信号も含まれるものとする。
For example, when the image F1 is used as the background and the image F2 is used as the foreground, the composite image F3 uses the key signal for extracting the image F2 and the images F1 and F1.
Although it is obtained by synthesizing the two, the VOP of the image F2 in this case includes not only the image data (luminance signal and color difference signal) forming the image F2 but also its key signal as appropriate.

【0071】画像フレーム(画枠)のシーケンスは、そ
の大きさおよび位置のいずれも変化しないが、VOは、
大きさや位置が変化する場合がある。即ち、同一のVO
を構成するVOPであっても、時刻によって、その大き
さや位置が異なる場合がある。
The sequence of image frames does not change in either size or position, but VO
The size and position may change. That is, the same VO
The size and position of the VOP that composes may differ depending on the time.

【0072】具体的には、図2は、背景である画像F1
と、前景である画像F2とからなる合成画像を示してい
る。
Specifically, FIG. 2 shows the background image F1.
And a foreground image F2.

【0073】画像F1は、例えば、ある自然の風景を撮
影したものであり、その画像全体のシーケンスが1つの
VO(VO#0とする)とされている。また、画像F2
は、例えば、人が歩いている様子を撮影したものであ
り、その人を囲む最小の長方形のシーケンスが1つのV
O(VO#1とする)とされている。
The image F1 is, for example, a photograph of a certain natural landscape, and the sequence of the entire image is one VO (referred to as VO # 0). Also, the image F2
Is, for example, a photograph of a person walking, and the smallest rectangular sequence surrounding the person is one V
It is O (denoted as VO # 1).

【0074】この場合、VO#0は風景の画像であるか
ら、基本的に、通常の画像のフレームと同様に、その位
置および大きさの両方とも変化しない。これに対して、
VO#1は人の画像であるから、人物が左右に移動した
り、また、図面において手前側または奥側に移動するこ
とにより、その大きさや位置が変化する。従って、図2
は、同一時刻におけるVO#0およびVO#1を表して
いるが、VOの位置や大きさは、時間の経過にともなっ
て変化することがある。
In this case, since VO # 0 is a landscape image, basically, both its position and size do not change, like a frame of a normal image. On the contrary,
Since VO # 1 is an image of a person, its size and position change as the person moves to the left or right, or moves to the front side or the back side in the drawing. Therefore, FIG.
Represents VO # 0 and VO # 1 at the same time, but the position and size of VO may change over time.

【0075】そこで、図1のVOP符号化部3nは、そ
の出力するビットストリームに、VOPを符号化したデ
ータの他、所定の絶対座標系におけるVOPの位置(座
標)および大きさに関する情報も含めるようになされて
いる。なお、図2においては、VO#0を構成する、あ
る時刻のVOP(画像F1)の位置を示すベクトルをO
ST0と、その時刻と同一時刻における、VO#1のV
OP(画像F2)の位置を表すベクトルをOST1と、
それぞれ表してある。
Therefore, the VOP coding unit 3 n in FIG. 1 outputs, in the bit stream output from the VOP coding unit 3 n , information on the position (coordinates) and the size of the VOP in a predetermined absolute coordinate system, in addition to the VOP-coded data. It is designed to be included. In FIG. 2, the vector indicating the position of the VOP (image F1) at a certain time, which constitutes VO # 0, is O.
ST0 and V of VO # 1 at the same time as ST0
A vector representing the position of OP (image F2) is OST1 and
Each is represented.

【0076】次に、図3は、スケーラビリティを実現す
る、図1のVOP符号化部3nの構成例を示している。
即ち、MPEGでは、異なる画像サイズやフレームレー
トに対応するスケーラビリティを実現するスケーラブル
符号化方式が導入されており、図3に示したVOP符号
化部3nでは、そのようなスケーラビリティを実現する
ことができるようになされている。
Next, FIG. 3 shows an example of the structure of the VOP coding unit 3 n shown in FIG. 1, which realizes scalability.
That is, MPEG has introduced a scalable coding method that realizes scalability corresponding to different image sizes and frame rates, and the VOP coding unit 3 n shown in FIG. 3 can realize such scalability. It is made possible.

【0077】VOP構成部2nからのVOP(画像デー
タ)、並びにそのサイズデータ(VOPsize)、およびオ
フセットデータ(VOP offset)は、いずれも画像階層化
部21に供給される。
The VOP (image data) from the VOP constructing unit 2 n , its size data (VOPsize), and offset data (VOP offset) are all supplied to the image hierarchizing unit 21.

【0078】画像階層化部21は、VOPから、1以上
の階層の画像データを生成する(VOPの1以上の階層
化を行う)。即ち、例えば、空間スケーラビリティの符
号化を行う場合においては、画像階層化部21は、そこ
に入力される画像データを、そのまま上位レイヤ(上位
階層)の画像データとして出力するとともに、それらの
画像データを構成する画素数を間引くことなどにより縮
小し(解像度を低下させ)、これを下位レイヤ(下位階
層)の画像データとして出力する。
The image hierarchization unit 21 generates image data of one or more hierarchies from VOPs (performs one or more hierarchies of VOPs). That is, for example, in the case of performing spatial scalability encoding, the image layering unit 21 outputs the image data input thereto as it is as image data of an upper layer (upper layer), and at the same time, outputs the image data. Is reduced (the resolution is lowered) by thinning out the number of pixels forming the image, and this is output as image data of a lower layer (lower layer).

【0079】なお、入力されたVOPを下位レイヤのデ
ータとするとともに、そのVOPの解像度を、何らかの
手法で高くし(画素数を多くし)、これを、上位レイヤ
のデータとすることなども可能である。
It is also possible to use the input VOP as lower layer data, increase the resolution of the VOP by some method (increase the number of pixels), and use this as upper layer data. Is.

【0080】また、階層数は、1とすることが可能であ
るが、この場合、スケーラビリティは実現されない。な
お、この場合、VOP符号化部3nは、例えば、下位レ
イヤ符号化部25だけで構成されることになる。
The number of layers can be 1, but in this case scalability is not realized. In this case, the VOP coding unit 3 n is composed of only the lower layer coding unit 25, for example.

【0081】さらに、階層数は、3以上とすることも可
能であるが、ここでは、簡単のために、2階層の場合に
ついて説明を行う。
Further, the number of layers can be three or more, but here, for simplicity, a case of two layers will be described.

【0082】画像階層化部21は、例えば、時間スケー
ラビリティ(テンポラルスケーラビリティ)の符号化を
行う場合、時刻に応じて、画像データを、下位レイヤま
たは上位レイヤのデータとして、例えば、交互に出力す
る。即ち、例えば、画像階層化部21は、そこに、ある
VOを構成するVOPが、VOP0,VOP1,VOP
2,VOP3,・・・の順で入力されたとした場合、V
OP0,VOP2,VOP4,VOP6,・・・を、下
位レイヤのデータとして、また、VOP1,VOP3,
VOP5,VOP7,・・・を、上位レイヤデータとし
て出力する。なお、時間スケーラビリティの場合は、こ
のようにVOPが間引かれたものが、下位レイヤおよび
上位レイヤのデータとされるだけで、画像データの拡大
または縮小(解像度の変換)は行われない(但し、行う
ようにすることも可能である)。
For example, when performing coding of temporal scalability (temporal scalability), the image layering unit 21 alternately outputs image data as lower layer data or upper layer data, for example, according to time. That is, for example, in the image hierarchization unit 21, the VOPs that form a certain VO are VOP0, VOP1, VOP.
If input in the order of 2, VOP 3, ..., V
OP0, VOP2, VOP4, VOP6, ... Are used as lower layer data, and VOP1, VOP3,
VOP5, VOP7, ... Are output as upper layer data. In the case of temporal scalability, the VOPs decimated in this way are only data of the lower layer and the upper layer, and the image data is not enlarged or reduced (conversion of resolution) (however, not shown). , It is also possible to do).

【0083】また、画像階層化部21は、例えば、SN
R(Signal to Noise Ratio)スケーラビリティの符号
化を行う場合、入力された画像データを、そのまま上位
レイヤまたは下位レイヤのデータそれぞれとして出力す
る。即ち、この場合、下位レイヤ並びに上位レイヤの画
像データは、同一のデータとなる。
Further, the image hierarchizing unit 21 uses, for example, SN
When encoding R (Signal to Noise Ratio) scalability, input image data is output as it is as upper layer data or lower layer data, respectively. That is, in this case, the image data of the lower layer and the image data of the upper layer are the same data.

【0084】ここで、VOPごとに符号化を行う場合の
空間スケーラビリティについては、例えば、次のような
3種類が考えられる。
Here, with respect to the spatial scalability in the case of performing coding for each VOP, the following three types can be considered, for example.

【0085】即ち、例えば、いま、VOPとして、図2
に示したような画像F1およびF2でなる合成画像が入
力されたとすると、第1の空間スケーラビリティは、図
4に示すように、入力されたVOP全体(図4(A))
を上位レイヤ(EnhancementLayer)とするとともに、そ
のVOP全体を縮小したもの(図4(B))を下位レイ
ヤ(Base Layer)とするものである。
That is, for example, as a VOP, as shown in FIG.
Assuming that a composite image composed of the images F1 and F2 as shown in FIG. 4 is input, the first spatial scalability is as shown in FIG. 4, and the entire input VOP (FIG. 4A)
Is an upper layer (Enhancement Layer), and the entire VOP is reduced (FIG. 4B) is a lower layer (Base Layer).

【0086】また、第2の空間スケーラビリティは、図
5に示すように、入力されたVOPを構成する一部の物
体(図5(A)(ここでは、画像F2に相当する部
分)))を抜き出して(なお、このような抜き出しは、
例えば、VOP構成部2nにおける場合と同様にして行
われ、従って、これにより抜き出された物体も、1つの
VOPと考えることができる)、上位レイヤとするとと
もに、そのVOP全体を縮小したもの(図5(B))を
下位レイヤとするものである。
The second spatial scalability is as shown in FIG. 5, in which a part of the objects constituting the input VOP (FIG. 5 (A) (here, the part corresponding to the image F2)). Pull out (note that this kind of pull out is
For example, it is performed in the same manner as in the case of the VOP configuration unit 2 n , and thus the object extracted by this can also be considered as one VOP), which is an upper layer and the entire VOP is reduced. (FIG. 5 (B)) is the lower layer.

【0087】さらに、第3の空間スケーラビリティは、
図6および図7に示すように、入力されたVOPを構成
する物体(VOP)を抜き出して、その物体ごとに、上
位レイヤおよび下位レイヤを生成するものである。な
お、図6は、図2のVOPを構成する背景(画像F1)
から上位レイヤおよび下位レイヤを生成した場合を示し
ており、また、図7は、図2のVOPを構成する前景
(画像F2)から上位レイヤおよび下位レイヤを生成し
た場合を示している。
Further, the third spatial scalability is
As shown in FIG. 6 and FIG. 7, an object (VOP) forming the input VOP is extracted, and an upper layer and a lower layer are generated for each object. Note that FIG. 6 shows the background (image F1) that constitutes the VOP of FIG.
7 shows the case where the upper layer and the lower layer are generated, and FIG. 7 shows the case where the upper layer and the lower layer are generated from the foreground (image F2) forming the VOP of FIG.

【0088】以上のようなスケーラビリティのうちのい
ずれを用いるかは予め決められており、画像階層化部2
1は、その予め決められたスケーラビリティによる符号
化を行うことができるように、VOPの階層化を行う。
Which of the above scalability is used is determined in advance, and the image hierarchy unit 2
1 performs VOP layering so that encoding can be performed according to the predetermined scalability.

【0089】さらに、画像階層化部21は、そこに入力
されるVOPのサイズデータおよびオフセットデータ
(それぞれを、以下、適宜、初期サイズデータ、初期オ
フセットデータという)から、生成した下位レイヤおよ
び上位レイヤのVOPの所定の絶対座標系における位置
を表すオフセットデータと、その大きさを示すサイズデ
ータとを計算(決定)する。
Further, the image hierarchizing unit 21 generates the lower layer and the upper layer from the VOP size data and the offset data (respectively referred to as initial size data and initial offset data, respectively) input thereto. Offset data representing the position of the VOP in a predetermined absolute coordinate system and size data representing the size thereof are calculated (determined).

【0090】ここで、下位レイヤ並びに上位レイヤのV
OPのオフセットデータ(位置情報)およびサイズデー
タの決定方法について、例えば、上述の第2のスケーラ
ビリティ(図5)を行う場合を例に説明する。
Here, the V of the lower layer and the V of the upper layer are
A method of determining OP offset data (position information) and size data will be described, for example, in the case where the above-described second scalability (FIG. 5) is performed.

【0091】この場合、下位レイヤのオフセットデータ
FPOS_Bは、例えば、図8(A)に示すように、下
位レイヤの画像データを、その解像度および上位レイヤ
の解像度の違いに基づいて拡大(アップサンプリング)
したときに、即ち、下位レイヤの画像を、上位レイヤの
画像の大きさと一致するような拡大率(上位レイヤの画
像を縮小して下位レイヤの画像を生成したときの、その
縮小率の逆数)(以下、適宜、倍率FRという)で拡大
したときに、その拡大画像の絶対座標系におけるオフセ
ットデータが、初期オフセットデータと一致するように
決定される。また、下位レイヤのサイズデータFSZ_
Bも同様に、下位レイヤの画像を倍率FRで拡大したと
きに得られる拡大画像のサイズデータが初期サイズデー
タと一致するように決定される。即ち、オフセットデー
タFPOS_BまたはサイズデータFSZ_Bは、それ
ぞれのFR倍か、初期オフセットデータまたは初期サイ
ズデータと一致するように決定される。
In this case, the offset data FPOS_B of the lower layer is, for example, as shown in FIG. 8A, the image data of the lower layer is enlarged (upsampling) based on the difference in the resolution and the resolution of the upper layer.
When it is done, that is, the enlargement ratio that matches the image of the lower layer with the size of the image of the upper layer (the reciprocal of the reduction ratio when the image of the lower layer is generated by reducing the image of the upper layer) When the image is enlarged by (hereinafter, appropriately referred to as a magnification FR), the offset data in the absolute coordinate system of the enlarged image is determined so as to match the initial offset data. In addition, the size data FSZ_ of the lower layer
Similarly, B is determined so that the size data of the enlarged image obtained when the image of the lower layer is enlarged by the magnification FR matches the initial size data. That is, the offset data FPOS_B or the size data FSZ_B is determined to be FR times the initial value, or to match the initial offset data or the initial size data.

【0092】一方、上位レイヤのオフセットデータFP
OS_Eは、例えば、図8(B)に示すように、入力さ
れたVOPから抜き出した物体を囲む最小長方形(VO
P)の、例えば、左上の頂点の座標が、初期オフセット
データに基づいて求められ、この値に決定される。ま
た、上位レイヤのサイズデータFPOS_Eは、入力さ
れたVOPから抜き出した物体を囲む最小長方形の、例
えば横および縦の長さに決定される。
On the other hand, the offset data FP of the upper layer
The OS_E is, for example, as shown in FIG. 8B, a minimum rectangle (VO) surrounding an object extracted from the input VOP.
For example, the coordinate of the upper left vertex of P) is obtained based on the initial offset data and is determined to this value. Further, the size data FPOS_E of the upper layer is determined to have, for example, the horizontal and vertical lengths of the smallest rectangle surrounding the object extracted from the input VOP.

【0093】従って、この場合、下位レイヤのオフセッ
トデータFPOS_BおよびサイズデータFPOS_B
を、倍率FRにしたがって変換し(変換後のオフセット
データFPOS_BまたはサイズデータFPOS_B
を、それぞれ、変換オフセットデータFPOS_Bまた
は変換サイズデータFPOS_Bという)、絶対座標系
において、変換オフセットデータFPOS_Bに対応す
る位置に、変換サイズデータFSZ_Bに対応する大き
さの画枠を考え、そこに、下位レイヤの画像データをF
R倍だけした拡大画像を配置するとともに(図8
(A))、その絶対座標系において、上位レイヤのオフ
セットデータFPOS_EおよびサイズデータFPOS
_Eにしたがって、上位レイヤの画像を同様に配置する
と(図8(B))、拡大画像を構成する各画素と、上位
レイヤの画像を構成する各画素とは、対応するものどう
しが同一の位置に配置されることになる。即ち、この場
合、例えば、図8において、上位レイヤの画像である人
の部分と、拡大画像の中の人の部分とは、同一の位置に
配置されることになる。
Therefore, in this case, the offset data FPOS_B and the size data FPOS_B of the lower layer
Is converted according to the scaling factor FR (offset data FPOS_B or size data FPOS_B after conversion).
Are respectively referred to as conversion offset data FPOS_B or conversion size data FPOS_B), and in an absolute coordinate system, at a position corresponding to the conversion offset data FPOS_B, an image frame having a size corresponding to the conversion size data FSZ_B is considered, F the layer image data
A magnified image of only R times is placed (see FIG. 8).
(A)), offset data FPOS_E and size data FPOS of the upper layer in the absolute coordinate system
When the images of the upper layer are similarly arranged according to _E (FIG. 8B), the pixels forming the enlarged image and the pixels forming the image of the upper layer correspond to each other at the same position. Will be placed in. That is, in this case, for example, in FIG. 8, the part of the person who is the upper layer image and the part of the person in the enlarged image are arranged at the same position.

【0094】第1および第3のスケーラビリティにおけ
る場合も、同様にして、下位レイヤの拡大画像および上
位レイヤの画像を構成する、対応する画素どうしが、絶
対座標系において同一の位置に配置されるように、オフ
セットデータFPOS_BおよびFPOS_E、並びに
サイズデータFSZ_BおよびFSZ_Eが決定され
る。
In the first and third scalability, similarly, the corresponding pixels forming the enlarged image of the lower layer and the image of the upper layer are arranged at the same position in the absolute coordinate system. Then, the offset data FPOS_B and FPOS_E and the size data FSZ_B and FSZ_E are determined.

【0095】図3に戻り、画像階層化部21において生
成された上位レイヤの画像データ、オフセットデータF
POS_E、およびサイズデータFSZ_Eは、遅延回
路22で、後述する下位レイヤ符号化部25における処
理時間だけ遅延され、上位レイヤ符号化部23に供給さ
れる。また、下位レイヤの画像データ、オフセットデー
タFPOS_B、およびサイズデータFSZ_Bは、下
位レイヤ符号化部25に供給される。また、倍率FR
は、遅延回路22を介して、上位レイヤ符号化部23お
よび解像度変換部24に供給される。
Returning to FIG. 3, the upper layer image data and the offset data F generated by the image layering unit 21.
The POS_E and the size data FSZ_E are delayed by the delay circuit 22 by the processing time in the lower layer encoding unit 25, which will be described later, and are supplied to the upper layer encoding unit 23. Further, the lower layer image data, the offset data FPOS_B, and the size data FSZ_B are supplied to the lower layer encoding unit 25. Also, the magnification FR
Is supplied to the upper layer encoding unit 23 and the resolution converting unit 24 via the delay circuit 22.

【0096】下位レイヤ符号化部25では、下位レイヤ
の画像データが符号化され、その結果得られる符号化デ
ータ(ビットストリーム)に、オフセットデータFPO
S_BおよびサイズデータFSZ_Bが含められ、多重
化部26に供給される。
In the lower layer encoding unit 25, the image data of the lower layer is encoded, and the encoded data (bit stream) obtained as a result is offset data FPO.
The S_B and size data FSZ_B are included and supplied to the multiplexing unit 26.

【0097】また、下位レイヤ符号化部25は、符号化
データを局所復号し、その結果局所復号結果である下位
レイヤの画像データを、解像度変換部24に出力する。
解像度変換部24は、下位レイヤ符号化部25からの下
位レイヤの画像データを、倍率FRにしたがって拡大
(または縮小)することにより、元の大きさに戻し、こ
れにより得られる拡大画像を、上位レイヤ符号化部23
に出力する。
Further, the lower layer encoding unit 25 locally decodes the encoded data, and as a result, outputs the lower layer image data which is the local decoding result to the resolution converting unit 24.
The resolution conversion unit 24 restores the image data of the lower layer from the lower layer encoding unit 25 to the original size by enlarging (or reducing) the image data according to the magnification FR, and the enlarged image obtained by this is converted into an upper image. Layer coding unit 23
Output to.

【0098】一方、上位レイヤ符号化部23では、上位
レイヤの画像データが符号化され、その結果得られる符
号化データ(ビットストリーム)に、オフセットデータ
FPOS_EおよびサイズデータFSZ_Eが含めら
れ、多重化部26に供給される。なお、上位レイヤ符号
化部23においては、上位レイヤ画像データの符号化
は、解像度変換部24から供給される拡大画像をも参照
画像として用いて行われる。
On the other hand, in the upper layer encoding unit 23, the image data of the upper layer is encoded, the encoded data (bit stream) obtained as a result includes the offset data FPOS_E and the size data FSZ_E, and the multiplexing unit 26. In the upper layer encoding unit 23, the encoding of the upper layer image data is performed using the enlarged image supplied from the resolution conversion unit 24 as the reference image.

【0099】多重化部26では、上位レイヤ符号化部2
3および下位レイヤ符号化部25の出力が多重化されて
出力される。
In the multiplexing unit 26, the upper layer coding unit 2
3 and the outputs of the lower layer encoding unit 25 are multiplexed and output.

【0100】なお、下位レイヤ符号化部25から上位レ
イヤ符号化部23に対しては、下位レイヤのサイズデー
タFSZ_B、オフセットデータFPOS_B、動きベ
クトルMV、フラグCODなどが供給されており、上位
レイヤ符号化部23では、これらのデータを必要に応じ
て参照しながら、処理を行うようになされているが、こ
の詳細については、後述する。
The lower layer coding unit 25 supplies the lower layer size data FSZ_B, the offset data FPOS_B, the motion vector MV, the flag COD, etc. to the upper layer coding unit 23. The conversion unit 23 is configured to perform processing while referring to these data as necessary. The details will be described later.

【0101】次に、図9は、図3の下位レイヤ符号化部
25の詳細構成例を示している。なお、図中、図38に
おける場合と対応する部分については、同一の符号を付
してある。即ち、下位レイヤ符号化部25は、基本的に
は、図38のエンコーダと同様に構成されている。
Next, FIG. 9 shows a detailed configuration example of the lower layer encoding unit 25 of FIG. In the figure, the same reference numerals are given to the portions corresponding to the case in FIG. That is, the lower layer encoding unit 25 is basically configured similarly to the encoder of FIG.

【0102】画像階層化部21(図3)からの画像デー
タ、即ち、下位レイヤのVOPは、図38における場合
と同様に、フレームメモリ31に供給されて記憶され、
動きベクトル検出器32において、マクロブロック単位
で動きベクトルの検出が行われる。
The image data from the image hierarchizing unit 21 (FIG. 3), that is, the VOP of the lower layer is supplied to and stored in the frame memory 31 as in the case of FIG.
The motion vector detector 32 detects a motion vector in macroblock units.

【0103】但し、下位レイヤ符号化部25の動きベク
トル検出器32には、下位レイヤのVOPのサイズデー
タFSZ_BおよびオフセットデータFPOS_Bが供
給されるようになされており、そこでは、このサイズデ
ータFSZ_BおよびオフセットデータFPOS_Bに
基づいて、マクロブロックの動きベクトルが検出され
る。
However, the motion vector detector 32 of the lower layer encoding unit 25 is supplied with the size data FSZ_B and the offset data FPOS_B of the VOP of the lower layer, in which the size data FSZ_B and The motion vector of the macro block is detected based on the offset data FPOS_B.

【0104】即ち、上述したように、VOPは、時刻
(フレーム)によって、大きさや位置が変化するため、
その動きベクトルの検出にあたっては、その検出のため
の基準となる座標系を設定し、その座標系における動き
を検出する必要がある。そこで、ここでは、動きベクト
ル検出器32は、上述の絶対座標系を基準となる座標系
とし、その絶対座標系に、サイズデータFSZ_Bおよ
びオフセットデータFPOS_Bにしたがって、符号化
対象のVOPおよび参照画像とするVOPを配置して、
動きベクトルを検出するようになされている。
That is, as described above, since the size and the position of the VOP change depending on the time (frame),
In detecting the motion vector, it is necessary to set a coordinate system that serves as a reference for the detection and detect the motion in the coordinate system. Therefore, here, the motion vector detector 32 uses the above-mentioned absolute coordinate system as a reference coordinate system, and according to the size coordinate system FSZ_B and the offset data FPOS_B, the VOP and the reference image to be encoded are set in the absolute coordinate system. Place the VOP to
It is designed to detect a motion vector.

【0105】なお、検出された動きベクトル(MV)
は、予測モードとともに、VLC器36および動き補償
器42に供給される他、上位レイヤ符号化部23(図
3)にも供給される。
The detected motion vector (MV)
Is supplied to the VLC unit 36 and the motion compensator 42 together with the prediction mode, and is also supplied to the upper layer encoding unit 23 (FIG. 3).

【0106】また、動き補償を行う場合においても、や
はり、上述したように、基準となる座標系における動き
を検出する必要があるため、動き補償器42には、サイ
ズデータFSZ_BおよびオフセットデータFPOS_
Bが供給されるようになされている。
Also, when performing motion compensation, the motion compensator 42 also needs to detect the motion in the reference coordinate system as described above, and therefore the size data FSZ_B and the offset data FPOS_.
B is supplied.

【0107】動きベクトルの検出されたVOPは、図3
8における場合と同様に量子化係数とされてVLC器3
6に供給される。VLC器36には、やはり図38にお
ける場合と同様に、量子化係数、量子化ステップ、動き
ベクトル、および予測モードが供給される他、画像階層
化部21からのサイズデータFSZ_Bおよびオフセッ
トデータFPOS_Bも供給されており、そこでは、こ
れらのデータすべてが可変長符号化される。
The detected VOP of the motion vector is shown in FIG.
In the same way as in the case of 8, the VLC unit 3
6 is supplied. Similarly to the case in FIG. 38, the VLC unit 36 is supplied with the quantization coefficient, the quantization step, the motion vector, and the prediction mode, and also the size data FSZ_B and the offset data FPOS_B from the image layering unit 21. Is provided, where all of this data is variable length encoded.

【0108】動きベクトルの検出されたVOPは、上述
したように符号化される他、やはり図38における場合
と同様に局所復号され、フレームメモリ41に記憶され
る。この復号画像は、前述したように参照画像として用
いられる他、解像度変換部24(図3)に出力される。
The VOP in which the motion vector is detected is encoded as described above, and also locally decoded as in the case of FIG. 38 and stored in the frame memory 41. This decoded image is used as a reference image as described above, and is also output to the resolution conversion unit 24 (FIG. 3).

【0109】なお、MPEG4においては、MPEG1
および2と異なり、Bピクチャ(B−VOP)も参照画
像として用いられるため、Bピクチャも、局所復号さ
れ、フレームメモリ41に記憶されるようになされてい
る(但し、現時点においては、Bピクチャが参照画像と
して用いられるのは上位レイヤについてだけである)。
Note that in MPEG4, MPEG1
Unlike 2 and 2, since the B picture (B-VOP) is also used as the reference image, the B picture is also locally decoded and stored in the frame memory 41 (however, at the present time, the B picture is It is only used as a reference image for upper layers).

【0110】一方、VLC器36は、図38で説明した
ように、I,P,Bピクチャ(I−VOP,P−VO
P,B−VOP)のマクロブロックについて、スキップ
マクロブロックとするかどうかを決定し、その決定結果
を示すフラグCOD,MODBを設定する。このフラグ
COD,MODBは、やはり可変長符号化されて伝送さ
れる。さらに、フラグCODは、上位レイヤ符号化部2
3にも供給される。
On the other hand, the VLC device 36, as described with reference to FIG. 38, has I, P, B pictures (I-VOP, P-VO).
For macroblocks of (P, B-VOP), it is determined whether or not to be skip macroblocks, and flags COD and MODB indicating the determination result are set. The flags COD and MODB are also variable length coded and transmitted. Further, the flag COD indicates that the upper layer encoding unit 2
3 is also supplied.

【0111】次に、図10は、図3の上位レイヤ符号化
部23の構成例を示している。なお、図中、図9または
図38における場合と対応する部分については、同一の
符号を付してある。即ち、上位レイヤ符号化部23は、
フレームメモリ52が新たに設けられていることを除け
ば、基本的には、図9の下位レイヤ符号化部25または
図38のエンコーダと同様に構成されている。
Next, FIG. 10 shows an example of the configuration of the upper layer coding section 23 of FIG. Note that, in the figure, portions corresponding to those in FIG. 9 or FIG. 38 are denoted by the same reference numerals. That is, the upper layer encoding unit 23
The configuration is basically the same as that of the lower layer encoding unit 25 of FIG. 9 or the encoder of FIG. 38, except that a frame memory 52 is newly provided.

【0112】画像階層化部21(図3)からの画像デー
タ、即ち、上位レイヤのVOPは、図38における場合
と同様に、フレームメモリ31に供給されて記憶され、
動きベクトル検出器32において、マクロブロック単位
で動きベクトルの検出が行われる。なお、この場合も、
動きベクトル検出器32には、図9における場合と同様
に、上位レイヤのVOPの他、そのサイズデータFSZ
_EおよびオフセットデータFPOS_Eが供給される
ようになされており、動きベクトル検出器32では、上
述の場合と同様に、このサイズデータFSZ_Eおよび
オフセットデータFPOS_Eに基づいて、絶対座標系
における上位レイヤのVOPの配置位置が認識され、マ
クロブロックの動きベクトルが検出される。
The image data from the image hierarchizing unit 21 (FIG. 3), that is, the VOP of the upper layer is supplied to and stored in the frame memory 31 as in the case of FIG.
The motion vector detector 32 detects a motion vector in macroblock units. In this case, too,
In the motion vector detector 32, as in the case of FIG. 9, in addition to the VOP of the upper layer, its size data FSZ
_E and offset data FPOS_E are supplied, and the motion vector detector 32, based on this size data FSZ_E and offset data FPOS_E, in the motion vector detector 32, detects the VOP of the upper layer in the absolute coordinate system. The arrangement position is recognized, and the motion vector of the macroblock is detected.

【0113】ここで、上位レイヤ符号化部23および下
位レイヤ符号化部25における動きベクトル検出器32
では、図38で説明したように、予め設定されている所
定のシーケンスにしたがって、VOPが処理されていく
が、そのシーケンスは、ここでは、例えば、次のように
設定されている。
Here, the motion vector detector 32 in the upper layer encoding unit 23 and the lower layer encoding unit 25.
Then, as described with reference to FIG. 38, the VOP is processed in accordance with the predetermined sequence set in advance, and the sequence is set here, for example, as follows.

【0114】即ち、空間スケーラビリティの場合におい
ては、図11(A)または図11(B)に示すように、
上位レイヤまたは下位レイヤのVOPは、例えば、P,
B,B,B,・・・またはI,P,P,P,・・・の順
でそれぞれ処理されていく。
That is, in the case of spatial scalability, as shown in FIG. 11 (A) or FIG. 11 (B),
The VOP of the upper layer or the lower layer is, for example, P,
Processing is performed in the order of B, B, B, ... Or I, P, P, P ,.

【0115】そして、この場合、上位レイヤの最初のV
OPであるPピクチャ(P−VOP)は、例えば、同時
刻における下位レイヤのVOP(ここでは、Iピクチャ
(I−VOP))を参照画像として用いて符号化され
る。また、上位レイヤの2番目以降のVOPであるBピ
クチャ(B−VOP)は、例えば、その直前の上位レイ
ヤのVOPおよびそれと同時刻の下位レイヤのVOPを
参照画像として用いて符号化される。即ち、ここでは、
上位レイヤのBピクチャは、下位レイヤのPピクチャと
同様に他のVOPを符号化する場合の参照画像として用
いられる。
In this case, the first V of the upper layer
The P picture (P-VOP), which is an OP, is encoded using, for example, a VOP of a lower layer at this time (here, an I picture (I-VOP)) as a reference image. Further, the B picture (B-VOP) that is the second and subsequent VOPs of the upper layer is encoded using, for example, the VOP of the immediately preceding upper layer and the VOP of the lower layer at the same time as the reference image. That is, here
The B picture of the upper layer is used as a reference image when other VOPs are coded like the P picture of the lower layer.

【0116】なお、下位レイヤについては、例えば、M
PEG1や2、あるいはH.263における場合と同様
に符号化が行われていく。
As for the lower layer, for example, M
PEG 1 or 2, or H.264. Encoding is performed as in the case of H.263.

【0117】SNRスケーラビリティは、空間スケーラ
ビリティにおける倍率FRが1のときと考えられるか
ら、上述の空間スケーラビリティの場合と同様に処理さ
れる。
Since it is considered that the SNR scalability is when the scaling factor FR in the spatial scalability is 1, the SNR scalability is processed in the same manner as the case of the spatial scalability described above.

【0118】テンポラルスケーラビリティの場合、即
ち、例えば、上述したように、VOが、VOP0,VO
P1,VOP2,VOP3,・・・で構成され、VOP
1,VOP3,VOP5,VOP7,・・・が上位レイ
ヤとされ(図12(A))、VOP0,VOP2,VO
P4,VOP6,・・・が下位レイヤとされた場合にお
いては(図12(B))、図12に示すように、上位レ
イヤまたは下位レイヤのVOPは、例えば、B,B,
B,・・・またはI,P,P,P,・・・の順でそれぞ
れ処理されていく。
In the case of temporal scalability, that is, for example, as described above, VO is VOP0, VO
It is composed of P1, VOP2, VOP3, ...
1, VOP3, VOP5, VOP7, ... Are upper layers (FIG. 12A), and VOP0, VOP2, VO
When P4, VOP6, ... Are set as lower layers (FIG. 12 (B)), as shown in FIG. 12, the VOP of the upper layer or the lower layer is, for example, B, B,
B, ... Or I, P, P, P ,.

【0119】そして、この場合、上位レイヤの最初のV
OP1(Bピクチャ)は、例えば、下位レイヤのVOP
0(Iピクチャ)およびVOP2(Pピクチャ)を参照
画像として用いて符号化される。また、上位レイヤの2
番目のVOP3(Bピクチャ)は、例えば、その直前に
Bピクチャとして符号化された上位レイヤのVOP1、
およびVOP3の次の時刻(フレーム)における画像で
ある下位レイヤのVOP4(Pピクチャ)を参照画像と
して用いて符号化される。上位レイヤの3番目のVOP
5(Bピクチャ)も、VOP3と同様に、例えば、その
直前にBピクチャとして符号化された上位レイヤのVO
P3、およびVOP5の次の時刻(フレーム)における
画像である下位レイヤのVOP6(Pピクチャ)を参照
画像として用いて符号化される。
In this case, the first V of the upper layer
OP1 (B picture) is, for example, a VOP of a lower layer.
It is coded using 0 (I picture) and VOP2 (P picture) as reference images. Also, the upper layer 2
The th VOP3 (B picture) is, for example, the VOP1 of the upper layer coded as a B picture immediately before it,
And VOP4 (P picture) of the lower layer, which is an image at the time (frame) next to VOP3, is used as a reference image for encoding. Third VOP in the upper layer
Similarly to VOP3, 5 (B picture) is, for example, the VO of the upper layer coded immediately before it as a B picture.
Coding is performed by using VOP6 (P picture) of the lower layer, which is an image at the time (frame) next to P3 and VOP5, as a reference image.

【0120】以上のように、あるレイヤのVOP(ここ
では、上位レイヤ)については、PおよびBピクチャを
符号化するための参照画像として、他のレイヤ(スケー
ラブルレイヤ)(ここでは、下位レイヤ)のVOPを用
いることができる。このように、あるレイヤのVOPを
符号化するのに、他のレイヤのVOPを参照画像として
用いる場合、即ち、ここでは、上位レイヤのVOPを予
測符号化するのに、下位レイヤのVOPを参照画像とし
て用いる場合、上位レイヤ符号化部23(図10)の動
きベクトル検出器32は、その旨を示すフラグref_
layer_id(階層数が3以上存在する場合、フラ
グref_layer_idは、参照画像として用いる
VOPが属するレイヤを表す)を設定して出力するよう
になされている。
As described above, with respect to a VOP of a certain layer (here, the upper layer), another layer (scalable layer) (here, the lower layer) is used as a reference image for encoding P and B pictures. VOPs can be used. As described above, when the VOP of a certain layer is used as a reference image for encoding the VOP of another layer, that is, here, the VOP of the lower layer is referred to for predictively encoding the VOP of the upper layer. When used as an image, the motion vector detector 32 of the upper layer encoding unit 23 (FIG. 10) uses the flag ref_ indicating that fact.
The layer_id (when the number of layers is 3 or more, the flag ref_layer_id represents the layer to which the VOP used as the reference image belongs) is set and output.

【0121】さらに、上位レイヤ符号化部23の動きベ
クトル検出器32は、VOPについてのフラグref_
layer_idにしたがい、前方予測符号化または後
方予測符号化を、それぞれ、どのレイヤのVOPを参照
画像として行うかを示すフラグref_select_
code(参照画像情報)を設定して出力するようにも
なされている。
Furthermore, the motion vector detector 32 of the upper layer encoding unit 23 uses the flag ref_ regarding VOP.
According to the layer_id, a flag ref_select_ indicating which layer of the VOP is used as the reference image for forward predictive coding or backward predictive coding, respectively.
The code (reference image information) is also set and output.

【0122】即ち、例えば、上位レイヤ(Enhancement
Layer)のPピクチャが、その直前に復号(局所復号)
される、それと同一のレイヤに属するVOPを参照画像
として用いて符号化される場合、フラグref_sel
ect_codeは「00」とされる。また、Pピクチ
ャが、その直前に表示される、それと異なるレイヤ(こ
こでは、下位レイヤ)(Reference Layer)に属するV
OPを参照画像として用いて符号化される場合、フラグ
ref_select_codeは「01」とされる。
さらに、Pピクチャが、その直後に表示される、それと
異なるレイヤに属するVOPを参照画像として用いて符
号化される場合、フラグref_select_cod
eは「10」とされる。また、Pピクチャが、それと同
時刻における、異なるレイヤのVOPを参照画像として
用いて符号化される場合、フラグref_select
_codeは「11」とされる。
That is, for example, the upper layer (Enhancement
Layer) P picture is decoded immediately before (local decoding)
If a VOP belonging to the same layer as the reference image is encoded as a reference image, the flag ref_sel
The ect_code is set to “00”. In addition, the P picture is a V that is displayed immediately before and belongs to a different layer (here, lower layer) (Reference Layer).
When encoded using OP as a reference image, the flag ref_select_code is set to "01".
Furthermore, if the P picture is coded using the VOP displayed immediately after that and belonging to a different layer as the reference image, the flag ref_select_cod
e is set to "10". Also, when a P picture is coded using VOPs of different layers at the same time as reference pictures, the flag ref_select is used.
_Code is set to "11".

【0123】一方、例えば、上位レイヤのBピクチャ
が、それと同時刻における、異なるレイヤのVOPを前
方予測のための参照画像として用い、かつ、その直前に
復号される、それと同一のレイヤに属するVOPを後方
予測のための参照画像として用いて符号化される場合、
フラグref_select_codeは「00」とさ
れる。また、上位レイヤのBピクチャが、それと同一の
レイヤに属するVOPを前方予測のための参照画像とし
て用い、かつ、その直前に表示される、それと異なるレ
イヤに属するVOPを後方予測のための参照画像として
用いて符号化される場合、フラグref_select
_codeは「01」とされる。さらに、上位レイヤの
Bピクチャが、その直前に復号される、それと同一のレ
イヤに属するVOPを前方予測のための参照画像として
用い、かつその直後に表示される、それと異なるレイヤ
に属するVOPを後方予測のための参照画像として用い
て符号化される場合、フラグref_select_c
odeは「10」とされる。また、上位レイヤのBピク
チャが、その直前に表示される、それと異なるレイヤに
属するVOPを前方予測のための参照画像として用い、
かつその直後に表示される、それと異なるレイヤに属す
るVOPを後方予測のための参照画像として用いて符号
化される場合、フラグref_select_code
は「11」とされる。
On the other hand, for example, a B picture of an upper layer uses a VOP of a different layer at the same time as that of a VOP belonging to the same layer as the reference image for forward prediction and decoded immediately before that. Is coded using as a reference image for backward prediction,
The flag ref_select_code is set to "00". In addition, a B picture of an upper layer uses a VOP belonging to the same layer as the reference image for forward prediction, and a VOP displayed immediately before that belonging to a different layer is used as a reference image for backward prediction. Flag is used as a flag ref_select
_Code is set to "01". Further, the B picture of the upper layer uses the VOP which is decoded immediately before and belongs to the same layer as the reference image for forward prediction, and the VOP which is displayed immediately after that and belongs to a different layer is backward. When coded using as a reference image for prediction, the flag ref_select_c
The ode is set to "10". In addition, a B picture of an upper layer, which is displayed immediately before that, belongs to a layer different from that, is used as a reference image for forward prediction,
In addition, when the VOP displayed immediately after that and belonging to a layer different from that is coded using as a reference image for backward prediction, the flag ref_select_code is used.
Is set to "11".

【0124】ここで、図11および図12で説明した予
測符号化の方法は、1つの例であり、前方予測符号化、
後方予測符号化、または両方向予測符号化における参照
画像として、どのレイヤの、どのVOPを用いるかは、
例えば、上述した範囲で、自由に設定することが可能で
ある。
Here, the predictive coding method described in FIGS. 11 and 12 is one example, and the forward predictive coding,
Which VOP of which layer is used as a reference image in backward predictive coding or bidirectional predictive coding is
For example, it can be freely set within the range described above.

【0125】なお、上述の場合においては、便宜的に、
「空間スケーラビリティ」、「時間スケーラビリテ
ィ」、「SNRスケーラビリティ」という語を用いた
が、フラグref_select_codeによって、
予測符号化に用いる参照画像を設定する場合、空間スケ
ーラビリティや、テンポラルスケーラビリティ、SNR
スケーラビリティを明確に区別することは困難となる。
即ち、逆にいえば、フラグref_select_co
deを用いることによって、上述のようなスケーラビリ
ティの区別をせずに済むようになる。
In the above case, for convenience,
Although the terms "spatial scalability", "temporal scalability" and "SNR scalability" are used, the flag ref_select_code allows
When setting a reference image used for predictive coding, spatial scalability, temporal scalability, SNR
It becomes difficult to clearly distinguish scalability.
That is, conversely, the flag ref_select_co
By using de, it becomes unnecessary to make the above distinction of scalability.

【0126】ここで、上述のスケーラビリティとフラグ
ref_select_codeとを対応付けるとすれ
ば、例えば、次のようになる。即ち、Pピクチャについ
ては、フラグref_select_codeが「1
1」の場合が、フラグref_layer_idが示す
レイヤの同時刻におけるVOPを参照画像(前方予測の
ための参照画像)として用いる場合であるから、これ
は、空間スケーラビリティまたはSNRスケーラビリテ
ィに対応する。そして、フラグref_select_
codeが「11」の場合以外は、テンポラルスケーラ
ビリティに対応する。
Here, if the above scalability is associated with the flag ref_select_code, for example, the following is obtained. That is, for P pictures, the flag ref_select_code is "1".
The case of “1” is the case where the VOP at the same time of the layer indicated by the flag ref_layer_id is used as the reference image (reference image for forward prediction), and therefore this corresponds to the spatial scalability or the SNR scalability. Then, the flag ref_select_
Corresponding to temporal scalability except when the code is "11".

【0127】また、Bピクチャについては、フラグre
f_select_codeが「00」の場合が、やは
り、フラグref_layer_idが示すレイヤの同
時刻におけるVOPを前方予測のための参照画像として
用いる場合であるから、これが、空間スケーラビリティ
またはSNRスケーラビリティに対応する。そして、フ
ラグref_select_codeが「00」の場合
以外は、テンポラルスケーラビリティに対応する。
For B pictures, the flag re
The case where f_select_code is "00" is also the case where the VOP at the same time of the layer indicated by the flag ref_layer_id is used as a reference image for forward prediction, and this corresponds to the spatial scalability or the SNR scalability. Then, except for the case where the flag ref_select_code is "00", it corresponds to temporal scalability.

【0128】なお、上位レイヤのVOPの予測符号化の
ために、それと異なるレイヤ(ここでは、下位レイヤ)
の、同時刻におけるVOPを参照画像として用いる場
合、両者の間に動きはないので、動きベクトルは、常に
0((0,0))とされる。
Note that a different layer (here, lower layer) is used for VOP predictive coding of the upper layer.
When the VOP at the same time is used as the reference image, there is no motion between the two, so the motion vector is always 0 ((0,0)).

【0129】図10に戻り、上位レイヤ符号化部23の
動きベクトル検出器32では、以上のようなフラグre
f_layer_idおよびref_select_c
odeが設定され、動き補償器42およびVLC器36
に供給される。
Returning to FIG. 10, the motion vector detector 32 of the upper layer encoding unit 23 uses the flag re as described above.
f_layer_id and ref_select_c
ode is set, the motion compensator 42 and the VLC unit 36
Is supplied to.

【0130】また、動きベクトル検出器32では、フラ
グref_layer_idおよびref_selec
t_codeにしたがって、フレームメモリ31を参照
するだけでなく、必要に応じて、フレームメモリ52を
も参照して、動きベクトルが検出される。
In the motion vector detector 32, the flags ref_layer_id and ref_selec are set.
According to t_code, not only the frame memory 31 is referred to, but also the frame memory 52 is referred to as needed, so that the motion vector is detected.

【0131】ここで、フレームメモリ52には、解像度
変換部24(図3)から、局所復号された下位レイヤの
拡大画像が供給されるようになされている。即ち、解像
度変換部24では、局所復号された下位レイヤのVOP
が、例えば、いわゆる補間フィルタなどによって拡大さ
れ、これにより、そのVOPを、FR倍だけした拡大画
像、つまり、その下位レイヤのVOPに対応する上位レ
イヤのVOPと同一の大きさとした拡大画像が生成さ
れ、上位レイヤ符号化部23に供給される。フレームメ
モリ52では、このようにして解像度変換部24から供
給される拡大画像が記憶される。
Here, the frame memory 52 is supplied with the locally decoded enlarged image of the lower layer from the resolution conversion unit 24 (FIG. 3). That is, in the resolution conversion unit 24, the locally decoded VOP of the lower layer is
However, for example, it is enlarged by a so-called interpolation filter or the like, whereby an enlarged image obtained by multiplying the VOP by FR, that is, an enlarged image having the same size as the VOP of the upper layer corresponding to the VOP of the lower layer is generated. And is supplied to the upper layer encoding unit 23. The frame memory 52 stores the enlarged image thus supplied from the resolution conversion unit 24.

【0132】従って、倍率FRが1の場合は、解像度変
換部24は、下位レイヤ符号化部25からの局所復号さ
れたVOPに対して、特に処理を施すことなく、そのま
ま、上位レイヤ符号化部23に供給する。
Therefore, when the scaling factor FR is 1, the resolution conversion section 24 directly processes the locally decoded VOP from the lower layer coding section 25 without any processing. 23.

【0133】動きベクトル検出器32には、下位レイヤ
符号化部25からサイズデータFSZ_Bおよびオフセ
ットデータFPOS_Bが供給されるとともに、遅延回
路22(図3)からの倍率FRが供給されるようになさ
れており、動きベクトル検出器32は、フレームメモリ
52に記憶された拡大画像を参照画像として用いる場
合、即ち、上位レイヤのVOPの予測符号化に、そのV
OPと同時刻における下位レイヤのVOPを参照画像と
して用いる場合(この場合、フラグref_selec
t_codeは、Pピクチャについては「11」に、B
ピクチャについては「00」にされる)、その拡大画像
に対応するサイズデータFSZ_Bおよびオフセットデ
ータFPOS_Bに、倍率FRを乗算する。そして、そ
の乗算結果に基づいて、絶対座標系における拡大画像の
位置を認識し、動きベクトルの検出を行う。
The motion vector detector 32 is supplied with the size data FSZ_B and the offset data FPOS_B from the lower layer encoding unit 25 and the magnification FR from the delay circuit 22 (FIG. 3). Therefore, the motion vector detector 32 uses the V when the enlarged image stored in the frame memory 52 is used as the reference image, that is, in the predictive encoding of the VOP of the upper layer.
When the VOP of the lower layer at the same time as the OP is used as the reference image (in this case, the flag ref_selec
t_code is "11" for P pictures and B
The picture is set to "00"), and the size data FSZ_B and the offset data FPOS_B corresponding to the enlarged image are multiplied by the magnification FR. Then, based on the multiplication result, the position of the enlarged image in the absolute coordinate system is recognized, and the motion vector is detected.

【0134】なお、動きベクトル検出器32には、下位
レイヤの動きベクトルと予測モードが供給されるように
なされており、これは、次のような場合に使用される。
即ち、動きベクトル検出部32は、例えば、上位レイヤ
のBピクチャについてのフラグref_select_
codeが「00」である場合において、倍率FRが1
であるとき、即ち、SNRスケーラビリティのとき(但
し、この場合、上位レイヤの予測符号化に、上位レイヤ
のVOPが用いられるので、この点で、ここでいうSN
Rスケーラビリティは、MPEG2に規定されているも
のと異なる)、上位レイヤと下位レイヤは同一の画像で
あるから、上位レイヤのBピクチャの予測符号化には、
下位レイヤの同時刻における画像の動きベクトルと予測
モードをそのまま用いることができる。そこで、この場
合、動きベクトル検出部32は、上位レイヤのBピクチ
ャについては、特に処理を行わず、下位レイヤの動きベ
クトルと予測モードをそのまま採用する。
The motion vector detector 32 is supplied with the motion vector of the lower layer and the prediction mode, which is used in the following case.
That is, the motion vector detection unit 32, for example, flags ref_select_ for the B picture of the upper layer.
When the code is "00", the magnification FR is 1
, That is, in the case of SNR scalability (however, in this case, since the VOP of the upper layer is used for predictive coding of the upper layer, in this respect, the SN referred to here).
R scalability is different from that specified in MPEG2), and since the upper layer and the lower layer are the same image, the predictive encoding of the B picture of the upper layer is
The motion vector and prediction mode of the image at the same time in the lower layer can be used as they are. Therefore, in this case, the motion vector detection unit 32 does not perform any particular processing on the B picture of the upper layer, and directly adopts the motion vector and the prediction mode of the lower layer.

【0135】なお、この場合、上位レイヤ符号化部23
では、動きベクトル検出器32からVLC器36には、
動きベクトルおよび予測モードは出力されない(従っ
て、伝送されない)。これは、受信側において、上位レ
イヤの動きベクトルおよび予測モードを、下位レイヤの
復号結果から認識することができるからである。
In this case, the upper layer coding unit 23
Then, from the motion vector detector 32 to the VLC device 36,
Motion vectors and prediction modes are not output (and thus not transmitted). This is because the receiving side can recognize the motion vector and prediction mode of the upper layer from the decoding result of the lower layer.

【0136】以上のように、動きベクトル検出器32
は、上位レイヤのVOPの他、拡大画像をも参照画像と
して用いて、動きベクトルを検出し、さらに、図38で
説明したように、予測誤差(あるいは分散)を最小にす
る予測モードを設定する。また、動きベクトル検出器3
2は、例えば、フラグref_select_code
やref_layer_idその他の必要な情報を設定
して出力する。
As described above, the motion vector detector 32
Detects the motion vector by using not only the VOP of the upper layer but also the enlarged image as the reference image, and further sets the prediction mode that minimizes the prediction error (or variance) as described with reference to FIG. . Also, the motion vector detector 3
2 is, for example, a flag ref_select_code
And ref_layer_id and other necessary information are set and output.

【0137】なお、図10では、下位レイヤ符号化部2
5から、下位レイヤにおけるIまたはPピクチャを構成
するマクロブロックがスキップマクロブロックであるか
どうかを示すフラグCODが、動きベクトル検出器3
2、VLC器36、および動き補償器42に供給される
ようになされている。
In FIG. 10, the lower layer coding unit 2
5, the flag COD indicating whether or not the macroblock forming the I or P picture in the lower layer is the skip macroblock is the motion vector detector 3
2, the VLC unit 36, and the motion compensator 42.

【0138】動きベクトルの検出されたマクロブロック
は、上述した場合と同様に符号化され、これにより、V
LC器36からは、その符号化結果としての可変長符号
が出力される。
The detected macroblock of the motion vector is encoded in the same manner as described above, so that V
The LC unit 36 outputs a variable length code as the encoding result.

【0139】なお、上位レイヤ符号化部23のVLC器
36は、下位レイヤ符号化部25における場合と同様
に、フラグCOD,MODBを設定して出力するように
なされている。ここで、フラグCODは、上述したよう
に、IまたはPピクチャのマクロブロックがスキップマ
クロブロックであるかどうかを示すものであるが、フラ
グMODBは、Bピクチャのマクロブロックがスキップ
マクロブロックであるかどうかを示すものである。
The VLC unit 36 of the upper layer encoding unit 23 is adapted to set and output the flags COD and MODB as in the case of the lower layer encoding unit 25. Here, as described above, the flag COD indicates whether the macroblock of the I or P picture is the skip macroblock, but the flag MODB indicates whether the macroblock of the B picture is the skip macroblock. It shows how.

【0140】また、VLC器36には、量子化係数、量
子化ステップ、動きベクトル、および予測モードの他、
倍率FR、フラグref_serect_code,r
ef_layer_id、サイズデータFSZ_E、オ
フセットデータFPOS_E、も供給されるようになさ
れており、VLC器36では、これらのデータがすべて
可変長符号化されて出力される。
In addition, the VLC unit 36 includes a quantization coefficient, a quantization step, a motion vector, a prediction mode,
Magnification FR, flag ref_select_code, r
The ef_layer_id, the size data FSZ_E, and the offset data FPOS_E are also supplied, and the VLC unit 36 outputs all of these data by variable length coding.

【0141】一方、動きベクトルの検出されたマクロブ
ロックは符号化された後、やはり上述したように局所復
号され、フレームメモリ41に記憶される。そして、動
き補償器42において、動きベクトル検出器32におけ
る場合と同様にして、フレームメモリ41に記憶され
た、局所復号された上位レイヤのVOPだけでなく、フ
レームメモリ52に記憶された、局所復号されて拡大さ
れた下位レイヤのVOPをも参照画像として用いて動き
補償が行われ、予測画像が生成される。
On the other hand, the macroblock in which the motion vector is detected is coded, then locally decoded as described above and stored in the frame memory 41. Then, in the motion compensator 42, in the same manner as in the motion vector detector 32, not only the locally decoded upper layer VOP stored in the frame memory 41 but also the local decoding stored in the frame memory 52. The motion compensation is performed by using the VOP of the lower layer that has been expanded as a reference image, and the predicted image is generated.

【0142】即ち、動き補償器42には、動きベクトル
および予測モードの他、フラグref_serect_
code,ref_layer_id、倍率FR、サイ
ズデータFSZ_B,FSZ_E、オフセットデータF
POS_B,FPOS_Eが供給されるようになされて
おり、動き補償器42は、フラグref_serect
_code,ref_layer_idに基づいて、動
き補償すべき参照画像を認識し、さらに、参照画像とし
て、局所復号された上位レイヤのVOP、または拡大画
像を用いる場合には、その絶対座標系における位置と大
きさを、サイズデータFSZ_Eおよびオフセットデー
タFPOS_E、またはサイズデータFSZ_Bおよび
オフセットデータFPOS_Bに基づいて認識し、必要
に応じて、倍率FRを用いて予測画像を生成する。
That is, the motion compensator 42 has a flag ref_select_ in addition to the motion vector and the prediction mode.
code, ref_layer_id, magnification FR, size data FSZ_B, FSZ_E, offset data F
POS_B and FPOS_E are supplied, and the motion compensator 42 sets the flag ref_select.
A reference image to be motion-compensated is recognized based on _code, ref_layer_id, and when a locally decoded VOP of the upper layer or an enlarged image is used as the reference image, its position and size in the absolute coordinate system. Is recognized based on the size data FSZ_E and the offset data FPOS_E or the size data FSZ_B and the offset data FPOS_B, and a prediction image is generated using the scaling factor FR as necessary.

【0143】次に、図13は、図1のエンコーダから出
力されるビットストリームを復号するデコーダの一実施
の形態の構成例を示している。
Next, FIG. 13 shows a configuration example of an embodiment of a decoder for decoding the bit stream output from the encoder of FIG.

【0144】このデコーダには、図1のエンコーダから
伝送路5または記録媒体6を介して提供されるビットス
トリームが供給される。即ち、図1のエンコーダから出
力され、伝送路5を介して伝送されてくるビットストリ
ームは、図示せぬ受信装置で受信され、あるいは、記録
媒体6に記録されたビットストリームは、図示せぬ再生
装置で再生され、逆多重化部71に供給される。
A bit stream provided from the encoder of FIG. 1 via the transmission path 5 or the recording medium 6 is supplied to this decoder. That is, the bit stream output from the encoder of FIG. 1 and transmitted via the transmission path 5 is received by a receiver (not shown) or the bit stream recorded on the recording medium 6 is reproduced (not shown). It is reproduced by the device and supplied to the demultiplexing unit 71.

【0145】逆多重化部71では、そこに入力されたビ
ットストリーム(後述するVS(Video Stream))が受
信される。さらに、逆多重化部71では、入力されたビ
ットストリームが、VOごとのビットストリームVO#
1,VO#2,・・・に分離され、それぞれ、対応する
VOP復号部72nに供給される。VOP復号部72n
は、逆多重化部71からのビットストリームから、VO
を構成するVOP(画像データ)、サイズデータ(VOP
size)、およびオフセットデータ(VOP offset)が復号
され、画像再構成部73に供給される。
In the demultiplexing unit 71, the bit stream (VS (Video Stream) described later) input thereto is received. Further, in the demultiplexing unit 71, the input bitstream is a bitstream VO # for each VO.
1, VO # 2, ... And supplied to the corresponding VOP decoding unit 72 n . The VOP decoding unit 72 n extracts the VO from the bit stream from the demultiplexing unit 71.
VOP (image data) and size data (VOP
size) and offset data (VOP offset) are decoded and supplied to the image reconstruction unit 73.

【0146】画像再構成部73では、VOP復号部72
1乃至72Nそれぞれからの出力に基づいて、元の画像が
再構成される。この再構成された画像は、例えば、モニ
タ74に供給されて表示される。
In the image reconstructing unit 73, the VOP decoding unit 72
The original image is reconstructed based on the output from each of 1 to 72 N. The reconstructed image is supplied to the monitor 74 and displayed, for example.

【0147】次に、図14は、スケーラビリティを実現
する、図13のVOP復号部72nの構成例を示してい
る。
Next, FIG. 14 shows a configuration example of the VOP decoding unit 72 n of FIG. 13 which realizes scalability.

【0148】逆多重化部71(図13)から供給される
ビットストリームは、逆多重化部91に入力され、そこ
で、上位レイヤのVOPのビットストリームと、下位レ
イヤのVOPのビットストリームとに分離される。上位
レイヤのVOPのビットストリームは、遅延回路92に
おいて、下位レイヤ復号部95における処理の時間だけ
遅延された後、上位レイヤ復号部93に供給され、ま
た、下位レイヤのVOPのビットストリームは、下位レ
イヤ復号部95に供給される。
The bitstream supplied from the demultiplexing unit 71 (FIG. 13) is input to the demultiplexing unit 91, where it is separated into an upper layer VOP bitstream and a lower layer VOP bitstream. To be done. The bit stream of the VOP of the upper layer is delayed by the delay circuit 92 for the processing time in the lower layer decoding unit 95, and then supplied to the upper layer decoding unit 93, and the bit stream of the VOP of the lower layer is lower. It is supplied to the layer decoding unit 95.

【0149】下位レイヤ復号部95では、下位レイヤの
ビットストリームが復号され、その結果得られる下位レ
イヤの復号画像が解像度変換部94に供給される。ま
た、下位レイヤ復号部95は、下位レイヤのビットスト
リームを復号することにより得られるサイズデータFS
Z_B、オフセットデータFPOS_B、動きベクトル
(MV)、予測モード、フラグCODなどの、上位レイ
ヤのVOPを復号するのに必要な情報を、上位レイヤ復
号部93に供給する。
The lower layer decoding unit 95 decodes the lower layer bitstream, and the decoded image of the lower layer obtained as a result is supplied to the resolution conversion unit 94. The lower layer decoding unit 95 also receives size data FS obtained by decoding the lower layer bitstream.
Information necessary for decoding the VOP of the upper layer, such as Z_B, offset data FPOS_B, motion vector (MV), prediction mode, and flag COD, is supplied to the upper layer decoding unit 93.

【0150】上位レイヤ復号部93では、遅延回路92
を介して供給される上位レイヤのビットストリームが、
下位レイヤ復号部95および解像度変換部94の出力を
必要に応じて参照することにより復号され、その結果得
られる上位レイヤの復号画像、サイズデータFSZ_
E、およびオフセットデータFPOS_Eが出力され
る。さらに、上位レイヤ復号部93は、上位レイヤのビ
ットストリームを復号することにより得られる倍率FR
を、解像度変換部94に出力する。解像度変換部94で
は、上位レイヤ復号部93からの倍率FRを用いて、図
3における解像度変換部24における場合と同様にし
て、下位レイヤの復号画像が変換される。この変換によ
り得られる拡大画像は、上位レイヤ復号部93に供給さ
れ、上述したように、上位レイヤのビットストリームの
復号に用いられる。
In the upper layer decoding unit 93, the delay circuit 92
The upper layer bitstream supplied via
The output of the lower layer decoding unit 95 and the resolution conversion unit 94 is decoded by referring to the output as necessary, and the decoded image of the upper layer obtained as a result, the size data FSZ_
E and offset data FPOS_E are output. Further, the upper layer decoding unit 93 determines the scaling factor FR obtained by decoding the upper layer bitstream.
Is output to the resolution conversion unit 94. In the resolution conversion unit 94, the decoded image of the lower layer is converted using the magnification FR from the upper layer decoding unit 93 in the same manner as in the resolution conversion unit 24 in FIG. The enlarged image obtained by this conversion is supplied to the upper layer decoding unit 93 and is used for decoding the upper layer bit stream as described above.

【0151】次に、図15は、図14の下位レイヤ復号
部95の構成例を示している。なお、図中、図39のデ
コーダにおける場合と対応する部分については、同一の
符号を付してある。即ち、下位レイヤ復号部95は、基
本的に、図39のデコーダと同様に構成されている。
Next, FIG. 15 shows a configuration example of the lower layer decoding unit 95 of FIG. Note that, in the figure, portions corresponding to those in the decoder of FIG. 39 are denoted by the same reference numerals. That is, the lower layer decoding unit 95 is basically configured similarly to the decoder of FIG.

【0152】逆多重化部91からの下位レイヤのビット
ストリームは、バッファ101に供給され、そこで受信
されて一時記憶される。IVLC器102は、その後段
のブロックの処理状態に対応して、バッファ101から
ビットストリームを適宜読み出し、そのビットストリー
ムを可変長復号することで、量子化係数、動きベクト
ル、予測モード、量子化ステップ、サイズデータFSZ
_B、オフセットデータFPOS_B、およびフラグC
ODなどを分離する。量子化係数および量子化ステップ
は、逆量子化器103に供給され、動きベクトルおよび
予測モードは、動き補償器107と上位レイヤ復号部9
3(図14)に供給される。また、サイズデータFSZ
_BおよびオフセットデータFPOS_Bは、動き補償
器107、画像再構成部73(図13)、および上位レ
イヤ復号部93に供給され、フラグCODは、上位レイ
ヤ復号部93に供給される。
The lower layer bit stream from the demultiplexing unit 91 is supplied to the buffer 101, where it is received and temporarily stored. The IVLC unit 102 appropriately reads out the bit stream from the buffer 101 in accordance with the processing state of the subsequent block, and performs variable length decoding on the bit stream to obtain a quantization coefficient, a motion vector, a prediction mode, and a quantization step. , Size data FSZ
_B, offset data FPOS_B, and flag C
Separate OD etc. The quantization coefficient and the quantization step are supplied to the dequantizer 103, and the motion vector and the prediction mode are the motion compensator 107 and the upper layer decoding unit 9
3 (FIG. 14). Also, size data FSZ
_B and offset data FPOS_B are supplied to the motion compensator 107, the image reconstruction unit 73 (FIG. 13), and the upper layer decoding unit 93, and the flag COD is supplied to the upper layer decoding unit 93.

【0153】逆量子化器103、IDCT器104、演
算器105、フレームメモリ106、または動き補償器
107では、図9の下位レイヤ符号化部25の逆量子化
器38、IDCT器39、演算器40、フレームメモリ
41、または動き補償器42における場合とそれぞれ同
様の処理が行われることで、下位レイヤのVOPが復号
され、画像再構成部73、上位レイヤ復号部93、およ
び解像度変換部94(図14)に供給される。
In the inverse quantizer 103, the IDCT unit 104, the arithmetic unit 105, the frame memory 106, or the motion compensator 107, the inverse quantizer 38, the IDCT unit 39, and the arithmetic unit of the lower layer encoding unit 25 of FIG. 40, the frame memory 41, or the motion compensator 42, respectively, the same processing is performed to decode the VOP of the lower layer, and the image reconstructing unit 73, the upper layer decoding unit 93, and the resolution converting unit 94 ( 14).

【0154】次に、図16は、図14の上位レイヤ復号
部93の構成例を示している。なお、図中、図39にお
ける場合と対応する部分については、同一の符号を付し
てある。即ち、上位レイヤ復号部93は、フレームメモ
リ112が新たに設けられていることを除けば、基本的
に、図39のエンコーダと同様に構成されている。
Next, FIG. 16 shows a configuration example of the upper layer decoding unit 93 of FIG. Note that, in the figure, parts corresponding to those in FIG. 39 are denoted by the same reference numerals. That is, the upper layer decoding unit 93 is basically configured similar to the encoder of FIG. 39 except that the frame memory 112 is newly provided.

【0155】逆多重化部91からの上位レイヤのビット
ストリームは、バッファ101を介してIVLC器10
2に供給される。IVLC器102は、上位レイヤのビ
ットストリームを可変長復号することで、量子化係数、
動きベクトル、予測モード、量子化ステップ、サイズデ
ータFSZ_E、オフセットデータFPOS_E、倍率
FR、フラグref_layer_id,ref_se
lect_code,COD,MODBなどを分離す
る。量子化係数および量子化ステップは、図15におけ
る場合と同様に、逆量子化器103に供給され、動きベ
クトルおよび予測モードは、動き補償器107に供給さ
れる。また、サイズデータFSZ_Eおよびオフセット
データFPOS_Eは、動き補償器107および画像再
構成部73(図13)に供給され、フラグCOD,MO
DB,ref_layer_id、およびref_se
lect_codeは、動き補償器107に供給され
る。さらに、倍率FRは、動き補償器107および解像
度変換部94(図14)に供給される。
The upper layer bit stream from the demultiplexing unit 91 is passed through the buffer 101 to the IVLC unit 10.
2 is supplied. The IVLC unit 102 performs variable length decoding on the bit stream of the upper layer to obtain a quantization coefficient,
Motion vector, prediction mode, quantization step, size data FSZ_E, offset data FPOS_E, scaling factor FR, flags ref_layer_id, ref_se
Lect_code, COD, MODB, etc. are separated. The quantization coefficient and the quantization step are supplied to the dequantizer 103, and the motion vector and the prediction mode are supplied to the motion compensator 107, as in the case of FIG. Further, the size data FSZ_E and the offset data FPOS_E are supplied to the motion compensator 107 and the image reconstruction unit 73 (FIG. 13), and the flags COD, MO are supplied.
DB, ref_layer_id, and ref_se
The lect_code is supplied to the motion compensator 107. Further, the magnification FR is supplied to the motion compensator 107 and the resolution converter 94 (FIG. 14).

【0156】なお、動き補償器107には、上述したデ
ータの他、下位レイヤ復号部95(図14)から、下位
レイヤの動きベクトル、フラグCOD、サイズデータF
SZ_B、およびオフセットデータFPOS_Bが供給
されるようになされている。また、フレームメモリ11
2には、解像度変換部94から拡大画像が供給される。
In addition to the above-described data, the motion compensator 107 receives the motion vector of the lower layer, the flag COD, and the size data F from the lower layer decoding unit 95 (FIG. 14).
SZ_B and offset data FPOS_B are supplied. In addition, the frame memory 11
An enlarged image is supplied to 2 from the resolution conversion unit 94.

【0157】逆量子化器103、IDCT器104、演
算器105、フレームメモリ106、動き補償器10
7、またはフレームメモリ112では、図10の上位レ
イヤ符号化部23の逆量子化器38、IDCT器39、
演算器40、フレームメモリ41、動き補償器42、ま
たはフレームメモリ52における場合とそれぞれ同様の
処理が行われることで、上位レイヤのVOPが復号さ
れ、画像再構成部73に供給される。
Inverse quantizer 103, IDCT device 104, calculator 105, frame memory 106, motion compensator 10
7, or in the frame memory 112, the inverse quantizer 38, the IDCT device 39, and the inverse quantizer 38 of the upper layer encoding unit 23 of FIG.
By performing the same processing as in the arithmetic unit 40, the frame memory 41, the motion compensator 42, or the frame memory 52, the VOP of the upper layer is decoded and supplied to the image reconstructing unit 73.

【0158】ここで、以上のように構成される上位レイ
ヤ復号部93および下位レイヤ復号部95を有するVO
P復号部72nにおいては、上位レイヤについての復号
画像、サイズデータFSZ_E、およびオフセットデー
タFPOS_E(以下、適宜、これらをすべて含めて、
上位レイヤデータという)と、下位レイヤについての上
位レイヤについての復号画像、サイズデータFSZ_
B、およびオフセットデータFPOS_B(以下、適
宜、これらをすべて含めて、下位レイヤデータという)
が得られるが、画像再構成部73では、この上位レイヤ
データまたは下位レイヤデータから、例えば、次のよう
にして画像が再構成されるようになされている。
Here, a VO having the upper layer decoding unit 93 and the lower layer decoding unit 95 configured as described above.
In the P decoding unit 72 n , the decoded image of the upper layer, the size data FSZ_E, and the offset data FPOS_E (hereinafter, including all of them, as appropriate,
Upper layer data), a decoded image of the upper layer of the lower layer, and size data FSZ_
B and offset data FPOS_B (hereinafter, all of them are appropriately included and referred to as lower layer data)
However, the image reconstruction unit 73 is configured to reconstruct an image from the upper layer data or the lower layer data in the following manner, for example.

【0159】即ち、例えば、第1の空間スケーラビリテ
ィ(図4)が行われた場合(入力されたVOP全体が上
位レイヤとされるとともに、そのVOP全体を縮小した
ものが下位レイヤされた場合)において、下位レイヤデ
ータおよび上位レイヤデータの両方のデータが復号され
たときには、画像再構成部73は、上位レイヤデータの
みに基づき、サイズデータFSZ_Eに対応する大きさ
の上位レイヤの復号画像(VOP)を、オフセットデー
タFPOS_Eによって示される位置に配置する。ま
た、例えば、上位レイヤのビットストリームにエラーが
生じたり、また、モニタ74が、低解像度の画像にしか
対応していないため、下位レイヤデータのみの復号が行
われたときには、画像再構成部73は、その下位レイヤ
データのみに基づき、サイズデータFSZ_Bに対応す
る大きさの上位レイヤの復号画像(VOP)を、オフセ
ットデータFPOS_Bによって示される位置に配置す
る。
That is, for example, in the case where the first spatial scalability (FIG. 4) is performed (when the entire input VOP is the upper layer and the reduced VOP is the lower layer). When both the lower layer data and the upper layer data are decoded, the image reconstruction unit 73 generates a decoded image (VOP) of the upper layer having a size corresponding to the size data FSZ_E based on only the upper layer data. , At the position indicated by the offset data FPOS_E. Further, for example, when an error occurs in the bit stream of the upper layer, and the monitor 74 supports only low resolution images, when only the lower layer data is decoded, the image reconstructing unit 73. Arranges the decoded image (VOP) of the upper layer having the size corresponding to the size data FSZ_B at the position indicated by the offset data FPOS_B based on only the lower layer data.

【0160】また、例えば、第2の空間スケーラビリテ
ィ(図5)が行われた場合(入力されたVOPの一部が
上位レイヤとされるとともに、そのVOP全体を縮小し
たものが下位レイヤとされた場合)において、下位レイ
ヤデータおよび上位レイヤデータの両方のデータが復号
されたときには、画像再構成部73は、サイズデータF
SZ_Bに対応する大きさの下位レイヤの復号画像を、
倍率FRにしたがって拡大し、その拡大画像を生成す
る。さらに、画像再構成部73は、オフセットデータF
POS_BをFR倍し、その結果得られる値に対応する
位置に、拡大画像を配置する。そして、画像再構成部7
3は、サイズデータFSZ_Eに対応する大きさの上位
レイヤの復号画像を、オフセットデータFPOS_Eに
よって示される位置に配置する。
In addition, for example, when the second spatial scalability (FIG. 5) is performed (a part of the input VOP is set as the upper layer, and a reduction of the entire VOP is set as the lower layer. In the case), when both the lower layer data and the upper layer data are decoded, the image reconstruction unit 73 determines that the size data F
The decoded image of the lower layer of the size corresponding to SZ_B is
The image is enlarged according to the magnification FR, and the enlarged image is generated. Further, the image reconstructing unit 73 uses the offset data F
POS_B is multiplied by FR, and the enlarged image is arranged at a position corresponding to the value obtained as a result. Then, the image reconstruction unit 7
3 arranges the decoded image of the upper layer having the size corresponding to the size data FSZ_E at the position indicated by the offset data FPOS_E.

【0161】この場合、上位レイヤの復号画像の部分
が、それ以外の部分に比較して高い解像度で表示される
ことになる。
In this case, the part of the decoded image in the upper layer is displayed with a higher resolution than the other parts.

【0162】なお、上位レイヤの復号画像を配置する場
合においては、その復号画像と、拡大画像とは合成され
る。
When the decoded image of the upper layer is arranged, the decoded image and the enlarged image are combined.

【0163】また、図14(図13)には図示しなかっ
たが、上位レイヤ復号部93(VOP復号部72n)か
ら画像再構成部73に対しては、上述したデータの他、
倍率FRも供給されるようになされており、画像再構成
部73は、これを用いて、拡大画像を生成するようにな
されている。
Although not shown in FIG. 14 (FIG. 13), in addition to the above-mentioned data, the upper layer decoding unit 93 (VOP decoding unit 72 n ) to the image reconstruction unit 73
The magnification FR is also supplied, and the image reconstructing unit 73 is configured to generate an enlarged image using this.

【0164】一方、第2の空間スケーラビリティが行わ
れた場合において、下位レイヤデータのみが復号された
ときには、上述の第1の空間スケーラビリティが行われ
た場合と同様にして、画像が再構成される。
On the other hand, in the case where the second spatial scalability is performed, when only the lower layer data is decoded, the image is reconstructed in the same manner as in the case where the first spatial scalability is performed. .

【0165】さらに、第3の空間スケーラビリティ(図
6、図7)が行われた場合(入力されたVOPを構成す
る物体ごとに、その物体(オブジェクト)全体を上位レ
イヤとするとともに、その物体全体を間引いたものを下
位レイヤとした場合)においては、上述の第2の空間ス
ケーラビリティが行われた場合と同様にして、画像が再
構成される。
Furthermore, when the third spatial scalability (FIGS. 6 and 7) is performed (for each object forming the input VOP, the entire object (object) is set as an upper layer, and the entire object is In the case where the thinned layer is used as the lower layer), the image is reconstructed in the same manner as in the case where the second spatial scalability described above is performed.

【0166】上述したように、オフセットデータFPO
S_BおよびFPOS_Eは、下位レイヤの拡大画像お
よび上位レイヤの画像を構成する、対応する画素どうし
が、絶対座標系において同一の位置に配置されるように
なっているため、以上のように画像を再構成すること
で、正確な(位置ずれのない)画像を得ることができ
る。
As described above, the offset data FPO
In S_B and FPOS_E, the corresponding pixels forming the enlarged image of the lower layer and the image of the upper layer are arranged at the same position in the absolute coordinate system. With this configuration, an accurate image (without positional deviation) can be obtained.

【0167】次に、図1のエンコーダが出力する符号化
ビットストリームのシンタクスについて、例えば、MPEG
4規格のVideo Verification Model(Version6.0)(以
下、適宜、VM6.0と記述する)を例に説明する。
[0167] Next, regarding the syntax of the coded bit stream output by the encoder of Fig. 1, for example, MPEG
An example will be described using the Video Verification Model (Version 6.0) of 4 standards (hereinafter, appropriately referred to as VM6.0).

【0168】図17は、VM6.0における符号化ビットス
トリームの構成を示している。
FIG. 17 shows the structure of a coded bitstream in VM6.0.

【0169】符号化ビットストリームは、VS(Video
Session Class)を単位として構成され、各VSは、1
以上のVO(Video Object Class)から構成される。そ
して、VOは、1以上のVOL(Video Object Layer C
lass)から構成され(画像を階層化しないときは1のV
OLで構成され、画像を階層化する場合には、その階層
数だけのVOLで構成される)、VOLは、VOP(Vi
deo Object Plane Class)から構成される。
The coded bit stream is VS (Video
Session Class), and each VS has 1
It is composed of the above VO (Video Object Class). The VO is one or more VOLs (Video Object Layer C
lass) (V of 1 when the image is not layered)
If the image is layered, it is composed of the number of VOLs corresponding to the number of layers) and VOL is VOP (Vi
deo Object Plane Class).

【0170】なお、VSは、画像シーケンスであり、例
えば、一本の番組や映画などに相当する。
The VS is an image sequence and corresponds to, for example, one program or movie.

【0171】図18または図19は、VSまたはVOの
シンタクスをそれぞれ示している。VOは、画像全体ま
たは画像の一部(物体)のシーケンスに対応するビット
ストリームであり、従って、VSは、そのようなシーケ
ンスの集合で構成される(よって、VSは、例えば、一
本の番組などに相当する)。
FIG. 18 or FIG. 19 shows the syntax of VS or VO, respectively. A VO is a bitstream corresponding to a sequence of an entire image or a part (object) of an image, and thus a VS is composed of a set of such sequences (so VS is, for example, a program Equivalent to).

【0172】図20は、VOLのシンタクスを示してい
る。
FIG. 20 shows the syntax of the VOL.

【0173】VOLは、上述したようなスケーラビリテ
ィのためのクラスであり、video_object_layer_idで示
される番号によって識別される。即ち、例えば、下位レ
イヤのVOLについてのvideo_object_layer_idは0と
され、また、例えば、上位レイヤのVOLについてのvi
deo_object_layer_idは1とされる。なお、上述したよ
うに、スケーラブルのレイヤの数は2に限られることな
く、1や3以上を含む任意の数とすることができる。
The VOL is a class for scalability as described above, and is identified by the number indicated by video_object_layer_id. That is, for example, video_object_layer_id for the VOL of the lower layer is set to 0, and, for example, vi for the VOL of the upper layer.
deo_object_layer_id is set to 1. Note that, as described above, the number of scalable layers is not limited to 2, and can be any number including 1 or 3 or more.

【0174】また、各VOLについて、それが画像全体
であるのか、画像の一部であるのかは、video_object_l
ayer_shapeで識別される。このvideo_object_layer_sha
peは、VOLの形状を示すフラグで、例えば、以下のよ
うに設定される。
For each VOL, video_object_l is used to determine whether it is the entire image or a part of the image.
Identified by ayer_shape. This video_object_layer_sha
pe is a flag indicating the shape of the VOL, and is set as follows, for example.

【0175】即ち、VOLの形状が長方形状であると
き、video_object_layer_shapeは、例えば「00」とさ
れる。また、VOLが、ハードキー(0または1のうち
のいずれか一方の値をとる2値(Binary)の信号)によ
って抜き出される領域の形状をしているとき、video_ob
ject_layer_shapeは、例えば「01」とされる。さら
に、VOLが、ソフトキー(0乃至1の範囲の連続した
値(Gray-Scale)をとることが可能な信号)によって抜
き出される領域の形状をしているとき(ソフトキーを用
いて合成されるものであるとき)、video_object_layer
_shapeは、例えば「10」とされる。
That is, when the VOL has a rectangular shape, video_object_layer_shape is set to, for example, "00". Also, when the VOL has a shape of an area extracted by a hard key (a binary signal that takes one of 0 and 1), video_ob
The ject_layer_shape is set to "01", for example. Further, when the VOL has a shape of an area extracted by a soft key (a signal that can take a continuous value (Gray-Scale) in the range of 0 to 1) (combined by using the soft key). Video_object_layer
_shape is set to “10”, for example.

【0176】ここで、video_object_layer_shapeが「0
0」とされるのは、VOLの形状が長方形状であり、か
つ、そのVOLの絶対座標形における位置および大きさ
が、時間とともに変化しない、即ち、一定の場合であ
る。なお、この場合、その大きさ(横の長さと縦の長
さ)は、video_object_layer_widthとvideo_object_lay
er_heightによって示される。video_object_layer_widt
hおよびvideo_object_layer_heightは、いずれも10ビ
ットの固定長のフラグで、video_object_layer_shapeが
「00」の場合には、最初に、一度だけ伝送される(こ
れは、video_object_layer_shapeが「00」の場合、上
述したように、VOLの絶対座標系における大きさが一
定であるからである)。
Here, video_object_layer_shape is "0".
“0” is defined when the VOL has a rectangular shape and the position and size of the VOL in the absolute coordinate form do not change with time, that is, are constant. In this case, the sizes (horizontal length and vertical length) are video_object_layer_width and video_object_lay.
Indicated by er_height. video_object_layer_widt
Both h and video_object_layer_height are fixed-length flags of 10 bits, and when video_object_layer_shape is "00", it is transmitted only once at the beginning (this is as described above when video_object_layer_shape is "00"). , The size of the VOL in the absolute coordinate system is constant).

【0177】また、VOLが、下位レイヤまたは上位レ
イヤのうちのいずれであるかは、1ビットのフラグであ
るscalabilityによって示される。VOLが下位レイヤ
の場合、scalabilityは、例えば1とされ、それ以外の
場合、scalabilityは、例えば0とされる。
Whether the VOL is a lower layer or an upper layer is indicated by the scalability which is a 1-bit flag. If the VOL is a lower layer, the scalability is set to 1, for example, and otherwise the scalability is set to 0, for example.

【0178】さらに、VOLが、自身以外のVOLにお
ける画像を参照画像として用いる場合、その参照画像が
属するVOLは、上述したように、ref_layer_idで表さ
れる。なお、ref_layer_idは、上位レイヤについてのみ
伝送される。
Further, when a VOL uses an image in a VOL other than itself as a reference image, the VOL to which the reference image belongs is represented by ref_layer_id as described above. Note that ref_layer_id is transmitted only for the upper layer.

【0179】また、図20において、hor_sampling_fac
tor_nとhor_sampling_factor_mは、下位レイヤのVOP
の水平方向の長さに対応する値と、上位レイヤのVOP
の水平方向の長さに対応する値をそれぞれ示す。従っ
て、下位レイヤに対する上位レイヤの水平方向の長さ
(水平方向の解像度の倍率)は、式hor_sampling_facto
r_n/hor_sampling_factor_mで与えられる。
Further, in FIG. 20, hor_sampling_fac
tor_n and hor_sampling_factor_m are VOPs of the lower layer
Value corresponding to the horizontal length of the VOP of the upper layer
The respective values corresponding to the horizontal length of are shown. Therefore, the horizontal length of the upper layer with respect to the lower layer (magnification of the horizontal resolution) is calculated by the formula hor_sampling_facto
It is given by r_n / hor_sampling_factor_m.

【0180】さらに、図20において、ver_sampling_f
actor_nとver_sampling_factor_mは、下位レイヤのVO
Pの垂直方向の長さに対応する値と、上位レイヤのVO
Pの垂直方向の長さに対応する値をそれぞれ示す。従っ
て、下位レイヤに対する上位レイヤの垂直方向の長さ
(垂直方向の解像度の倍率)は、式ver_sampling_facto
r_n/ver_sampling_factor_mで与えられる。
Further, in FIG. 20, ver_sampling_f
actor_n and ver_sampling_factor_m are lower layer VO
A value corresponding to the vertical length of P and the VO of the upper layer
The values corresponding to the vertical length of P are shown. Therefore, the vertical length (magnification of the vertical resolution) of the upper layer with respect to the lower layer is calculated by the formula ver_sampling_facto
It is given by r_n / ver_sampling_factor_m.

【0181】次に、図21は、VOP(Video Object P
lane Class)のシンタクスを示している。
Next, FIG. 21 shows a VOP (Video Object P
(lane class) syntax is shown.

【0182】VOPの大きさ(横と縦の長さ)は、例え
ば、10ビット固定長のVOP_widthとVOP_heightで表さ
れる。また、VOPの絶対座標系における位置は、例え
ば、10ビット固定長のVOP_horizontal_spatial_mc_re
fとVOP_vertical_mc_refで表される。なお、VOP_width
またはVOP_heightは、VOPの水平方向または垂直方向
の長さをそれぞれ表し、これらは、上述のサイズデータ
FSZ_BやFSZ_Eに相当する。また、VOP_horizo
ntal_spatial_mc_refまたはVOP_vertical_mc_refは、V
OPの水平方向または垂直方向の座標(xまたはy座
標)をそれぞれ表し、これらは、上述のオフセットデー
タFPOS_BやFPOS_Eに相当する。
The VOP size (horizontal and vertical lengths) is represented by VOP_width and VOP_height having a fixed length of 10 bits, for example. Further, the position of the VOP in the absolute coordinate system is, for example, VOP_horizontal_spatial_mc_re having a fixed length of 10 bits.
It is represented by f and VOP_vertical_mc_ref. Note that VOP_width
Alternatively, VOP_height represents the horizontal or vertical length of the VOP, and these correspond to the size data FSZ_B and FSZ_E described above. Also, VOP_horizo
ntal_spatial_mc_ref or VOP_vertical_mc_ref is V
Represents horizontal or vertical coordinates (x or y coordinates) of OP, which correspond to the offset data FPOS_B and FPOS_E described above.

【0183】VOP_width,VOP_height,VOP_horizontal_
spatial_mc_ref、およびVOP_vertical_mc_refは、video
_object_layer_shapeが「00」以外の場合にのみ伝送
される。即ち、video_object_layer_shapeが「00」の
場合、上述したように、VOPの大きさおよび位置はい
ずれも一定であるから、VOP_width,VOP_height,VOP_h
orizontal_spatial_mc_ref、およびVOP_vertical_mc_re
fは伝送する必要がない。この場合、受信側では、VO
Pは、その左上の頂点が、例えば、絶対座標系の原点に
一致するように配置され、また、その大きさは、図20
で説明したvideo_object_layer_widthおよびvideo_obje
ct_layer_heightから認識される。
VOP_width, VOP_height, VOP_horizontal_
spatial_mc_ref and VOP_vertical_mc_ref are video
It is transmitted only when _object_layer_shape is other than "00". That is, when the video_object_layer_shape is “00”, as described above, the size and position of the VOP are constant, so VOP_width, VOP_height, VOP_h.
orizontal_spatial_mc_ref, and VOP_vertical_mc_re
f need not be transmitted. In this case, on the receiving side, VO
20. P is arranged such that its upper left apex coincides with, for example, the origin of the absolute coordinate system, and its size is as shown in FIG.
Video_object_layer_width and video_obje described in
Recognized by ct_layer_height.

【0184】図21において、ref_select_codeは、図
17で説明したように、参照画像として用いる画像を表
すもので、VOPのシンタクスにおいて規定されてい
る。
In FIG. 21, ref_select_code represents an image used as a reference image as described in FIG. 17, and is defined in the VOP syntax.

【0185】ところで、VM6.0では、各VOP(Video Objec
t Plane:従来のFrameに相当する)の表示時刻は、modulo
_time_baseと、VOP_time_increment(図21)によっ
て、次のように定められる。
By the way, in VM6.0, each VOP (Video Objec
(t Plane: Corresponding to conventional Frame) is displayed at the modulo
_time_base and VOP_time_increment (FIG. 21) determine as follows.

【0186】即ち、modulo_time_baseは、エンコーダの
ローカルな時間軸上における時刻を、1秒(1000ms(ミ
リ秒))の精度で表す。modulo_time_baseは、VOPヘッ
ダの中で伝送されるマーカ(marker)で表現され、必要
な数の「1」と、1の「0」とで構成される。modulo_tim
e_baseを構成する「1」の数が、最後に(現在から遡っ
て、最も最近に)(直前に)符号化/復号されたmodulo
_time_baseによって示された同期点(1秒精度の時刻)
からの累積時間を表す。即ち、modulo_time_baseが、例
えば、「0」の場合は、直前に符号化/復号されたmodu
lo_time_baseによって示された同期点からの累積時間が
0秒であることを表す。また、modulo_time_baseが、例
えば、「10」の場合は、直前に符号化/復号されたmo
dulo_time_baseによって示された同期点からの累積時間
が1秒であることを表す。さらに、modulo_time_base
が、例えば、「110」の場合は、直前に符号化/復号
されたmodulo_time_baseによって示された同期点からの
累積時間が2秒であることを表す。以上のように、modu
lo_time_baseの「1」の数が、直前に符号化/復号され
たmodulo_time_baseによって示された同期点からの秒数
になっている。
That is, modulo_time_base represents the time on the local time axis of the encoder with an accuracy of 1 second (1000 ms (millisecond)). modulo_time_base is expressed by a marker transmitted in the VOP header, and is composed of a required number of "1" s and 1 "0" s. modulo_tim
The number of "1" s that make up the e_base is the modulo that was last encoded (back to the present and most recently) (immediately before).
Sync point indicated by _time_base (1 second precision time)
Represents the cumulative time from. That is, when modulo_time_base is, for example, “0”, modu that was encoded / decoded immediately before
Indicates that the cumulative time from the sync point indicated by lo_time_base is 0 seconds. Further, when modulo_time_base is, for example, “10”, the mo coded / decoded immediately before.
Indicates that the cumulative time from the sync point indicated by dulo_time_base is 1 second. In addition, modulo_time_base
However, for example, “110” indicates that the cumulative time from the synchronization point indicated by modulo_time_base encoded / decoded immediately before is 2 seconds. As mentioned above, modu
The number of "1" in lo_time_base is the number of seconds from the sync point indicated by modulo_time_base that was encoded / decoded immediately before.

【0187】なお、VM6.0では、modulo_time_baseにつ
いて、「This value represents thelocal time base a
t the one second resolution unit (1000 millisecond
s).It is represented as a marker transmitted in th
e VOP header. The numberof consecutive "1" followe
d by a "0" indicates the number of seconds has ela
psed since the synchronization point marked by the
last encoded/decoded modulo_time_base.」と記載さ
れている。
In VM6.0, modulo_time_base is "This value represents the local time base a
t the one second resolution unit (1000 millisecond
s) .It is represented as a marker transmitted in th
e VOP header. The number of consecutive "1" followe
d by a "0" indicates the number of seconds has ela
psed since the synchronization point marked by the
last encoded / decoded modulo_time_base. "

【0188】VOP_time_incrementは、エンコーダのロー
カルな時間軸上における時刻を、1msの精度で表す。VM
6.0では、VOP_time_incrementは、I-VOPおよびP-VOPに
ついては、直前に符号化/復号されたmodulo_time_base
によって示された同期点からの時間を表し、B-VOPにつ
いては、直前に符号化/復号されたI-VOPまたはP-VOPか
らの相対時間を表す。
VOP_time_increment represents the time on the local time axis of the encoder with an accuracy of 1 ms. VM
In 6.0, VOP_time_increment is modulo_time_base encoded / decoded immediately before for I-VOP and P-VOP.
Indicates the time from the synchronization point indicated by, and for B-VOP, the relative time from the immediately preceding encoded / decoded I-VOP or P-VOP.

【0189】なお、VM6.0では、VOP_time_incrementに
ついて、「This value represents the local time bas
e in the units of milliseconds. For I and P-VOP's
thisvalue is the absolute VOP_time_increment from
the synchronization pointmarked by the last modulo
_time_base. For the B-VOP's this value is the rela
tive VOP_time_increment from the last encoded/deco
ded I- or P-VOP.」と記載されている。
In VM6.0, regarding VOP_time_increment, "This value represents the local time bas
e in the units of milliseconds.For I and P-VOP's
thisvalue is the absolute VOP_time_increment from
the synchronization pointmarked by the last modulo
_time_base.For the B-VOP's this value is the rela
tive VOP_time_increment from the last encoded / deco
ded I- or P-VOP. "

【0190】そして、VM6.0では、「At the encoder, t
he following formula are used todetermine the abso
lute and relative VOP_time_increments for I/P-VOP'
s and B-VOP's, respectively.」と記載されている。
Then, in VM6.0, "At the encoder, t
he following formula are used to determine the abso
lute and relative VOP_time_increments for I / P-VOP '
s and B-VOP's, respectively. "

【0191】即ち、エンコーダにおいて、以下の式を使
って、I-VOPおよびP-VOPと、B-VOPとについて、それぞ
れの表示時刻を符号化する旨が規定されている。
That is, in the encoder, it is stipulated that the display time of each of the I-VOP and P-VOP and the B-VOP is coded using the following formula.

【0192】 tGTB(n)=n×1000ms+tESTAVTI=tETB(I/P)−tGTB(n)RVTI=tETB(B)−tETB(I/P) ・・・(1) 但し、式(1)において、tGTB(n)は、n番目に符号化
されたmodulo_time_baseによって示された同期点の時刻
(上述したように、秒精度)を表し、tESTは、エンコ
ーダにおけるVOの符号化開始時刻(VOの符号化が開
始された絶対時刻)を表す。また、tAVTIは、I-VOPま
たはP-VOPについてのVOP_time_incrementを表し、t
ETB(I/P)は、エンコーダにおけるI-VOPまたはP-VOPの符
号化開始時刻(VOPの符号化が開始された絶対時刻)
を表す。さらに、tRVTIは、B-VOPについてのVOP_time_
incrementを表し、tETB(B)は、エンコーダにおけるB-V
OPの符号化開始時刻を表す。
T GTB (n) = n × 1000 ms + t EST t AVTI = t ETB (I / P) −t GTB (n) t RVTI = t ETB (B) −t ETB (I / P) (1 However, in Expression (1), t GTB (n) represents the time of the synchronization point indicated by the nth encoded modulo_time_base (second precision as described above), and t EST is in the encoder. It represents the VO encoding start time (absolute time when the VO encoding was started). Also, t AVTI represents VOP_time_increment for I-VOP or P-VOP, and t AVTI
ETB (I / P) is the encoding start time of I-VOP or P-VOP in the encoder (absolute time when the encoding of VOP was started)
Represents Further, t RVTI is VOP_time_ for B-VOP.
represents the increment and t ETB (B) is the BV at the encoder
Indicates the OP start time of OP.

【0193】なお、VM6.0では、式(1)におけるt
GTB(n),tEST,tAVTI,tETB(I/P),tRVTI,t
ETB(B)について、「tGTB(n) is the encoder time base
marked by the nth encoded modulo_time_base, tEST
is the encoder time base start time, tAVTI is the
absolute VOP_time_increment for the I or P-VOP, t
ETB(I/P ) is the encoder time base at the start of
the encoding of the I or P-VOP, tRVTI is the relat
ive VOP_time_increment for the B-VOP, and tETB(B)
is the encoder time base at the start of the encod
ing of the B-VOP.」と記載されている。
In VM6.0, t in equation (1)
GTB (n) , t EST , t AVTI , t ETB (I / P) , t RVTI , t
Regarding ETB (B) , "t GTB (n) is the encoder time base
marked by the nth encoded modulo_time_base, t EST
is the encoder time base start time, t AVTI is the
absolute VOP_time_increment for the I or P-VOP, t
ETB (I / P ) is the encoder time base at the start of
the encoding of the I or P-VOP, t RVTI is the relat
ive VOP_time_increment for the B-VOP, and t ETB (B)
is the encoder time base at the start of the encod
ing of the B-VOP. "

【0194】また、VM6.0では、「At the decoder, the
following formula are used to determine the recov
ered time base of the I/P-VOP's and B-VOP's, respe
ctively:」と記載されている。
Further, in VM6.0, "At the decoder, the
following formula are used to determine the recov
ered time base of the I / P-VOP's and B-VOP's, respe
ctively: ”is described.

【0195】即ち、デコーダ側では、以下の式を使っ
て、I-VOPおよびP-VOPと、B-VOPについて、それぞれの
表示時刻を復号する旨が規定されている。
That is, on the decoder side, it is specified that the display times of I-VOP and P-VOP and B-VOP are decoded using the following formula.

【0196】 tGTB(n)=n×1000ms+tDSTDTB(I/P)=tAVTI+tGTB(n)DTB(B)=tRVTI+tDTB(I/P) ・・・(2) 但し、式(2)において、tGTB(n)は、n番目に復号さ
れたmodulo_time_baseによって示された同期点の時刻を
表し、tDSTは、デコーダにおけるVOの復号開始時刻
(VOの復号が開始された絶対時刻)を表す。また、t
DTB(I/P)は、デコーダにおけるI-VOPまたはP-VOPの復号
開始時刻を表し、tAVTIは、I-VOPまたはP-VOPについて
のVOP_time_incrementを表す。さらに、tDTB(B)は、デ
コーダにおけるB-VOPの復号開始時刻(VOPの復号が
開始された絶対時刻)を表し、tRVT Iは、B-VOPについ
てのVOP_time_incrementを表す。
T GTB (n) = n × 1000 ms + t DST t DTB (I / P) = t AVTI + t GTB (n) t DTB (B) = t RVTI + t DTB (I / P) (2) In the equation (2), t GTB (n) represents the time of the sync point indicated by the nth decoded modulo_time_base, and t DST is the decoding start time of the VO in the decoder (the decoding of VO is started. Absolute time). Also, t
DTB (I / P) represents the decoding start time of the I-VOP or P-VOP in the decoder, and t AVTI represents the VOP_time_increment for the I-VOP or P-VOP. Further, t DTB (B) represents the decoding start time of the B-VOP in the decoder (the absolute time when the decoding of the VOP was started), and t RVT I represents the VOP_time_increment of the B-VOP.

【0197】なお、VM6.0では、式(2)におけるt
GTB(n),tDST,tDTB(I/P),tAVTI,tDTB(B),t
RVTIについて、「tGTB(n) is the encoding time base
marked bythe nth decoded modulo_time_base, tDST is
the decoding time base start time, tDTB(I/P) is t
he decoding time base at the start of the decoding
ofthe I or P-VOP, tAVTI is the decoding absolute
VOP_time_increment for the I or P-VOP, tDTB(B) is
the decoding time base at the start of the decodin
g of the B-VOP, and tRVTI is the decoded relative
VOP_time_incrementfor the B-VOP.」と記載されてい
る。
In VM6.0, t in equation (2)
GTB (n) , t DST , t DTB (I / P) , t AVTI , t DTB (B) , t
About RVTI , "t GTB (n) is the encoding time base"
marked bythe nth decoded modulo_time_base, t DST is
the decoding time base start time, t DTB (I / P) is t
he decoding time base at the start of the decoding
of the I or P-VOP, t AVTI is the decoding absolute
VOP_time_increment for the I or P-VOP, t DTB (B) is
the decoding time base at the start of the decodin
g of the B-VOP, and t RVTI is the decoded relative
VOP_time_increment for the B-VOP. "

【0198】図22は、以上の定義に基づいて、modulo
_time_baseとVOP_time_incrementとの関係を示した図で
ある。
FIG. 22 shows modulo based on the above definition.
It is a figure showing the relation between _time_base and VOP_time_increment.

【0199】図22において、VOは、I1(I−VO
P),B2(B−VOP),B3,P4(P−VO
P),B5,P6,・・・というVOPのシーケンスで
構成されている。いま、VOの符号化/復号開始時刻
(絶対時刻)をt0とすると、modulo_time_baseは、時
刻t0からの経過時間を、1秒精度で表すから、t0+
1秒、t0+2秒,・・・という時刻(同期点)を表
す。なお、図22において、表示順は、I1,B2,B
3,P4,B5,P6,・・・であるが、符号化/復号
順は、I1,P4,B2,B3,P6,・・・である。
In FIG. 22, VO is I1 (I-VO
P), B2 (B-VOP), B3, P4 (P-VO
P), B5, P6, ... VOP sequences. Now, assuming that the VO encoding / decoding start time (absolute time) is t0, modulo_time_base represents the elapsed time from time t0 with 1 second precision, so t0 +
It represents a time (synchronization point) of 1 second, t0 + 2 seconds, .... In FIG. 22, the display order is I1, B2, B.
3, P4, B5, P6, ..., The encoding / decoding order is I1, P4, B2, B3, P6 ,.

【0200】図22では(後述する図25乃至図28、
および図33においても同様)、各VOPについてのVO
P_time_incrementを、四角形で囲んだ数字(単位はms)
で示してあり、modulo_time_baseによって示される同期
点の切り替わりを、▼印で示してある。従って、図22
では、I1,B2,B3,P4,B5,P6についての
VOP_time_incrementが、350ms,400ms,80
0ms,550ms,400ms,350msとそれぞ
れされており、P4およびP6において、同期点が切り
替わっている。
In FIG. 22, (FIGS. 25 to 28 described later,
Also in FIG. 33), VO for each VOP
A number that encloses P_time_increment in a rectangle (unit is ms)
, And the switching of the synchronization points indicated by modulo_time_base is indicated by the ▼ mark. Therefore, FIG.
Then, for I1, B2, B3, P4, B5, P6
VOP_time_increment is 350ms, 400ms, 80
The synchronization points are 0 ms, 550 ms, 400 ms, and 350 ms, respectively, and the synchronization points are switched at P4 and P6.

【0201】いま、図22において、I1のVOP_time_i
ncrementは、350msであるから、I1の符号化/復号
時刻は、直前に符号化/復号されたmodulo_time_baseに
よって示された同期点から350ms後の時刻となる。
なお、符号化/復号の開始直後は、その開始時刻(符号
化/復号開始時刻)t0が同期点となるので、I1の符
号化/復号時刻は、符号化/復号開始時刻t0から35
0ms後の時刻t0+350msということになる。
Now, in FIG. 22, VOP_time_i of I1
Since ncrement is 350 ms, the encoding / decoding time of I1 is the time 350 ms after the synchronization point indicated by modulo_time_base encoded / decoded immediately before.
Immediately after the start of encoding / decoding, the start time (encoding / decoding start time) t0 becomes the synchronization point, so the encoding / decoding time of I1 is 35 from the encoding / decoding start time t0.
This means that the time t0 + 350 ms after 0 ms.

【0202】そして、B2またはB3の符号化/復号時
刻は、直前に符号化/復号されたI-VOPまたはP-VOPか
ら、VOP_time_incrementだけ経過した時刻であるから、
いまの場合、最後の符号化/復号されたI1の符号化/
復号時刻t0+350msから、400msまたは80
0ms後の時刻t0+750msまたはt0+1200
msということに、それぞれなる。
Since the coding / decoding time of B2 or B3 is the time when VOP_time_increment has elapsed from the I / VOP or P-VOP coded / decoded immediately before,
In the present case, the last encoded / decoded I1 encoded /
400 ms or 80 from decoding time t0 + 350 ms
Time t0 + 750 ms after 0 ms or t0 + 1200
It will be ms, respectively.

【0203】次に、P4についてであるが、P4では、
modulo_time_baseによって示される同期点が切り替わっ
ており、従って、同期点は時刻t0+1秒となる。その
結果、P4の符号化/復号時刻は、時刻t0+1秒から
550ms後の時刻(t0+1)秒+550msという
ことになる。
Next, regarding P4, in P4,
The sync point indicated by modulo_time_base has been switched, so the sync point is time t0 + 1 seconds. As a result, the encoding / decoding time of P4 is the time (t0 + 1) seconds +550 ms 550 ms after the time t0 + 1 seconds.

【0204】B5の符号化/復号時刻は、直前に符号化
/復号されたI-VOPまたはP-VOPから、VOP_time_increme
ntだけ経過した時刻であるから、いまの場合、最後の符
号化/復号されたP4の符号化/復号時刻(t0+1)
秒+550msから、400ms後の時刻(t0+1)
秒+950msということになる。
The coding / decoding time of B5 is VOP_time_increme from the I / VOP or P-VOP coded / decoded immediately before.
Since the time has passed by nt, in the present case, the encoding / decoding time (t0 + 1) of the last encoded / decoded P4
Time (t0 + 1) after 400 ms from second +550 ms
This means seconds +950 ms.

【0205】次に、P6についてであるが、P6では、
modulo_time_baseによって示される同期点が切り替わっ
ており、従って、同期点は時刻t0+2秒となる。その
結果、P6の符号化/復号時刻は、時刻t0+2秒から
350ms後の時刻(t0+2)秒+350msという
ことになる。
Next, regarding P6, in P6,
The sync point indicated by modulo_time_base has been switched, so the sync point is time t0 + 2 seconds. As a result, the encoding / decoding time of P6 is the time (t0 + 2) seconds + 350 ms 350 ms after the time t0 + 2 seconds.

【0206】なお、VM6.0では、modulo_time_baseによ
って示される同期点の切り替わりは、I−VOPとP−
VOPとに対してだけ許されており、B−VOPに対し
ては許されていない。
Incidentally, in VM6.0, the switching of the synchronization points indicated by modulo_time_base is performed by I-VOP and P-
Only allowed for VOP and not for B-VOP.

【0207】また、VM6.0において、VOP_time_incremen
tが、I−VOPとP−VOPについては、直前に符号化/復号
されたmodulo_time_baseによって示された同期点からの
時間を表すのに対し、B-VOPについてだけは、直前に符
号化/復号されたI-VOPまたはP-VOPからの相対時間を表
すこととされているのは、主として、次のような理由に
よる。即ち、B-VOPは、表示順で、そのB-VOPを挟むI−V
OPまたはP−VOPを参照画像として予測符号化されるの
で、その予測符号化時に参照画像として用いるI−VOPま
たはP−VOPに対する重みを、B-VOPから、それを挟むI−
VOPまたはP−VOPまでの時間的距離に基づいて決めるた
めに、その時間的距離を、B-VOPについてのVOP_time_in
crementとしたことによる。
In VM6.0, VOP_time_incremen
For I-VOP and P-VOP, t represents the time from the sync point indicated by modulo_time_base encoded / decoded immediately before, whereas for B-VOP only, encoded / decoded immediately before. The reason why it is supposed to represent the relative time from the I-VOP or P-VOP is mainly as follows. That is, B-VOPs are I-Vs that sandwich the B-VOP in display order.
Since OP or P-VOP is predictively coded as a reference image, the weight for I-VOP or P-VOP used as a reference image at the time of predictive coding, from B-VOP, I- sandwiching it-
To determine based on the temporal distance to VOP or P-VOP, the temporal distance is set to VOP_time_in for B-VOP.
Because it was crement.

【0208】ところで、上述したVM6.0のVOP_time_incr
ementの定義では、不都合が生じる。即ち、図22で
は、B-VOPについてのVOP_time_incrementが、そのB-VOP
の直前に符号化/復号されるI-VOPまたはP-VOPからの相
対時間ではなく、直前に表示されるI-VOPまたはP-VOPか
らの相対時間を表すものとしてある。これは、次のよう
な理由による。即ち、例えば、B2やB3に注目した場
合、その直前に符号化/復号されるI-VOPまたはP-VOP
は、上述した符号化/復号順からいって、P4である。
従って、B-VOPについて、VOP_time_incrementが、そのB
-VOPの直前に符号化/復号されたI-VOPまたはP-VOPから
の相対時間を表すとした場合、B2やB3についてのVO
P_time_incrementは、P4の符号化/復号時刻からの相
対時間を表すこととなり、負の値になる。
By the way, the above-mentioned VOP_time_incr of VM6.0
The definition of ement causes inconvenience. That is, in FIG. 22, the VOP_time_increment for the B-VOP is the B-VOP.
Is not the relative time from the I-VOP or P-VOP coded / decoded immediately before, but the relative time from the I-VOP or P-VOP displayed immediately before. This is for the following reason. That is, for example, when attention is paid to B2 or B3, the I-VOP or P-VOP coded / decoded immediately before that.
Is P4 in the encoding / decoding order described above.
Therefore, for B-VOP, VOP_time_increment is
-If the relative time from the I-VOP or P-VOP coded / decoded immediately before VOP is represented, VO for B2 and B3
P_time_increment represents the relative time from the encoding / decoding time of P4, and has a negative value.

【0209】一方、MPEG4規格では、VOP_time_incremen
tは、10ビットとされており、0以上の値のみをとる
ものとすれば、0乃至1023の範囲の値を表現するこ
とができるから、隣接する同期点の間の位置を、時間的
に前(図22において左方向)に位置する同期点を基準
として、1ms単位で表すことができる。
[0209] On the other hand, according to the MPEG4 standard, VOP_time_incremen
Since t is 10 bits, and if it takes only a value of 0 or more, a value in the range of 0 to 1023 can be expressed. Therefore, the position between adjacent sync points can be temporally determined. It can be expressed in units of 1 ms with the synchronization point located in front (to the left in FIG. 22) as a reference.

【0210】しかしながら、VOP_time_incrementが、0
以上の値だけでなく、負の値もとることを許すと、例え
ば、隣接する同期点の間の位置が、時間的に前に位置す
る同期点を基準として表されたり、また、時間的に後に
位置する同期点を基準として表されたりすることになる
ため、VOPの符号化時刻や復号時刻を求める処理が煩
雑になる。
However, VOP_time_increment is 0
If not only the above values but also negative values are allowed, for example, the positions between adjacent sync points are expressed with reference to the sync point located earlier in time, or in terms of time. Since it is expressed with a synchronization point located later as a reference, the process of obtaining the VOP encoding time and VOP decoding time becomes complicated.

【0211】従って、VM6.0では、上述したように、VOP
_time_incrementが、「This valuerepresents the loca
l time base in the units of milliseconds. For I a
ndP-VOP's this value is the absolute VOP_time_incr
ement from the synchronization point marked by the
last modulo_time_base. For the B-VOP's thisvalue
is the relative VOP_time_increment from the last
encoded/decoded I- or P-VOP.」と定義されているが、
最後の文の“For the B-VOP's this valueis the relat
ive VOP_time_increment from the last encoded/decod
ed I- or P-VOP”は、“For the B-VOP's this value i
s the relative VOP_time_increment from the last di
splayed I- or P-VOP”と変更するべきであり、これに
より、VOP_time_incrementが、直前に符号化/復号され
たI-VOPまたはP-VOPからの相対時間ではなく、直前に表
示されるI-VOPまたはP-VOPからの相対時間を表すものと
定義すべきである。
Therefore, in VM6.0, as described above, VOP
_time_increment says `` This value represents the loca
l time base in the units of milliseconds.For I a
ndP-VOP's this value is the absolute VOP_time_incr
ement from the synchronization point marked by the
last modulo_time_base.For the B-VOP's this value
is the relative VOP_time_increment from the last
is defined as encoded / decoded I- or P-VOP.
The last sentence “For the B-VOP's this value is the relat
ive VOP_time_increment from the last encoded / decod
ed I- or P-VOP ”is“ For the B-VOP's this value i
s the relative VOP_time_increment from the last di
splayed I- or P-VOP ”, so that the VOP_time_increment is not the relative time from the last encoded / decoded I-VOP or P-VOP, but the last displayed I- It should be defined to represent the relative time from the VOP or P-VOP.

【0212】VOP_time_incrementを、このような定義に
することにより、B-VOPについての符号化/復号時刻の
計算の基準が、B-VOPよりも過去の表示時刻を持つI/P-V
OP(I-VOPまたはP-VOP)の表示時刻になるので、B-VOP
についてのVOP_time_incrementは、それが参照するI-VO
Pが、そのB-VOPよりも先に表示されない限り、常に、正
の値をとることになり、従って、I/P-VOPのVOP_time_in
crementも、常に正の値をとることになる。
By defining VOP_time_increment in this way, the I / PV having a display time that is earlier than the B-VOP is used as the basis for calculating the encoding / decoding time for the B-VOP.
The OP (I-VOP or P-VOP) display time comes, so B-VOP
VOP_time_increment is the I-VO it references
Unless P is displayed before its B-VOP, it will always have a positive value, and therefore the I / P-VOP's VOP_time_in
crement will always take a positive value.

【0213】また、図22では、さらにVM6.0の定義を
変更して、modulo_time_baseおよびVOP_time_increment
によって表される時刻が、符号化/復号時刻ではなく、
VOPの表示時刻であるとしてある。即ち、図22では、V
OPのシーケンス上の絶対時刻を考えた場合に、式(1)
におけるtEST(I/P)および式(2)におけるt
DTB(I/P)は、IまたはP-VOPが位置するシーケンス上の絶
対時刻を、式(1)におけるtEST (B)および式(2)に
おけるtDTB(B)は、B-VOPが位置するシーケンス上の絶対
時刻を、それぞれ表すものとしてある。
Further, in FIG. 22, the definition of VM6.0 is further defined.
Change to modulo_time_base and VOP_time_increment
The time represented by is not the encoding / decoding time,
It is supposed to be the display time of the VOP. That is, in FIG. 22, V
Considering the absolute time on the OP sequence, equation (1)
At tEST (I / P)And t in equation (2)
DTB (I / P)Is the sequence on which the I or P-VOP is located.
The time is represented by t in equation (1).EST (B)And in equation (2)
TDTB (B)Is an absolute on the sequence where the B-VOP is located
Each time is shown.

【0214】次に、VM6.0では、式(1)における符号
化開始時刻tEST (the encoder timebase start time)は
符号化されず、その符号化開始時刻tESTと、各VOPの表
示時刻(VOPのシーケンス上の各VOPの位置を表す絶対時
刻)との差分情報としてのmodulo_time_baseおよびVOP_
time_incrementが符号化される。このため、デコーダ側
では、modulo_time_baseおよびVOP_time_incrementを用
いて、各VOPの間の相対的な時間関係は定めることがで
きるが、各VOPの絶対的な表示時刻、即ち、各VOPが、VO
Pのシーケンスの中のどの位置にあるものなのかを定め
ることはできない。従って、modulo_time_baseおよびVO
P_time_incrementだけでは、ビットストリームの途中に
アクセスすること、つまり、ランダムアクセスを行うこ
とはできない。
Next, in VM6.0, the coding start time t EST (the encoder timebase start time) in equation (1) is not coded, and the coding start time t EST and the display time of each VOP ( Modulo_time_base and VOP_ as difference information with the absolute time that represents the position of each VOP on the VOP sequence)
time_increment is encoded. Therefore, on the decoder side, modulo_time_base and VOP_time_increment can be used to determine the relative time relationship between each VOP, but the absolute display time of each VOP, that is, each VOP
It is not possible to define where in P's sequence it is. Therefore, modulo_time_base and VO
P_time_increment alone cannot access the middle of the bitstream, that is, random access cannot be performed.

【0215】一方、単に符号化開始時刻tESTを符号化す
ると、デコーダでは、それを用いて、各VOPの絶対時刻
を復号することはできるが、常に、符号化ビットストリ
ームの先頭から、符号化開始時刻tESTと、各VOPの相対
的な時間情報であるmodulo_time_baseおよびVOP_time_i
ncrementを復号しながら、それを累積して、絶対時刻を
管理する必要があり、これは面倒であり、効率的なラン
ダムアクセスができない。
On the other hand, if the encoding start time t EST is simply encoded, the decoder can use it to decode the absolute time of each VOP, but the encoding is always performed from the beginning of the encoded bit stream. Start time t EST and modulo_time_base and VOP_time_i which are relative time information of each VOP.
It is necessary to accumulate the ncrement and accumulate it while managing the absolute time, which is troublesome and cannot perform efficient random access.

【0216】そこで、本実施の形態では、容易に、効率
的なランダムアクセスを行うことができるように、VM6.
0の符号化ビットストリームの構成(階層)の中に、VOP
のシーケンス上の絶対時刻を符号化する階層(この階層
は、スケーラビリティを実現する階層(上述の下位レイ
ヤや上位レイヤ)ではなく、符号化ビットストリームの
階層である)を導入する。この階層は、符号化ビットス
トリームの先頭だけでなく、適当な位置に挿入できるよ
うな符号化ビットストリームの階層とする。
Therefore, in the present embodiment, VM6.
Within the structure (layer) of the coded bitstream of 0, VOP
Introduces a layer that encodes absolute time on the sequence (this layer is a layer of an encoded bitstream, not a layer that realizes scalability (the above-described lower layer and upper layer)). This layer is a layer of a coded bitstream that can be inserted not only at the head of the coded bitstream but also at an appropriate position.

【0217】ここでは、この階層として、例えば、MPEG
1/2で用いられているGOP(Group ofPicture)層と同様に
規定されるものを導入する。これにより、MPEG4に独自
な符号化ストリームの階層を用いる場合に比べて、MPEG
4と、MPEG1/2とのコンパチビリティ(Compatibility)
を高めることができる。この新規に導入する階層を、こ
こでは、GOV(またはGVOP)(Group Of Video O
bject Plane)と呼ぶ。
[0217] Here, as the hierarchy, for example, MPEG
Introduces the one specified in the same way as the GOP (Group of Picture) layer used in 1/2. As a result, compared to the case of using a unique encoded stream layer for MPEG4, MPEG4
4 and MPEG1 / 2 compatibility (Compatibility)
Can be increased. This newly introduced layer is here referred to as GOV (or GVOP) (Group Of Video O
bject Plane).

【0218】図23は、VOPのシーケンス上の絶対時刻
を符号化するGOV層を導入した符号化ビットストリーム
の構成例を示している。
FIG. 23 shows a structural example of a coded bitstream in which a GOV layer for coding absolute time on a VOP sequence is introduced.

【0219】GOV層は、ビットストリームの先頭だけで
なく、符号化ビットストリームの任意の位置に挿入する
ことができるように、VOL層とVOP層との間に規定されて
いる。
The GOV layer is defined between the VOL layer and the VOP layer so that the GOV layer can be inserted not only at the head of the bitstream but also at an arbitrary position of the encoded bitstream.

【0220】これにより、あるVOL#0が、VOP#0,VOP#
1,・・・,VOP#n,VOP#(n+1),・・・,VOP#mといった
VOPのシーケンスで構成される場合において、GOV層は、
その先頭のVOP#0の直前だけでなく、VOP#(n+1)の直前に
も挿入することができる。従って、エンコーダにおい
て、GOV層は、例えば、符号化ストリームの中の、ラン
ダムアクセスさせたい位置に挿入することができ、従っ
て、GOV層を挿入することで、あるVOLを構成するVOPの
一連のシーケンスは、GOV層によって、複数のグループ
(以下、適宜、GOVという)に分けられて符号化される
ことになる。
As a result, a certain VOL # 0 becomes VOP # 0, VOP #
1, ..., VOP # n, VOP # (n + 1), ..., VOP # m
When it is composed of VOP sequence, GOV layer is
It can be inserted immediately before VOP # (n + 1) as well as immediately before the first VOP # 0. Therefore, in the encoder, the GOV layer can be inserted, for example, at a position in the encoded stream at which random access is desired. Therefore, by inserting the GOV layer, a sequence of VOPs constituting a certain VOL is sequenced. Will be coded by being divided into a plurality of groups (hereinafter appropriately referred to as GOV) by the GOV layer.

【0221】GOV層のシンタクス(Syntax)は、例え
ば、図24に示すように定義される。
The syntax of the GOV layer is defined as shown in FIG. 24, for example.

【0222】同図に示すように、GOV層は、グループス
タートコード(group_start_code)、タイムコード(ti
me_code)、クローズドGOP(closed_gop)、ブロークン
リンク(broken_link)、ネクストスタートコード(nex
t_start_code())が順次配置されて構成される。
As shown in the figure, the GOV layer has a group start code (group_start_code) and a time code (ti
me_code), closed GOP (closed_gop), broken link (broken_link), next start code (nex)
t_start_code ()) is sequentially arranged and configured.

【0223】次に、GOV層のセマンティクス(Semantic
s)について説明する。なお、GOV層のセマンティクス
は、基本的には、MPEG2のGOP層と同様であり、従って、
特に記述しない部分については、MPEG2Video規格(ISO/I
EC13818-2)を参照されたい。
Next, the semantics of the GOV layer (Semantic
s) will be described. The semantics of the GOV layer are basically the same as the GOP layer of MPEG2, so
For parts that are not particularly described, the MPEG2 Video standard (ISO / I
See EC13818-2).

【0224】group_start_codeは、000001B8 (16進
数)で、GOVの開始位置を示す。
Group_start_code is 000001B8 (hexadecimal number) and indicates the start position of the GOV.

【0225】time_codeは、表1に示すような、1ビッ
トのdrop_frame_flag、5ビットのtime_code_hours、6
ビットのtime_code_minutes、1ビットのmarker_bit、
6ビットのtime_code_seconds、および6ビットのtime_
code_picturesの合計25ビットで構成される。
The time_code is 1-bit drop_frame_flag, 5-bit time_code_hours, 6 as shown in Table 1.
Bit time_code_minutes, 1 bit marker_bit,
6-bit time_code_seconds and 6-bit time_
It consists of a total of 25 bits of code_pictures.

【0226】[0226]

【表1】 [Table 1]

【0227】time_codeは、IEC standard publication
461で規定されている「time and control codes for vi
deo tape recorders」に相当する。ここで、MPEG4で
は、ビデオのフレームレート(VideoのFrame Rate)の
概念がないので(従って、VOPは、任意の時刻に表示す
ることができる)、ここでは、time_codeがドロップフ
レームモード(drop_frame_mode)で記述されているか
否かを示すdrop_frame_flagを利用せず、その値は、例
えば、0に固定する。同様の理由で、time_code_picture
sも利用せず、その値は、例えば、0に固定する。従っ
て、ここでは、time_codeは、時刻の時間の単位を表すt
ime_code_hours、時刻の分の単位を表すtime_code_minu
tes、および時刻の秒の単位を表すtime_code_secondsに
よって、GOVの先頭の時刻を表す。その結果、GOV層のti
me_code(符号化開始秒精度絶対時刻)は、秒精度で、
その先頭の時刻、即ち、そのGOV層の符号化が開始され
た、VOPのシーケンス上の絶対時刻を表現することとな
る。このため、本実施の形態では、秒より細かい精度の
時刻(時間)(ここでは、ミリ秒)は、VOP毎に設定す
る。
[0227] time_code is IEC standard publication
461 `` time and control codes for vi
equivalent to "deo tape recorders". Here, since there is no concept of video frame rate (Video Frame Rate) in MPEG4 (hence, VOP can be displayed at any time), here time_code is drop frame mode (drop_frame_mode). The value is fixed to 0, for example, without using the drop_frame_flag indicating whether or not it is described. For the same reason, time_code_picture
The value of s is fixed to 0, for example, without using s. Therefore, here, time_code represents t, which represents the time unit of time.
ime_code_hours, time_code_minu representing minutes of the time
The time at the beginning of the GOV is represented by tes and time_code_seconds representing the unit of time seconds. As a result, the GOV layer ti
me_code (encoding start second precision absolute time) is second precision,
The leading time, that is, the absolute time on the VOP sequence at which the coding of the GOV layer is started will be expressed. Therefore, in the present embodiment, a time (time) (here, millisecond) having a precision finer than seconds is set for each VOP.

【0228】なお、time_codeのmarker_bitは、符号化
ビットストリームにおいて、0が23個以上連続しない
ように1とされる。
The marker_bit of time_code is set to 1 so that 23 or more 0s do not continue in the coded bit stream.

【0229】closed_gopは、MPEG2Video規格(ISO/IEC 1
3818-2)におけるclose_gopの定義の記載の中のI,P、
またはBピクチャを、I-VOP,P-VOP、またはB-VOPにそ
れぞれ置き換えたものを意味し、従って、あるGOVの中
のB-VOPが、そのGOVを構成するVOPだけでなく、他のGOV
を構成するVOPを参照画像として符号化されているかど
うかを表す。ここで、以下に、MPEG2Video規格(ISO/IEC
13818-2)におけるclose_gopの定義について、上述のよ
うな置き換えを行った文を示す。
Closed_gop is the MPEG2 Video standard (ISO / IEC 1
3818-2) I, P in the definition of close_gop definition,
Or B-pictures are replaced with I-VOPs, P-VOPs, or B-VOPs, respectively. Therefore, a B-VOP in a GOV is not only a VOP that composes the GOV, but also another GOV
It indicates whether or not the VOP forming the is encoded as a reference image. Here, the MPEG2 Video standard (ISO / IEC
Regarding the definition of close_gop in 13818-2), the following is a sentence that has been replaced as described above.

【0230】This is a one-bit flag which indicates
the nature of the predictions used in the first c
onsecutive B-VOPs (if any) immediately following t
he first coded I-VOP following the group of plane
header. The closed_gop isset to 1 to indicate that
these B-VOPs have been encoded using only backwar
d prediction or intra coding. This bit is provided
for use during anyediting which occurs after enco
ding. If the previous pictures have beenremoved by
editing, broken_link may be set to 1 so that a de
coder may avoid displaying these B-VOPs following
the first I-VOP following the group of plane heade
r. However if the closed_gop bit is set to 1, then
theeditor may choose not to set the broken_link b
it as these B-VOPs can becorrectly decoded.
This is a one-bit flag which indicates
the nature of the predictions used in the first c
onsecutive B-VOPs (if any) immediately following t
he first coded I-VOP following the group of plane
header.The closed_gop isset to 1 to indicate that
these B-VOPs have been encoded using only backwar
d prediction or intra coding.This bit is provided
for use during anyediting which occurs after enco
ding. If the previous pictures have been removed by
editing, broken_link may be set to 1 so that a de
coder may avoid displaying these B-VOPs following
the first I-VOP following the group of plane heade
r. However if the closed_gop bit is set to 1, then
theeditor may choose not to set the broken_link b
it as these B-VOPs can becorrectly decoded.

【0231】broken_linkも、MPEG2Video規格(ISO/IEC
13818-2)におけるbroken_linkの記載について、closed_
gopにおける場合と同様の置き換を行ったものを意味
し、従って、GOVの先頭のB-VOPが正確に再生することが
できるかどうかを表す。ここで、以下に、MPEG2Video規
格(ISO/IEC 13818-2)におけるbroken_linkの定義につい
て、上述のような置き換えを行った文を示す。
[0231] The broken_link also conforms to the MPEG2 Video standard (ISO / IEC
13818-2) regarding the description of broken_link, closed_link
It means the same replacement as in gop, and therefore represents whether the head B-VOP of GOV can be reproduced correctly. Here, the following is a sentence in which the definition of broken_link in the MPEG2 Video standard (ISO / IEC 13818-2) is replaced as described above.

【0232】This is a one-bit flag which shall be
set to 0 during encoding. It isset to 1 to indicat
e that the first consecutive B-VOPs (if any) immed
iately following the first coded I-VOP following t
he group of plane headermay not be correctly decod
ed because the reference frame which is used for p
rediction is not available (because of the action
of editing). A decoder may use this flag to avoid
displaying frames that cannot be correctly decode
d.
This is a one-bit flag which shall be
set to 0 during encoding.It isset to 1 to indicat
e that the first consecutive B-VOPs (if any) immed
iately following the first coded I-VOP following t
he group of plane headermay not be correctly decod
ed because the reference frame which is used for p
rediction is not available (because of the action
of editing) .A decoder may use this flag to avoid
displaying frames that cannot be correctly decode
d.

【0233】next_start_code()は、次のGOVの先頭の位
置を与える。
Next_start_code () gives the position of the beginning of the next GOV.

【0234】以上のようなGOV層を導入し、GOVの符号化
を開始する、GOVのシーケンス上の絶対時刻(以下、適
宜、符号化開始絶対時刻という)を、GOVのタイムコー
ドtime_codeに設定する。さらに、上述のように、GOV層
のtime_codeは秒精度なので、ここでは、各VOPの、VOP
のシーケンス上の絶対時刻の、さらに細かい精度の部分
を、VOP毎に設定する。
By introducing the GOV layer as described above and setting the GOV encoding, the absolute time on the GOV sequence (hereinafter, appropriately referred to as the encoding start absolute time) is set to the GOV time code time_code. . Further, as described above, the time_code of the GOV layer is the second precision, so here, the VOP of each VOP is
The finer precision part of the absolute time on the sequence is set for each VOP.

【0235】即ち、図25は、図24のGOV層を導入し
た場合のtime_codeと、modulo_time_baseおよびVOP_tim
e_incrementとの関係を示している。
That is, FIG. 25 shows time_code, modulo_time_base and VOP_tim when the GOV layer of FIG. 24 is introduced.
It shows the relationship with e_increment.

【0236】図25において、GOVは、その先頭から、
表示順で、I1,B2,B3,P4,B5,P6が配置
されて構成されている。
In FIG. 25, GOV is
I1, B2, B3, P4, B5, P6 are arranged in the display order.

【0237】いま、例えば、GOVの符号化開始絶対時刻
を、0h:12m:35sec:350msec(0時12分35秒350ミ
リ秒)とすると、GOVのtime_codeは、上述したように、
秒精度(秒単位)なので、0h:12m:35secとされる(time
_codeを構成するtime_code_hours,time_code_minute
s、またはtime_code_secondsが、それぞれ0,12、ま
たは35とされる)。一方、I1の、VOPのシーケンス
上の絶対時刻(図25のGOVを含むVSの符号化前(また
は復号後)のVOPのシーケンスの絶対時刻)(これは、V
OPのシーケンスが表示されるときの、I1が表示される
時刻に相当するので、以下、適宜、表示時刻という)
が、例えば、0h:12m:35sec:350msecである場合には、そ
の表示時刻の、秒精度より細かい精度である350msは、
I1についてのI-VOPのVOP_time_incrementに設定され
て符号化されるように(I1についてのVOP_time_incre
ment=350とされて符号化されるように)、VOP_time_in
crementのセマンティクスを変更する。
[0237] Now, for example, assuming that the absolute start time of encoding of GOV is 0h: 12m: 35sec: 350msec (0: 12: 35: 350msec), the time_code of GOV is as described above.
Since it is second precision (second unit), it is set to 0h: 12m: 35sec (time
time_code_hours, time_code_minute that compose _code
s or time_code_seconds is 0, 12, or 35, respectively). On the other hand, the absolute time on the VOP sequence of I1 (the absolute time on the VOP sequence before encoding (or after decoding) VS including GOV in FIG. 25) (this is V
It corresponds to the time when I1 is displayed when the OP sequence is displayed, so it will be referred to as the display time hereinafter).
However, for example, when it is 0h: 12m: 35sec: 350msec, 350ms which is a precision finer than the second precision of the display time is
As set by the VOP_time_increment of the I-VOP for I1 and encoded (VOP_time_incre for I1
ment = 350 and encoded), VOP_time_in
Change the semantics of crement.

【0238】即ち、図25において、GOVの、表示順で
先頭のI-VOP(I1)のVOP_time_incrementは、GOVのti
me_codeと、I-VOPの表示時刻の差分値とする。従って、
秒精度によるtime_codeで表された時刻が、GOVの最初の
同期点(ここでは、秒精度の時刻を表す点)となる。
That is, in FIG. 25, the VOP_time_increment of the first I-VOP (I1) in the display order of the GOV is ti of the GOV.
It is the difference between me_code and the display time of the I-VOP. Therefore,
The time represented by time_code with the second precision is the first synchronization point of GOV (here, the point representing the second precision time).

【0239】なお、図25において、GOVの2番目以降
に配置されたVOPであるB2,B3,P4,B5,P6
についてのVOP_time_incrementのセマンティクスは、図
22で説明したように、VM6.0の定義を変更したものと
同様である。
In FIG. 25, VOPs B2, B3, P4, B5, P6 which are VOPs arranged after the second GOV.
The semantics of VOP_time_increment for is similar to that when the definition of VM6.0 is changed as described in FIG.

【0240】従って、図25において、B2またはB3
の表示時刻は、直前に表示されるI-VOPまたはP-VOPの表
示時刻から、VOP_time_incrementだけ経過した時刻であ
るから、いまの場合、直前に表示されるI1の表示時刻
0h:12m:35s+350msから、400msまたは800ms後の時刻0h:12
m:35s:750msまたは0h:12m:36s:200msということに、それ
ぞれなる。
Therefore, in FIG. 25, B2 or B3
The display time of is the time when VOP_time_increment has elapsed from the display time of the I-VOP or P-VOP displayed immediately before, so in this case, the display time of I1 displayed immediately before
From 0h: 12m: 35s + 350ms, time 0h: 12 after 400ms or 800ms
It becomes m: 35s: 750ms or 0h: 12m: 36s: 200ms, respectively.

【0241】次に、P4についてであるが、P4では、
modulo_time_baseによって示される同期点が切り替わっ
ており、従って、同期点は時刻0h:12m:35sから1秒経過
した0h:12m:36sとなる。その結果、P4の表示時刻は、
時刻0h:12m:36sから550ms後の時刻0h:12m:36:550msとい
うことになる。
Next, regarding P4, in P4,
The sync point indicated by modulo_time_base has been switched, so the sync point is 0h: 12m: 36s, which is one second after the time 0h: 12m: 35s. As a result, the display time of P4 is
It means 550ms after time 0h: 12m: 36s and time 0h: 12m: 36: 550ms.

【0242】B5の表示時刻は、直前に表示されるI−
VOPまたはP-VOPから、VOP_time_incrementだけ経過
した時刻であるから、いまの場合、直前に表示されるP
4の表示時刻0h:12m:36:550msから、400ms後の時刻0h:12
m:36s:950msということになる。
The display time of B5 is the I-displayed immediately before.
Since it is the time when VOP_time_increment has passed from the VOP or P-VOP, in the present case, the P displayed immediately before is displayed.
4 display time 0h: 12m: 36: 550ms, time 400h later 0h: 12
It will be m: 36s: 950ms.

【0243】そして、P6についてであるが、P6で
は、modulo_time_baseによって示される同期点が切り替
わっており、従って、同期点は時刻0h:12m:35s+2秒、即
ち、0h:12m:37sとなる。その結果、P6の表示時刻は、
時刻0h:12m:37sから350ms後の時刻0h:12m:37s:350msと
いうことになる。
Regarding P6, in P6, the synchronization point indicated by modulo_time_base is switched, and therefore the synchronization point is time 0h: 12m: 35s + 2 seconds, that is, 0h: 12m: 37s. As a result, the display time of P6 is
It means that the time is 0h: 12m: 37s: 350ms after 350ms from the time 0h: 12m: 37s.

【0244】次に、図26は、表示順で、先頭のVOPがB
-VOPになっている場合の、GOVについてのtime_codeと、
modulo_time_baseおよびVOP_time_incrementとの関係を
示している。
Next, in FIG. 26, the top VOP is B in the display order.
-The time_code for GOV when VOP is set,
It shows the relationship with modulo_time_base and VOP_time_increment.

【0245】図26において、GOVは、その先頭から、
表示順で、B0,I1,B2,B3,P4,B5,P6
が配置されて構成されている。即ち、図26では、図2
5において、I1の前にB0が追加されて、GOVが構成
されている。
In FIG. 26, GOV is
In display order, B0, I1, B2, B3, P4, B5, P6
Are arranged and configured. That is, in FIG.
In 5, the GOV is constructed by adding B0 before I1.

【0246】この場合、GOVの先頭のB0についてのVOP
_time_incrementを、そのGOVを構成するI/P-VOPの表示
時刻を基準として定めることとすると、即ち、例えば、
I1の表示時刻を基準として定めることとすると、その
値は負になり、上述したように、都合が悪い。
In this case, the VOP for B0 at the beginning of GOV
If _time_increment is defined based on the display time of the I / P-VOP forming the GOV, that is, for example,
If the display time of I1 is set as a reference, the value becomes negative, which is inconvenient as described above.

【0247】そこで、GOVの中の、I-VOPよりも先に表示
されるB-VOP(GOVの中で、最初に表示されるI-VOPより
も先行して表示されるB-VOP)のVOP_time_incrementに
ついては、そのセマンティクスを、以下のように変更す
る。
Therefore, in the GOV, the B-VOP displayed before the I-VOP (the B-VOP displayed prior to the I-VOP displayed first in the GOV) Change the semantics of VOP_time_increment as follows.

【0248】すなわち、そのようなB-VOPのVOP_time_in
crementは、GOVのtime_codeの時刻と、B-VOPの表示時刻
との差分値とする。この場合、図26に示すように、B
0の表示時刻が、例えば、0h:12m:35s:200msであり、GO
Vのtime_codeが、例えば、0h:12m:35sであるときには、
B0のVOP_time_incrementは、350ms(=0h:12m:35s:20
0ms−0h:12m:35s)になる。このようにすることで、VOP
_time_incrementは、常に正の値になる。
That is, VOP_time_in of such a B-VOP
crement is the difference value between the time of time_code of GOV and the display time of B-VOP. In this case, as shown in FIG.
The display time of 0 is, for example, 0h: 12m: 35s: 200ms, and GO
When the time_code of V is 0h: 12m: 35s, for example,
V0_time_increment of B0 is 350ms (= 0h: 12m: 35s: 20
0ms−0h: 12m: 35s). By doing this, VOP
_time_increment is always a positive value.

【0249】以上のような、VOP_time_incrementについ
てのセマンティクスの2つの変更により、GOVのtime_co
deと、VOPのmodulo_time_baseおよびVOP_time_incremen
tとを関係付けることができ、さらに、これにより、各V
OPが表示される絶対時刻(表示時刻)を特定することが
できる。
[0249] Due to the two changes in the semantics of VOP_time_increment as described above, GOV time_co
de and VOP modulo_time_base and VOP_time_incremen
can be related to t, and in addition, each V
The absolute time (display time) when the OP is displayed can be specified.

【0250】次に、図27は、I-VOPの表示時刻と、そ
れから予測されるB-VOPの表示時刻との間隔が1秒(正
確には、1.023秒)より大きい場合の、GOVについ
てのtime_codeと、modulo_time_baseおよびVOP_time_in
crementとの関係を示している。
Next, FIG. 27 shows GOV when the interval between the display time of the I-VOP and the predicted display time of the B-VOP is longer than 1 second (more precisely, 1.023 seconds). About time_code and modulo_time_base and VOP_time_in
It shows the relationship with crement.

【0251】図27において、GOVは、表示順で、I
1,B2,B3,B4,P6が順次配置されて構成され
ており、B4が、直前に表示されるI-VOPであるI1の
表示時刻よりも、1秒より後の時刻において表示される
ようになされている。
In FIG. 27, GOV is I in display order.
1, B2, B3, B4, P6 are sequentially arranged, and B4 is displayed at a time that is one second after the display time of I1, which is the I-VOP displayed immediately before. Has been done.

【0252】この場合、上述のようにセマンティクスを
変更したVOP_time_incrementによって、B4の表示時刻
を符号化しようとしても、VOP_time_incrementは、上述
のように10ビットであるため、1023までしか表現でき
ず、1.023秒より長い時間を表現することはできない。
そこで、VOP_time_incrementのセマンティクスをさらに
変更するとともに、modulo_time_baseのセマンティクス
をも変更し、このような場合であっても対応できるよう
にする。
In this case, even if an attempt is made to encode the display time of B4 by VOP_time_increment whose semantics have been changed as described above, VOP_time_increment is 10 bits as described above, so it can only express up to 1023 and 1.023 seconds. It cannot express a longer time.
Therefore, the semantics of VOP_time_increment are further changed, and the semantics of modulo_time_base are also changed so that such a case can be dealt with.

【0253】ここでは、例えば、次のような第1または
第2の方法のいずれかによって対応する。
Here, for example, either of the following first or second method is adopted.

【0254】即ち、第1の方法では、I/P-VOPの表示時
刻と、それから予測されるB-VOPの表示時刻との間の時
間を、ミリ秒精度で求め、その時間を、秒の単位まで
は、modulo_time_baseで表現し、残りのミリ秒の精度
を、VOP_time_incrementで表現する。
That is, according to the first method, the time between the display time of the I / P-VOP and the predicted display time of the B-VOP is calculated with millisecond precision, and the time is calculated in seconds. Up to the unit, it is expressed by modulo_time_base, and the precision of the remaining milliseconds is expressed by VOP_time_increment.

【0255】図27に示した場合において、第1の方法
にしたがって、modulo_time_baseおよびVOP_time_incre
mentを符号化した場合の、GOVについてのtime_codeと、
modulo_time_baseおよびVOP_time_incrementとの関係
を、図28に示す。
In the case shown in FIG. 27, according to the first method, modulo_time_base and VOP_time_incre
time_code for GOV when ment is encoded,
FIG. 28 shows the relationship between modulo_time_base and VOP_time_increment.

【0256】即ち、第1の方法では、modulo_time_base
の付加を、I-VOPおよびP-VOPだけでなく、B-VOPに対し
ても許可する。そして、B-VOPに付加されているmodulo_
time_baseは、同期点の切り替わりではなく、直前に表
示されるI/P-VOPの表示時刻からの秒単位の繰り上がり
を表すものとする。
That is, in the first method, modulo_time_base
Is allowed not only for I-VOP and P-VOP but also for B-VOP. And modulo_ added to B-VOP
It is assumed that time_base does not indicate switching of synchronization points, but rather carries forward by seconds from the display time of the I / P-VOP displayed immediately before.

【0257】さらに、第1の方法では、B-VOPに付加さ
れるmodulo_time_baseによって示される、直前に表示さ
れるI/P-VOPの表示時刻からの秒単位の繰り上がり後の
時刻を、そのB-VOPの表示時刻から減算した値を、そのV
OP_time_incrementとして設定する。
Further, in the first method, the time after the carry-up in seconds from the display time of the I / P-VOP displayed immediately before, which is indicated by modulo_time_base added to the B-VOP, is set to the B-VOP. -The value subtracted from the display time of VOP is the V
Set as OP_time_increment.

【0258】従って、第1の方法によれば、図27にお
いて、例えば、I1の表示時刻を、0h:12m:35s:350msと
するとともに、B4の表示時刻を、0h:12m:36s:550msと
すると、I1とB4との表示時刻の差は、1秒以上の12
00msecであるから、B4には、図28に示すように、直
前に表示されるI1の表示時刻からの秒単位の繰り上が
りを示すmodulo_time_base(図28において、▼印で示
す)が付加される。具体的には、B4に付加されるmodu
lo_time_baseは、1200msの1秒の位の値である1秒の繰
り上がりを表す「10」とされる。そして、B4のVOP_
time_incrementは、図28に示すように、I1とB4と
の表示時刻の差の、1秒未満の値(B4の表示時刻か
ら、そのmodulo_time_baseによって示される、直前に表
示されるI/P-VOPであるI1の表示時刻からの秒単位の
繰り上がり後の時刻を減算した値)であるである200
とされる。
Therefore, according to the first method, in FIG. 27, for example, the display time of I1 is set to 0h: 12m: 35s: 350ms, and the display time of B4 is set to 0h: 12m: 36s: 550ms. Then, the difference between the display times of I1 and B4 is 12 seconds or more.
Since it is 00 msec, modulo_time_base (indicated by ▼ in FIG. 28) indicating a carry in seconds from the display time of I1 displayed immediately before is added to B4, as shown in FIG. Specifically, modu added to B4
lo_time_base is set to “10”, which represents a carry of 1 second, which is a value of 1 second of 1200 ms. And V4_ of B4
As shown in FIG. 28, time_increment is a value that is less than 1 second of the difference between the display times of I1 and B4 (from the display time of B4, the I / P-VOP displayed immediately before that is indicated by its modulo_time_base). Which is a value obtained by subtracting the time after the advance in seconds from the display time of a certain I1).
It is said that

【0259】以上のような、第1の方法によるmodulo_t
ime_baseとVOP_time_incrementについての処理は、エン
コーダ側では、例えば、図9および図10に示したVL
C器36において、デコーダ側では、例えば、図15お
よび図16に示したIVLC器102において、それぞ
れ行われる。
Modulo_t according to the first method as described above
On the encoder side, the processing for ime_base and VOP_time_increment is performed by the VL shown in FIGS. 9 and 10, for example.
On the decoder side in the C unit 36, for example, in the IVLC unit 102 shown in FIGS. 15 and 16, respectively.

【0260】そこで、まず、図29のフローチャートを
参照して、VLC器36が行うI/P-VOPのmodulo_time_b
aseおよびVOP_time_incrementに関する処理について説
明する。
Therefore, first, referring to the flowchart of FIG. 29, modulo_time_b of the I / P-VOP performed by the VLC unit 36.
The processing related to ase and VOP_time_increment will be described.

【0261】VLC器36は、VOPのシーケンスを、GOV
ごとに分けて処理を行うようになされている。なお、GO
Vは、少なくとも1のイントラ符号化されるVOPを含むよ
うに構成される。
The VLC unit 36 changes the sequence of VOP to GOV.
It is designed to be processed separately. In addition, GO
V is configured to include at least one intra-coded VOP.

【0262】VLC器36は、GOVを受信すると、例え
ば、その受信時刻を、そのGOVの符号化開始絶対時刻と
し、その符号化開始絶対時刻の秒精度まで(秒の桁まで
の符号化開始絶対時刻)を、time_codeとして符号化し
て、符号化ビットストリームの中に含める。その後、V
LC器36は、GOVを構成するI/P-VOPを受信するごと
に、そのI/P-VOPを注目I/P-VOPとして、図29のフロー
チャートにしたがい、注目I/P-VOPのmodulo_time_base
およびVOP_time_incrementを求めて、符号化する。
When the GOV is received, the VLC unit 36 sets, for example, the reception time of the GOV as the absolute start time of encoding of the GOV, up to the second precision of the absolute start time of encoding (the absolute start of encoding up to the second digit). Time) is encoded as time_code and included in the encoded bitstream. Then V
Each time the LC unit 36 receives an I / P-VOP forming a GOV, the LC unit 36 sets the I / P-VOP as the target I / P-VOP and follows the flowchart of FIG. 29 to follow the modulo_time_base of the target I / P-VOP.
And VOP_time_increment are obtained and encoded.

【0263】即ち、VLC器36では、まず最初に、ス
テップS1において、modulo_time_baseに0B(Bは2
進数を表す)がセットされるとともに、VOP_time_incre
mentに0がセットされることにより、modulo_time_base
およびVOP_time_incrementがリセットされる。
That is, in the VLC unit 36, first, in step S1, modulo_time_base is set to 0B (B is 2).
(Representing a decimal number) is set and VOP_time_incre
ment is set to 0, modulo_time_base
And VOP_time_increment are reset.

【0264】そして、ステップS2に進み、注目I/P-VO
Pが、処理対象としているGOV(処理対象GOV)の中で、
最初に表示されるI-VOP(First I-VOP)であるかどうか
が判定される。ステップS2において、注目I/P-VOP
が、処理対象GOVの中で、最初に表示されるI-VOPである
と判定された場合、ステップS4に進み、処理対象GOV
のtime_codeと、注目I/P-VOP(ここでは、処理対象GOV
の中で、最初に表示されるI-VOP)の表示時刻の秒精度
との差分、即ち、time_codeと、注目I/P-VOPの表示時刻
の秒の桁までとの差分が求められ、変数Dにセットされ
て、ステップS5に進む。
Then, the processing proceeds to step S2, and the attention I / P-VO
Among the GOVs that P is processing (GOVs to be processed),
It is determined whether it is the first I-VOP displayed (First I-VOP). At step S2, the target I / P-VOP
Is determined to be the first I-VOP to be displayed among the GOVs to be processed, the process proceeds to step S4, and the GOVs to be processed
Time_code of the target I / P-VOP (here, the target GOV
, The difference between the display time of the first displayed I-VOP) and the second precision, that is, the difference between the time_code and the second digit of the display time of the I / P-VOP of interest is calculated. After being set to D, the process proceeds to step S5.

【0265】また、ステップS2において、注目I/P-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPでな
いと判定された場合、ステップS3に進み、注目I/P-VO
Pの表示時刻の秒の桁までと、その直前に表示されるI/P
-VOP(処理対象GOVを構成するVOPのうちの、注目I/P-VO
Pの直前に表示されるI/P-VOP)(Last display I/P-VO
P)の表示時刻の秒の桁までとの差分値が求められ、そ
の差分値が、変数Dにセットされて、ステップS5に進
む。
Also, in step S2, the target I / P-VO
If it is determined that P is not the first I-VOP displayed in the GOVs to be processed, the process proceeds to step S3, and the target I / P-VO
Up to the second digit of the display time of P and the I / P displayed immediately before
-VOP (I / P-VO of interest among the VOPs that make up the GOV to be processed)
(I / P-VOP displayed immediately before P) (Last display I / P-VO
The difference value with the second digit of the display time of P) is obtained, the difference value is set in the variable D, and the process proceeds to step S5.

【0266】ステップS5では、変数Dが0に等しいか
どうか、即ち、time_codeと、注目I/P-VOPの表示時刻の
秒の桁までとの差分、または注目I/P-VOPの表示時刻の
秒の桁までと、その直前に表示されるI/P-VOPの表示時
刻の秒の桁までとの差分値が0秒であるかどうかが判定
される。ステップS5において、変数Dが0に等しくな
いと判定された場合、即ち、変数Dが1以上である場
合、ステップS6に進み、modulo_time_baseのMSB
(Most Significant Bit)として、1が付加される。即
ち、この場合、modulo_time_baseが、例えば、リセット
直後の0Bであるときには、10Bとされ、また、modu
lo_time_baseが、例えば、10Bであるときには、11
0Bとされる。
At step S5, whether or not the variable D is equal to 0, that is, the difference between time_code and the second digit of the display time of the attention I / P-VOP or the display time of the attention I / P-VOP is determined. It is determined whether the difference value between the second digit and the second digit of the display time of the I / P-VOP displayed immediately before that is 0 second. When it is determined in step S5 that the variable D is not equal to 0, that is, when the variable D is 1 or more, the process proceeds to step S6, and the MSB of modulo_time_base.
1 is added as (Most Significant Bit). That is, in this case, when modulo_time_base is, for example, 0B immediately after reset, it is set to 10B, and modu_time_base is modu_time_base.
When lo_time_base is, for example, 10B, 11
It is set to 0B.

【0267】そして、ステップS7に進み、変数Dが1
だけデクリメントされ、ステップS5に戻る。その後、
ステップS5において、変数Dが0に等しいと判定され
るまで、ステップS5乃至S7の処理が繰り返される。
即ち、これにより、modulo_time_baseは、time_code
と、注目I/P-VOPの表示時刻の秒の桁までとの差分、ま
たは注目I/P-VOPの表示時刻の秒の桁までと、その直前
に表示されるI/P-VOPの表示時刻の秒の桁までとの差分
値に対応する秒数と同一の数だけ「1」が連続し、その
最後に0が付加された値とされる。
Then, the process proceeds to step S7, where the variable D is 1
Is decremented, and the process returns to step S5. afterwards,
The processes of steps S5 to S7 are repeated until it is determined in step S5 that the variable D is equal to 0.
That is, modulo_time_base is changed to time_code
And the difference between the display time of the target I / P-VOP and the second digit of the display time, or up to the second digit of the display time of the target I / P-VOP and the I / P-VOP displayed immediately before that. "1" continues for the same number of seconds as the number of seconds corresponding to the difference value up to the second digit of the time, and 0 is added to the end.

【0268】そして、ステップS5において、変数Dが
0に等しいと判定された場合、ステップS8に進み、VO
P_time_incrementに、注目I/P-VOPの表示時刻の秒精度
より細かい精度の時刻、即ち、ミリ秒単位の時刻がセッ
トされ、処理を終了する。
If it is determined in step S5 that the variable D is equal to 0, the process proceeds to step S8 and VO
The P_time_increment is set to a time having a precision finer than the second precision of the display time of the target I / P-VOP, that is, a time in milliseconds, and the process ends.

【0269】以上のようにして求められた注目I/P-VOP
のmodulo_time_baseおよびVOP_time_incrementは、VL
C回路36において、注目I/P-VOPに付加され、これに
より、符号化ビットストリームの中に含められる。
[0269] Focused I / P-VOP obtained as described above
Modulo_time_base and VOP_time_increment of VL
In the C circuit 36, it is added to the I / P-VOP of interest and thereby included in the encoded bitstream.

【0270】なお、modulo_time_baseおよびVOP_time_i
ncrement、並びにtime_codeは、VLC回路36におい
て可変長符号化される。
Note that modulo_time_base and VOP_time_i
The ncrement and time_code are variable length coded in the VLC circuit 36.

【0271】次に、VLC器36は、処理対象GOVを構
成するB-VOPを受信するごとに、そのB-VOPを注目B-VOP
として、図30のフローチャートにしたがい、注目B-VO
Pのmodulo_time_baseおよびVOP_time_incrementを求め
て、符号化する。
Next, every time the VLC unit 36 receives a B-VOP forming a GOV to be processed, the B-VOP is focused on by the B-VOP.
As shown in the flow chart of FIG.
P modulo_time_base and VOP_time_increment are obtained and encoded.

【0272】即ち、VLC器36では、まず最初に、ス
テップS11において、図29のステップS1における
場合と同様に、modulo_time_baseおよびVOP_time_incre
mentがリセットされる。
That is, in the VLC device 36, first, in step S11, as in the case of step S1 of FIG. 29, modulo_time_base and VOP_time_incre.
ment is reset.

【0273】そして、ステップS12に進み、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOP(Fir
st I-VOP)よりも先に表示されるものであるかどうかが
判定される。ステップS12において、注目B-VOPが、
処理対象GOVの中で、最初に表示されるI-VOPよりも先に
表示されるものであると判定された場合、ステップS1
4に進み、処理対象GOVのtime_codeと、注目B-VOP(こ
こでは、処理対象GOVの中で、最初に表示されるI-VOPよ
りも先行して表示されるB-VOP)の表示時刻との差分が
求められ、変数Dにセットされて、ステップS15に進
む。従って、ここでは、変数Dには、ミリ秒精度の時間
(ミリ秒の桁までの時間)がセットされる(これに対し
て、図29における変数Dには、上述したように、秒精
度の時間がセットされる)。
Then, the process proceeds to step S12, and the attention B-VO
P is the first I-VOP (Fir (Fir)
st I-VOP) is determined before it is displayed. In step S12, the attention B-VOP is
If it is determined that the GOV to be processed is displayed before the I-VOP displayed first, step S1.
Proceed to step 4, and display the time_code of the processing target GOV and the display time of the B-VOP of interest (here, the B-VOP displayed prior to the I-VOP displayed first in the processing target GOV). Is calculated and set in the variable D, and the process proceeds to step S15. Therefore, here, the variable D is set to the millisecond precision time (time to the millisecond digit) (in contrast, the variable D in FIG. 29 is set to the second precision as described above. Time is set).

【0274】また、ステップS12において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プS14に進み、注目B-VOPの表示時刻と、その直前に
表示されるI/P-VOP(処理対象GOVを構成するVOPのうち
の、注目B-VOPの直前に表示されるI/P-VOP)(Last dis
play I/P-VOP)の表示時刻との差分値が求められ、その
差分値が、変数Dにセットされて、ステップS15に進
む。
Also, in step S12, the B-VO of interest is
If it is determined that P is displayed after the I-VOP displayed first in the GOVs to be processed, the process proceeds to step S14, and the display time of the B-VOP of interest and immediately before that. I / P-VOP displayed (I / P-VOP displayed immediately before the attention B-VOP among the VOPs constituting the GOV to be processed) (Last dis
play I / P-VOP) display time difference is obtained, the difference value is set in variable D, and the process proceeds to step S15.

【0275】ステップS15では、変数Dが1より大で
あるかどうか、即ち、time_codeと、注目B-VOPの表示時
刻との差分値、または注目B-VOPの表示時刻と、その直
前に表示されるI/P-VOPの表示時刻との差分値が、1秒
より大であるかどうかが判定される。ステップS5にお
いて、変数Dが1より大であると判定された場合、即
ち、modulo_time_baseのMSBとして、1が付加され、
ステップS17に進む。ステップS17では、変数Dが
1だけデクリメントされ、ステップS15に戻る。そし
て、ステップS15において、変数Dが1より大でない
と判定されるまで、ステップS15乃至S17の処理が
繰り返される。即ち、これにより、modulo_time_base
は、time_codeと、注目B-VOPの表示時刻との差分値、ま
たは注目B-VOPの表示時刻と、その直前に表示されるI/P
-VOPの表示時刻との差分値に対応する時間の秒数と同一
の数だけ「1」が連続し、その最後に0が付加された値
とされる。
In step S15, it is displayed whether or not the variable D is greater than 1, that is, the difference value between time_code and the display time of the B-VOP of interest, or the display time of the B-VOP of interest, and immediately before that. It is determined whether the difference value from the display time of the I / P-VOP is greater than 1 second. If it is determined in step S5 that the variable D is greater than 1, that is, 1 is added as the MSB of modulo_time_base,
It proceeds to step S17. In step S17, the variable D is decremented by 1, and the process returns to step S15. Then, the processes of steps S15 to S17 are repeated until it is determined in step S15 that the variable D is not greater than 1. I.e. this allows modulo_time_base
Is the difference between time_code and the display time of the B-VOP of interest, or the display time of the B-VOP of interest and the I / P displayed immediately before that.
-“1” continues for the same number of seconds as the time corresponding to the difference value from the display time of VOP, and 0 is added to the end.

【0276】そして、ステップS15において、変数D
が1より大でないと判定された場合、ステップS8に進
み、そのときの変数Dの値、即ち、time_codeと、注目B
-VOPの表示時刻との差分値、または注目B-VOPの表示時
刻と、その直前に表示されるI/P-VOPの表示時刻との差
分値の秒の位より下の位(ミリ秒単位の時間)が、VOP_
time_incrementにセットされ、処理を終了する。
Then, in step S15, the variable D
If it is determined that is not greater than 1, the process proceeds to step S8, and the value of the variable D at that time, that is, the time_code and the attention B
-The difference between the display time of the VOP or the display time of the B-VOP of interest and the difference value between the display time of the I / P-VOP displayed immediately before it and the position below the second digit (in milliseconds). Time) but VOP_
It is set to time_increment and the process ends.

【0277】以上のようにして求められた注目B-VOPのm
odulo_time_baseおよびVOP_time_incrementは、VLC
回路36において、注目B-VOPに付加され、これによ
り、符号化ビットストリームの中に含められる。
[0277] m of the attention B-VOP obtained as described above
odulo_time_base and VOP_time_increment are VLC
In circuit 36, it is added to the B-VOP of interest and is thereby included in the encoded bitstream.

【0278】次に、IVLC器102は、上述のように
して、VLC器36が、VOPのシーケンスを、GOVごとに
分けて処理を行うことにより出力する符号化ストリーム
の中のVOPの表示時刻を、各VOPについての符号化データ
を受信するごとに、そのVOPを注目VOPとして処理を行う
ことにより認識し、その表示時刻にVOPが表示されるよ
うに、可変長復号を行うようになされている。即ち、I
VLC器102は、GOVを受信すると、そのGOVのtime_c
odeを認識し、そのGOVを構成するI/P-VOPを受信するご
とに、そのI/P-VOPを注目I/P-VOPとして、図31のフロ
ーチャートにしたがい、注目I/P-VOPのmodulo_time_bas
eおよびVOP_time_incrementに基づき、その表示時刻を
求める。
Next, in the IVLC unit 102, as described above, the VLC unit 36 divides the VOP sequence into GOVs and processes the divided VOP sequence to display the VOP display time in the encoded stream. , Each time the encoded data for each VOP is received, the VOP is recognized as a target VOP by processing, and the variable length decoding is performed so that the VOP is displayed at the display time. . That is, I
When the VLC device 102 receives the GOV, the time_c of the GOV is received.
Each time the ode is recognized and the I / P-VOP forming the GOV is received, the I / P-VOP is set as the target I / P-VOP, and the target I / P-VOP modulo_time_bas
The display time is calculated based on e and VOP_time_increment.

【0279】即ち、IVLC器102では、まず最初
に、ステップS21において、注目I/P-VOPが、処理対
象GOVの中で、最初に表示されるI-VOP(First I-VOP)
であるかどうかが判定される。ステップS21におい
て、注目I/P-VOPが、処理対象GOVの中で、最初に表示さ
れるI-VOPであると判定された場合、ステップS23に
進み、変数Tに、処理対象GOVのtime_codeがセットさ
れ、ステップS24に進む。
That is, in the IVLC device 102, first, in step S21, the focused I / P-VOP is the first I-VOP (First I-VOP) displayed in the GOVs to be processed.
Is determined. When it is determined in step S21 that the target I / P-VOP is the first I-VOP displayed in the processing target GOV, the process proceeds to step S23, and the variable T contains the time_code of the processing target GOV. After being set, the process proceeds to step S24.

【0280】また、ステップS21において、注目I/P-
VOPが、処理対象GOVの中で、最初に表示されるI-VOPで
ないと判定された場合、ステップS22に進み、注目I/
P-VOPの直前に表示されるI/P-VOP(処理対象GOVを構成
するVOPのうちの、注目I/P-VOPの直前に表示されるI/P-
VOP)(Last display I/P-VOP)の表示時刻の秒の桁ま
でが、変数Tにセットされて、ステップS24に進む。
In step S21, the target I / P-
If it is determined that the VOP is not the first I-VOP displayed in the GOVs to be processed, the process proceeds to step S22, and the I / O
I / P-VOP displayed immediately before the P-VOP (I / P-VOP displayed immediately before the focused I / P-VOP among the VOPs forming the GOV to be processed)
VOP) (Last display I / P-VOP) up to the second digit of the display time is set in the variable T, and the process proceeds to step S24.

【0281】ステップS24では、注目I/P-VOPに付加
されているmodulo_time_baseが0Bに等しいかどうかが
判定される。ステップS24において、注目I/P-VOPに
付加されているmodulo_time_baseが0Bに等しくないと
判定された場合、即ち、注目I/P-VOPに付加されているm
odulo_time_baseに1が含まれる場合、ステップS25
に進み、そのmodulo_time_baseのMSBの1が削除さ
れ、ステップS26に進む。ステップS26では、変数
Tが1秒だけインクリメントされ、ステップS24に戻
り、以下、ステップS24において、注目I/P-VOPに付
加されているmodulo_time_baseが0Bに等しいと判定さ
れるまで、ステップS24乃至S26の処理を繰り返
す。これにより、変数Tは、注目I/P-VOPに、最初に付
加されていたmodulo_time_baseの1の数に対応する秒数
だけインクリメントされる。
In step S24, it is determined whether modulo_time_base added to the target I / P-VOP is equal to 0B. In step S24, when it is determined that modulo_time_base added to the attention I / P-VOP is not equal to 0B, that is, m added to the attention I / P-VOP.
If odulo_time_base includes 1, step S25
Then, the MSB 1 of modulo_time_base is deleted and the process proceeds to step S26. In step S26, the variable T is incremented by 1 second, and the process returns to step S24, and thereafter, in step S24, steps S24 to S26 are repeated until modulo_time_base added to the attention I / P-VOP is equal to 0B. The process of is repeated. As a result, the variable T is incremented by the number of seconds corresponding to the number 1 of modulo_time_base that was initially added to the target I / P-VOP.

【0282】そして、ステップS24において、注目I/
P-VOPに付加されているmodulo_time_baseが0Bに等し
いと判定された場合、ステップS27に進み、変数T
に、VOP_time_incrementが表すミリ秒精度の時刻が加算
され、その加算値が、注目I/P-VOPの表示時刻として認
識されて、処理を終了する。
Then, in step S24, the attention I /
When it is determined that modulo_time_base added to the P-VOP is equal to 0B, the process proceeds to step S27 and the variable T
Is added to the time of millisecond precision represented by VOP_time_increment, the added value is recognized as the display time of the I / P-VOP of interest, and the process ends.

【0283】次に、IVLC器102では、GOVを構成
するB-VOPを受信した場合には、図32のフローチャー
トにしたがい、注目B-VOPのmodulo_time_baseおよびVOP
_time_incrementに基づき、その表示時刻が求められ
る。
Next, when the IVLC unit 102 receives the B-VOP forming the GOV, it follows the modulo_time_base and VOP of the B-VOP of interest according to the flowchart of FIG.
The display time is calculated based on _time_increment.

【0284】即ち、IVLC器102では、まず最初
に、ステップS31において、注目B-VOPが、処理対象G
OVの中で、最初に表示されるI-VOP(First I-VOP)より
も先に表示されるものであるかどうかが判定される。ス
テップS31において、注目B-VOPが、処理対象GOVの中
で、最初に表示されるI-VOPよりも先に表示されるもの
であると判定された場合、ステップS33に進み、以
下、ステップS33乃至S37において、図31のステ
ップS23乃至S27における場合とそれぞれ同様の処
理が行われることにより、注目B-VOPの表示時刻が求め
られる。
That is, in the IVLC device 102, first, in step S31, the focused B-VOP is the processing target G.
It is determined whether the OV is displayed before the I-VOP displayed first (First I-VOP). When it is determined in step S31 that the focused B-VOP is displayed before the I-VOP displayed first in the GOVs to be processed, the process proceeds to step S33, and then step S33. In steps S37 to S37, the same processing as that in steps S23 to S27 of FIG.

【0285】一方、ステップS31において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プS32に進み、以下、ステップS32,S34乃至S
37において、図31のステップS22,S24乃至S
27における場合とそれぞれ同様の処理が行われること
により、注目B-VOPの表示時刻が求められる。
On the other hand, in step S31, the target B-VO
When it is determined that P is displayed after the I-VOP displayed first in the GOVs to be processed, the process proceeds to step S32, and then steps S32, S34 to S34.
37, steps S22, S24 to S of FIG.
The display time of the focused B-VOP is obtained by performing the same processing as that in 27.

【0286】次に、第2の方法では、I-VOPの表示時刻
と、それから予測されるB-VOPの表示時刻との間の時間
を、秒の桁まで求め、その値を、modulo_time_baseで表
現し、B-VOPの表示時刻のミリ秒精度を、VOP_time_incr
ementで表現する。即ち、VM6.0では、上述したように、
B-VOPの予測符号化時に参照画像として用いるI−VOPま
たはP−VOPに対する重みを、B-VOPから、それを挟むI−
VOPまたはP−VOPまでの時間的距離に基づいて決めるの
に、その時間的距離を、B-VOPについてのVOP_time_incr
ementとしており、このため、I−VOPおよびP−VOPにつ
いてのVOP_time_incrementが、直前に符号化/復号され
たmodulo_time_baseによって示された同期点からの時間
を表すのと異なっているが、B-VOPの表示時刻と、それ
を挟むI−VOPまたはP−VOPの表示時刻が分かれば、それ
らの間の時間的距離は、差分をとるだけで求めることが
でき、従って、B-VOPについてのVOP_time_incrementだ
けを、I−VOPおよびP−VOPについてのVOP_time_increme
ntと異なる取り扱いとする必要性は小さい。むしろ、処
理効率の観点からは、I,B,PのすべてのVOPのVOP_t
ime_incrment(詳細時間情報)、さらには、modulo_tim
e_base(秒精度時刻情報)は、同一の取り扱いとするの
が望ましい。
Next, in the second method, the time between the display time of the I-VOP and the predicted display time of the B-VOP is calculated up to the order of seconds, and the value is expressed by modulo_time_base. Then, the millisecond precision of the B-VOP display time is set to VOP_time_incr
Express in ement. That is, in VM6.0, as described above,
The weight for I-VOP or P-VOP used as a reference image at the time of predictive coding of B-VOP, from B-VOP, I- sandwiching it
To decide based on the temporal distance to VOP or P-VOP, the temporal distance is set to VOP_time_incr for B-VOP.
However, the VOP_time_increment for I-VOP and P-VOP is different from the time from the sync point indicated by the immediately encoded / decoded modulo_time_base. If the display time and the display time of the I-VOP or P-VOP sandwiching the display time are known, the temporal distance between them can be obtained by taking the difference, and therefore, only the VOP_time_increment for the B-VOP can be obtained. , V-time_increme for I-VOP and P-VOP
There is little need to treat it differently from nt. Rather, from the viewpoint of processing efficiency, VOP_t of all VOPs of I, B, P
ime_incrment (detailed time information), and modulo_tim
It is desirable to handle e_base (second precision time information) in the same way.

【0287】そこで、第2の方法では、B-VOPについて
のmodulo_time_baseおよびVOP_time_incrementを、I/P
−VOPについてのものと同一の取り扱いとしている。
Therefore, in the second method, modulo_time_base and VOP_time_increment for B-VOP are set to I / P.
-The handling is the same as for VOP.

【0288】例えば、図27に示した場合において、第
2の方法にしたがって、modulo_time_baseおよびVOP_ti
me_incrementを符号化した場合の、GOVについてのtime_
codeと、modulo_time_baseおよびVOP_time_incrementと
の関係を、図33に示す。
For example, in the case shown in FIG. 27, according to the second method, modulo_time_base and VOP_ti.
time_ about GOV when encoding me_increment
FIG. 33 shows the relationship between code and modulo_time_base and VOP_time_increment.

【0289】即ち、第2の方法でも、modulo_time_base
の付加を、I-VOPおよびP-VOPだけでなく、B-VOPに対し
ても許可する。そして、B-VOPに付加されるmodulo_time
_baseも、I/P-VOPに付加されるmodulo_time_baseと同様
に、同期点の切り替わりを表すものとする。
That is, also in the second method, modulo_time_base
Is allowed not only for I-VOP and P-VOP but also for B-VOP. And modulo_time added to B-VOP
Similarly to modulo_time_base added to I / P-VOP, _base also represents switching of synchronization points.

【0290】さらに、第2の方法では、B-VOPに付加さ
れているmodulo_time_baseによって示される同期点の時
刻を、そのB-VOPの表示時刻から減算した値が、そのVOP
_time_incrementとして設定される。
Further, in the second method, the value obtained by subtracting the time of the sync point indicated by modulo_time_base added to the B-VOP from the display time of the B-VOP is the VOP.
It is set as _time_increment.

【0291】従って、第2の方法によれば、図27にお
いて、GOVのtime_codeが表す時刻である、GOVの最初の
同期点から、時刻time_code+1秒で示される同期点ま
での間に表示されるI1またはB2のmodulo_time_base
は、いずれも0Bとされるとともに、それぞれのVOP_ti
me_incrementは、I1またはB2の表示時刻の秒の位よ
り下の位のミリ秒単位の値がセットされる。また、時刻
time_code+1秒で示される同期点から、時刻time_code
+2秒で示される同期点までの間に表示されるB3また
はB4のmodulo_time_baseは、いずれも10Bとされる
とともに、それぞれのVOP_time_incrementは、B3また
はB4の表示時刻の秒の位より下の位のミリ秒単位の値
がセットされる。さらに、時刻time_code+2秒で示さ
れる同期点から、時刻time_code+3秒で示される同期
点までの間に表示されるP5のmodulo_time_baseは11
0Bとされるとともに、そのVOP_time_incrementは、P
5の表示時刻の秒の位より下の位のミリ秒単位の値がセ
ットされる。
Therefore, according to the second method, in FIG. 27, I1 displayed between the first sync point of the GOV, which is the time represented by the time_code of the GOV, and the sync point indicated by the time time_code + 1 second, is displayed. Or modulo_time_base of B2
Is set to 0B, and each VOP_ti
The me_increment is set to a value in milliseconds that is lower than the second place of the display time of I1 or B2. Also, the time
From the sync point indicated by time_code + 1 second, time time_code
The modulo_time_base of B3 or B4 displayed up to the synchronization point indicated by +2 seconds is 10B, and the VOP_time_increment of each is 3 mm below the second of the display time of B3 or B4. The value in seconds is set. Furthermore, the modulo_time_base of P5 displayed from the sync point indicated by time time_code + 2 seconds to the sync point indicated by time time_code + 3 seconds is 11
It is set to 0B, and its VOP_time_increment is P
A value in milliseconds below the second place of the display time of 5 is set.

【0292】図27において、例えば、上述したよう
に、I1の表示時刻を、0h:12m:35s:350msとするととも
に、B4の表示時刻を、0h:12m:36s:550msとすると、I
1またはB4のmodulo_time_baseは、上述したように、
それぞれ0Bまたは10Bとされる。また、I1または
B4のVOP_time_incrementは、それぞれ、表示時刻のミ
リ秒単位である350msまたは550msとされる。
In FIG. 27, for example, assuming that the display time of I1 is 0h: 12m: 35s: 350ms and the display time of B4 is 0h: 12m: 36s: 550ms, as described above, I
Modulo_time_base of 1 or B4 is, as described above,
It is set to 0B or 10B, respectively. The VOP_time_increment of I1 or B4 is 350 ms or 550 ms, which is the millisecond unit of the display time, respectively.

【0293】以上のような、第2の方法によるmodulo_t
ime_baseとVOP_time_incrementについての処理も、例え
ば、第1の方法による場合と同様に、図9および図10
に示したVLC器36、並びに図15および図16に示
したIVLC器102において行われる。
Modulo_t by the second method as described above
As for the processing for ime_base and VOP_time_increment, for example, as in the case of the first method, FIG. 9 and FIG.
15 and the IVLC device 102 shown in FIGS. 15 and 16.

【0294】即ち、VLC器36では、I/P-VOPについ
ては、図29における場合と同様にして、modulo_time_
baseおよびVOP_time_incrementが求められる。
That is, in the VLC device 36, I / P-VOP is modulo_time_in the same manner as in FIG.
base and VOP_time_increment are required.

【0295】また、B-VOPについては、VLC器36に
おいて、GOVを構成するB-VOPを受信するごとに、そのB-
VOPを注目B-VOPとして、図34のフローチャートにした
がい、注目B-VOPのmodulo_time_baseおよびVOP_time_in
crementが求められる。
Regarding the B-VOP, each time the VLC unit 36 receives a B-VOP forming a GOV, that B-VOP is received.
According to the flowchart of FIG. 34, assuming that the VOP is the B-VOP of interest, the modulo_time_base and VOP_time_in of the B-VOP of interest
crement is required.

【0296】即ち、VLC器36では、まず最初に、ス
テップS41において、図29のステップS1における
場合と同様にして、modulo_time_baseおよびVOP_time_i
ncrementがリセットされる。
That is, in the VLC device 36, first, in step S41, as in the case of step S1 of FIG. 29, modulo_time_base and VOP_time_i.
ncrement is reset.

【0297】そして、ステップS42に進み、注目B-VO
Pが、処理対象としているGOV(処理対象GOV)の中で、
最初に表示されるI-VOP(First I-VOP)よりも先行して
表示されるものであるかどうかが判定される。ステップ
S12において、注目B-VOPが、処理対象GOVの中で、最
初に表示されるI-VOPよりも先行して表示されるもので
あると判定された場合、ステップS44に進み、処理対
象GOVのtime_codeと、注目B-VOPの表示時刻の秒精度と
の差分、即ち、time_codeと、注目B-VOPの表示時刻の秒
の桁までとの差分が求められ、変数Dにセットされて、
ステップS45に進む。
[0297] Then, the processing proceeds to step S42, and the attention B-VO
Among the GOVs that P is processing (GOVs to be processed),
It is determined whether or not it is displayed before the first I-VOP (First I-VOP) displayed. If it is determined in step S12 that the B-VOP of interest is displayed prior to the I-VOP displayed first in the GOVs to be processed, the process proceeds to step S44, and the GOVs to be processed are processed. Time_code and the second precision of the display time of the B-VOP of interest, that is, the difference between the time_code and the second digit of the display time of the B-VOP of interest is obtained and set to the variable D,
It proceeds to step S45.

【0298】また、ステップS42において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プS43に進み、注目B-VOPの表示時刻の秒の桁まで
と、その直前に表示されるI/P-VOP(処理対象GOVを構成
するVOPのうちの、注目B-VOPの直前に表示されるI/P-VO
P)(Last display I/P-VOP)の表示時刻の秒の桁まで
との差分値が求められ、その差分値が、変数Dにセット
されて、ステップS45に進む。
In step S42, the target B-VO
When it is determined that P is displayed after the I-VOP displayed first in the GOVs to be processed, the process proceeds to step S43, and up to the second digit of the display time of the attention B-VOP. And the I / P-VOP displayed immediately before that (the I / P-VO displayed immediately before the target B-VOP among the VOPs forming the processing target GOV)
P) (Last display I / P-VOP), the difference value up to the second digit of the display time is obtained, the difference value is set in the variable D, and the process proceeds to step S45.

【0299】ステップS45では、変数Dが0に等しい
かどうか、即ち、time_codeと、注目B-VOPの表示時刻の
秒の桁までとの差分、または注目B-VOPの表示時刻の秒
の桁までと、その直前に表示されるI/P-VOPの表示時刻
の秒の桁までとの差分値が0秒であるかどうかが判定さ
れる。ステップS45において、変数Dが0に等しくな
いと判定された場合、即ち、変数Dが1以上である場
合、ステップS46に進み、modulo_time_baseのMSB
として、1が付加される。
In step S45, it is determined whether or not the variable D is equal to 0, that is, the difference between time_code and the second digit of the display time of the attention B-VOP, or the second digit of the display time of the attention B-VOP. Then, it is determined whether or not the difference value between the display time of the I / P-VOP displayed immediately before that and the second digit is 0 second. When it is determined in step S45 that the variable D is not equal to 0, that is, when the variable D is 1 or more, the process proceeds to step S46, and the MSB of modulo_time_base.
Is added as 1.

【0300】そして、ステップS47に進み、変数Dが
1だけデクリメントされ、ステップS45に戻る。その
後、ステップS45において、変数Dが0に等しいと判
定されるまで、ステップS45乃至S47の処理が繰り
返される。即ち、これにより、modulo_time_baseは、ti
me_codeと、注目B-VOPの表示時刻の秒の桁までとの差
分、または注目B-VOPの表示時刻の秒の桁までと、その
直前に表示されるI/P-VOPの表示時刻の秒の桁までとの
差分値に対応する秒数と同一の数だけ「1」が連続し、
その最後に0が付加された値とされる。
Then, the process proceeds to step S47, the variable D is decremented by 1, and the process returns to step S45. After that, the processes of steps S45 to S47 are repeated until it is determined in step S45 that the variable D is equal to 0. That is, as a result, modulo_time_base is ti
The difference between me_code and the second digit of the display time of the B-VOP of interest, or the second digit of the display time of the B-VOP of interest and the second of the display time of the I / P-VOP displayed immediately before it. "1" continues for the same number of seconds corresponding to the difference value up to the digit
The value with 0 added to the end is set.

【0301】そして、ステップS45において、変数D
が0に等しいと判定された場合、ステップS48に進
み、VOP_time_incrementに、注目B-VOPの表示時刻の秒
精度より細かい精度の時刻、即ち、ミリ秒単位の時刻が
セットされ、処理を終了する。
Then, in step S45, the variable D
When it is determined that is equal to 0, the process proceeds to step S48, the VOP_time_increment is set to a time having a precision finer than the second precision of the display time of the B-VOP of interest, that is, a time in milliseconds, and the process ends.

【0302】一方、IVLC器102では、I/P-VOPに
ついては、上述の図31における場合と同様にして、mo
dulo_time_baseおよびVOP_time_incrementに基づき、そ
の表示時刻が求められる。
On the other hand, in the IVLC unit 102, the I / P-VOP is set in the same manner as in the case of FIG.
The display time is calculated based on dulo_time_base and VOP_time_increment.

【0303】また、B−VOPについては、IVLC器1
02において、GOVを構成するB-VOPを受信するごとに、
そのB-VOPを注目B-VOPとして、図35のフローチャート
にしたがい、注目B-VOPのmodulo_time_baseおよびVOP_t
ime_incrementに基づき、その表示時刻が求められる。
For B-VOP, IVLC unit 1
In 02, every time the B-VOP that constitutes the GOV is received,
With the B-VOP as the attention B-VOP, according to the flowchart in FIG. 35, the modulo_time_base and VOP_t of the attention B-VOP are set.
The display time is calculated based on ime_increment.

【0304】即ち、IVLC器102では、まず最初
に、ステップS51において、注目B-VOPが、処理対象G
OVの中で、最初に表示されるI-VOP(First I-VOP)より
も先行して表示されるものであるかどうかが判定され
る。ステップS51において、注目B-VOPが、処理対象G
OVの中で、最初に表示されるI-VOPよりも先行して表示
されるものであると判定された場合、ステップS52に
進み、変数Tに、処理対象GOVのtime_codeがセットさ
れ、ステップS54に進む。
That is, in the IVLC device 102, first, in step S51, the B-VOP of interest is the processing target G.
It is determined whether or not the OV is displayed before the I-VOP displayed first (First I-VOP). In step S51, the attention B-VOP is the processing target G.
When it is determined that the OV is displayed prior to the I-VOP displayed first, the process proceeds to step S52, the time_code of the processing target GOV is set in the variable T, and the step S54 is performed. Proceed to.

【0305】また、ステップS51において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プS53に進み、注目B-VOPの直前に表示されるI/P-VOP
(処理対象GOVを構成するVOPのうちの、注目B-VOPの直
前に表示されるI/P-VOP)(Last display I/P-VOP)の
表示時刻の秒の桁までが、変数Tにセットされて、ステ
ップS54に進む。
In step S51, the B-VO of interest is noted.
When it is determined that P is displayed after the I-VOP displayed first in the GOV to be processed, the process proceeds to step S53, and the I / I displayed immediately before the B-VOP of interest is displayed. P-VOP
(Of the VOPs that compose the GOV to be processed, the I / P-VOP displayed immediately before the B-VOP of interest) (Last display I / P-VOP) is displayed in the variable T up to the second digit. After being set, the process proceeds to step S54.

【0306】ステップS54では、注目B-VOPに付加さ
れているmodulo_time_baseが0Bに等しいかどうかが判
定される。ステップS54において、注目B-VOPに付加
されているmodulo_time_baseが0Bに等しくないと判定
された場合、即ち、注目B-VOPに付加されているmodulo_
time_baseに1が含まれる場合、ステップS55に進
み、そのmodulo_time_baseのMSBの1が削除され、ス
テップS56に進む。ステップS56では、変数Tが1
秒だけインクリメントされ、ステップS54に戻り、以
下、ステップS54において、注目B-VOPに付加されて
いるmodulo_time_baseが0Bに等しいと判定されるま
で、ステップS54乃至S56の処理を繰り返す。これ
により、変数Tは、注目B-VOPに、最初に付加されてい
たmodulo_time_baseの1の数に対応する秒数だけインク
リメントされる。
[0306] In step S54, it is determined whether modulo_time_base added to the B-VOP of interest is equal to 0B. When it is determined in step S54 that modulo_time_base added to the attention B-VOP is not equal to 0B, that is, modulo_time added to the attention B-VOP.
When the time_base includes 1, the process proceeds to step S55, the MSB 1 of modulo_time_base is deleted, and the process proceeds to step S56. In step S56, the variable T is 1
It is incremented by seconds and returns to step S54, and thereafter, the processes of steps S54 to S56 are repeated until it is determined in step S54 that modulo_time_base added to the attention B-VOP is equal to 0B. As a result, the variable T is incremented by the number of seconds corresponding to the number 1 of modulo_time_base that was initially added to the target B-VOP.

【0307】そして、ステップS54において、注目B-
VOPに付加されているmodulo_time_baseが0Bに等しい
と判定された場合、ステップS57に進み、変数Tに、
VOP_time_incrementが表すミリ秒精度の時刻が加算さ
れ、その加算値が、注目B-VOPの表示時刻として認識さ
れて、処理を終了する。
[0307] Then, in step S54, the attention B-
When it is determined that modulo_time_base added to VOP is equal to 0B, the process proceeds to step S57 and the variable T is set to
The time with millisecond precision represented by VOP_time_increment is added, the added value is recognized as the display time of the B-VOP of interest, and the process ends.

【0308】以上のように、符号化ビットストリームの
構成(階層)の中に、符号化開始絶対時刻を符号化する
GOV層を導入し、このGOV層を、ビットストリームの先頭
だけでなく、適当な位置に挿入できるようなものとする
とともに、VM6.0で規定されていたmodulo_time_baseとV
OP_time_incrementの定義を、上述のように変更したの
で、VOPのピクチャタイプの並びや、隣接するVOPの時間
間隔などによらず、すべての場合において、各VOPの表
示時刻(絶対時刻)を求めることが可能となる。
As described above, the coding start absolute time is coded in the structure (layer) of the coded bit stream.
The GOV layer is introduced so that this GOV layer can be inserted not only at the beginning of the bitstream, but also at an appropriate position, and the modulo_time_base and V
Since the definition of OP_time_increment has been changed as described above, the display time (absolute time) of each VOP can be obtained in all cases, regardless of the arrangement of VOP picture types and the time interval between adjacent VOPs. It will be possible.

【0309】従って、エンコーダにおいて、符号化開始
絶対時刻を、GOV単位で符号化するとともに、各VOPのmo
dulo_time_baseとVOP_time_incrementを符号化し、符号
化ビットストリームに含めることで、デコーダでは、符
号化開始絶対時刻を、GOV単位で復号するとともに、VOP
のmodulo_time_baseおよびVOP_time_incrementを復号
し、それらから、各VOPの表示時刻を復号することがで
きるので、ランダムアクセスを、GOV単位で、効率的に
行うことが可能となる。
Therefore, in the encoder, the absolute start time of encoding is encoded in GOV units and
By encoding dulo_time_base and VOP_time_increment and including them in the encoded bitstream, the decoder decodes the encoding start absolute time in GOV units and
Modulo_time_base and VOP_time_increment can be decoded, and the display time of each VOP can be decoded from them, it is possible to efficiently perform random access in GOV units.

【0310】なお、modulo_time_baseに付加する1の数
を、同期点の切り替わりにしたがって、単純に増加して
いくと、time_codeが示す時刻から、例えば、1時間
(3600秒)経過後は(但し、GOVが、それだけの時
間に相当するVOPで構成されるとする)、modulo_time_b
aseは、3600ビットの1と、1ビットの0とで構成
されるから、3601ビットという莫大なビット数にな
ることになる。
Note that if the number of 1's added to modulo_time_base is simply increased according to the switching of the sync points, one hour (3600 seconds) after the time indicated by time_code (however, GOV , But with a VOP equivalent to that much time), modulo_time_b
Since ase is composed of 1 in 3600 bits and 0 in 1 bit, the number of bits becomes 3601 bits.

【0311】そこで、MPEG4では、modulo_time_base
は、同期点の切り替わり後に最初に現れるI/P-VOPにお
いてリセットされるように規定されている。
Therefore, in MPEG4, modulo_time_base
Are defined to be reset at the first I / P-VOP that appears after the switching of sync points.

【0312】従って、例えば、図36に示すように、GO
Vが、そのtime_codeが表す時刻である、GOVの最初の同
期点から、時刻time_code+1秒で示される同期点まで
の間に表示されるI1およびB2、時刻time_code+1
秒で示される同期点から、時刻time_code+2秒で示さ
れる同期点までの間に表示されるB3およびB4、時刻
time_code+2秒で示される同期点から、時刻time_code
+3秒で示される同期点までの間に表示されるP5およ
びB6、時刻time_code+3秒で示される同期点から、
時刻time_code+4秒で示される同期点までの間に表示
されるB7、並びに時刻time_code+4秒で示される同
期点から、時刻time_code+5秒で示される同期点まで
の間に表示されるB8で構成される場合には、GOVの最
初の同期点から、時刻time_code+1秒で示される同期
点までの間に表示されるI1およびB2のmodulo_time_
baseは、0Bとされる。
Therefore, for example, as shown in FIG.
V is the time represented by the time_code, I1 and B2 displayed between the first sync point of GOV and the sync point indicated by time time_code + 1 seconds, time time_code + 1
B3 and B4 displayed between the sync point indicated by seconds and the sync point indicated by time_code + 2 seconds, the time
From the sync point indicated by time_code + 2 seconds, the time time_code
From the sync point indicated by P5 and B6, time_code + 3 seconds, which is displayed until the sync point indicated by +3 seconds,
When it is composed of B7 displayed between the sync point indicated by time time_code + 4 seconds and B8 displayed between the sync point indicated by time time_code + 4 seconds and the sync point indicated by time time_code + 5 seconds Is the modulo_time_ of I1 and B2 displayed between the first sync point of GOV and the sync point indicated by time time_code + 1 second.
The base is set to 0B.

【0313】また、時刻time_code+1秒で示される同
期点から、時刻time_code+2秒で示される同期点まで
の間に表示されるB3およびB4のmodulo_time_base
は、10Bとされる。さらに、時刻time_code+2秒で
示される同期点から、時刻time_code+3秒で示される
同期点までの間に表示されるP5のmodulo_time_base
は、110Bとされる。
Also, the modulo_time_base of B3 and B4 displayed from the synchronization point indicated by time time_code + 1 second to the synchronization point indicated by time time_code + 2 seconds.
Is 10B. Furthermore, the modulo_time_base of P5 displayed between the sync point indicated by time time_code + 2 seconds and the sync point indicated by time time_code + 3 seconds.
Is 110B.

【0314】そして、P5は、GOVの最初の同期点か
ら、時刻time_code+1秒で示される同期点に切り替わ
った後に、最初に表示されるP-VOPであるから、modulo_
time_baseは、0Bにリセットされ、その後に表示され
るB6のmodulo_time_baseは、P5の表示時刻を求める
ときに参照される同期点、即ち、いまの場合、時刻time
_code+2秒で示される同期点を、GOVの最初の同期点と
みなして設定される。従って、B6のmodulo_time_base
は、0Bとされる。
Since P5 is the first P-VOP displayed after switching from the first sync point of GOV to the sync point indicated by time_code + 1 second, modulo_
The time_base is reset to 0B, and the modulo_time_base of B6 displayed thereafter is the synchronization point referred to when the display time of P5 is obtained, that is, the time time in this case.
It is set by regarding the sync point indicated by _code + 2 seconds as the first sync point of GOV. Therefore, B6 modulo_time_base
Is set to 0B.

【0315】その後、時刻time_code+3秒で示される
同期点から、時刻time_code+4秒で示される同期点ま
での間に表示されるB7のmodulo_time_baseは、10B
とされ、時刻time_code+4秒で示される同期点から、
時刻time_code+5秒で示される同期点までの間に表示
されるB8のmodulo_time_baseは、110Bとされる。
After that, the modulo_time_base of B7 displayed between the synchronization point indicated by time time_code + 3 seconds and the synchronization point indicated by time time_code + 4 seconds is 10B.
From the synchronization point indicated by time_code + 4 seconds,
The modulo_time_base of B8 displayed up to the synchronization point indicated by time time_code + 5 seconds is 110B.

【0316】図29、図30、および図34で説明した
エンコーダ側(VLC器36)の処理は、上述のように
して、modulo_time_baseを設定するようになっている。
In the processing on the encoder side (VLC unit 36) described with reference to FIGS. 29, 30, and 34, modulo_time_base is set as described above.

【0317】また、この場合、デコーダ側(IVLC器
102)では、同期点の切り替わり後に最初に表示され
るI/P-VOPを検出した場合は、それに付加されているmod
ulo_time_baseによって示される秒数を、time_codeに累
積加算して、表示時刻を求める必要があるが、即ち、例
えば、図36に示した場合においては、I1乃至P5の
表示時刻は、time_codeに、各VOPに付加されているmodu
lo_time_baseに対応する秒数と、VOP_time_incrementと
を加算して求めれば良いが、同期点の切り替わり後に最
初に表示されるP5の後に表示されるB6乃至B8の表
示時刻は、time_codeに、各VOPに付加されているmodulo
_time_baseに対応する秒数と、VOP_time_incrementとを
加算する他に、さらに、P5のmodulo_time_baseに対応
する秒数である2秒を加算して求める必要があるが、図
31、図32、および図35で説明した処理は、そのよ
うにして、表示時刻を求めるようになされている。
In this case, on the decoder side (IVLC unit 102), when the I / P-VOP displayed first after the switching of the synchronization point is detected, the mod added to it is detected.
It is necessary to cumulatively add the number of seconds indicated by ulo_time_base to the time_code to obtain the display time. That is, for example, in the case shown in FIG. 36, the display times of I1 to P5 are added to the time_code for each VOP. Added to modu
It can be calculated by adding the number of seconds corresponding to lo_time_base and VOP_time_increment, but the display time of B6 to B8 displayed after P5 that is first displayed after the switching of the sync point is added to each VOP in time_code. Being modulo
In addition to adding the number of seconds corresponding to _time_base and VOP_time_increment, it is necessary to add 2 seconds corresponding to modulo_time_base of P5 to obtain the value. In FIG. 31, FIG. 32, and FIG. The described process is thus performed to obtain the display time.

【0318】次に、以上説明したエンコーダおよびデコ
ーダは、それ専用のハードウェアによって実現すること
もできるし、コンピュータに、上述したような処理を行
わせるためのプログラムを実行させることによっても実
現することができる。
Next, the encoder and decoder described above can be realized by dedicated hardware, or can also be realized by causing a computer to execute a program for causing the above-described processing. You can

【0319】図37は、図1のエンコーダまたは図13
のデコーダとして機能するコンピュータの一実施の形態
の構成例を示している。
FIG. 37 is a block diagram of the encoder of FIG.
2 illustrates a configuration example of an embodiment of a computer that functions as a decoder of the.

【0320】ROM(Read Only Memory)201は、例
えば、ブートプログラムなどを記憶している。CPU
(Central Processing Unit)202は、例えば、HD
(HardDisk)206に記憶されたプログラムを、RAM
(Read Only Memory)203上に展開して実行すること
で、各種の処理を行うようになされている。RAM20
3は、CPU202が実行するプログラムや、CPU2
02の処理上必要なデータを一時記憶するようになされ
ている。入力部204は、例えば、キーボードやマウス
などでなり、必要なコマンドやデータを入力するときな
どに操作される。出力部205は、例えば、ディスプレ
イなどでなり、CPU202の制御にしたがったデータ
を表示する。HD206は、CPU202が実行すべき
プログラム、さらには、エンコード対象の画像データ
や、エンコード後のデータ(符号化ビットストリー
ム)、デコード後の画像データなどを記憶するようにな
されている。通信I/F(Interface)207は、外部
との通信を制御することにより、例えば、エンコード対
象の画像データを、外部から受信したり、また、エンコ
ード後の符号化ビットストリームを外部に送信したりす
るようになされている。また、通信I/F207は、外
部でエンコードされた符号化ビットストリームを受信し
たり、また、デコード後の画像データを、外部に送信す
るようにもなされている。
A ROM (Read Only Memory) 201 stores, for example, a boot program and the like. CPU
(Central Processing Unit) 202 is, for example, HD
The program stored in (HardDisk) 206 is stored in RAM
Various processes are performed by expanding the program on the (Read Only Memory) 203 and executing it. RAM20
3 is a program executed by the CPU 202 and the CPU 2
The data necessary for the process 02 is temporarily stored. The input unit 204 includes, for example, a keyboard and a mouse, and is operated when inputting necessary commands and data. The output unit 205 includes, for example, a display, and displays data according to the control of the CPU 202. The HD 206 stores a program to be executed by the CPU 202, image data to be encoded, encoded data (encoded bit stream), image data after decoding, and the like. The communication I / F (Interface) 207 controls the communication with the outside to receive, for example, the image data to be encoded from the outside, or to transmit the encoded bit stream after encoding to the outside. It is designed to do. The communication I / F 207 is also configured to receive an encoded bit stream encoded externally, and also transmit image data after decoding to the outside.

【0321】以上のように構成されるコンピュータのC
PU202に、上述したような処理を行うためのプログ
ラムを実行させることにより、このコンピュータは、図
1に示したエンコーダや、図13に示したデコーダとし
て機能することになる。
Computer C configured as described above
By causing the PU 202 to execute the program for performing the above-described processing, this computer functions as the encoder shown in FIG. 1 or the decoder shown in FIG.

【0322】なお、本実施の形態では、VOP_time_incre
mentは、VOPの表示時刻を、1ms単位で表すものとした
が、VOP_time_incrementは、その他、例えば、次のよう
なものとすることも可能である。即ち、1の同期点か
ら、その次の同期点までの間を、N個に分割し、VOPの
表示時刻に対応する分割点が、1の同期点から何番目の
分割点かを表す値を、VOP_time_incrementとすることが
可能である。このようにVOP_time_incrementを定義した
場合、N=1000とすると、VOP_time_incrementは、
VOPの表示時刻を、1ms単位で表すものとなる。なお、こ
の場合、デコーダでは、1の同期点から、その次の同期
点までの間を幾つに分割したかという情報が必要となる
が、同期点の間の分割数は、あらかじめ定めておいても
良いし、あるいは、GOV層よりも上位の階層に含めて、
デコーダに提供するようにしても良い。
In this embodiment, VOP_time_incre
The ment represents the display time of the VOP in units of 1 ms, but the VOP_time_increment may be, for example, as follows. That is, the value from one sync point to the next sync point is divided into N, and a value indicating the number of the division point from the one sync point is the division point corresponding to the display time of the VOP. , VOP_time_increment. When VOP_time_increment is defined in this way, if N = 1000, VOP_time_increment becomes
The VOP display time is expressed in 1 ms units. In this case, the decoder needs information about how many divisions are made from one synchronization point to the next synchronization point. However, the number of divisions between the synchronization points is set in advance. Good, or include it in the hierarchy above the GOV layer,
It may be provided to the decoder.

【0323】[0323]

【発明の効果】本発明の画像符号化方法によれば、複数
のVOPがグループ化され、各グループのVOPの符号
化を開始した絶対時刻を表す絶対時刻情報がグループ単
位に付加される。さらに、グループ内における相対時刻
を、秒精度で表す秒精度時刻情報が生成されるととも
に、I−VOP,P−VOP、またはB−VOPそれぞ
れの表示時刻の直前の秒精度時刻情報から、それぞれの
表示時刻までの時間を、秒精度より細かい精度で表す詳
細時間情報が生成される。そして、I−VOP,P−V
OP、またはB−VOPの表示時刻を表す情報として、
秒精度時刻情報および詳細時間情報が、対応するI−V
OP,P−VOP、またはB−VOPにそれぞれ付加さ
れる。この場合に、所定のVOPについての秒精度時刻
情報として、絶対時刻情報から、所定のVOPの表示時
刻までの時間を、秒精度で表したもの、または所定のV
OPの直前に表示されるI−VOPもしくはP−VOP
の表示時刻から、所定のVOPの表示時刻までの時間
を、秒精度で表したものが生成され、絶対時刻情報に、
I−VOP,P−VOP、またはB−VOPそれぞれに
付加されている秒精度時刻情報および詳細時間情報を加
算した時刻が、I−VOP,P−VOP、またはB−V
OPそれぞれの表示時刻とされる。従って、その符号化
結果に対して、グループ単位でのランダムアクセスを行
うことが可能となるとともに、例えば、秒精度時刻情報
が莫大なビット数となることを防止することが可能とな
る。
According to the image coding method of the present invention, a plurality of VOPs are grouped and absolute time information indicating the absolute time when the coding of the VOPs of each group is started is added in group units. Further, second precision time information representing relative time in the group with second precision is generated, and from the second precision time information immediately before the display time of each I-VOP, P-VOP, or B-VOP, the respective precision time information is displayed. Detailed time information is generated that represents the time until the display time with a precision finer than the second precision. And I-VOP, P-V
As information indicating the display time of OP or B-VOP,
Second precision time information and detailed time information correspond to IV
It is added to OP, P-VOP, or B-VOP, respectively. In this case, as the second precision time information about the predetermined VOP, the time from the absolute time information to the display time of the predetermined VOP is represented by the second precision or the predetermined VOP.
I-VOP or P-VOP displayed immediately before OP
The time from the display time of to the display time of the predetermined VOP is represented with second precision, and the absolute time information is
For each I-VOP, P-VOP, or B-VOP
Adds the second precision time information and detailed time information
The calculated time is I-VOP, P-VOP, or B-V
The display time of each OP is set. Therefore, it is possible to perform random access in units of groups with respect to the encoded result, and it is possible to prevent the second precision time information from having an enormous number of bits, for example.

【0324】本発明の画像復号方法および画像復号装置
によれば、絶対時刻情報に、I−VOP,P−VOP、
またはB−VOPそれぞれに付加されている秒精度時刻
情報および詳細時間情報を加算することで、I−VO
P,P−VOP、またはB−VOPそれぞれの表示時刻
求められ、I−VOP,P−VOP、またはB−VO
Pが、対応する表示時刻にしたがって復号される。この
場合に、所定のVOPについての秒精度時刻情報とし
て、絶対時刻情報から、所定のVOPの表示時刻までの
時間を、秒精度で表したもの、または所定のVOPの直
前に表示されるI−VOPもしくはP−VOPの表示時
刻から、所定のVOPの表示時刻までの時間を、秒精度
で表したものが用いられている。従って、符号化ビット
ストリームに対して、グループ単位でのランダムアクセ
スを行い、復号することが可能となる。また、例えば、
秒精度時刻情報が莫大なビット数となることを防止する
ことが可能となる。
According to the image decoding method and the image decoding apparatus of the present invention, the absolute time information includes I-VOP, P-VOP,
Or the second precision time added to each B-VOP
By adding information and detailed time information, I-VO
Display time of P, P-VOP, or B-VOP
Is required, I-VOP, P-VOP, or B-VO
P is decoded according to the corresponding display time. In this case, as the second precision time information for the predetermined VOP, the time from the absolute time information to the display time of the predetermined VOP is expressed in second precision, or the I-displayed immediately before the predetermined VOP. The time from the display time of the VOP or the P-VOP to the display time of the predetermined VOP, which is expressed in seconds, is used. Therefore, it is possible to perform random access in units of groups to the encoded bitstream and perform decoding. Also, for example,
It is possible to prevent the second precision time information from having an enormous number of bits.

【0325】[0325]

【0326】[0326]

【0327】[0327]

【0328】[0328]

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明を適用したエンコーダの一実施の形態の
構成例を示すブロック図である。
FIG. 1 is a block diagram showing a configuration example of an embodiment of an encoder to which the present invention has been applied.

【図2】時刻によって、VOの位置、大きさが変化する
ことを説明するための図である。
FIG. 2 is a diagram for explaining that the position and size of a VO change with time.

【図3】図1のVOP符号化部31乃至3Nの構成例を示
すブロック図である。
FIG. 3 is a block diagram showing a configuration example of VOP encoding sections 3 1 to 3 N in FIG.

【図4】空間スケーラビリティを説明するための図であ
る。
FIG. 4 is a diagram for explaining spatial scalability.

【図5】空間スケーラビリティを説明するための図であ
る。
FIG. 5 is a diagram for explaining spatial scalability.

【図6】空間スケーラビリティを説明するための図であ
る。
FIG. 6 is a diagram for explaining spatial scalability.

【図7】空間スケーラビリティを説明するための図であ
る。
FIG. 7 is a diagram for explaining spatial scalability.

【図8】VOPのサイズデータおよびオフセットデータ
の決定方法を説明するための図である。
FIG. 8 is a diagram for explaining a method of determining VOP size data and offset data.

【図9】図3の下位レイヤ符号化部25の構成例を示す
ブロック図である。
9 is a block diagram showing a configuration example of a lower layer encoding unit 25 in FIG.

【図10】図3の上位レイヤ符号化部23の構成例を示
すブロック図である。
10 is a block diagram showing a configuration example of an upper layer encoding unit 23 in FIG.

【図11】空間スケーラビリティを説明するための図で
ある。
FIG. 11 is a diagram for explaining spatial scalability.

【図12】時間スケーラビリティを説明するための図で
ある。
FIG. 12 is a diagram for explaining time scalability.

【図13】本発明を適用したデコーダの一実施の形態の
構成例を示すブロック図である。
FIG. 13 is a block diagram showing a configuration example of an embodiment of a decoder to which the present invention has been applied.

【図14】図13のVOP復号部721乃至72Nの他の
構成例を示すブロック図である。
14 is a block diagram showing another configuration example of the VOP decoding units 72 1 to 72 N of FIG.

【図15】図14の下位レイヤ復号部95の構成例を示
すブロック図である。
15 is a block diagram showing a configuration example of a lower layer decoding unit 95 in FIG.

【図16】図14の上位レイヤ復号部93の構成例を示
すブロック図である。
16 is a block diagram illustrating a configuration example of an upper layer decoding unit 93 in FIG.

【図17】スケーラブル符号化によって得られるビット
ストリームのシンタクスを示す図である。
[Fig. 17] Fig. 17 is a diagram illustrating the syntax of a bitstream obtained by scalable coding.

【図18】VSのシンタクスを示す図である。FIG. 18 is a diagram showing the syntax of VS.

【図19】VOのシンタクスを示す図である。[Fig. 19] Fig. 19 is a diagram illustrating the syntax of a VO.

【図20】VOLのシンタクスを示す図である。[Fig. 20] Fig. 20 is a diagram illustrating the syntax of a VOL.

【図21】VOPのシンタクスを示す図である。FIG. 21 is a diagram illustrating the syntax of VOP.

【図22】modulo_time_baseとVOP_time_incrementとの
関係を示す図である。
[Fig. 22] Fig. 22 is a diagram illustrating the relationship between modulo_time_base and VOP_time_increment.

【図23】本発明によるビットストリームのシンタクス
を示す図である。
FIG. 23 is a diagram showing the syntax of a bitstream according to the present invention.

【図24】GOVのシンタクスを示す図である。FIG. 24 is a diagram showing the syntax of GOV.

【図25】GOV層のtime_code、並びにGOVの先頭
のI−VOPのmodulo_time_baseとV
OP_time_incrementの符号化方法を示
す図である。
FIG. 25 is a time_code of the GOV layer, and modulo_time_base and V of the I-VOP at the head of the GOV.
It is a figure which shows the encoding method of OP_time_increment.

【図26】GOV層のtime_code、並びにGOVの先頭
のI−VOPよりも前に位置するB−VOPのmodulo_t
ime_baseとVOP_time_incrementの符号化方法を示す図で
ある。
FIG. 26 is a time_code of a GOV layer and a modulo_t of a B-VOP located before the I-VOP at the head of the GOV.
It is a figure which shows the encoding method of ime_base and VOP_time_increment.

【図27】modulo_time_baseとVOP_time_incrementの定
義を変更しない場合のそれらの関係を示す図である。
[Fig. 27] Fig. 27 is a diagram illustrating the relationship between modulo_time_base and VOP_time_increment when the definitions are not changed.

【図28】B−VOPのmodulo_time_baseとVOP_time_i
ncrementの第1の方法による符号化処理を示す図であ
る。
FIG. 28: B-VOP modulo_time_base and VOP_time_i
It is a figure which shows the encoding process by the 1st method of ncrement.

【図29】I/P−VOPのmodulo_time_baseとVOP_ti
me_incrementの第1および第2の方法による符号化処理
を示すフローチャートである。
FIG. 29: modulo_time_base and VOP_ti of I / P-VOP
It is a flowchart which shows the encoding process by the 1st and 2nd method of me_increment.

【図30】B−VOPのmodulo_time_baseとVOP_time_i
ncrementの第1の方法による符号化処理を示すフローチ
ャートである。
FIG. 30: B-VOP modulo_time_base and VOP_time_i
It is a flowchart which shows the encoding process by the 1st method of ncrement.

【図31】第1および第2の方法により符号化したI/
P−VOPのmodulo_time_baseとVOP_time_incrementの
復号処理を示すフローチャートである。
FIG. 31 is an I / O coded by the first and second methods.
It is a flowchart which shows the decoding process of modulo_time_base and VOP_time_increment of P-VOP.

【図32】第1の方法により符号化したB−VOPのmo
dulo_time_baseとVOP_time_incrementの復号処理を示す
フローチャートである。
FIG. 32: mo of B-VOP coded by the first method
It is a flowchart which shows the decoding process of dulo_time_base and VOP_time_increment.

【図33】B−VOPのmodulo_time_baseとVOP_time_i
ncrementの第2の方法による符号化処理を示す図であ
る。
[Fig. 33] B-VOP modulo_time_base and VOP_time_i
It is a figure which shows the encoding process by the 2nd method of ncrement.

【図34】B−VOPのmodulo_time_baseとVOP_time_i
ncrementの第2の方法による符号化処理を示すフローチ
ャートである。
FIG. 34 is a B-VOP modulo_time_base and VOP_time_i
It is a flowchart which shows the encoding process by the 2nd method of ncrement.

【図35】第2の方法により符号化したB−VOPのmo
dulo_time_baseとVOP_time_incrementの復号処理を示す
フローチャートである。
FIG. 35: mo of B-VOP encoded by the second method
It is a flowchart which shows the decoding process of dulo_time_base and VOP_time_increment.

【図36】modulo_time_baseについて説明するための図
である。
[Fig. 36] Fig. 36 is a diagram for describing modulo_time_base.

【図37】本発明を適用したエンコーダおよびデコーダ
の他の実施の形態の構成例を示すブロック図である。
[Fig. 37] Fig. 37 is a block diagram illustrating a configuration example of another embodiment of an encoder and a decoder to which the present invention has been applied.

【図38】従来のエンコーダの一例の構成を示すブロッ
ク図である。
FIG. 38 is a block diagram showing a configuration of an example of a conventional encoder.

【図39】従来のデコーダの一例の構成を示すブロック
図である。
FIG. 39 is a block diagram showing a configuration of an example of a conventional decoder.

【符号の説明】[Explanation of symbols]

1 VO構成部, 21乃至2N VOP構成部, 31
乃至3N VOP符号化部, 4 多重化部, 21
画像階層化部, 23 上位レイヤ符号化部,24 解
像度変換部, 25 下位レイヤ符号化部, 26 多
重化部, 31フレームメモリ, 32 動きベクトル
検出器, 33 演算器, 34 DCT器, 35
量子化器, 36 VLC器, 38 逆量子化器,
39IDCT器, 40 演算器, 41 フレームメ
モリ, 42 動き補償器,53 フレームメモリ,
71 逆多重化部, 721乃至72N VOP復号部,
73 画像再構成部, 91 逆多重化部, 93
上位レイヤ復号部,94 解像度変換部, 95 下位
レイヤ復号部, 102 IVLC器,103 逆量子
化器, 104 IDCT器, 105 演算器, 1
06 フレームメモリ, 107 動き補償器, 11
2 フレームメモリ, 201ROM, 202 CP
U, 203 RAM, 204 入力部, 205出
力部, 206 HD, 207 通信I/F
1 VO component, 2 1 to 2 N VOP component, 3 1
To 3 N VOP encoder, 4 multiplexer, 21
Image layering unit, 23 upper layer coding unit, 24 resolution conversion unit, 25 lower layer coding unit, 26 multiplexing unit, 31 frame memory, 32 motion vector detector, 33 arithmetic unit, 34 DCT unit, 35
Quantizer, 36 VLC device, 38 inverse quantizer,
39 IDCT device, 40 arithmetic unit, 41 frame memory, 42 motion compensator, 53 frame memory,
71 demultiplexing unit, 72 1 to 72 N VOP decoding unit,
73 image reconstruction unit, 91 demultiplexing unit, 93
Upper layer decoding unit, 94 resolution conversion unit, 95 lower layer decoding unit, 102 IVLC unit, 103 inverse quantizer, 104 IDCT unit, 105 arithmetic unit, 1
06 frame memory, 107 motion compensator, 11
2 frame memory, 201 ROM, 202 CP
U, 203 RAM, 204 input section, 205 output section, 206 HD, 207 communication I / F

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−128823(JP,A) 特表 平11−513222(JP,A) 国際公開95/23411(WO,A1) NPEG−4最新情報,電子情報通信 学会技術研究報告,1997年3月19日,I E96−141,p.1−8 (58)調査した分野(Int.Cl.7,DB名) H04N 7/24 - 7/68 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) References Japanese Unexamined Patent Publication No. 5-128823 (JP, A) Special Table 11-513222 (JP, A) International Publication 95/23411 (WO, A1) NPEG-4 latest information, IEICE Technical Report, March 19, 1997, IE96-141, p. 1-8 (58) Fields investigated (Int.Cl. 7 , DB name) H04N 7/ 24-7/68

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 画像を、その画像を構成するオブジェク
トであるVOP(Video Object Plane)ごとに符号化
し、その結果得られる符号化ビットストリームを出力す
る画像符号化方法であって、 イントラ符号化されるVOPをI−VOP(Intra-VO
P)と、イントラ符号化または前方予測符号化のうちの
いずれかで符号化されるVOPをP−VOP(Predicti
ve-VOP)と、イントラ符号化、前方予測符号化、後方予
測符号化、または両方向予測符号化のうちのいずれかで
符号化されるVOPをB−VOP(Biderectionally Pr
edictive-VOP)と、それぞれするとき、 複数の前記VOPをグループ化し、各グループのVOP
の符号化を開始した絶対時刻を表す絶対時刻情報を前記
グループ単位に付加する第1の付加ステップと、 前記グループ内における相対時刻を、秒精度で表す秒精
度時刻情報を生成する秒精度時刻情報生成ステップと、 前記I−VOP,P−VOP、またはB−VOPそれぞ
れの表示時刻の直前の前記秒精度時刻情報から、それぞ
れの表示時刻までの時間を、秒精度より細かい精度で表
す詳細時間情報を生成する詳細時間情報生成ステップ
と、 前記I−VOP,P−VOP、またはB−VOPの表示
時刻を表す情報として、前記秒精度時刻情報および詳細
時間情報を、対応する前記I−VOP,P−VOP、ま
たはB−VOPにそれぞれ付加する第2の付加ステップ
とを備え、 前記秒精度時刻情報生成ステップにおいて、所定のVO
Pについての前記秒精度時刻情報として、前記絶対時刻
情報から、前記所定のVOPの表示時刻までの時間を、
秒精度で表したもの、または前記所定のVOPの直前に
表示されるI−VOPもしくはP−VOPの表示時刻か
ら、前記所定のVOPの表示時刻までの時間を、秒精度
で表したものを生成し、 前記絶対時刻情報に、前記I−VOP,P−VOP、ま
たはB−VOPそれぞれに付加されている前記秒精度時
刻情報および詳細時間情報を加算した時刻を、前記I−
VOP,P−VOP、またはB−VOPそれぞれの表示
時刻とする ことを特徴とする画像符号化方法。
1. An image encoding method for encoding an image for each VOP (Video Object Plane) which is an object constituting the image, and outputting an encoded bit stream obtained as a result, which is intra-encoded. I-VOP (Intra-VO
P) and a VOP coded by either intra coding or forward predictive coding as P-VOP (Predicti
ve-VOP) and a VOP coded by any of intra coding, forward predictive coding, backward predictive coding, or bidirectional predictive coding, as a B-VOP (Biderectionally Pr
edictive-VOP), each of the plurality of VOPs is grouped, and the VOP of each group is
A first adding step of adding absolute time information representing the absolute time when the encoding of the above is started to the group unit, and second precision time information for generating second precision time information representing relative time within the group with second precision Detailed time information representing the generation step and the time from the second precision time information immediately before the display time of each of the I-VOP, P-VOP, and B-VOP to each display time with a precision finer than the second precision. And a detailed time information generating step of generating the detailed time information, and the second precision time information and the detailed time information as the information indicating the display time of the I-VOP, P-VOP, or B-VOP. -VOP or B-VOP, and a second addition step of adding each to the predetermined VO in the second precision time information generation step.
As the second precision time information about P, the time from the absolute time information to the display time of the predetermined VOP,
Generated in seconds precision or the time from the display time of the I-VOP or P-VOP displayed immediately before the predetermined VOP to the display time of the predetermined VOP in seconds precision and, to the absolute time information, the I-VOP, P-VOP, or
Or the second precision added to each B-VOP
The time obtained by adding the time information and the detailed time information to the I-
Display of VOP, P-VOP, or B-VOP
An image coding method characterized by setting the time .
【請求項2】 画像を、その画像を構成するオブジェク
トであるVOP(Video Object Plane)ごとに符号化し
て得られる符号化ビットストリームを復号する画像復号
方法であって、 イントラ符号化されるVOPをI−VOP(Intra-VO
P)と、イントラ符号化または前方予測符号化のうちの
いずれかで符号化されるVOPをP−VOP(Predicti
ve-VOP)と、イントラ符号化、前方予測符号化、後方予
測符号化、または両方向予測符号化のうちのいずれかで
符号化されるVOPをB−VOP(Biderectionally Pr
edictive-VOP)と、それぞれするとともに、 複数の前記VOPがグループ化され、各グループのVO
Pの符号化を開始した絶対時刻を表す絶対時刻情報が前
記グループ単位に付加されており、 前記グループ内における相対時刻を、秒精度で表す秒精
度時刻情報と、前記I−VOP,P−VOP、またはB
−VOPそれぞれの表示時刻の直前の前記秒精度時刻情
報から、それぞれの表示時刻までの時間を、秒精度より
細かい精度で表す詳細時間情報とが、前記表示時刻を表
す情報として、対応する前記I−VOP,P−VOP、
またはB−VOPにそれぞれ付加されているとき、前記絶対時刻情報に、前記I−VOP,P−VOP、ま
たはB−VOPそれぞれに付加されている前記秒精度時
刻情報および詳細時間情報を加算することで、前記I−
VOP,P−VOP、またはB−VOPそれぞれの表示
時刻を 求める表示時刻算出ステップと、 前記I−VOP,P−VOP、またはB−VOPを、対
応する表示時刻にしたがって復号する復号ステップとを
備え、 所定のVOPについての前記秒精度時刻情報として、前
記絶対時刻情報から、前記所定のVOPの表示時刻まで
の時間を、秒精度で表したもの、または前記所定のVO
Pの直前に表示されるI−VOPもしくはP−VOPの
表示時刻から、前記所定のVOPの表示時刻までの時間
を、秒精度で表したものが用いられていることを特徴と
する画像復号方法。
2. An image decoding method for decoding an encoded bit stream obtained by encoding an image for each VOP (Video Object Plane) which is an object constituting the image, wherein an intra-encoded VOP is I-VOP (Intra-VO
P) and a VOP coded by either intra coding or forward predictive coding as P-VOP (Predicti
ve-VOP) and a VOP coded by any of intra coding, forward predictive coding, backward predictive coding, or bidirectional predictive coding, as a B-VOP (Biderectionally Pr
edictive-VOP) and each of the plurality of VOPs are grouped, and the VO of each group is
Absolute time information indicating the absolute time at which the encoding of P is started is added to the group unit, and the relative time within the group is represented by the second precision time information by the second precision and the I-VOP, P-VOP. , Or B
-Detailed time information indicating the time from the second precision time information immediately before each display time of each VOP to each display time with a precision finer than the second precision, as the information indicating the display time, the corresponding I -VOP, P-VOP,
Alternatively, when added to each B-VOP, the absolute time information includes the I-VOP, P-VOP, or
Or the second precision added to each B-VOP
By adding the time information and the detailed time information, the I-
Display of VOP, P-VOP, or B-VOP
A display time calculation step of calculating the time, the I-VOP, a P-VOP or B-VOP,, and a decoding step of decoding according to the corresponding display time, as the second precision time information for a given VOP, The time from the absolute time information to the display time of the predetermined VOP, which is expressed in seconds, or the predetermined VO.
An image decoding method characterized in that the time from the display time of the I-VOP or P-VOP displayed immediately before P to the display time of the predetermined VOP is expressed with second precision. .
【請求項3】3. 画像を、その画像を構成するオブジェクAn image is an object that composes the image
トであるVOP(Video Object Plane)ごとに符号化しEncoding for each VOP (Video Object Plane)
て得られる符号化ビットストリームを復号する画像復号Image decoding that decodes the encoded bitstream obtained by
装置であって、A device, イントラ符号化されるVOPをI−VOP(Intra-VOAn intra-coded VOP is converted into an I-VOP (Intra-VO
P)と、イントラ符号化または前方予測符号化のうちのP) and intra or forward predictive coding
いずれかで符号化されるVOPをP−VOP(PredictiVOP coded by either P-VOP (Predicti
ve-VOP)と、イントラ符号化、前方予測符号化、後方予ve-VOP), intra coding, forward prediction coding, backward prediction
測符号化、または両方向予測符号化のうちのいずれかでEither in the measurement coding or in the bidirectional predictive coding
符号化されるVOPをB−VOP(Biderectionally PrThe coded VOP is a B-VOP (Biderectionally Pr
edictive-VOP)と、それぞれするとともに、edictive-VOP) 複数の前記VOPがグループ化され、各グループのVOA plurality of the VOPs are grouped, and the VO of each group is
Pの符号化を開始した絶対時刻を表す絶対時刻情報が前Absolute time information indicating the absolute time when the encoding of P is started is
記グループ単位に付加されており、It is added to each group, 前記グループ内における相対時刻を、秒精度で表す秒精The relative time within the group is shown with the second precision.
度時刻情報と、前記I−VOP,P−VOP、またはBDegree time information and the I-VOP, P-VOP, or B
−VOPそれぞれの表示時刻の直前の前記秒精度時刻情-Second precision time information immediately before the display time of each VOP
報から、それぞれの表示時刻までの時間を、秒精度よりFrom the information to the respective display time, the second accuracy
細かい精度で表す詳細時間情報とが、前記表示時刻を表Detailed time information expressed with fine accuracy indicates the display time.
す情報として、対応する前記I−VOP,P−VOP、As the information, the corresponding I-VOP, P-VOP,
またはB−VOPにそれぞれ付加されているとき、Or when added to B-VOP respectively, 前記絶対時刻情報に、前記I−VOP,P−VOP、まThe absolute time information includes the I-VOP, P-VOP,
たはB−VOPそれぞれに付加されている前記秒精度時Or the second precision added to each B-VOP
刻情報および詳細時間情報を加算することで、前記I−By adding the time information and the detailed time information, the I-
VOP,P−VOP、またはB−VOPそれぞれの表示Display of VOP, P-VOP, or B-VOP
時刻を求める表示時刻算出手段と、A display time calculating means for obtaining the time, 前記I−VOP,P−VOP、またはB−VOPを、対The I-VOP, P-VOP, or B-VOP is paired with
応する表示時刻にしたがって復号する復号手段とDecoding means for decoding according to the corresponding display time を備Equipped
え、e, 所定のVOPについての前記秒精度時刻情報として、前As the second precision time information for a predetermined VOP,
記絶対時刻情報から、前記所定のVOPの表示時刻までFrom the absolute time information to the display time of the predetermined VOP
の時間を、秒精度で表したもの、または前記所定のVOOf time in seconds, or the predetermined VO
Pの直前に表示されるI−VOPもしくはP−VOPのI-VOP or P-VOP displayed immediately before P
表示時刻から、前記所定のVOPの表示時刻までの時間Time from the display time to the display time of the predetermined VOP
を、秒精度で表したものが用いられているIs expressed in seconds accuracy is used. ことを特徴とCharacterized by
する画像復号装置。Image decoding device.
JP08075898A 1997-04-01 1998-03-27 Image encoding method, image decoding method, and image decoding device Expired - Fee Related JP3380980B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08075898A JP3380980B2 (en) 1997-04-01 1998-03-27 Image encoding method, image decoding method, and image decoding device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-99683 1997-04-01
JP9968397 1997-04-01
JP08075898A JP3380980B2 (en) 1997-04-01 1998-03-27 Image encoding method, image decoding method, and image decoding device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2000176666A Division JP3380983B2 (en) 1997-04-01 2000-06-13 Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium

Publications (2)

Publication Number Publication Date
JPH10336669A JPH10336669A (en) 1998-12-18
JP3380980B2 true JP3380980B2 (en) 2003-02-24

Family

ID=26421730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08075898A Expired - Fee Related JP3380980B2 (en) 1997-04-01 1998-03-27 Image encoding method, image decoding method, and image decoding device

Country Status (1)

Country Link
JP (1) JP3380980B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100424762B1 (en) * 2001-09-06 2004-03-30 삼성전자주식회사 Image data providing system and method thereof
JP4215643B2 (en) * 2001-11-05 2009-01-28 シャープ株式会社 Video encoding device
CN104782129A (en) 2012-10-09 2015-07-15 光云大学校产学协力团 Inter-layer prediction method for multi-layer video and device therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NPEG−4最新情報,電子情報通信学会技術研究報告,1997年3月19日,IE96−141,p.1−8

Also Published As

Publication number Publication date
JPH10336669A (en) 1998-12-18

Similar Documents

Publication Publication Date Title
JP3380983B2 (en) Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium
KR100629092B1 (en) Picture encoding apparatus, picture encoding method, picture decoding apparatus, picture decoding method and presentation medium
US6427027B1 (en) Picture encoding and/or decoding apparatus and method for providing scalability of a video object whose position changes with time and a recording medium having the same recorded thereon
JP3371191B2 (en) Image signal encoding method and decoding method, and encoding apparatus and decoding apparatus
JP3380980B2 (en) Image encoding method, image decoding method, and image decoding device
JP3345887B2 (en) Image encoding device and image encoding method, image decoding device and image decoding method, and recording medium
CA2421090C (en) Picture coding device, picture coding method, picture decoding device, picture decoding method, and providing medium
JP2001045496A (en) Image coder and image coding method, image decoder and image decoding method, and recorind medium and recording method
JP3263812B2 (en) Image encoding device and image encoding method, and image decoding device and image decoding method
AU731425B2 (en) Picture encoding and decoding
JP2001054120A (en) Image coder, image coding method, image decoder, image decoding method and recording medium

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121220

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121220

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131220

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees