WO2013157308A1 - 画像処理装置及び画像処理方法 - Google Patents

画像処理装置及び画像処理方法 Download PDF

Info

Publication number
WO2013157308A1
WO2013157308A1 PCT/JP2013/055387 JP2013055387W WO2013157308A1 WO 2013157308 A1 WO2013157308 A1 WO 2013157308A1 JP 2013055387 W JP2013055387 W JP 2013055387W WO 2013157308 A1 WO2013157308 A1 WO 2013157308A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
prediction mode
block
unit
mode
Prior art date
Application number
PCT/JP2013/055387
Other languages
English (en)
French (fr)
Inventor
佐藤 数史
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US14/378,714 priority Critical patent/US20160119639A1/en
Publication of WO2013157308A1 publication Critical patent/WO2013157308A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters

Definitions

  • the present disclosure relates to an image processing apparatus and an image processing method.
  • Scalable encoding (also referred to as SVC (Scalable Video Coding) generally refers to a technique for hierarchically encoding a layer that transmits a coarse image signal and a layer that transmits a fine image signal.
  • Typical attributes hierarchized in scalable coding are mainly the following three types. Spatial scalability: Spatial resolution or image size is layered. -Time scalability: Frame rate is layered. -SNR (Signal to Noise Ratio) scalability: SN ratio is hierarchized. In addition, bit depth scalability and chroma format scalability are also discussed, although not yet adopted by the standard.
  • encoding efficiency can be improved by encoding parameters that can be shared between layers only within one layer.
  • encoding parameters that can be shared between layers only within one layer.
  • H.M. In H.264 / AVC Annex G SVC, reference image information can be shared between layers.
  • intra prediction and inter prediction are techniques that reduce the amount of code by utilizing spatial correlation or temporal correlation of images, and the characteristics of these correlations do not change greatly between layers.
  • a base that generates a prediction image in a prediction mode specified by prediction mode information in a first prediction mode set for a first block in a base layer that is decoded by a first encoding scheme.
  • a layer prediction unit and a second block corresponding to the first block in the enhancement layer decoded by the second encoding method having a second prediction mode set different from the first prediction mode set
  • an enhancement layer prediction unit that generates a prediction image in a prediction mode selected from the second prediction mode set based on a prediction mode designated for the first block.
  • the image processing apparatus can typically be realized as an image decoding apparatus that decodes an image.
  • a prediction image is generated in a prediction mode specified by prediction mode information in the first prediction mode set for the first block in the base layer decoded by the first encoding method.
  • a second block corresponding to the first block in the enhancement layer that is decoded with a second coding scheme having a second prediction mode set different from the first prediction mode set, Generating a prediction image in a prediction mode selected from the second prediction mode set based on a prediction mode specified for the first block is provided.
  • a base that generates a prediction image in an optimal prediction mode selected from the first prediction mode set for the first block in the base layer that is encoded by the first encoding method.
  • a second block corresponding to the first block in the enhancement layer encoded by the second encoding method having a layer prediction unit and a second prediction mode set different from the first prediction mode set
  • an enhancement layer prediction unit that generates a prediction image in a prediction mode selected from the second prediction mode set based on a prediction mode selected for the first block. Is done.
  • the image processing apparatus can typically be realized as an image encoding apparatus that encodes an image.
  • a prediction image is generated in an optimal prediction mode selected from the first prediction mode set for the first block in the base layer encoded by the first encoding method.
  • a second block corresponding to the first block in an enhancement layer encoded with a second encoding scheme having a second prediction mode set different from the first prediction mode set Generating a predicted image in a prediction mode selected from the second prediction mode set based on a prediction mode selected for a first block is provided.
  • Outline 1-1 Scalable coding 1-2. Prediction mode set for base layer 1-3. Prediction mode set for enhancement layer 1-4. Prediction mode mapping 1-5.
  • Basic configuration example of encoder 1-6 1. Basic configuration example of decoder Example of configuration of encoding unit according to embodiment 2-1. Overall configuration 2-2. Detailed configuration of intra prediction unit 2-3. 2. Detailed configuration of inter prediction unit 3. Process flow during encoding according to one embodiment 4. Configuration example of decoding unit according to embodiment 4-1. Overall configuration 4-2. Detailed configuration of intra prediction unit 4-3. 4. Detailed configuration of inter prediction unit 5. Flow of processing at the time of decoding according to one embodiment Modification 6-1. Expansion of prediction mode 6-2. 6. Switching according to the combination of encoding methods Application example 7-1. Application to various products 7-2. Various uses of scalable coding 7-3. Others 8. Summary
  • scalable coding In scalable encoding, a plurality of layers each including a series of images are encoded.
  • the base layer is a layer that expresses the coarsest image that is encoded first.
  • the base layer coded stream may be decoded independently without decoding the other layer coded streams.
  • a layer other than the base layer is a layer called an enhancement layer (enhancement layer) that represents a finer image.
  • the enhancement layer encoded stream is encoded using information included in the base layer encoded stream. Accordingly, in order to reproduce the enhancement layer image, both the base layer and enhancement layer encoded streams are decoded.
  • the number of layers handled in scalable coding may be any number of two or more.
  • the lowest layer is the base layer
  • the remaining layers are enhancement layers.
  • the higher enhancement layer encoded stream may be encoded and decoded using information contained in the lower enhancement layer or base layer encoded stream.
  • a layer on which the dependency is made is referred to as a lower layer
  • a layer on which the dependency is concerned is referred to as an upper layer.
  • FIG. 1 shows three layers L1, L2 and L3 to be scalable encoded.
  • Layer L1 is a base layer
  • layers L2 and L3 are enhancement layers.
  • spatial scalability is taken as an example among various types of scalability.
  • the ratio of the spatial resolution of the layer L2 to the layer L1 is 2: 1.
  • the ratio of the spatial resolution of layer L3 to layer L1 is 4: 1.
  • the block B1 of the layer L1 is a processing unit of prediction processing in the base layer picture.
  • the block B2 in the layer L2 is a processing unit for prediction processing in a picture of the enhancement layer that shows a scene common to the block B1 (in HEVC, the processing unit is referred to as a prediction unit).
  • Block B2 corresponds to block B1 of layer L1.
  • the block B3 of the layer L3 is a processing unit for prediction processing in a picture of a higher enhancement layer that shows a scene common to the blocks B1 and B2.
  • the block B3 corresponds to the block B1 of the layer L1 and the block B2 of the layer L2.
  • the spatial correlation of an image of a certain layer is usually similar to the spatial correlation of images of other layers corresponding to a common scene.
  • the block B1 has a strong correlation with an adjacent block in a certain direction in the layer L1
  • the block B2 has a strong correlation with an adjacent block in the same direction in the layer L2.
  • the temporal correlation of one layer of images is usually similar to the temporal correlation of images of other layers corresponding to a common scene. For example, if block B1 in layer L1 has a strong correlation with a reference block in a reference picture, block B2 in layer L2 is strong with a corresponding reference block in the same reference picture (only the layers differ) It is likely to have a correlation. The same can be said between the layer L2 and the layer L3.
  • Non-Patent Document 2 when a plurality of layers are encoded by different image encoding schemes, it is predicted that the supported prediction mode sets are not the same. Can be a hindrance to sharing.
  • the base layer is encoded with AVC (Advanced Video Coding), and the enhancement layer is encoded with HEVC (High Efficiency Video Coding).
  • AVC Advanced Video Coding
  • HEVC High Efficiency Video Coding
  • the technology according to the present disclosure is not limited to such an example, and other image encoding scheme combinations (for example, the base layer is encoded with MPEG2 and the enhancement layer is encoded with HEVC). Applicable.
  • the fact that the spatial correlation and temporal correlation of images are similar between layers is the same not only in the spatial scalability illustrated in FIG. 1 but also in SNR scalability, bit depth scalability, and chroma format scalability.
  • the technology according to the present disclosure can also be applied to scalable coding that realizes these types of scalability.
  • the base layer may be encoded by any encoding method such as AVC, MPEG2 or HEVC.
  • the prediction direction in mode 0 is the vertical direction.
  • the prediction direction in mode 1 is the horizontal direction.
  • Mode 2 represents DC prediction.
  • the prediction direction in mode 3 is diagonally lower left.
  • the prediction direction in mode 4 is diagonally lower right.
  • the prediction direction in mode 5 is vertical right.
  • the prediction direction in mode 6 is horizontally below.
  • the prediction direction in mode 7 is vertical left.
  • the prediction direction in mode 8 is horizontal.
  • DC prediction is equivalent to so-called average value prediction, and is a prediction mode in which an average of pixel values of a plurality of reference pixels is used as a prediction pixel value.
  • Each of the eight types of prediction modes other than DC prediction is associated with a specific prediction direction.
  • the angular resolution in the prediction direction is 22.5 degrees.
  • mode 0 to mode 3 four types of prediction modes (mode 0 to mode 3) that can be used for a prediction block of a luminance component having a size of 16 ⁇ 16 pixels in AVC are shown.
  • the prediction direction in mode 0 is the vertical direction.
  • the prediction direction in mode 1 is the horizontal direction.
  • Mode 2 represents DC prediction.
  • Mode 3 represents planar prediction.
  • the planar prediction is a prediction mode in which a value interpolated from the pixel values of the upper and left reference pixels is used as a predicted pixel value.
  • the four types of prediction modes shown in FIG. 2B can be selected.
  • inter prediction motion compensation
  • a reference picture number and a motion vector can be determined for each prediction block having a selected block size. Then, in order to reduce the code amount of the motion vector information, motion vector prediction is performed.
  • FIG. 3A three adjacent blocks BLa, BLb, and BLc adjacent to the prediction block PTe are shown.
  • the motion vectors set in these adjacent blocks BLa, BLb, and BLc are referred to as motion vectors MVa, MVb, and MVc, respectively.
  • the predicted motion vector PMVe for the predicted block PTe can be calculated from the motion vectors MVa, MVb, and MVc using the following prediction formula.
  • the predicted motion vector PMVe is a vector having the central value of the horizontal component and the central value of the vertical component of the motion vectors MVa, MVb, and MVc as components.
  • the non-existing motion vector may be omitted from the argument of the median operation.
  • a difference motion vector MVDe is further calculated according to the following equation. Note that MVe represents an actual motion vector to be used for motion compensation for the prediction block PTe.
  • motion vector information and reference image information representing the differential motion vector MVDe calculated in this way can be encoded for each inter prediction block.
  • AVC supports so-called direct mode mainly for B pictures.
  • the motion vector information is not encoded, and the motion vector information of the prediction block to be encoded is generated from the motion vector information of the encoded prediction block.
  • direct mode There are two types of direct mode: spatial direct mode and temporal direct mode.
  • spatial direct mode the motion vector MVe for the prediction block PTe can be determined as follows using the prediction equation (1) described above.
  • FIG. 3B schematically shows the concept of the temporal direct mode.
  • FIG. 3B shows a reference image IML0 that is an L0 reference picture of the encoding target image IM01 and a reference image IML1 that is an L1 reference picture of the encoding target image IM01.
  • the block Bcol in the reference image IML0 is a collocated block of the prediction block PTe in the encoding target image IM01.
  • the motion vector set in the collocated block Bcol is MVcol.
  • the distance on the time axis between the encoding target image IM01 and the reference image IML0 is TD B
  • the distance on the time axis between the reference image IML0 and the reference image IML1 is TD D.
  • motion vectors MVL0 and MVL1 for the prediction block PTe can be determined as follows.
  • AVC it is specified for each slice whether the spatial direct mode or the temporal direct mode is available. Whether or not the direct mode is used is specified for each block.
  • a skip mode can be specified for each block (macro block).
  • block information for example, motion information and prediction error data
  • a prediction pixel compensated using a prediction motion vector is decoded as it is.
  • the direction (forward reference or backward reference) of the reference image used for motion compensation can be specified for each block.
  • the designated reference direction is L0 prediction
  • usually forward prediction is performed using the L0 reference picture.
  • the designated reference direction is L1 prediction
  • the backward prediction is usually performed using the L1 reference picture.
  • the designated reference direction is bi-prediction, prediction using both the L0 reference picture and the L1 reference picture is performed. Note that both the L0 reference picture and the L1 reference picture may exist in the same direction.
  • the reference direction is not specified.
  • a plurality of prediction modes associated with various prediction directions can be used in addition to DC prediction and plane prediction, similarly to AVC.
  • the angular prediction method (Angular Prediction) in HEVC the angular resolution in the prediction direction is enhanced as compared with AVC.
  • FIG. 4A shows candidates of prediction directions that can be selected in the angle prediction method of HEVC.
  • the pixel P1 illustrated in FIG. 4A is a prediction target pixel.
  • the shaded pixels around the block to which the pixel P1 belongs are reference pixels.
  • the block size is 8 ⁇ 8 pixels, 16 ⁇ 16 pixels, or 32 ⁇ 32 pixels, prediction types corresponding to 33 types of prediction directions (shown by dotted lines and solid lines (both thick lines and thin lines)) are shown.
  • Mode can be selected (in addition to DC prediction and planar prediction).
  • block size is 64 ⁇ 64 pixels
  • two types of prediction directions corresponding to prediction modes
  • a luminance-based color difference prediction mode for generating a prediction image of a color difference component based on the luminance component of the same block is supported for the prediction unit of the color difference component.
  • a linear function having a coefficient that is dynamically calculated is used as the prediction function. Therefore, the prediction mode is also referred to as a linear model (LM) mode.
  • the argument of the prediction function is the value of the luminance component (downsampled as necessary), and the return value is the predicted pixel value of the chrominance component.
  • the prediction function in LM mode may be a linear linear function as follows:
  • Re L ′ (x, y) represents a down-sampled value of the luminance component of the decoded image (so-called reconstructed image).
  • the downsampling (or phase shifting) of the luminance component can be performed when the density of the color difference component is different from the density of the luminance component depending on the chroma format.
  • ⁇ and ⁇ are coefficients calculated from pixel values of adjacent blocks using a predetermined calculation formula.
  • the prediction unit (PU) of the luminance component (Luma) having the size of 16 ⁇ 16 pixels and the PU of the corresponding color difference component (Chroma) Is shown conceptually.
  • the density of the luminance component is twice the density of the color difference component in each of the horizontal direction and the vertical direction.
  • Circles located around each PU and filled in the drawing are reference pixels referred to when calculating the coefficients ⁇ and ⁇ of the prediction function.
  • the circles shaded with diagonal lines on the right in the figure are downsampled luminance components.
  • the predicted value of the color difference component at the common pixel position is calculated.
  • the chroma format is 4: 2: 0, as shown in the example of FIG. 4B, one luminance component input value (a value assigned to the prediction function) is generated by downsampling for every 2 ⁇ 2 luminance components. Is done. Reference pixels can be similarly downsampled.
  • the coefficients ⁇ and ⁇ of the prediction function are calculated according to the following equations (7) and (8), respectively.
  • I represents the number of reference pixels.
  • the prediction mode set supported for HEVC intra prediction is not the same as the prediction mode set supported for AVC intra prediction.
  • the DC prediction mode and the planar prediction mode are supported in HEVC, whereas the planar prediction mode is not supported in AVC.
  • the HEVC newly supports a merge mode as a prediction mode for inter prediction.
  • the merge mode is a prediction mode in which a prediction block is merged with a block having common motion information among reference blocks in the spatial direction or the temporal direction, thereby omitting the encoding of the motion information for the prediction block.
  • a mode for merging predicted blocks in the spatial direction is also referred to as a spatial merge mode
  • a mode for merging predicted blocks in the temporal direction is also referred to as a temporal merge mode.
  • a prediction block PTe in the encoding target image IM10 is shown.
  • Blocks B11 and B12 are adjacent blocks on the left and above the prediction block PTe, respectively.
  • the motion vector MV10 is a motion vector calculated for the prediction block PTe.
  • the motion vectors MV11 and MV12 are reference motion vectors calculated for the adjacent blocks B11 and B12, respectively.
  • a collocated block Bcol of the prediction block PTe is shown in the reference image IM1ref.
  • the motion vector MVcol is a reference motion vector calculated for the collocated block Bcol.
  • merge information indicating that the prediction block PTe is spatially merged may be encoded.
  • the merge information may also indicate with which neighboring blocks the predicted block PTe is merged.
  • merge information indicating that the prediction blocks PTe are merged in time may be encoded.
  • motion vector information is encoded for the prediction block PTe.
  • a mode in which motion vector information is encoded is referred to as an AMVP (Advanced Motion Vector Prediction) mode.
  • AMVP Advanced Motion Vector Prediction
  • predictor information, differential motion vector information, and reference image information can be encoded as motion information.
  • the predictor in the AMVP mode does not include a median operation, unlike the prediction formula described above in AVC.
  • Blocks B21 to B25 are adjacent blocks adjacent to the prediction block PTe.
  • the block Bcol is a collocated block of the prediction block PTe in the reference image.
  • the predictor information indicates one of the blocks B21 to B25.
  • the time predictor is used, the predictor information points to the block Bcol.
  • the motion vector of the reference block indicated by the predictor information is used as the predicted motion vector PMVe for the predicted block PTe.
  • the difference motion vector MVDe for the prediction block PTe is calculated by the same calculation formula as Expression (2).
  • the AMVP mode in which the spatial predictor is used is also referred to as a spatial motion vector prediction mode
  • the AMVP mode in which the temporal predictor is used is also referred to as a temporal motion vector prediction mode.
  • the prediction mode set supported for HEVC inter prediction is not the same as the prediction mode set supported for AVC inter prediction.
  • the direct mode supported by AVC is not supported by HEVC.
  • the merge mode supported by HEVC is not supported by AVC.
  • the predictor used for predicting motion vectors in the HEVC AMVP mode is different from the predictor used in AVC. Therefore, it is difficult to simply reuse a prediction mode selected from a prediction mode set supported by AVC in the base layer in the enhancement layer.
  • any of L0 prediction, L1 prediction, and bi-prediction can be designated for each block as a reference direction for motion compensation.
  • the reference direction is not specified.
  • Prediction mode mapping When encoding a plurality of layers with different image coding schemes in scalable coding, if the prediction mode of intra prediction or inter prediction is not shared between layers, the coding efficiency increases due to the increase in the amount of prediction mode information. Can be reduced. In addition, more processing costs are required for searching for a prediction mode at the time of encoding. Therefore, in the technology according to the present disclosure, the prediction mode is selected in the enhancement layer based on the prediction mode selected in the base layer by defining the mapping of the prediction mode between image coding schemes having different prediction mode sets. Make it possible.
  • the mapping of the prediction mode may be defined, for example, according to the three criteria described below.
  • the base layer is encoded with the first encoding scheme having the first prediction mode set
  • the enhancement layer is encoded with the second encoding scheme having the second prediction mode set.
  • the first block is a prediction block in the base layer
  • the second block is a prediction block corresponding to the first block in the enhancement layer.
  • the prediction mode in the second prediction mode set corresponding to the prediction mode in the first prediction mode set that was not selected for the first block is the second block. Excluded from the selection.
  • a prediction mode that is a selection candidate in the second block (hereinafter referred to as candidate mode) is a prediction mode corresponding to the prediction mode selected for the first block, and the first prediction.
  • a prediction mode in which no corresponding prediction mode exists in the mode set may be included.
  • the prediction mode based on the spatial correlation of the image is the second criterion. Selected for block.
  • a prediction mode based on temporal correlation of the image is selected for the first block
  • a prediction mode based on temporal correlation of the image is selected for the second block.
  • FIG. 6 is an explanatory diagram for explaining an example of intra prediction prediction mode set mapping between AVC and HEVC.
  • the AVC prediction mode set PMS1 is listed on the left side
  • the HEVC prediction mode set PMS2 is listed on the right side.
  • the prediction mode set PMS1 includes eight types of predictions associated with the DC prediction mode and a specific prediction direction, respectively. Mode ("Others" in the figure). If the scalability ratio is 1: 2, the size of the prediction block (second block) of the corresponding luminance component in the enhancement layer is 16 ⁇ 16 pixels.
  • the prediction mode set PMS2 includes a DC prediction mode, a planar prediction mode, and a plurality of angular prediction modes each associated with a specific prediction direction.
  • the encoder narrows down the candidate mode into two of the DC prediction mode and the plane prediction mode for the second prediction block, and selects an optimal prediction mode from these two candidate modes. In this case, it is sufficient that only 1-bit prediction mode information is encoded in the encoded stream.
  • the decoder decodes such prediction mode information and selects a DC prediction mode or a planar prediction mode for the second block.
  • the prediction mode set PMS1 includes a DC prediction mode, a planar prediction mode, a vertical direction, and a horizontal direction, respectively. Two types of prediction modes to be associated are included. If the scalability ratio is 1: 2, the size of the prediction block (second block) of the corresponding luminance component in the enhancement layer is 32 ⁇ 32 pixels.
  • the prediction mode set PMS2 includes a DC prediction mode, a planar prediction mode, and a plurality of angular prediction modes each associated with a specific prediction direction.
  • the encoder narrows down the candidate mode to only the DC prediction mode for the second prediction block. In this case, since only one candidate mode remains, the encoder selects a DC prediction mode that is the one candidate mode. In this case, the prediction mode information may not be encoded.
  • the decoder refers to the prediction mode specified for the first block and selects the DC prediction mode for the second block. If the planar prediction mode is selected for the first block from the prediction mode set PMS1, the planar prediction mode is similarly selected for the second block.
  • mode 7 (vertical left) illustrated in FIG. 2A is selected for the first block that is a prediction block of 8 ⁇ 8 pixels of the luminance component in the base layer.
  • the DC prediction mode and the plane prediction mode are excluded from the selection of the prediction mode for the second block (the plane prediction mode may not be excluded).
  • the prediction direction is also narrowed down. For example, assuming that the horizontal direction is 0 degree and the angle increases counterclockwise, the prediction direction of the selected mode 7 is 67.5 degrees. The prediction direction of mode 0 and the prediction direction of mode 4 which are not selected together is 90 degrees.
  • the range of the prediction direction of the angle prediction mode can be narrowed down to a range larger than 45 degrees and smaller than 90 degrees.
  • the encoder narrows down the candidate modes for the second prediction block to the angle prediction modes corresponding to the seven prediction directions within the range of 50.625 degrees to 84.375 degrees, Among them, the optimum prediction mode is selected (see FIG. 7).
  • the encoded prediction mode information is a parameter indicating a difference in prediction direction between the prediction mode selected for the first block and the prediction mode selected for the second block. It's okay. In the example of FIG.
  • angle difference ⁇ 5.625 degrees
  • seven code numbers respectively corresponding to ⁇ 3 ⁇ , ⁇ 2 ⁇ , ⁇ , 0, ⁇ , 2 ⁇ , and 3 ⁇ are used for the prediction mode information. Is given. Since there is a high probability that the angle difference between layers in the optimal prediction direction is close to zero, the code amount of the enhancement layer after variable-length coding is effective by assigning a smaller code number to a smaller angle difference. Can be reduced.
  • the angle difference ⁇ may be another value (for example, 11.25 degrees) depending on the block size.
  • the prediction mode set PMS1 includes two types associated with the DC prediction mode, the planar prediction mode, the vertical direction, and the horizontal direction, respectively. Prediction mode (“Others” in the figure) is included.
  • the prediction mode set PMS2 includes two types of angular prediction modes associated with the DC prediction mode, the planar prediction mode, the vertical direction and the horizontal direction, and Includes LM mode.
  • the DC prediction mode is selected for the first block from the prediction mode set PMS1
  • the plane prediction mode and the angle prediction mode are excluded from the selection of the prediction mode for the second block.
  • the encoder narrows down the candidate mode into two of the DC prediction mode and the LM mode for the second prediction block, and selects an optimal prediction mode from these two candidate modes.
  • the decoder decodes such prediction mode information and selects a DC prediction mode or an LM mode for the second block.
  • the candidate mode is selected for the first block for the second prediction block as well.
  • the prediction mode and the LM mode are narrowed down to two.
  • FIG. 8A is an explanatory diagram for describing a first example of inter-prediction prediction mode set mapping between AVC and HEVC. Referring to FIG. 8A, the AVC prediction mode set PMS3 is listed on the left side, and the HEVC prediction mode set PMS4 is listed on the right side.
  • the prediction mode set PMS3 includes a spatial direct mode, a temporal direct mode, and other prediction modes.
  • the prediction mode set PMS4 includes a spatial motion vector prediction mode (spatial AMVP mode), a spatial merge mode, a temporal motion vector prediction mode (temporal AMVP mode). ) And time merge mode.
  • spatial AMVP mode spatial AMVP mode
  • spatial merge mode temporal motion vector prediction mode
  • temporal AMVP mode temporal AMVP mode
  • time merge mode if the spatial direct mode (based on the spatial correlation of the image) is selected for the first block from the prediction mode set PMS3, the candidate mode for the second block (again, the spatial mode of the image) It is narrowed down to two: a spatial motion vector prediction mode (based on correlation) and a spatial merge mode.
  • the encoder selects an optimal prediction mode from these two candidate modes.
  • the temporal direct mode (based on the temporal correlation of the image) is selected for the first block from the prediction mode set PMS3
  • the candidate mode for the second block (again, the temporal of the image) Narrow down to two: temporal motion vector prediction mode and temporal merge mode (based on correlation).
  • the encoder selects an optimal prediction mode from these two candidate modes.
  • the non-direct mode is selected from the prediction mode set PMS3
  • the candidate mode for the second block may not be narrowed down.
  • FIG. 8B is an explanatory diagram for describing a second example of mapping of a prediction mode set of inter prediction between AVC and HEVC.
  • a fourth criterion different from the above-mentioned criterion for mapping the prediction mode is introduced.
  • a prediction mode that similarly omits coding of motion vector information is set to the second block. Selected for.
  • the AVC prediction mode set PMS3 is listed on the left side
  • the HEVC prediction mode set PMS4 is listed again on the right side.
  • the prediction mode set PMS3 includes a skip mode.
  • the candidate mode for the second block is narrowed down to the merge mode.
  • the prediction mode for the second block may be a spatial merge mode.
  • the prediction mode for the second block may be a temporal merge mode.
  • the encoder may select the optimal prediction mode among the spatial merge mode and the temporal merge mode for the second block.
  • the candidate mode for the second block is narrowed down to the motion vector prediction mode.
  • the encoder may select an optimal prediction mode among the spatial motion vector prediction mode and the temporal motion vector prediction mode for the second block.
  • Such mapping can also reduce the code amount of the prediction mode information to be encoded and reduce the processing cost for searching for the prediction mode at the time of encoding.
  • the prediction mode is mapped according to the similarity of the correlation characteristics of the images, it is possible to reduce the code amount without reducing the prediction accuracy of inter prediction in the enhancement layer.
  • the reference direction selected for the first block in the base layer may be reused for the second block in the enhancement layer. That is, if the L0 prediction is selected for the first block, the L0 prediction can be selected for the corresponding second block. If the L1 prediction is selected for the first block, the L1 prediction may be selected for the corresponding second block. If bi-prediction is selected for the first block, bi-prediction may be selected for the corresponding second block. Thereby, the code amount for encoding the reference direction in the enhancement layer can be reduced.
  • prediction mode mapping shown in this section is only an example. Different forms of mapping are also available.
  • FIG. 9 is a block diagram illustrating a schematic configuration of an image encoding device 10 according to an embodiment that supports scalable encoding.
  • the image encoding device 10 includes a first encoding unit 1a, a second encoding unit 1b, a common memory 2, and a multiplexing unit 3.
  • the first encoding unit 1a encodes the base layer image and generates an encoded stream of the base layer.
  • the second encoding unit 1b encodes the enhancement layer image and generates an enhancement layer encoded stream.
  • the common memory 2 stores information commonly used between layers.
  • the multiplexing unit 3 multiplexes the encoded stream of the base layer generated by the first encoding unit 1a and the encoded stream of one or more enhancement layers generated by the second encoding unit 1b. A multiplexed stream of layers is generated.
  • FIG. 10 is a block diagram illustrating a schematic configuration of an image decoding device 60 according to an embodiment that supports scalable coding.
  • the image decoding device 60 includes a demultiplexing unit 5, a first decoding unit 6 a, a second decoding unit 6 b, and a common memory 7.
  • the demultiplexing unit 5 demultiplexes the multi-layer multiplexed stream into a base layer encoded stream and one or more enhancement layer encoded streams.
  • the first decoding unit 6a decodes the base layer image from the base layer encoded stream.
  • the second decoding unit 6b decodes the enhancement layer image from the enhancement layer encoded stream.
  • the common memory 7 stores information commonly used between layers.
  • the configuration of the first encoding unit 1a for encoding the base layer and the configuration of the second encoding unit 1b for encoding the enhancement layer are mutually Similar. Some parameters generated or acquired by the first encoding unit 1a are buffered using the common memory 2 and reused by the second encoding unit 1b. In the next section, the configuration of the first encoding unit 1a and the second encoding unit 1b will be described in detail.
  • the configuration of the first decoding unit 6a for decoding the base layer and the configuration of the second decoding unit 6b for decoding the enhancement layer are similar to each other. . Some parameters generated or acquired by the first decoding unit 6a are buffered using the common memory 7 and reused by the second decoding unit 6b. Further, in the next section, the configuration of the first decoding unit 6a and the second decoding unit 6b will be described in detail.
  • FIG. 11 is a block diagram illustrating an example of the configuration of the first encoding unit 1a and the second encoding unit 1b illustrated in FIG.
  • the first encoding unit 1a includes a rearrangement buffer 12, a subtraction unit 13, an orthogonal transformation unit 14, a quantization unit 15, a lossless encoding unit 16, a storage buffer 17, a rate control unit 18, an inverse quantum, and the like.
  • the second encoding unit 1b includes an intra prediction unit 30b instead of the intra prediction unit 30a, and an inter prediction unit 40b instead of the inter prediction unit 40a.
  • the rearrangement buffer 12 rearranges the images included in the series of image data.
  • the rearrangement buffer 12 rearranges the images according to the GOP (Group of Pictures) structure related to the encoding process, and then subtracts the rearranged image data, the intra prediction unit 30a or 30b, and the inter prediction unit. Output to 40a or 40b.
  • GOP Group of Pictures
  • the subtraction unit 13 is supplied with image data input from the rearrangement buffer 12 and predicted image data input from the intra prediction unit 30a or 30b or the inter prediction unit 40a or 40b described later.
  • the subtraction unit 13 calculates prediction error data that is the difference between the image data input from the rearrangement buffer 12 and the predicted image data, and outputs the calculated prediction error data to the orthogonal transform unit 14.
  • the orthogonal transform unit 14 performs orthogonal transform on the prediction error data input from the subtraction unit 13.
  • the orthogonal transformation performed by the orthogonal transformation part 14 may be discrete cosine transformation (Discrete Cosine Transform: DCT) or Karoonen-Labe transformation, for example.
  • the orthogonal transform unit 14 outputs transform coefficient data acquired by the orthogonal transform process to the quantization unit 15.
  • the quantization unit 15 is supplied with transform coefficient data input from the orthogonal transform unit 14 and a rate control signal from the rate control unit 18 described later.
  • the quantizing unit 15 quantizes the transform coefficient data and outputs the quantized transform coefficient data (hereinafter referred to as quantized data) to the lossless encoding unit 16 and the inverse quantization unit 21.
  • the quantization unit 15 changes the bit rate of the quantized data by switching the quantization parameter (quantization scale) based on the rate control signal from the rate control unit 18.
  • the lossless encoding unit 16 generates an encoded stream of each layer by performing lossless encoding processing on the quantized data of each layer input from the quantization unit 15. In addition, the lossless encoding unit 16 encodes information related to intra prediction or information related to inter prediction input from the selector 27, and multiplexes the encoding parameter in the header region of the encoded stream. Then, the lossless encoding unit 16 outputs the generated encoded stream to the accumulation buffer 17.
  • the accumulation buffer 17 temporarily accumulates the encoded stream input from the lossless encoding unit 16 using a storage medium such as a semiconductor memory. Then, the accumulation buffer 17 outputs the accumulated encoded stream to a transmission unit (not shown) (for example, a communication interface or a connection interface with a peripheral device) at a rate corresponding to the bandwidth of the transmission path.
  • a transmission unit for example, a communication interface or a connection interface with a peripheral device
  • the rate control unit 18 monitors the free capacity of the accumulation buffer 17. Then, the rate control unit 18 generates a rate control signal according to the free capacity of the accumulation buffer 17 and outputs the generated rate control signal to the quantization unit 15. For example, the rate control unit 18 generates a rate control signal for reducing the bit rate of the quantized data when the free capacity of the storage buffer 17 is small. For example, when the free capacity of the accumulation buffer 17 is sufficiently large, the rate control unit 18 generates a rate control signal for increasing the bit rate of the quantized data.
  • the inverse quantization unit 21 performs an inverse quantization process on the quantized data input from the quantization unit 15. Then, the inverse quantization unit 21 outputs transform coefficient data acquired by the inverse quantization process to the inverse orthogonal transform unit 22.
  • the inverse orthogonal transform unit 22 restores the prediction error data by performing an inverse orthogonal transform process on the transform coefficient data input from the inverse quantization unit 21. Then, the inverse orthogonal transform unit 22 outputs the restored prediction error data to the addition unit 23.
  • the adding unit 23 adds the restored prediction error data input from the inverse orthogonal transform unit 22 and the predicted image data input from the intra prediction unit 30a or 30b or the inter prediction unit 40a or 40b, thereby decoding a decoded image. Data (so-called reconstructed image) is generated. Then, the addition unit 23 outputs the generated decoded image data to the deblock filter 24 and the frame memory 25.
  • the deblocking filter 24 performs a filtering process for reducing block distortion that occurs during image coding.
  • the deblocking filter 24 removes block distortion by filtering the decoded image data input from the adding unit 23, and outputs the decoded image data after filtering to the frame memory 25.
  • the frame memory 25 stores the decoded image data input from the adder 23 and the decoded image data after filtering input from the deblock filter 24 using a storage medium.
  • the selector 26 reads out the decoded image data before filtering used for intra prediction from the frame memory 25, and supplies the read decoded image data to the intra prediction unit 30a or 30b as reference image data. Further, the selector 26 reads out the decoded image data after filtering used for inter prediction from the frame memory 25, and supplies the read out decoded image data to the inter prediction unit 40a or 40b as reference image data.
  • the selector 27 In the intra prediction mode, the selector 27 outputs the prediction image data as a result of the intra prediction output from the intra prediction unit 30 a or 30 b to the subtraction unit 13 and outputs information related to the intra prediction to the lossless encoding unit 16. . Further, in the inter prediction mode, the selector 27 outputs the prediction image data as a result of the inter prediction output from the inter prediction unit 40a or 40b to the subtraction unit 13 and also information related to the inter prediction to the lossless encoding unit 16. Output. The selector 27 switches between the intra prediction mode and the inter prediction mode according to the size of the cost function value.
  • the intra prediction unit 30a performs an intra prediction process for each AVC prediction block based on the original image data and decoded image data of the base layer. For example, the intra prediction unit 30a evaluates the prediction result in each prediction mode using a predetermined cost function. Next, the intra prediction unit 30a selects the prediction mode with the smallest cost function value, that is, the prediction mode with the highest compression rate, as the optimum prediction mode. Further, the intra prediction unit 30a generates base layer predicted image data in accordance with the optimal prediction mode. Then, the intra prediction unit 30 a outputs information related to intra prediction including prediction mode information representing the selected optimal prediction mode, cost function values, and predicted image data to the selector 27. In addition, the intra prediction unit 30 a causes the common memory 2 to buffer the prediction mode information.
  • the intra prediction unit 30b performs intra prediction processing for each prediction unit of HEVC based on the original image data and decoded image data of the enhancement layer. For example, the intra prediction unit 30b evaluates the prediction result in each prediction mode using a predetermined cost function. Next, the intra prediction unit 30b selects a prediction mode with the smallest cost function value, that is, a prediction mode with the highest compression rate, as the optimum prediction mode. Moreover, the intra estimation part 30b produces
  • the intra prediction unit 30 b acquires base layer prediction mode information buffered by the common memory 2.
  • the prediction mode information of the base layer represents any prediction mode in the prediction mode set supported by AVC for each prediction block.
  • the intra prediction unit 30b narrows down candidate modes (prediction modes in a prediction mode set supported by HEVC) searched in the enhancement layer intra prediction process based on the prediction mode information.
  • the inter prediction unit 40a performs a motion search process for each prediction block of AVC based on the original image data and decoded image data of the base layer. For example, the inter prediction unit 40a evaluates the prediction result in each prediction mode using a predetermined cost function. Next, the inter prediction unit 40a selects a prediction mode with the smallest cost function value, that is, a prediction mode with the highest compression rate, as the optimum prediction mode. In addition, the inter prediction unit 40a generates base layer predicted image data according to the optimal prediction mode. Then, the inter prediction unit 40a outputs information related to inter prediction including the prediction mode information indicating the selected optimal prediction mode and the reference image information, the cost function value, and the prediction image data to the selector 27. In addition, the inter prediction unit 40 a causes the common memory 2 to buffer the prediction mode information and the reference image information.
  • the inter prediction unit 40b performs motion search processing for each prediction unit of HEVC based on the original image data and decoded image data of the enhancement layer. For example, the inter prediction unit 40b evaluates the prediction result in each prediction mode using a predetermined cost function. Next, the inter prediction unit 40b selects a prediction mode in which the cost function value is minimum, that is, a prediction mode in which the compression rate is the highest, as the optimal prediction mode. In addition, the inter prediction unit 40b generates enhancement layer predicted image data according to the optimal prediction mode. Then, the inter prediction unit 40b outputs information on the inter prediction including the prediction mode information indicating the selected optimal prediction mode and the reference image information, the cost function value, and the prediction image data to the selector 27.
  • the inter prediction unit 40 b acquires base layer prediction mode information buffered by the common memory 2.
  • the prediction mode information of the base layer represents any prediction mode in the prediction mode set supported by AVC for each prediction block. Based on the prediction mode information, the inter prediction unit 40b narrows down candidate modes (prediction modes in a prediction mode set supported by HEVC) to be searched in the enhancement layer motion search process. Reference image information may also be reused between layers.
  • the first encoding unit 1a executes the series of encoding processes described here for a series of image data of the base layer.
  • the second encoding unit 1b performs the series of encoding processes described here on a series of image data of the enhancement layer.
  • the enhancement layer encoding process may be repeated by the number of enhancement layers.
  • the base layer encoding process and the enhancement layer encoding process may be executed in synchronization for each processing unit such as an encoding unit or a prediction unit, for example.
  • FIG. 12 is a block diagram illustrating an example of a detailed configuration of the intra prediction units 30a and 30b illustrated in FIG.
  • the intra prediction unit 30a includes a prediction control unit 31a, a prediction unit 35a, and a mode determination unit 36a.
  • the intra prediction unit 30b includes a prediction control unit 31b, a coefficient calculation unit 32b, a filter 34b, a prediction unit 35b, and a mode determination unit 36b.
  • the prediction control unit 31a of the intra prediction unit 30a controls base layer intra prediction processing according to the AVC specification. For example, the prediction control unit 31a executes an intra prediction process for each color component for each prediction block.
  • the prediction control unit 31a causes the prediction unit 35a to generate a prediction image of each prediction block in a plurality of prediction modes in the prediction mode set PMS1 illustrated in FIG. 6, and the mode determination unit 36a performs optimal prediction. Determine the mode.
  • the prediction unit 35a generates a prediction image of each prediction block according to various candidate modes for each color component under the control of the prediction control unit 31a.
  • the mode determination unit 36a calculates a cost function value for each prediction mode based on the original image data and the predicted image data input from the prediction unit 35a.
  • the mode determination unit 36a selects an optimal prediction mode for each color component based on the calculated cost function value.
  • the mode determination unit 36a outputs information related to intra prediction including prediction mode information representing the selected optimal prediction mode, a cost function value, and predicted image data of each color component to the selector 27.
  • the mode determination unit 36a stores prediction mode information representing an optimal prediction mode for each prediction block in the base layer in a mode information buffer provided in the common memory 2.
  • the prediction control unit 31b of the intra prediction unit 30b controls the enhancement layer intra prediction process according to the HEVC specification. For example, the prediction control unit 31b executes an intra prediction process for each color component for each prediction unit.
  • the prediction control unit 31b causes the prediction unit 35b to generate a prediction image of each prediction unit in one or more prediction modes (candidate modes) in the prediction mode set PMS2 illustrated in FIG.
  • Candidate modes are narrowed down based on prediction mode information of the base layer (or lower layer) acquired from the mode information buffer.
  • the prediction control unit 31b causes the mode determination unit 36b to determine an optimal prediction mode.
  • the coefficient calculation unit 32b calculates the coefficient of the prediction function used by the prediction unit 35b in the LM mode according to the above-described Expression (7) and Expression (8).
  • the filter 34b generates an input value to the prediction function in the LM mode by down-sampling the pixel value of the luminance component according to the chroma format.
  • the prediction unit 35b generates a prediction image of each prediction unit according to the candidate mode specified by the prediction control unit 31b.
  • the block size of the prediction unit (hereinafter referred to as the attention PU) of the prediction target of the luminance component is 16 ⁇ 16 pixels
  • the block size of the prediction block (hereinafter referred to as the corresponding block) in the corresponding base layer is 8 ⁇ 8. Assume that it is a pixel.
  • the prediction mode information of the base layer indicates that the DC prediction mode has been selected for the corresponding block
  • the candidate modes are narrowed down to the DC prediction mode and the planar prediction mode.
  • the prediction unit 35b generates a prediction image in the DC prediction mode and a prediction image in the planar prediction mode.
  • the block size of the attention PU of the luminance component is 32 ⁇ 32 pixels and the block size of the corresponding block is 16 ⁇ 16 pixels. If the base layer prediction mode information indicates that the DC prediction mode has been selected for the corresponding block, the candidate modes are narrowed down to the DC prediction mode only. If the base layer prediction mode information indicates that the planar prediction mode is selected for the corresponding block in the same case, the candidate modes are narrowed down to the planar prediction mode only.
  • the candidate mode is the angle prediction. Filtered to mode. Furthermore, the prediction direction in the angle prediction mode can be narrowed down to a range close to the prediction direction in the prediction mode of the base layer.
  • the candidate mode is narrowed down to the prediction mode and the LM mode selected for the corresponding block.
  • the mode determination unit 36b calculates a cost function value for each prediction mode based on the original image data and the predicted image data input from the prediction unit 35b. And the mode determination part 36b selects the prediction mode about each color component for every prediction unit. When there are a plurality of candidate modes, the prediction mode indicating the minimum cost function value is selected, and prediction mode information indicating the prediction mode selected from the narrowed candidate modes is generated. When there is only one candidate mode, the prediction mode information may not be generated. Then, the mode determination unit 36 b outputs information related to intra prediction that can include prediction mode information, a cost function value, and predicted image data of each color component to the selector 27.
  • the mode determination unit 36b may store prediction mode information for each prediction unit in the mode information buffer.
  • FIG. 13 is a block diagram illustrating an example of a detailed configuration of the inter prediction units 40a and 40b illustrated in FIG.
  • the inter prediction unit 40a includes a prediction control unit 41a, a prediction unit 42a, and a mode determination unit 43a.
  • the inter prediction unit 40b includes a prediction control unit 41b, a prediction unit 42b, and a mode determination unit 43b.
  • the prediction control unit 41a of the inter prediction unit 40a controls the base layer motion search process according to the AVC specification. For example, the prediction control unit 41a performs a motion search process for each color component for each prediction block.
  • the prediction control unit 41a causes the prediction unit 42a to generate a prediction image of each prediction block in the plurality of prediction modes in the prediction mode set PMS3 illustrated in FIG. 8A or 8B, and causes the mode determination unit 43a to The optimum prediction mode is determined.
  • the prediction unit 42a generates a prediction image of each prediction block according to various candidate modes for each color component under the control of the prediction control unit 41a.
  • the mode determination unit 43a calculates a cost function value for each prediction mode based on the original image data and the predicted image data input from the prediction unit 42a.
  • the mode determination unit 43a selects an optimal prediction mode for each color component based on the calculated cost function value.
  • the mode determination unit 43a outputs information related to inter prediction including the prediction mode information indicating the selected optimal prediction mode and reference image information, a cost function value, and predicted image data of each color component to the selector 27.
  • the mode determination unit 43a stores the prediction mode information and reference image information for each prediction block in the base layer in a motion information buffer provided in the common memory 2.
  • the prediction control unit 41b of the inter prediction unit 40b controls enhancement layer motion search processing in accordance with the HEVC specification.
  • the prediction control unit 41b executes a motion search process for each color component for each prediction unit.
  • the prediction control unit 41b causes the prediction unit 42b to generate a prediction image of each prediction unit in one or more prediction modes (candidate modes) in the prediction mode set PMS4 illustrated in FIG. 8A or 8B.
  • Candidate modes are narrowed down based on prediction mode information of the base layer (or lower layer) acquired from the motion information buffer.
  • the prediction control unit 41b causes the mode determination unit 43b to determine an optimal prediction mode.
  • the prediction unit 42b generates a prediction image of each prediction unit according to the candidate mode specified by the prediction control unit 41b.
  • the reference image can be determined according to the reference image information acquired from the motion information buffer.
  • the candidate modes for the attention PU are spatial merge mode and spatial motion vector prediction. Filtered to mode.
  • the prediction unit 42b generates a prediction image in the spatial merge mode and a prediction image in the spatial motion vector prediction mode.
  • the prediction mode for the attention PU is determined to be the spatial merge mode. Also good.
  • the candidate mode for the attention PU is the temporal merge mode and temporal motion.
  • the prediction unit 42b generates a prediction image in the temporal merge mode and a prediction image in the temporal motion vector prediction mode.
  • the prediction mode for the attention PU is determined to be the temporal merge mode. Also good.
  • the prediction mode for the attention PU may be narrowed down to the merge mode.
  • the prediction unit 42b generates a prediction image in the spatial merge mode and a prediction image in the temporal merge mode.
  • the candidate mode for the attention PU when the prediction mode information of the base layer indicates that the non-direct mode is selected for the corresponding block in the base layer, the candidate mode for the attention PU is not narrowed down, and the prediction unit 42b Prediction images for all prediction modes supported by HEVC may be generated. Note that, as in the example illustrated in FIG. 8B, candidate modes for the attention PU may be narrowed down depending on whether the direct mode or the skip mode is selected for the corresponding block in the base layer. (For example, if these modes are not selected, the candidate mode for the attention PU can be narrowed down to the AMVP mode).
  • the prediction unit 42b may reuse the reference direction between layers.
  • the prediction unit 42b may generate a prediction image according to the reference direction (L0 prediction, L1 prediction, or bi-prediction) used for the corresponding block in the base layer.
  • the mode determination unit 43b calculates a cost function value for each prediction mode based on the original image data and the predicted image data input from the prediction unit 42b. And the mode determination part 43b selects the prediction mode about each color component for every prediction unit. When there are a plurality of candidate modes, the prediction mode indicating the minimum cost function value is selected, and prediction mode information indicating the prediction mode selected from the narrowed candidate modes is generated. Then, the mode determination unit 43b outputs information related to inter prediction that can include prediction mode information, a cost function value, and predicted image data of each color component to the selector 27.
  • the mode determination unit 43a may store prediction mode information for each prediction unit in the motion information buffer.
  • FIG. 14 is a flowchart illustrating an example of a schematic processing flow during encoding according to an embodiment. Note that processing steps that are not directly related to the technology according to the present disclosure are omitted from the drawing for the sake of simplicity of explanation.
  • the intra prediction unit 30a for the base layer performs base layer intra prediction processing in accordance with the AVC specification (step S11).
  • the intra prediction unit 30 a stores prediction mode information for each prediction block in the common memory 2.
  • the inter prediction unit 40a for the base layer performs a base layer motion search process in accordance with the AVC specification (step S12).
  • the inter prediction unit 40 a stores prediction mode information and reference image information for each prediction block in the common memory 2.
  • the selector 27 selects the intra prediction mode or the inter prediction mode by comparing the cost function values input from the intra prediction unit 30a and the inter prediction unit 40a (step S13).
  • the lossless encoding unit 16 encodes information related to intra prediction input from the intra prediction unit 30a. Moreover, the lossless encoding part 16 encodes the information regarding the inter prediction input from the inter prediction part 40a, when the inter prediction mode is selected (step S14).
  • the intra prediction unit 30b for the enhancement layer performs an intra prediction process for a corresponding prediction unit in the enhancement layer.
  • the prediction mode candidates are narrowed down based on the prediction mode information of the base layer acquired from the common memory 2.
  • the inter prediction unit 40b for the enhancement layer performs a motion search process for the corresponding prediction unit in the enhancement layer (Ste S17).
  • the prediction mode candidates are narrowed down based on the prediction mode information of the base layer acquired from the common memory 2. Reference image information can also be reused.
  • the lossless encoding unit 16 encodes information related to intra prediction input from the intra prediction unit 30b or information related to inter prediction input from the inter prediction unit 40b (step S18).
  • FIG. 15A is a flowchart illustrating an example of a detailed flow of intra prediction processing for the enhancement layer at the time of encoding, corresponding to step S16 in FIG.
  • the intra prediction unit 30b acquires base layer prediction mode information buffered by the common memory 2 (step S21).
  • the intra prediction unit 30b narrows down the intra prediction candidate modes for the enhancement layer based on the prediction mode of the base layer indicated by the acquired prediction mode information (step S22).
  • the intra prediction unit 30b generates a prediction image according to each of the candidate modes narrowed down based on the prediction mode of the base layer in step S22 (step S23).
  • the intra prediction unit 30b selects an optimal prediction mode by evaluating the cost calculated based on the original image data and the predicted image data. (Step S25). Moreover, the intra estimation part 30b produces
  • the intra prediction unit 30b selects the one candidate mode as the optimum prediction mode (step S27). In this case, prediction mode information is not generated.
  • FIG. 15B is a flowchart illustrating an example of a detailed flow of the motion search process for the enhancement layer at the time of encoding, corresponding to step S17 of FIG.
  • the inter prediction unit 40b acquires base layer prediction mode information and reference image information buffered by the common memory 2 (step S31).
  • the inter prediction unit 40b narrows down the inter prediction candidate modes for the enhancement layer based on the prediction mode of the base layer indicated by the acquired prediction mode information (step S32).
  • the inter prediction unit 40b generates a prediction image according to each candidate mode narrowed down based on the prediction mode of the base layer in step S32 (step S33).
  • the inter prediction unit 40b next selects the optimal prediction mode by evaluating the cost calculated based on the original image data and the predicted image data (step S34).
  • the inter prediction unit 40b generates prediction mode information indicating the prediction mode selected from the narrowed candidate modes (step S35).
  • prediction mode information indicating the prediction mode selected from the narrowed candidate modes.
  • the one candidate mode is selected as the optimum prediction mode, and prediction mode information is not generated.
  • FIG. 16 is a block diagram illustrating an example of the configuration of the first decoding unit 6a and the second decoding unit 6b illustrated in FIG.
  • the first decoding unit 6a includes an accumulation buffer 61, a lossless decoding unit 62, an inverse quantization unit 63, an inverse orthogonal transform unit 64, an addition unit 65, a deblock filter 66, a rearrangement buffer 67, a D / D
  • An A (Digital to Analogue) conversion unit 68, a frame memory 69, selectors 70 and 71, an intra prediction unit 80a, and an inter prediction unit 90a are provided.
  • the second decoding unit 6b includes an intra prediction unit 80b instead of the intra prediction unit 80a, and an inter prediction unit 90b instead of the inter prediction unit 90a.
  • the accumulation buffer 61 temporarily accumulates the encoded stream input via the transmission path using a storage medium.
  • the lossless decoding unit 62 decodes the encoded stream input from the accumulation buffer 61 according to the encoding method used at the time of encoding. In addition, the lossless decoding unit 62 decodes information multiplexed in the header area of the encoded stream.
  • the information decoded by the lossless decoding unit 62 may include, for example, the above-described information related to intra prediction and information related to inter prediction.
  • the lossless decoding unit 62 outputs information related to intra prediction to the intra prediction unit 80a or 80b. Further, the lossless decoding unit 62 outputs information related to inter prediction to the inter prediction unit 90a or 90b.
  • the inverse quantization unit 63 performs inverse quantization on the quantized data decoded by the lossless decoding unit 62.
  • the inverse orthogonal transform unit 64 generates prediction error data by performing inverse orthogonal transform on the transform coefficient data input from the inverse quantization unit 63 according to the orthogonal transform method used at the time of encoding. Then, the inverse orthogonal transform unit 64 outputs the generated prediction error data to the addition unit 65.
  • the addition unit 65 adds the prediction error data input from the inverse orthogonal transform unit 64 and the prediction image data input from the selector 71 to generate decoded image data. Then, the addition unit 65 outputs the generated decoded image data to the deblock filter 66 and the frame memory 69.
  • the deblock filter 66 removes block distortion by filtering the decoded image data input from the adder 65, and outputs the filtered decoded image data to the rearrangement buffer 67 and the frame memory 69.
  • the rearrangement buffer 67 generates a series of time-series image data by rearranging the images input from the deblocking filter 66. Then, the rearrangement buffer 67 outputs the generated image data to the D / A conversion unit 68.
  • the D / A converter 68 converts the digital image data input from the rearrangement buffer 67 into an analog image signal. Then, the D / A conversion unit 68 displays an image by outputting an analog image signal to a display (not shown) connected to the image decoding device 60, for example.
  • the frame memory 69 stores the decoded image data before filtering input from the adding unit 65 and the decoded image data after filtering input from the deblocking filter 66 using a storage medium.
  • the selector 70 selects the output destination of the image data from the frame memory 69 for each block in the image according to the mode information acquired by the lossless decoding unit 62, the intra prediction unit 80a or 80b, and the inter prediction unit 90a or 90b. Switch between. For example, when the intra prediction mode is designated, the selector 70 outputs the decoded image data before filtering supplied from the frame memory 69 to the intra prediction unit 80a or 80b as reference image data. Further, when the inter prediction mode is designated, the selector 70 outputs the decoded image data after filtering supplied from the frame memory 69 to the inter prediction unit 90a or 90b as reference image data.
  • the selector 71 switches the output source of the predicted image data to be supplied to the adding unit 65 between the intra prediction unit 80a or 80b and the inter prediction unit 90a or 90b according to the mode information acquired by the lossless decoding unit 62. .
  • the selector 71 supplies predicted image data output from the intra prediction unit 80a or 80b to the addition unit 65.
  • the selector 71 supplies the predicted image data output from the inter prediction unit 90a or 90b to the adding unit 65.
  • the intra prediction unit 80 a performs base layer intra prediction processing based on the information related to intra prediction input from the lossless decoding unit 62 and the reference image data from the frame memory 69, and generates predicted image data. Then, the intra prediction unit 80a outputs the generated base layer predicted image data to the selector 71. Further, the intra prediction unit 80 a causes the common memory 7 to buffer the prediction mode information.
  • the intra prediction unit 80b performs the intra prediction process of the enhancement layer based on the information related to the intra prediction input from the lossless decoding unit 62 and the reference image data from the frame memory 69, and generates predicted image data. Then, the intra prediction unit 80b outputs the generated predicted image data of the enhancement layer to the selector 71. Also, the intra prediction unit 80 b acquires base layer prediction mode information buffered by the common memory 7. The prediction mode information of the base layer represents any prediction mode in the prediction mode set supported by AVC for each prediction block. The intra prediction unit 80b narrows down prediction modes (prediction modes in a prediction mode set supported by HEVC) specified in the enhancement layer intra prediction processing based on the prediction mode information.
  • the inter prediction unit 90a performs motion compensation processing of the base layer based on the information related to inter prediction input from the lossless decoding unit 62 and the reference image data from the frame memory 69, and generates predicted image data. Then, the inter prediction unit 90 a outputs the generated base layer predicted image data to the selector 71. Further, the inter prediction unit 90 a causes the common memory 7 to buffer the prediction mode information and the reference image information.
  • the inter prediction unit 90b performs motion compensation processing of the enhancement layer based on the information related to inter prediction input from the lossless decoding unit 62 and the reference image data from the frame memory 69, and generates predicted image data. Then, the inter prediction unit 90 a outputs the generated predicted image data of the enhancement layer to the selector 71. Also, the inter prediction unit 90 b acquires base layer prediction mode information buffered by the common memory 7. The prediction mode information of the base layer represents any prediction mode in the prediction mode set supported by AVC for each prediction block. The inter prediction unit 90b narrows down prediction modes (prediction modes in a prediction mode set supported by HEVC) specified in the enhancement layer motion compensation process based on the prediction mode information.
  • the first decoding unit 6a executes the series of decoding processes described here for a series of image data of the base layer.
  • the second decoding unit 6b performs the series of decoding processes described here on a series of image data of the enhancement layer.
  • the enhancement layer decoding process may be repeated by the number of enhancement layers.
  • the base layer decoding process and the enhancement layer decoding process may be executed in synchronization for each processing unit such as a coding unit or a prediction unit, for example.
  • FIG. 17 is a block diagram illustrating an example of a detailed configuration of the intra prediction units 80a and 80b illustrated in FIG.
  • the intra prediction unit 80a includes a prediction control unit 81a and a prediction unit 85a.
  • the intra prediction unit 80b includes a prediction control unit 81b, a coefficient calculation unit 82b, a filter 84b, and a prediction unit 85b.
  • the prediction control unit 81a of the intra prediction unit 80a controls the base layer intra prediction process according to the AVC specification. For example, the prediction control unit 81a executes an intra prediction process for each color component for each prediction block.
  • the prediction control unit 81 a acquires the base layer prediction mode information input from the lossless decoding unit 62.
  • the prediction mode information indicates one of the prediction modes in the prediction mode set PMS1 illustrated in FIG.
  • the prediction unit 85a generates a prediction image of each prediction block according to the prediction mode indicated by the prediction mode information. Then, the prediction unit 85a outputs the generated predicted image data to the selector 71.
  • the prediction control unit 81a stores prediction mode information indicating a prediction mode designated for each prediction block in the base layer in a mode information buffer provided in the common memory 7.
  • the prediction control unit 81b of the intra prediction unit 80b controls the enhancement layer intra prediction process according to the HEVC specification. For example, the prediction control unit 81b executes an intra prediction process for each color component for each prediction unit.
  • the prediction control unit 81b narrows down candidate modes for the enhancement layer based on the prediction mode information of the base layer (or lower layer) acquired from the mode information buffer.
  • Each candidate mode here is one of the prediction modes in the prediction mode set PMS2 illustrated in FIG.
  • the prediction control unit 81b selects the one candidate mode.
  • the prediction control unit 81b selects one candidate mode from the plurality of candidate modes based on the prediction mode information of the enhancement layer input from the lossless decoding unit 62. To do.
  • the prediction unit 85b generates a prediction image of each prediction block according to the prediction mode selected by the prediction control unit 81b. Then, the prediction unit 85b outputs the generated predicted image data to the selector 71.
  • the coefficient calculation unit 82b calculates the coefficient of the prediction function used by the prediction unit 85b in the LM mode according to the above-described Expression (7) and Expression (8).
  • the filter 84b generates an input value to the prediction function in the LM mode by down-sampling the pixel value of the luminance component according to the chroma format.
  • the refinement of the enhancement layer prediction mode based on the base layer prediction mode may be performed, for example, according to the mapping shown in FIG.
  • the block size of the attention PU of the luminance component is 16 ⁇ 16 pixels and the block size of the corresponding block in the base layer is 8 ⁇ 8 pixels.
  • the prediction control unit 81b selects a prediction mode specified by the prediction mode information of the enhancement layer among the DC prediction mode and the planar prediction mode.
  • the prediction mode information may be at most 1 bit.
  • the block size of the attention PU of the luminance component is 32 ⁇ 32 pixels and the block size of the corresponding block is 16 ⁇ 16 pixels. If the base layer prediction mode information indicates that the DC prediction mode is designated for the corresponding block, the candidate modes are narrowed down to the DC prediction mode only. If the base layer prediction mode information indicates that the planar prediction mode is designated for the corresponding block in the same case, the candidate modes are narrowed down to the planar prediction mode only. In this case, the prediction control unit 81b may not acquire the prediction mode information of the enhancement layer.
  • the candidate mode is the angle prediction. Filtered to mode. Furthermore, the prediction direction in the angle prediction mode can be narrowed down to a range close to the prediction direction in the prediction mode of the base layer.
  • the prediction control unit 81b determines the prediction direction of the prediction mode to be selected using the prediction direction of the prediction mode of the base layer and the difference between the prediction directions specified by the prediction mode information of the enhancement layer. And the prediction control part 81b selects the prediction mode corresponding to the determined prediction direction for attention PU.
  • the candidate mode is narrowed down to the prediction mode and the LM mode selected for the corresponding block in the base layer.
  • the prediction control unit 81b selects a prediction mode specified by the prediction mode information of the enhancement layer among the prediction mode and LM mode specified for the corresponding block in the base layer.
  • the prediction mode information may be at most 1 bit.
  • the prediction control unit 81b may store the prediction mode information for each prediction unit in the mode information buffer when there is a higher layer.
  • FIG. 18 is a block diagram illustrating an example of a detailed configuration of the inter prediction units 90a and 90b illustrated in FIG.
  • the inter prediction unit 90a includes a prediction control unit 91a and a prediction unit 92a.
  • the inter prediction unit 90b includes a prediction control unit 91b and a prediction unit 92b.
  • the prediction control unit 91a of the inter prediction unit 90a controls base layer motion compensation processing according to the AVC specification. For example, the prediction control unit 91a performs a motion compensation process for each color component for each prediction block.
  • the prediction control unit 91 a acquires base layer prediction mode information input from the lossless decoding unit 62.
  • the prediction mode information indicates any prediction mode in the prediction mode set PMS3 illustrated in FIG. 8A or FIG. 8B.
  • the prediction unit 92a generates a prediction image of each prediction block according to the prediction mode indicated by the prediction mode information. Then, the prediction unit 92a outputs the generated predicted image data to the selector 71.
  • the prediction control unit 91a stores prediction mode information and reference image information representing a prediction mode designated for each prediction block in the base layer in a motion information buffer provided in the common memory 7.
  • the prediction control unit 91b of the inter prediction unit 90b controls enhancement layer motion compensation processing according to the HEVC specification. For example, the prediction control unit 91b performs a motion compensation process for each color component for each prediction unit.
  • the prediction control unit 91b narrows down candidate modes for the enhancement layer based on the prediction mode information of the base layer (or lower layer) acquired from the motion information buffer.
  • Each candidate mode here is one of the prediction modes in the prediction mode set PMS4 illustrated in FIG. 8A or 8B.
  • the prediction control unit 81b selects one candidate mode from the plurality of candidate modes after narrowing down based on the enhancement layer prediction mode information input from the lossless decoding unit 62.
  • the prediction unit 92b generates a prediction image of each prediction block according to the prediction mode selected by the prediction control unit 91b.
  • the reference image can be determined according to the reference image information acquired from the motion information buffer. Then, the prediction unit 92b outputs the generated predicted image data to the selector 71.
  • Refinement of the prediction mode of the enhancement layer based on the prediction mode of the base layer may be performed, for example, according to the mapping illustrated in FIG. 8A or 8B.
  • the candidate modes for the attention PU are spatial merge mode and spatial motion vector prediction. Filtered to mode.
  • the prediction control unit 91b selects a prediction mode specified by the prediction mode information of the enhancement layer from the spatial merge mode and the spatial motion vector prediction mode.
  • the prediction mode for the attention PU is referred to without referring to the prediction mode information.
  • the spatial merge mode may be selected as
  • the candidate mode for the attention PU is the temporal merge mode and temporal motion.
  • the prediction control unit 91b selects a prediction mode specified by the prediction mode information of the enhancement layer among the temporal merge mode and the temporal motion vector prediction mode.
  • the prediction mode for the attention PU is not referred to the prediction mode information.
  • the time merge mode may be selected.
  • the candidate mode for the attention PU is in the spatial merge mode and the temporal merge mode. It may be narrowed down.
  • the prediction control unit 91b selects a prediction mode specified by the prediction mode information of the enhancement layer among the spatial merge mode and the temporal merge mode.
  • the prediction mode information of the base layer indicates that the non-direct mode is selected for the corresponding block in the base layer
  • the candidate mode for the attention PU is not narrowed down
  • the prediction control unit 91b The prediction mode specified by the prediction mode information of the enhancement layer may be selected from all the prediction modes supported by HEVC. Note that, as in the example illustrated in FIG. 8B, candidate modes for the attention PU may be narrowed down depending on whether the direct mode or the skip mode is selected for the corresponding block in the base layer. .
  • the reference direction may be reused between layers.
  • the prediction control unit 91b may cause the prediction unit 92b to generate a prediction image according to the reference direction (L0 prediction, L1 prediction, or bi-prediction) used for the corresponding block in the base layer.
  • the prediction control unit 91b may store prediction mode information for each prediction unit in the motion information buffer when there is a higher layer.
  • FIG. 19 is a flowchart illustrating an example of a schematic processing flow at the time of decoding according to an embodiment. Note that processing steps that are not directly related to the technology according to the present disclosure are omitted from the drawing for the sake of simplicity of explanation.
  • the lossless decoding unit 62 decodes the encoding parameter of the base layer (step S61).
  • the subsequent processing branches depending on whether the intra prediction mode or the inter prediction mode is designated for each block by the decoded parameters (step S62).
  • the intra prediction unit 80a for the base layer executes the base layer intra prediction process according to the prediction mode designated by the prediction mode information (step S63).
  • the intra prediction unit 80 a stores prediction mode information for each prediction block in the common memory 7.
  • the lossless decoding unit 62 decodes the enhancement layer coding parameters (step S64). Then, the intra prediction unit 80b for the enhancement layer performs an intra prediction process for the corresponding prediction unit in the enhancement layer (step S65).
  • the prediction mode candidates here are narrowed down based on the prediction mode information of the base layer acquired from the common memory 7.
  • the inter prediction unit 90a for the base layer performs the motion compensation process of the base layer according to the prediction mode information and the reference image information (step S66).
  • the inter prediction unit 90 a stores prediction mode information and reference image information for each prediction block in the common memory 7.
  • the lossless decoding unit 62 decodes the enhancement layer coding parameters (step S67). And the inter prediction part 90b for an enhancement layer performs a motion compensation process about the corresponding prediction unit in an enhancement layer (step S68).
  • the prediction mode candidates here are narrowed down based on the prediction mode information of the base layer acquired from the common memory 7. Reference image information can also be reused.
  • FIG. 20A is a flowchart illustrating an example of a detailed flow of intra prediction processing for the enhancement layer at the time of decoding, corresponding to step S65 of FIG.
  • the intra prediction unit 80b acquires base layer prediction mode information buffered by the common memory 7 (step S71).
  • the intra prediction unit 80b narrows down the intra prediction candidate modes for the enhancement layer based on the prediction mode of the base layer indicated by the acquired prediction mode information (step S72).
  • the subsequent processing branches depending on whether or not there are a plurality of candidate modes after narrowing down (step S73).
  • the intra prediction unit 80b acquires the prediction mode information of the enhancement layer when there are a plurality of candidate modes after narrowing down (step S74). And the intra estimation part 80b selects the prediction mode shown by the prediction mode information of an enhancement layer among the candidate modes after narrowing down (step S75).
  • the intra prediction unit 80b selects the one candidate mode (step S76). In this case, enhancement layer prediction mode information is not acquired.
  • the intra prediction unit 80b generates a prediction image according to the prediction mode selected in step S75 or step S76 (step S77).
  • FIG. 20B is a flowchart illustrating an example of a detailed flow of motion compensation processing for the enhancement layer at the time of decoding, corresponding to step S68 in FIG.
  • the inter prediction unit 90b acquires base layer prediction mode information and reference image information buffered by the common memory 7 (step S81).
  • the inter prediction unit 90b narrows down inter prediction candidate modes for the enhancement layer based on the prediction mode of the base layer indicated by the acquired prediction mode information (step S82).
  • the inter prediction unit 90b further acquires enhancement layer prediction mode information (step S83). Then, the inter prediction unit 90b selects a prediction mode indicated by the prediction mode information of the enhancement layer among the candidate modes after narrowing down (step S84).
  • the inter prediction unit 90b generates a prediction image according to the prediction mode selected in step S84 and the reference image information that can be reused (step S85).
  • the inter prediction unit 90b refers to the one candidate mode and reference image information without referring to the prediction mode information of the enhancement layer. According to the above, a predicted image may be generated.
  • the prediction mode set supported in the enhancement layer may not match the prediction mode set supported in single layer normal coding.
  • a prediction mode extended by taking advantage of the feature of the enhancement layer that a lower layer exists may be supported in the enhancement layer.
  • a plurality of prediction modes including a merge mode and a motion vector prediction mode are supported.
  • a candidate predicted motion vector of the attention PU predicted (AMVP mode) or acquired (merge mode) in the i-th prediction mode is defined as PMV i .
  • the motion vector used for the corresponding block in the base layer is assumed to be MV base .
  • the predicted motion vector PMVe used for the attention PU may be determined according to the following equations (9) and (10). Note that the number k is the number of the prediction mode corresponding to the candidate predicted motion vector indicating the smallest difference from the motion vector MV base , as shown in Expression (9).
  • the above equation (9) may be evaluated after scaling the motion vector MV base according to the resolution ratio.
  • the motion vector MV base is scaled based on the difference of the reference index, and then the above equation (9 ) May be evaluated.
  • the reference index may include, for example, the merge index and AMVP index described in “Parsing Robustness for Merge / AMVP” (Toshiyasu Sugio, Takahiro Nishi, JCTVC-F470).
  • the motion vector of the corresponding block in the base layer is closer to the ideal motion vector for the attention PU in the enhancement layer compared to the motion vector of the neighboring block. Therefore, as described above, by selecting the predicted motion vector that shows the smallest difference from the motion vector MV base , it is possible to improve the prediction accuracy of the motion vector in the enhancement layer and improve the encoding efficiency.
  • the base layer motion vector MV base is typically buffered using a common memory.
  • the motion vector MV base may be thinned out during buffering in order to suppress consumption of memory resources.
  • the motion vector MV base may be re-searched from the base layer reconstructed image without being buffered.
  • the re-search method is particularly useful in a type of scalable coding called BLR (spatial scalability using BL Reconstructed pixel only) mode.
  • JCTVC JCTVC
  • VPS Video Parameter Set
  • NAL unit header and parameter set designs for HEVC extensions Jill Boyce, Ye-Kui Wang, JCTVC-K1007
  • the flag may indicate “1” when AVC is used in the base layer, and “0” otherwise.
  • the individual ideas described above may be enabled or disabled depending on the value of this flag decoded from the VPS.
  • the prediction mode for the enhancement layer may be narrowed down according to the technique according to the present disclosure.
  • the prediction mode for example, merge mode or AMVP mode
  • the prediction mode designated for the corresponding block in the base layer remains unchanged in the enhancement layer. It may be selected (reused) for the attention PU.
  • the prediction mode specified in the base layer is reused in the enhancement layer, and the base layer encoding scheme is AVC.
  • the prediction mode information and other information may be encoded in the enhancement layer in the same way as in the normal encoding of a single layer.
  • enhancement layer inter prediction may be performed in a prediction mode that is decoded from the enhancement layer encoded stream without reference to base layer motion information.
  • intra prediction blocks in P pictures and B pictures (pictures for which inter prediction can be performed). Therefore, when intra prediction is executed for the corresponding block in the base layer regardless of the picture type of the enhancement layer, the intra prediction may be executed for the attention PU in the enhancement layer. Instead, when intra prediction is performed for the corresponding block in the base layer, motion information may be separately encoded for the attention PU in the P picture or B picture of the enhancement layer. In the latter case, enhancement layer inter prediction may be performed using motion information decoded from the enhancement layer encoded stream.
  • the image encoding device 10 and the image decoding device 60 are a transmitter or a receiver in satellite broadcasting, cable broadcasting such as cable TV, distribution on the Internet, and distribution to terminals by cellular communication,
  • the present invention can be applied to various electronic devices such as a recording device that records an image on a medium such as an optical disk, a magnetic disk, and a flash memory, or a playback device that reproduces an image from these storage media.
  • a recording device that records an image on a medium such as an optical disk, a magnetic disk, and a flash memory
  • a playback device that reproduces an image from these storage media.
  • FIG. 21 illustrates an example of a schematic configuration of a television device to which the above-described embodiment is applied.
  • the television apparatus 900 includes an antenna 901, a tuner 902, a demultiplexer 903, a decoder 904, a video signal processing unit 905, a display unit 906, an audio signal processing unit 907, a speaker 908, an external interface 909, a control unit 910, a user interface 911, And a bus 912.
  • Tuner 902 extracts a signal of a desired channel from a broadcast signal received via antenna 901, and demodulates the extracted signal. Then, the tuner 902 outputs the encoded bit stream obtained by the demodulation to the demultiplexer 903. In other words, the tuner 902 serves as a transmission unit in the television apparatus 900 that receives an encoded stream in which an image is encoded.
  • the demultiplexer 903 separates the video stream and audio stream of the viewing target program from the encoded bit stream, and outputs each separated stream to the decoder 904. In addition, the demultiplexer 903 extracts auxiliary data such as EPG (Electronic Program Guide) from the encoded bit stream, and supplies the extracted data to the control unit 910. Note that the demultiplexer 903 may perform descrambling when the encoded bit stream is scrambled.
  • EPG Electronic Program Guide
  • the decoder 904 decodes the video stream and audio stream input from the demultiplexer 903. Then, the decoder 904 outputs the video data generated by the decoding process to the video signal processing unit 905. In addition, the decoder 904 outputs audio data generated by the decoding process to the audio signal processing unit 907.
  • the video signal processing unit 905 reproduces the video data input from the decoder 904 and causes the display unit 906 to display the video.
  • the video signal processing unit 905 may cause the display unit 906 to display an application screen supplied via a network.
  • the video signal processing unit 905 may perform additional processing such as noise removal on the video data according to the setting.
  • the video signal processing unit 905 may generate a GUI (Graphical User Interface) image such as a menu, a button, or a cursor, and superimpose the generated image on the output image.
  • GUI Graphic User Interface
  • the display unit 906 is driven by a drive signal supplied from the video signal processing unit 905, and displays a video or an image on a video screen of a display device (for example, a liquid crystal display, a plasma display, or an OLED).
  • a display device for example, a liquid crystal display, a plasma display, or an OLED.
  • the audio signal processing unit 907 performs reproduction processing such as D / A conversion and amplification on the audio data input from the decoder 904, and outputs audio from the speaker 908.
  • the audio signal processing unit 907 may perform additional processing such as noise removal on the audio data.
  • the external interface 909 is an interface for connecting the television apparatus 900 to an external device or a network.
  • a video stream or an audio stream received via the external interface 909 may be decoded by the decoder 904. That is, the external interface 909 also has a role as a transmission unit in the television apparatus 900 that receives an encoded stream in which an image is encoded.
  • the control unit 910 has a processor such as a CPU (Central Processing Unit) and a memory such as a RAM (Random Access Memory) and a ROM (Read Only Memory).
  • the memory stores a program executed by the CPU, program data, EPG data, data acquired via a network, and the like.
  • the program stored in the memory is read and executed by the CPU when the television device 900 is activated, for example.
  • the CPU controls the operation of the television device 900 according to an operation signal input from the user interface 911, for example, by executing the program.
  • the user interface 911 is connected to the control unit 910.
  • the user interface 911 includes, for example, buttons and switches for the user to operate the television device 900, a remote control signal receiving unit, and the like.
  • the user interface 911 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 910.
  • the bus 912 connects the tuner 902, the demultiplexer 903, the decoder 904, the video signal processing unit 905, the audio signal processing unit 907, the external interface 909, and the control unit 910 to each other.
  • the decoder 904 has the function of the image decoding apparatus 60 according to the above-described embodiment. Therefore, when scalable decoding of an image is performed by the television apparatus 900, the amount of code required for prediction mode information can be reduced even when a plurality of layers are encoded by different image encoding methods.
  • FIG. 22 shows an example of a schematic configuration of a mobile phone to which the above-described embodiment is applied.
  • a mobile phone 920 includes an antenna 921, a communication unit 922, an audio codec 923, a speaker 924, a microphone 925, a camera unit 926, an image processing unit 927, a demultiplexing unit 928, a recording / reproducing unit 929, a display unit 930, a control unit 931, an operation A portion 932 and a bus 933.
  • the antenna 921 is connected to the communication unit 922.
  • the speaker 924 and the microphone 925 are connected to the audio codec 923.
  • the operation unit 932 is connected to the control unit 931.
  • the bus 933 connects the communication unit 922, the audio codec 923, the camera unit 926, the image processing unit 927, the demultiplexing unit 928, the recording / reproducing unit 929, the display unit 930, and the control unit 931 to each other.
  • the mobile phone 920 has various operation modes including a voice call mode, a data communication mode, a shooting mode, and a videophone mode, and is used for sending and receiving voice signals, sending and receiving e-mail or image data, taking images, and recording data. Perform the action.
  • the analog voice signal generated by the microphone 925 is supplied to the voice codec 923.
  • the audio codec 923 converts an analog audio signal into audio data, A / D converts the converted audio data, and compresses it. Then, the audio codec 923 outputs the compressed audio data to the communication unit 922.
  • the communication unit 922 encodes and modulates the audio data and generates a transmission signal. Then, the communication unit 922 transmits the generated transmission signal to a base station (not shown) via the antenna 921. In addition, the communication unit 922 amplifies a radio signal received via the antenna 921 and performs frequency conversion to acquire a received signal.
  • the communication unit 922 demodulates and decodes the received signal to generate audio data, and outputs the generated audio data to the audio codec 923.
  • the audio codec 923 expands the audio data and performs D / A conversion to generate an analog audio signal. Then, the audio codec 923 supplies the generated audio signal to the speaker 924 to output audio.
  • the control unit 931 generates character data constituting the e-mail in response to an operation by the user via the operation unit 932.
  • the control unit 931 causes the display unit 930 to display characters.
  • the control unit 931 generates e-mail data in response to a transmission instruction from the user via the operation unit 932, and outputs the generated e-mail data to the communication unit 922.
  • the communication unit 922 encodes and modulates email data and generates a transmission signal. Then, the communication unit 922 transmits the generated transmission signal to a base station (not shown) via the antenna 921.
  • the communication unit 922 amplifies a radio signal received via the antenna 921 and performs frequency conversion to acquire a received signal.
  • the communication unit 922 demodulates and decodes the received signal to restore the email data, and outputs the restored email data to the control unit 931.
  • the control unit 931 displays the content of the electronic mail on the display unit 930 and stores the electronic mail data in the storage medium of the recording / reproducing unit 929.
  • the recording / reproducing unit 929 has an arbitrary readable / writable storage medium.
  • the storage medium may be a built-in storage medium such as a RAM or a flash memory, or an externally mounted storage medium such as a hard disk, a magnetic disk, a magneto-optical disk, an optical disk, a USB memory, or a memory card. May be.
  • the camera unit 926 images a subject to generate image data, and outputs the generated image data to the image processing unit 927.
  • the image processing unit 927 encodes the image data input from the camera unit 926 and stores the encoded stream in the storage medium of the recording / playback unit 929.
  • the demultiplexing unit 928 multiplexes the video stream encoded by the image processing unit 927 and the audio stream input from the audio codec 923, and the multiplexed stream is the communication unit 922. Output to.
  • the communication unit 922 encodes and modulates the stream and generates a transmission signal. Then, the communication unit 922 transmits the generated transmission signal to a base station (not shown) via the antenna 921.
  • the communication unit 922 amplifies a radio signal received via the antenna 921 and performs frequency conversion to acquire a received signal.
  • These transmission signal and reception signal may include an encoded bit stream.
  • the communication unit 922 demodulates and decodes the received signal to restore the stream, and outputs the restored stream to the demultiplexing unit 928.
  • the demultiplexing unit 928 separates the video stream and the audio stream from the input stream, and outputs the video stream to the image processing unit 927 and the audio stream to the audio codec 923.
  • the image processing unit 927 decodes the video stream and generates video data.
  • the video data is supplied to the display unit 930, and a series of images is displayed on the display unit 930.
  • the audio codec 923 decompresses the audio stream and performs D / A conversion to generate an analog audio signal. Then, the audio codec 923 supplies the generated audio signal to the speaker 924 to output audio.
  • the image processing unit 927 has the functions of the image encoding device 10 and the image decoding device 60 according to the above-described embodiment. Thereby, in the case of scalable encoding and decoding of an image with the mobile phone 920, the amount of code required for prediction mode information can be reduced even when a plurality of layers are encoded with different image encoding methods. .
  • FIG. 23 shows an example of a schematic configuration of a recording / reproducing apparatus to which the above-described embodiment is applied.
  • the recording / reproducing device 940 encodes audio data and video data of a received broadcast program and records the encoded data on a recording medium.
  • the recording / reproducing device 940 may encode audio data and video data acquired from another device and record them on a recording medium, for example.
  • the recording / reproducing device 940 reproduces data recorded on the recording medium on a monitor and a speaker, for example, in accordance with a user instruction. At this time, the recording / reproducing device 940 decodes the audio data and the video data.
  • the recording / reproducing device 940 includes a tuner 941, an external interface 942, an encoder 943, an HDD (Hard Disk Drive) 944, a disk drive 945, a selector 946, a decoder 947, an OSD (On-Screen Display) 948, a control unit 949, and a user interface. 950.
  • Tuner 941 extracts a signal of a desired channel from a broadcast signal received via an antenna (not shown), and demodulates the extracted signal. Then, the tuner 941 outputs the encoded bit stream obtained by the demodulation to the selector 946. That is, the tuner 941 has a role as a transmission unit in the recording / reproducing apparatus 940.
  • the external interface 942 is an interface for connecting the recording / reproducing apparatus 940 to an external device or a network.
  • the external interface 942 may be, for example, an IEEE 1394 interface, a network interface, a USB interface, or a flash memory interface.
  • video data and audio data received via the external interface 942 are input to the encoder 943. That is, the external interface 942 serves as a transmission unit in the recording / reproducing device 940.
  • the encoder 943 encodes video data and audio data when the video data and audio data input from the external interface 942 are not encoded. Then, the encoder 943 outputs the encoded bit stream to the selector 946.
  • the HDD 944 records an encoded bit stream in which content data such as video and audio is compressed, various programs, and other data on an internal hard disk. Also, the HDD 944 reads out these data from the hard disk when playing back video and audio.
  • the disk drive 945 performs recording and reading of data to and from the mounted recording medium.
  • the recording medium loaded in the disk drive 945 may be, for example, a DVD disk (DVD-Video, DVD-RAM, DVD-R, DVD-RW, DVD + R, DVD + RW, etc.) or a Blu-ray (registered trademark) disk. .
  • the selector 946 selects an encoded bit stream input from the tuner 941 or the encoder 943 when recording video and audio, and outputs the selected encoded bit stream to the HDD 944 or the disk drive 945. In addition, the selector 946 outputs the encoded bit stream input from the HDD 944 or the disk drive 945 to the decoder 947 during video and audio reproduction.
  • the decoder 947 decodes the encoded bit stream and generates video data and audio data. Then, the decoder 947 outputs the generated video data to the OSD 948. The decoder 904 outputs the generated audio data to an external speaker.
  • the OSD 948 reproduces the video data input from the decoder 947 and displays the video. Further, the OSD 948 may superimpose a GUI image such as a menu, a button, or a cursor on the video to be displayed.
  • a GUI image such as a menu, a button, or a cursor
  • the control unit 949 includes a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, and the like.
  • the program stored in the memory is read and executed by the CPU when the recording / reproducing apparatus 940 is activated, for example.
  • the CPU controls the operation of the recording / reproducing device 940 according to an operation signal input from the user interface 950, for example, by executing the program.
  • the user interface 950 is connected to the control unit 949.
  • the user interface 950 includes, for example, buttons and switches for the user to operate the recording / reproducing device 940, a remote control signal receiving unit, and the like.
  • the user interface 950 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 949.
  • the encoder 943 has the function of the image encoding apparatus 10 according to the above-described embodiment.
  • the decoder 947 has the function of the image decoding device 60 according to the above-described embodiment.
  • FIG. 24 illustrates an example of a schematic configuration of an imaging apparatus to which the above-described embodiment is applied.
  • the imaging device 960 images a subject to generate an image, encodes the image data, and records it on a recording medium.
  • the imaging device 960 includes an optical block 961, an imaging unit 962, a signal processing unit 963, an image processing unit 964, a display unit 965, an external interface 966, a memory 967, a media drive 968, an OSD 969, a control unit 970, a user interface 971, and a bus. 972.
  • the optical block 961 is connected to the imaging unit 962.
  • the imaging unit 962 is connected to the signal processing unit 963.
  • the display unit 965 is connected to the image processing unit 964.
  • the user interface 971 is connected to the control unit 970.
  • the bus 972 connects the image processing unit 964, the external interface 966, the memory 967, the media drive 968, the OSD 969, and the control unit 970 to each other.
  • the optical block 961 includes a focus lens and a diaphragm mechanism.
  • the optical block 961 forms an optical image of the subject on the imaging surface of the imaging unit 962.
  • the imaging unit 962 includes an image sensor such as a CCD or a CMOS, and converts an optical image formed on the imaging surface into an image signal as an electrical signal by photoelectric conversion. Then, the imaging unit 962 outputs the image signal to the signal processing unit 963.
  • the signal processing unit 963 performs various camera signal processing such as knee correction, gamma correction, and color correction on the image signal input from the imaging unit 962.
  • the signal processing unit 963 outputs the image data after the camera signal processing to the image processing unit 964.
  • the image processing unit 964 encodes the image data input from the signal processing unit 963 and generates encoded data. Then, the image processing unit 964 outputs the generated encoded data to the external interface 966 or the media drive 968. The image processing unit 964 also decodes encoded data input from the external interface 966 or the media drive 968 to generate image data. Then, the image processing unit 964 outputs the generated image data to the display unit 965. In addition, the image processing unit 964 may display the image by outputting the image data input from the signal processing unit 963 to the display unit 965. Further, the image processing unit 964 may superimpose display data acquired from the OSD 969 on an image output to the display unit 965.
  • the OSD 969 generates a GUI image such as a menu, a button, or a cursor, for example, and outputs the generated image to the image processing unit 964.
  • the external interface 966 is configured as a USB input / output terminal, for example.
  • the external interface 966 connects the imaging device 960 and a printer, for example, when printing an image.
  • a drive is connected to the external interface 966 as necessary.
  • a removable medium such as a magnetic disk or an optical disk is attached to the drive, and a program read from the removable medium can be installed in the imaging device 960.
  • the external interface 966 may be configured as a network interface connected to a network such as a LAN or the Internet. That is, the external interface 966 has a role as a transmission unit in the imaging device 960.
  • the recording medium mounted on the media drive 968 may be any readable / writable removable medium such as a magnetic disk, a magneto-optical disk, an optical disk, or a semiconductor memory. Further, a recording medium may be fixedly attached to the media drive 968, and a non-portable storage unit such as an internal hard disk drive or an SSD (Solid State Drive) may be configured.
  • a non-portable storage unit such as an internal hard disk drive or an SSD (Solid State Drive) may be configured.
  • the control unit 970 includes a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, and the like.
  • the program stored in the memory is read and executed by the CPU when the imaging device 960 is activated, for example.
  • the CPU controls the operation of the imaging device 960 according to an operation signal input from the user interface 971, for example, by executing the program.
  • the user interface 971 is connected to the control unit 970.
  • the user interface 971 includes, for example, buttons and switches for the user to operate the imaging device 960.
  • the user interface 971 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 970.
  • the image processing unit 964 has the functions of the image encoding device 10 and the image decoding device 60 according to the above-described embodiment. Thereby, in the case of scalable encoding and decoding of an image by the imaging device 960, even when a plurality of layers are encoded by different image encoding methods, the amount of code required for prediction mode information can be reduced. .
  • the data transmission system 1000 includes a stream storage device 1001 and a distribution server 1002.
  • Distribution server 1002 is connected to several terminal devices via network 1003.
  • Network 1003 may be a wired network, a wireless network, or a combination thereof.
  • FIG. 25 shows a PC (Personal Computer) 1004, an AV device 1005, a tablet device 1006, and a mobile phone 1007 as examples of terminal devices.
  • PC Personal Computer
  • the stream storage device 1001 stores, for example, stream data 1011 including a multiplexed stream generated by the image encoding device 10.
  • the multiplexed stream includes a base layer (BL) encoded stream and an enhancement layer (EL) encoded stream.
  • the distribution server 1002 reads the stream data 1011 stored in the stream storage device 1001, and at least a part of the read stream data 1011 is transmitted via the network 1003 to the PC 1004, the AV device 1005, the tablet device 1006, and the mobile phone 1007. Deliver to.
  • the distribution server 1002 selects a stream to be distributed based on some condition such as the capability of the terminal device or the communication environment. For example, the distribution server 1002 may avoid the occurrence of delay, overflow, or processor overload in the terminal device by not distributing an encoded stream having a high image quality that exceeds the image quality that can be handled by the terminal device. . The distribution server 1002 may avoid occupying the communication band of the network 1003 by not distributing an encoded stream having high image quality. On the other hand, the distribution server 1002 distributes all of the multiplexed streams to the terminal device when there is no risk to be avoided or when it is determined to be appropriate based on a contract with the user or some condition. Good.
  • the distribution server 1002 reads the stream data 1011 from the stream storage device 1001. Then, the distribution server 1002 distributes the stream data 1011 as it is to the PC 1004 having high processing capability. Also, since the AV device 1005 has low processing capability, the distribution server 1002 generates stream data 1012 including only the base layer encoded stream extracted from the stream data 1011, and distributes the stream data 1012 to the AV device 1005. To do. Also, the distribution server 1002 distributes the stream data 1011 as it is to the tablet device 1006 that can communicate at a high communication rate. Further, since the cellular phone 1007 can communicate only at a low communication rate, the distribution server 1002 distributes the stream data 1012 including only the base layer encoded stream to the cellular phone 1007.
  • the multiplexed stream By using the multiplexed stream in this way, the amount of traffic to be transmitted can be adjusted adaptively.
  • the code amount of the stream data 1011 is reduced as compared with the case where each layer is individually encoded, even if the entire stream data 1011 is distributed, the load on the network 1003 is suppressed. Is done. Furthermore, memory resources of the stream storage device 1001 are also saved.
  • the hardware performance of terminal devices varies from device to device.
  • the communication capacity of the network 1003 also varies.
  • the capacity available for data transmission can change from moment to moment due to the presence of other traffic. Therefore, the distribution server 1002 transmits terminal information regarding the hardware performance and application capability of the terminal device, the communication capacity of the network 1003, and the like through signaling with the distribution destination terminal device before starting the distribution of the stream data. And network information may be acquired. Then, the distribution server 1002 can select a stream to be distributed based on the acquired information.
  • extraction of a layer to be decoded may be performed in the terminal device.
  • the PC 1004 may display a base layer image extracted from the received multiplexed stream and decoded on the screen. Further, the PC 1004 may extract a base layer encoded stream from the received multiplexed stream to generate stream data 1012, store the generated stream data 1012 in a storage medium, or transfer the stream data 1012 to another device. .
  • the configuration of the data transmission system 1000 shown in FIG. 25 is merely an example.
  • the data transmission system 1000 may include any number of stream storage devices 1001, a distribution server 1002, a network 1003, and terminal devices.
  • a data transmission system 1100 includes a broadcasting station 1101 and a terminal device 1102.
  • the broadcast station 1101 broadcasts a base layer encoded stream 1121 on the terrestrial channel 1111. Also, the broadcast station 1101 transmits an enhancement layer encoded stream 1122 to the terminal device 1102 via the network 1112.
  • the terminal device 1102 has a reception function for receiving a terrestrial broadcast broadcast by the broadcast station 1101, and receives a base layer encoded stream 1121 via the terrestrial channel 1111. Also, the terminal device 1102 has a communication function for communicating with the broadcast station 1101 and receives the enhancement layer encoded stream 1122 via the network 1112.
  • the terminal device 1102 receives the base layer encoded stream 1121 in accordance with an instruction from the user, decodes the base layer image from the received encoded stream 1121, and displays the base layer image on the screen. Good. Further, the terminal device 1102 may store the decoded base layer image in a storage medium or transfer it to another device.
  • the terminal device 1102 receives, for example, the enhancement layer encoded stream 1122 via the network 1112 in accordance with an instruction from the user, and receives the base layer encoded stream 1121 and the enhancement layer encoded stream 1122. Multiplexed streams may be generated by multiplexing. Also, the terminal apparatus 1102 may decode the enhancement layer image from the enhancement layer encoded stream 1122 and display the enhancement layer image on the screen. In addition, the terminal device 1102 may store the decoded enhancement layer image in a storage medium or transfer it to another device.
  • the encoded stream of each layer included in the multiplexed stream can be transmitted via a different communication channel for each layer. Accordingly, it is possible to distribute the load applied to each channel and suppress the occurrence of communication delay or overflow.
  • the communication channel used for transmission may be dynamically selected according to some condition. For example, a base layer encoded stream 1121 having a relatively large amount of data is transmitted via a communication channel having a wide bandwidth, and an enhancement layer encoded stream 1122 having a relatively small amount of data is transmitted via a communication channel having a small bandwidth. Can be transmitted. Further, the communication channel for transmitting the encoded stream 1122 of a specific layer may be switched according to the bandwidth of the communication channel. Thereby, the load applied to each channel can be more effectively suppressed.
  • the configuration of the data transmission system 1100 shown in FIG. 26 is merely an example.
  • the data transmission system 1100 may include any number of communication channels and terminal devices.
  • the system configuration described here may be used for purposes other than broadcasting.
  • the data transmission system 1200 includes an imaging device 1201 and a stream storage device 1202.
  • the imaging device 1201 performs scalable coding on image data generated by imaging the subject 1211 and generates a multiplexed stream 1221.
  • the multiplexed stream 1221 includes a base layer encoded stream and an enhancement layer encoded stream. Then, the imaging device 1201 supplies the multiplexed stream 1221 to the stream storage device 1202.
  • the stream storage device 1202 stores the multiplexed stream 1221 supplied from the imaging device 1201 with different image quality for each mode. For example, the stream storage device 1202 extracts the base layer encoded stream 1222 from the multiplexed stream 1221 in the normal mode, and stores the extracted base layer encoded stream 1222. On the other hand, the stream storage device 1202 stores the multiplexed stream 1221 as it is in the high image quality mode. Thereby, the stream storage device 1202 can record a high-quality stream with a large amount of data only when it is desired to record a video with high quality. Therefore, it is possible to save memory resources while suppressing the influence of image quality degradation on the user.
  • the imaging device 1201 is assumed to be a surveillance camera.
  • the monitoring target for example, an intruder
  • the normal mode is selected.
  • the video is recorded with low image quality (that is, only the base layer coded stream 1222 is stored).
  • the monitoring target for example, the subject 1211 as an intruder
  • the high image quality mode is selected. In this case, since the captured image is likely to be important, priority is given to the high image quality, and the video is recorded with high image quality (that is, the multiplexed stream 1221 is stored).
  • the mode is selected by the stream storage device 1202 based on the image analysis result, for example.
  • the imaging device 1201 may select a mode. In the latter case, the imaging device 1201 may supply the base layer encoded stream 1222 to the stream storage device 1202 in the normal mode and supply the multiplexed stream 1221 to the stream storage device 1202 in the high image quality mode.
  • the selection criteria for selecting the mode may be any standard.
  • the mode may be switched according to the volume of sound acquired through a microphone or the waveform of sound. Further, the mode may be switched periodically. In addition, the mode may be switched according to an instruction from the user.
  • the number of selectable modes may be any number as long as the number of layers to be layered does not exceed.
  • the configuration of the data transmission system 1200 shown in FIG. 27 is merely an example.
  • the data transmission system 1200 may include any number of imaging devices 1201. Further, the system configuration described here may be used in applications other than the surveillance camera.
  • a multi-view codec is an image encoding method for encoding and decoding so-called multi-view video.
  • FIG. 28 is an explanatory diagram for describing the multi-view codec. Referring to FIG. 28, a sequence of frames of three views that are respectively photographed at three viewpoints is shown. Each view is given a view ID (view_id). Any one of the plurality of views is designated as a base view. Views other than the base view are called non-base views. In the example of FIG. 28, a view with a view ID “0” is a base view, and two views with a view ID “1” or “2” are non-base views.
  • the prediction mode for the non-base view is selected based on the prediction mode specified for the base view as a whole.
  • the amount of codes can be reduced.
  • the coding efficiency can be further improved in the multi-view codec.
  • the technology according to the present disclosure may be applied to a streaming protocol.
  • a streaming protocol For example, in MPEG-DASH (Dynamic Adaptive Streaming over HTTP), a plurality of encoded streams having different parameters such as resolution are prepared in advance in a streaming server. Then, the streaming server dynamically selects appropriate data to be streamed from a plurality of encoded streams in units of segments, and distributes the selected data.
  • a prediction mode for another encoded stream may be selected based on a prediction mode specified for one encoded stream.
  • the prediction mode in the second prediction mode set corresponding to the prediction mode in the first prediction mode set that was not selected for the first block is the second block. Excluded from selection for. Therefore, prediction mode candidates can be narrowed down for the enhancement layer. Thereby, the number of bits allocated to prediction mode information can be reduced.
  • the prediction mode corresponding to the prediction mode selected for the first block not only the prediction mode corresponding to the prediction mode selected for the first block, but also the first prediction mode set of the prediction modes in the second prediction mode set.
  • a prediction mode in which no corresponding prediction mode exists is also included in the prediction mode candidates. Therefore, there remains room for using a prediction mode included only in the second prediction mode set supported in the enhancement layer. Thereby, it is possible to achieve higher prediction accuracy while reducing the amount of code required for prediction mode information.
  • the prediction mode based on the spatial correlation of the image is selected for the first block
  • the prediction mode based on the spatial correlation of the image is for the second block. Selected.
  • a prediction mode based on temporal correlation of the image is selected for the first block
  • a prediction mode based on temporal correlation of the image is selected for the second block. Therefore, it is possible to effectively reduce the amount of code required for the prediction mode information by utilizing the correlation characteristics of the images common to the layers.
  • the method for transmitting such information is not limited to such an example.
  • these pieces of information may be transmitted or recorded as separate data associated with the encoded bitstream without being multiplexed into the encoded bitstream.
  • the term “associate” means that an image (which may be a part of an image such as a slice or a block) included in the bitstream and information corresponding to the image can be linked at the time of decoding. Means. That is, information may be transmitted on a transmission path different from that of the image (or bit stream).
  • Information may be recorded on a recording medium (or another recording area of the same recording medium) different from the image (or bit stream). Furthermore, the information and the image (or bit stream) may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part of the frame.
  • a base layer prediction unit that generates a prediction image in a prediction mode specified by prediction mode information in a first prediction mode set for a first block in a base layer decoded by a first encoding method; For a second block corresponding to the first block in an enhancement layer decoded with a second coding scheme having a second prediction mode set different from the first prediction mode set, the first An enhancement layer prediction unit that generates a prediction image in a prediction mode selected from the second prediction mode set based on a prediction mode specified for the block;
  • An image processing apparatus comprising: (2) The enhancement layer prediction unit selects a prediction mode in the second prediction mode set corresponding to a prediction mode in the first prediction mode set that has not been specified for the first block.
  • the image processing apparatus wherein the image processing apparatus is excluded from selection for a block.
  • the enhancement layer prediction unit includes a prediction mode corresponding to a prediction mode selected for the first block in the second prediction mode set, and a prediction mode corresponding to the first prediction mode set.
  • the image processing apparatus according to (2), wherein a prediction mode specified by prediction mode information is selected for the second block among prediction modes in which no exists.
  • the image processing apparatus according to any one of (1) to (3), wherein the first prediction mode set and the second prediction mode set are sets of prediction modes for intra prediction.
  • the first prediction mode set includes a DC prediction mode, does not include a planar prediction mode,
  • the second prediction mode set includes a DC prediction mode and a planar prediction mode;
  • the enhancement layer prediction unit selects a prediction mode specified for the second block among the DC prediction mode and the planar prediction mode.
  • the first prediction mode set includes a DC prediction mode and a planar prediction mode
  • the second prediction mode set includes a DC prediction mode and a planar prediction mode;
  • the enhancement layer prediction unit when one of the DC prediction mode and the plane prediction mode is designated for the first block, the one of the DC prediction mode and the plane prediction mode for the second block. Select The image processing apparatus according to (4).
  • the first prediction mode set includes a plurality of prediction modes corresponding to a plurality of prediction directions
  • the second prediction mode set includes a plurality of prediction modes corresponding to more prediction directions than the first prediction mode set
  • the enhancement layer prediction unit selects any one of one or more prediction modes corresponding to a prediction direction narrowed down within a range close to a prediction direction of a prediction mode designated for the first block. To choose for the block, The image processing apparatus according to any one of (4) to (6).
  • the image processing apparatus further includes a decoding unit that decodes a parameter indicating a difference in a prediction direction from the enhancement layer encoded stream,
  • the enhancement layer prediction unit is configured to select a prediction mode corresponding to a prediction direction determined using the prediction direction of the prediction mode designated for the first block and the difference between the prediction directions indicated by the parameters. Select for the second block;
  • the image processing apparatus according to (7).
  • the first prediction mode set does not include a luminance-based color difference prediction mode;
  • the second prediction mode set includes a luminance-based color difference prediction mode;
  • the enhancement layer prediction unit selects a prediction mode specified for the second block among a prediction mode specified for the first block and a luminance-based color difference prediction mode.
  • the image processing apparatus according to any one of (4) to (8).
  • the enhancement layer prediction unit determines the prediction mode based on the spatial correlation of the image for the second block. Selecting, if a prediction mode based on temporal correlation of an image is specified for the first block, selecting a prediction mode based on temporal correlation of an image for the second block, The image processing apparatus according to (10).
  • the first prediction mode set includes a spatial direct mode
  • the second prediction mode set includes a spatial merge mode and a spatial motion vector prediction mode
  • the first prediction mode set includes a temporal direct mode
  • the second prediction mode set includes a temporal merge mode and a temporal motion vector prediction mode
  • the temporal direct mode is designated for the first block
  • the enhancement layer prediction unit is designated for the second block of the temporal merge mode and the temporal motion vector prediction mode.
  • Select the prediction mode to be used The image processing apparatus according to (11) or (12).
  • the first encoding method is AVC (Advanced Video Coding),
  • the second encoding method is HEVC (High Efficiency Video Coding),
  • the enhancement layer prediction unit selects a merge mode for the second block when a direct mode or a skip mode is designated for the first block;
  • the first encoding method is AVC (Advanced Video Coding)
  • the second encoding method is HEVC (High Efficiency Video Coding)
  • the enhancement layer prediction unit selects a motion vector prediction mode for the second block when a prediction mode different from the direct mode and the skip mode is designated for the first block;
  • the image processing apparatus according to (10).
  • the base layer prediction unit performs inter prediction on the first block according to a reference direction selected from L0 prediction, L1 prediction, and bi-prediction,
  • the enhancement layer prediction unit performs inter prediction on the second block according to the reference direction used for the first block;
  • the image processing apparatus according to any one of (10) to (15).
  • An image processing method including: (18) A base layer prediction unit that generates a prediction image in an optimal prediction mode selected from the first prediction mode set for the first block in the base layer encoded by the first encoding method; For a second block corresponding to the first block in the enhancement layer encoded with a second encoding scheme having a second prediction mode set different from the first prediction mode set, the first Generating a prediction image in a prediction mode selected from the second prediction mode set based on a prediction mode specified for the block;
  • An image processing method including: (18) A base layer prediction unit that generates a prediction image in an optimal prediction mode selected from the first prediction mode set for the first block in the base layer encoded by the first encoding method; For a second block corresponding to the first block in the enhancement layer encoded with a second encoding scheme having a second prediction mode set different from the first prediction mode set, the first An enhancement layer prediction unit for generating a prediction image in a prediction mode selected from the second prediction mode set based on a prediction mode selected for the block of:
  • a base layer prediction unit that generates a prediction image by performing inter prediction using a first motion vector for the first block in the base layer decoded by the first encoding method; For the second block corresponding to the first block in the enhancement layer decoded by the second encoding scheme, the first of the prediction mode sets for inter prediction of the second encoding scheme
  • An enhancement layer prediction unit that generates a prediction image by performing inter prediction in a prediction mode corresponding to a prediction motion vector indicating the smallest difference between the motion vector of
  • An image processing apparatus comprising: (2)
  • the enhancement layer prediction unit includes the first motion vector scaled according to a resolution ratio between the base layer and the enhancement layer, and a prediction motion vector corresponding to each prediction mode in the prediction mode set.
  • the image processing apparatus wherein a difference between the two is evaluated.
  • the enhancement layer prediction unit determines the first motion vector in the base layer as the first motion vector.
  • a prediction mode having the same reference index as a corresponding reference index is selected for inter prediction of the enhancement layer.
  • the enhancement layer prediction unit applies the first motion vector in the base layer to the first motion vector.
  • the prediction mode having the smallest reference index among the plurality of prediction modes is selected for inter prediction of the enhancement layer (3 ).
  • the enhancement layer prediction unit when there are a plurality of prediction modes corresponding to a predicted motion vector indicating the smallest difference from the first motion vector, is decoded from the enhancement layer encoded stream.
  • the image processing device according to (1) or (2), wherein a prediction mode indicated by a parameter is selected for inter prediction of the enhancement layer.
  • the enhancement layer prediction unit is configured to predict the first motion vector scaled based on a reference index difference between the base layer and the enhancement layer, and a prediction mode corresponding to each prediction mode of the prediction mode set.
  • the image processing apparatus according to any one of (1) to (5), wherein a difference between the motion vector and the motion vector is evaluated.
  • the first encoding method is a method indicated by a flag decoded from an encoded stream among AVC (Advanced Video Coding) and HEVC (High Efficiency Video Coding),
  • the second encoding scheme is HEVC.
  • the enhancement layer prediction unit encodes the enhancement layer without referring to the motion information about the first block.
  • Perform inter prediction in the prediction mode decoded from the stream The image processing apparatus according to any one of (1) to (6).
  • the enhancement layer prediction unit corresponds to the fourth block corresponding to the third block in the enhancement layer.
  • the image processing device according to any one of (1) to (7), wherein a predicted image is generated by executing intra prediction for a block.
  • the enhancement layer prediction unit corresponds to the fourth block corresponding to the third block in the enhancement layer.
  • the image processing apparatus according to any one of (1) to (7), wherein inter prediction is performed on a block using motion information decoded from the enhancement layer encoded stream.
  • the first of the prediction mode sets for inter prediction of the second encoding scheme Generating a prediction image by performing inter prediction in a prediction mode corresponding to a prediction motion vector indicating the smallest difference with the motion vector of
  • An image processing method including: (11) A base layer prediction unit that generates a predicted image by executing inter prediction using a first motion vector for the first block in the base layer encoded by the first encoding method; Of the second block corresponding to the first block in the enhancement layer encoded by the second encoding scheme, the second of the prediction mode sets for inter prediction of the second encoding scheme.
  • An enhancement layer prediction unit that generates a prediction image by performing inter prediction in a prediction mode corresponding to a prediction motion vector indicating the smallest difference with respect to one motion vector;
  • An image processing apparatus comprising: (12) Generating a predicted image by performing inter prediction using a first motion vector for a first block in a base layer encoded with a first encoding scheme; Of the second block corresponding to the first block in the enhancement layer encoded by the second encoding scheme, the second of the prediction mode sets for inter prediction of the second encoding scheme. Generating a prediction image by performing inter prediction in a prediction mode corresponding to a prediction motion vector indicating the smallest difference from one motion vector;
  • An image processing method including:
  • Image encoding device (image processing device) 30a Intra prediction unit (base layer prediction unit) 30b Intra prediction unit (enhancement layer prediction unit) 40a Inter prediction unit (base layer prediction unit) 40b Inter prediction unit (enhancement layer prediction unit) 60 Image decoding device (image processing device) 80a Intra prediction unit (base layer prediction unit) 80b Intra prediction unit (enhancement layer prediction unit) 90a Inter prediction unit (base layer prediction unit) 90b Inter prediction unit (enhancement layer prediction unit)

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】スケーラブル符号化において複数のレイヤを異なる画像符号化方式で符号化する場合に、予測モード情報のために要する符号量を削減すること。 【解決手段】第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成するベースレイヤ予測部と、前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、を備える画像処理装置を提供する。

Description

画像処理装置及び画像処理方法
 本開示は、画像処理装置及び画像処理方法に関する。
 現在、H.264/AVCよりも符号化効率をさらに向上することを目的として、ITU-TとISO/IECとの共同の標準化団体であるJCTVC(Joint Collaboration Team-Video Coding)により、HEVC(High Efficiency Video Coding)と呼ばれる画像符号化方式の標準化が進められている。HEVC規格については、2012年2月に最初のドラフト版の仕様であるCommittee draftが発行されている(例えば、下記非特許文献1参照)。
 また、異なる画像符号化方式で符号化ストリームを復号することを可能とするために、スケーラブル符号化におけるベースレイヤを旧来の画像符号化方式で符号化し、エンハンスメントレイヤをHEVCで符号化することも提案されている(例えば、下記非特許文献2参照)。
 スケーラブル符号化(SVC(Scalable Video Coding)ともいう)とは、一般には、粗い画像信号を伝送するレイヤと精細な画像信号を伝送するレイヤとを階層的に符号化する技術をいう。スケーラブル符号化において階層化される典型的な属性は、主に次の3種類である。
  -空間スケーラビリティ:空間解像度あるいは画像サイズが階層化される。
  -時間スケーラビリティ:フレームレートが階層化される。
  -SNR(Signal to Noise Ratio)スケーラビリティ:SN比が階層化される。
さらに、標準規格で未だ採用されていないものの、ビット深度スケーラビリティ及びクロマフォーマットスケーラビリティもまた議論されている。
 スケーラブル符号化では、レイヤ間で共有可能なパラメータを1つのレイヤ内でのみ符号化することで、符号化効率を高めることができる。例えば、H.264/AVC Annex G SVCでは、参照画像情報がレイヤ間で共有され得る。
Benjamin Bross, Woo-Jin Han, Jens-Rainer Ohm, Gary J. Sullivan, Thomas Wiegand, "High efficiency video coding (HEVC) text specification draft 6"(JCTVC-H1003 ver20, 2012年2月17日) Ajay Luthra, Jens-Rainer Ohm, Joern Ostermann, "Draft requirements for the scalable enhancement of HEVC"(ISO/IEC JTC1/SC29/WG11 N12400,2011年11月)
 しかしながら、複数のレイヤを互いに異なる画像符号化方式で符号化する場合には、サポートされるモードの相違を原因として、レイヤ間でのパラメータの共有が難しくなる。例えば、H.264/AVC(以下、単にAVCという)又はMPEG2などの旧来の画像符号化方式とHEVCとでは、イントラ予測及びインター予測のためにサポートされる予測モードのセットが異なる。しかし、イントラ予測及びインター予測は、本来、画像の空間的相関又は時間的相関を利用して符号量を削減する技術であり、それら相関の特性はレイヤ間で大きく変化しない。
 従って、スケーラブル符号化において複数のレイヤを異なる画像符号化方式で符号化する場合にも、予測モードを適切にマッピングすることにより、予測モード情報のために要する符号量を削減することが可能である。
 本開示によれば、第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成するベースレイヤ予測部と、前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、を備える画像処理装置が提供される。
 上記画像処理装置は、典型的には、画像を復号する画像復号装置として実現され得る。
 また、本開示によれば、第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成することと、前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成することと、を含む画像処理方法が提供される。
 また、本開示によれば、第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の予測モードセットから選択される最適な予測モードで予測画像を生成するベースレイヤ予測部と、前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために選択された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、を備える画像処理装置が提供される。
 上記画像処理装置は、典型的には、画像を符号化する画像符号化装置として実現され得る。
 また、本開示によれば、第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の予測モードセットから選択される最適な予測モードで予測画像を生成することと、前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために選択された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成することと、を含む画像処理方法が提供される。
 本開示に係る技術によれば、スケーラブル符号化において複数のレイヤを異なる画像符号化方式で符号化する場合に、予測モード情報のために要する符号量を削減することができる。
スケーラブル符号化について説明するための説明図である。 AVCにおけるイントラ予測の予測モードセットについて説明するための第1の説明図である。 AVCにおけるイントラ予測の予測モードセットについて説明するための第2の説明図である。 AVCにおけるインター予測の予測モードセットについて説明するための第1の説明図である。 AVCにおけるインター予測の予測モードセットについて説明するための第2の説明図である。 HEVCにおけるイントラ予測の予測モードセットについて説明するための第1の説明図である。 HEVCにおけるイントラ予測の予測モードセットについて説明するための第2の説明図である。 HEVCにおけるインター予測の予測モードセットについて説明するための第1の説明図である。 HEVCにおけるインター予測の予測モードセットについて説明するための第2の説明図である。 AVCとHEVCとの間のイントラ予測の予測モードセットのマッピングの一例について説明するための説明図である。 エンハンスメントレイヤにおける予測方向の絞り込みについて説明するための説明図である。 AVCとHEVCとの間のインター予測の予測モードセットのマッピングの第1の例について説明するための説明図である。 AVCとHEVCとの間のインター予測の予測モードセットのマッピングの第2の例について説明するための説明図である。 一実施形態に係る画像符号化装置の概略的な構成を示すブロック図である。 一実施形態に係る画像復号装置の概略的な構成を示すブロック図である。 図9に示した第1符号化部及び第2符号化部の構成の一例を示すブロック図である。 図11に示したイントラ予測部の詳細な構成の一例を示すブロック図である。 図11に示したインター予測部の詳細な構成の一例を示すブロック図である。 一実施形態に係る符号化時の概略的な処理の流れの一例を示すフローチャートである。 符号化時のエンハンスメントレイヤのためのイントラ予測処理の詳細な流れの一例を示すフローチャートである。 符号化時のエンハンスメントレイヤのための動き探索処理の詳細な流れの一例を示すフローチャートである。 図10に示した第1復号部及び第2復号部の構成の一例を示すブロック図である。 図16に示したイントラ予測部の詳細な構成の一例を示すブロック図である。 図16に示したインター予測部の詳細な構成の一例を示すブロック図である。 一実施形態に係る復号時の概略的な処理の流れの一例を示すフローチャートである。 復号時のエンハンスメントレイヤのためのイントラ予測処理の詳細な流れの一例を示すフローチャートである。 復号時のエンハンスメントレイヤのための動き補償処理の詳細な流れの一例を示すフローチャートである。 テレビジョン装置の概略的な構成の一例を示すブロック図である。 携帯電話機の概略的な構成の一例を示すブロック図である。 記録再生装置の概略的な構成の一例を示すブロック図である。 撮像装置の概略的な構成の一例を示すブロック図である。 スケーラブル符号化の用途の第1の例について説明するための説明図である。 スケーラブル符号化の用途の第2の例について説明するための説明図である。 スケーラブル符号化の用途の第3の例について説明するための説明図である。 マルチビューコーデックについて説明するための説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、以下の順序で説明を行う。
  1.概要
   1-1.スケーラブル符号化
   1-2.ベースレイヤのための予測モードセット
   1-3.エンハンスメントレイヤのための予測モードセット
   1-4.予測モードのマッピング
   1-5.エンコーダの基本的な構成例
   1-6.デコーダの基本的な構成例
  2.一実施形態に係る符号化部の構成例
   2-1.全体的な構成
   2-2.イントラ予測部の詳細な構成
   2-3.インター予測部の詳細な構成
  3.一実施形態に係る符号化時の処理の流れ
  4.一実施形態に係る復号部の構成例
   4-1.全体的な構成
   4-2.イントラ予測部の詳細な構成
   4-3.インター予測部の詳細な構成
  5.一実施形態に係る復号時の処理の流れ
  6.変形例
   6-1.予測モードの拡張
   6-2.符号化方式の組合せに応じた切替え
  7.応用例
   7-1.様々な製品への応用
   7-2.スケーラブル符号化の様々な用途
   7-3.その他
  8.まとめ
 <1.概要>
  [1-1.スケーラブル符号化]
 スケーラブル符号化においては、一連の画像をそれぞれ含む複数のレイヤが符号化される。ベースレイヤ(base layer)は、最初に符号化される、最も粗い画像を表現するレイヤである。ベースレイヤの符号化ストリームは、他のレイヤの符号化ストリームを復号することなく、独立して復号され得る。ベースレイヤ以外のレイヤは、エンハンスメントレイヤ(enhancement layer)と呼ばれる、より精細な画像を表現するレイヤである。エンハンスメントレイヤの符号化ストリームは、ベースレイヤの符号化ストリームに含まれる情報を用いて符号化される。従って、エンハンスメントレイヤの画像を再現するためには、ベースレイヤ及びエンハンスメントレイヤの双方の符号化ストリームが復号されることになる。スケーラブル符号化において扱われるレイヤの数は、2つ以上のいかなる数であってもよい。3つ以上のレイヤが符号化される場合には、最下位のレイヤがベースレイヤ、残りの複数のレイヤがエンハンスメントレイヤである。より上位のエンハンスメントレイヤの符号化ストリームは、より下位のエンハンスメントレイヤ又はベースレイヤの符号化ストリームに含まれる情報を用いて符号化され及び復号され得る。本明細書では、依存関係を有する少なくとも2つのレイヤのうち、依存される側のレイヤを下位レイヤ(lower layer)、依存する側のレイヤを上位レイヤ(upper layer)という。
 図1は、スケーラブル符号化される3つのレイヤL1、L2及びL3を示している。レイヤL1はベースレイヤであり、レイヤL2及びL3はエンハンスメントレイヤである。なお、ここでは、様々な種類のスケーラビリティのうち、空間スケーラビリティを例にとっている。レイヤL2のレイヤL1に対する空間解像度の比は、2:1である。レイヤL3のレイヤL1に対する空間解像度の比は、4:1である。レイヤL1のブロックB1は、ベースレイヤのピクチャ内の予測処理の処理単位である。レイヤL2のブロックB2は、ブロックB1と共通するシーンを映したエンハンスメントレイヤのピクチャ内の予測処理の処理単位である(HEVCでは、当該処理単位を予測単位という)。ブロックB2は、レイヤL1のブロックB1に対応する。レイヤL3のブロックB3は、ブロックB1及びB2と共通するシーンを映したより上位のエンハンスメントレイヤのピクチャ内の予測処理の処理単位である。ブロックB3は、レイヤL1のブロックB1及びレイヤL2のブロックB2に対応する。
 このようなレイヤ構造において、あるレイヤの画像の空間的相関は、通常、共通するシーンに対応する他のレイヤの画像の空間的相関と類似する。例えば、レイヤL1においてブロックB1がある方向の隣接ブロックとの間の強い相関を有する場合、レイヤL2においてブロックB2が同じ方向の隣接ブロックとの間で強い相関を有する可能性が高い。同様に、あるレイヤの画像の時間的相関は、通常、共通するシーンに対応する他のレイヤの画像の時間的相関と類似する。例えば、レイヤL1においてブロックB1がある参照ピクチャ内の参照ブロックとの間の強い相関を有する場合、レイヤL2においてブロックB2が(レイヤのみ異なる)同じ参照ピクチャ内の対応する参照ブロックとの間で強い相関を有する可能性が高い。レイヤL2とレイヤL3との間にも同じことが言える。
 従って、スケーラブル符号化において、上述したような相関特性のレイヤ間の類似性を利用して、イントラ予測及びインター予測の予測モード情報をレイヤ間で共有する(再利用する)ことが可能である。それにより、符号化効率は高められる。しかし、上記非特許文献2において提案されているように、複数のレイヤが互いに異なる画像符号化方式で符号化される場合には、サポートされる予測モードセットが同一ではないことが、予測モード情報の共有の妨げとなり得る。
 以下の説明では、一例として、ベースレイヤがAVC(Advanced Video Coding)で符号化され、エンハンスメントレイヤがHEVC(High Efficiency Video Coding)で符号化されるものとする。但し、本開示に係る技術は、かかる例に限定されず、他の画像符号化方式の組合せ(例えば、ベースレイヤがMPEG2で符号化され、エンハンスメントレイヤがHEVCで符号化される、など)にも適用可能である。また、レイヤ間で画像の空間的相関及び時間的相関が類似するという点は、図1に例示した空間スケーラビリティのみならず、SNRスケーラビリティ、ビット深度スケーラビリティ及びクロマフォーマットスケーラビリティにおいても同様である。本開示に係る技術は、これら種類のスケーラビリティを実現するスケーラブル符号化にも適用可能である。
 また、本開示に係る技術のいくつかのアイディアは、エンハンスメントレイヤがHEVCで符号化されるスケーラブル符号化に一般に適用可能である。この場合、ベースレイヤは、AVC、MPEG2又はHEVCなどのいかなる符号化方式で符号化されていてもよい。
  [1-2.ベースレイヤのための予測モードセット]
   (1)イントラ予測
 図2A及び図2Bを用いて、AVCにおけるイントラ予測の予測モードセットについて説明する。
 図2Aを参照すると、AVCにおいて、4×4画素又は8×8画素のサイズを有する輝度成分の予測ブロックについて使用され得る9種類の予測モード(モード0~モード8)が示されている。モード0における予測方向は、垂直方向である。モード1における予測方向は、水平方向である。モード2は、DC予測を表す。モード3における予測方向は、斜め左下である。モード4における予測方向は、斜め右下である。モード5における予測方向は、垂直右である。モード6における予測方向は、水平下である。モード7における予測方向は、垂直左である。モード8における予測方向は、水平上である。ここで、DC予測とは、いわゆる平均値予測に相当し、複数の参照画素の画素値の平均を予測画素値として用いる予測モードである。DC予測以外の8種類の予測モードは、それぞれ、特定の予測方向と関連付けられる。予測方向の角度分解能は、22.5度である。
 図2Bを参照すると、AVCにおいて、16×16画素のサイズを有する輝度成分の予測ブロックについて使用され得る4種類の予測モード(モード0~モード3)が示されている。モード0における予測方向は、垂直方向である。モード1における予測方向は、水平方向である。モード2は、DC予測を表す。モード3は、平面予測を表す。ここで、平面予測とは、上及び左の参照画素の画素値から内挿される値を予測画素値として用いる予測モードである。色差成分のイントラ予測ブロックについても、モード番号は異なるものの、図2Bに示した4種類の予測モードが選択可能である。
   (2)インター予測
 次に、図3A及び図3Bを用いて、AVCにおけるインター予測の予測モードセットについて説明する。
 AVCにおけるインター予測(動き補償)では、16×16画素、16×8画素、8×16画素、8×8画素、8×4画素、4×8画素及び4×4画素という7通りのサイズから選択されるブロックサイズを有する予測ブロックごとに、参照画像番号と動きベクトルとを決定することができる。そして、動きベクトル情報の符号量を削減するために、動きベクトルの予測が行われる。
 図3Aを参照すると、予測ブロックPTeに隣接する3つの隣接ブロックBLa、BLb及びBLcが示されている。これら隣接ブロックBLa、BLb及びBLcに設定された動きベクトルを、それぞれ動きベクトルMVa、MVb及びMVcとする。予測ブロックPTeについての予測動きベクトルPMVeは、次のような予測式を用いて、動きベクトルMVa、MVb及びMVcから算出され得る。
Figure JPOXMLDOC01-appb-M000001
 ここで、式(1)におけるmedはメディアンオペレーションを表す。即ち、式(1)によれば、予測動きベクトルPMVeは、動きベクトルMVa、MVb及びMVcの水平成分の中央値と垂直成分の中央値とを成分とするベクトルである。なお、例えば予測ブロックPTeが画像の端部に位置するために、動きベクトルMVa、MVb又はMVcのいずれかが存在しない場合には、存在しない動きベクトルは、メディアンオペレーションの引数から省略されてもよい。予測動きベクトルPMVeが決定されると、さらに、次式に従って差分動きベクトルMVDeが算出される。なお、MVeは、予測ブロックPTeについて動き補償のために利用されるべき実際の動きベクトルを表す。
Figure JPOXMLDOC01-appb-M000002
 AVCでは、このように算出される差分動きベクトルMVDeを表す動きベクトル情報及び参照画像情報が、インター予測ブロックごとに符号化され得る。
 また、動きベクトル情報の符号量をさらに削減するために、AVCでは、主にBピクチャを対象として、いわゆるダイレクトモードがサポートされる。ダイレクトモードでは、動きベクトル情報は符号化されず、符号化済みの予測ブロックの動きベクトル情報から符号化対象の予測ブロックの動きベクトル情報が生成される。ダイレクトモードには、空間ダイレクトモード及び時間ダイレクトモードという2つの種類が存在する。例えば、空間ダイレクトモードにおいては、予測ブロックPTeについての動きベクトルMVeは、上述した予測式(1)を用いて、次式のように決定され得る。
Figure JPOXMLDOC01-appb-M000003
 図3Bは、時間ダイレクトモードの考え方を概略的に示している。図3Bにおいて、符号化対象画像IM01のL0参照ピクチャである参照画像IML0、及び符号化対象画像IM01のL1参照ピクチャである参照画像IML1が示されている。参照画像IML0内のブロックBcolは、符号化対象画像IM01内の予測ブロックPTeのコロケーテッドブロックである。ここで、コロケーテッドブロックBcolに設定された動きベクトルをMVcolとする。また、符号化対象画像IM01と参照画像IML0との間の時間軸上の距離をTD、参照画像IML0と参照画像IML1との間の時間軸上の距離をTDとする。すると、時間ダイレクトモードにおいては、予測ブロックPTeについての動きベクトルMVL0及びMVL1は、次式のように決定され得る。
Figure JPOXMLDOC01-appb-M000004
 AVCでは、スライスごとに、空間ダイレクトモード及び時間ダイレクトモードのいずれが利用可能であるかが指定される。そして、ブロックごとに、ダイレクトモードが利用されるか否かが指定される。
 さらに、AVCでは、ブロック(マクロブロック)ごとにスキップモードを指定することができる。スキップモードに指定されたブロック(スキップト・マクロブロックという)においては、ブロック情報(例えば、動き情報及び予測誤差データなど)は符号化されず、予測動きベクトルを用いて補償される予測画素がそのまま復号画素として使用され得る。
 また、AVCでは、動き補償のために利用される参照画像の方向(前方参照又は後方参照)を、ブロックごとに指定することができる。指定される参照方向がL0予測である場合には、通常、L0参照ピクチャを用いて前方向予測が行われる。指定される参照方向がL1予測である場合には、通常、L1参照ピクチャを用いて後方向予測が行われる。指定される参照方向が双予測である場合には、L0参照ピクチャ及びL1参照ピクチャの双方を用いた予測が行われる。なお、L0参照ピクチャ及びL1参照ピクチャの双方が同じ方向に存在してもよい。イントラ予測モード若しくはダイレクトモードが適用されるブロック、又はスキップトマクロブロックにおいては、参照方向は指定されない。
  [1-3.エンハンスメントレイヤのための予測モードセット]
   (1)イントラ予測
 次に、図4A及び図4Bを用いて、HEVCにおけるイントラ予測の予測モードセットについて説明する。
 HEVCにおいても、AVCと同様、DC予測及び平面予測に加えて、様々な予測方向と関連付けられる複数の予測モードが使用され得る。但し、HEVCにおける角度予測法(Angular Prediction)では、AVCと比較して、予測方向の角度分解能が高められている。
 図4Aは、HEVCの角度予測法において選択可能な予測方向の候補を示している。図4Aに示した画素P1は、予測対象画素である。画素P1が属するブロックの周囲の網掛けされた画素は、参照画素である。ブロックサイズが4×4画素である場合には、図中で実線(太線及び細線の双方)で示された、参照画素と予測対象画素とを結ぶ17種類の予測方向(に対応する予測モード)が、(DC予測に加えて)選択可能である。ブロックサイズが8×8画素、16×16画素又は32×32画素である場合には、図中で点線並びに実線(太線及び細線の双方)で示された33種類の予測方向(に対応する予測モード)が、(DC予測及び平面予測に加えて)選択可能である。ブロックサイズが64×64画素である場合には、図中で太線で示された2種類の予測方向(に対応する予測モード)が、(DC予測に加えて)選択可能である。角度分解能(隣り合う予測方向の間の角度差)は、最も高いケースで180度/32=5.625度である。
 さらに、HEVCにおいて、色差成分の予測単位については、同じブロックの輝度成分に基づいて色差成分の予測画像を生成するための輝度ベース色差予測モードがサポートされる。輝度ベース色差予測モードでは、動的に計算される係数を有する線型関数が予測関数として用いられることから、当該予測モードを線型モデル(LM:Linear Model)モードともいう。予測関数の引数は(必要に応じてダウンサンプリングされる)輝度成分の値であり、戻り値は色差成分の予測画素値である。より具体的には、LMモードにおける予測関数は、次のような線型一次関数であってよい:
Figure JPOXMLDOC01-appb-M000005
 式(6)において、Re´(x,y)は、復号画像(いわゆるリコンストラクト画像)の輝度成分のダウンサンプリングされた値を表す。輝度成分のダウンサンプリング(あるいは位相シフト)は、クロマフォーマットに依存して色差成分の密度が輝度成分の密度と異なる場合に行われ得る。α及びβは、所定の計算式を用いて隣接ブロックの画素値から計算される係数である。
 例えば、図4Bを参照すると、クロマフォーマットが4:2:0である場合の、16×16画素のサイズを有する輝度成分(Luma)の予測単位(PU)及び対応する色差成分(Chroma)のPUが概念的に示されている。輝度成分の密度は、水平方向及び垂直方向の各々について色差成分の密度の2倍である。各PUの周囲に位置し、図中で塗りつぶされている丸印は、上記予測関数の係数α、βを算出する際に参照される参照画素である。図中右において斜線で網掛けされている丸印は、ダウンサンプリングされた輝度成分である。このようにダウンサンプリングされた輝度成分の値を上記予測関数の右辺のRe´(x,y)に代入することにより、共通する画素位置の色差成分の予測値が算出される。クロマフォーマットが4:2:0である場合、図4Bの例のように、2×2個の輝度成分ごとに1つの輝度成分の入力値(予測関数へ代入される値)がダウンサンプリングにより生成される。参照画素も同様にダウンサンプリングされ得る。
 予測関数の係数α及びβは、それぞれ次の式(7)及び式(8)に従って算出される。なお、Iは参照画素数を表す。
Figure JPOXMLDOC01-appb-M000006
 上述した説明から理解されるように、HEVCのイントラ予測のためにサポートされる予測モードセットは、AVCのイントラ予測のためにサポートされる予測モードセットと同一でない。例えば、輝度成分に着目すると、あるブロックサイズにおいて、HEVCではDC予測モード及び平面(Planar)予測モードがサポートされるのに対して、AVCでは平面予測モードがサポートされない。また、色差成分に着目すると、HEVCではLMモードがサポートされるのに対して、AVCではLMモードはサポートされない。従って、ベースレイヤにおいてAVCによりサポートされる予測モードセットから選択される予測モードを単純にエンハンスメントレイヤにおいて再利用すると、エンハンスメントレイヤにおいて、符号化効率の観点でより良好な予測モードが見過ごされかねない。
   (2)インター予測
 次に、図5A及び図5Bを用いて、HEVCにおけるインター予測の予測モードセットについて説明する。
 HEVCでは、インター予測のための予測モードとして、新たにマージモードがサポートされる。マージモードとは、ある予測ブロックを、空間方向又は時間方向の近傍の参照ブロックのうち動き情報が共通するブロックとマージすることにより、当該予測ブロックについて動き情報の符号化を省略する予測モードである。空間方向に予測ブロックをマージするモードを空間マージモード、時間方向に予測ブロックをマージするモードを時間マージモードともいう。
 例えば、図5Aを参照すると、符号化対象画像IM10内の予測ブロックPTeが示されている。ブロックB11及びB12は、それぞれ予測ブロックPTeの左及び上の隣接ブロックである。動きベクトルMV10は、予測ブロックPTeについて算出される動きベクトルである。動きベクトルMV11及びMV12は、それぞれ隣接ブロックB11及びB12について算出される参照動きベクトルである。さらに、参照画像IM1ref内に、予測ブロックPTeのコロケーテッドブロックBcolが示されている。動きベクトルMVcolは、コロケーテッドブロックBcolについて算出される参照動きベクトルである。
 図5Aの例において、動きベクトルMV10が参照動きベクトルMV11又はMV12と等しい場合、予測ブロックPTeが空間的にマージされることを示すマージ情報が符号化され得る。実際には、当該マージ情報は、予測ブロックPTeがいずれの隣接ブロックとマージされるかも示し得る。また、動きベクトルMV10が参照動きベクトルMVcolと等しい場合、予測ブロックPTeが時間的にマージされることを示すマージ情報が符号化され得る。予測ブロックPTeが空間的に又は時間的にマージされる場合、予測ブロックPTeについて動きベクトル情報及び参照画像情報は符号化されない。
 予測ブロックPTeが他のブロックとマージされない場合には、予測ブロックPTeについて動きベクトル情報が符号化される。HEVCにおいて、動きベクトル情報が符号化されるモードを、AMVP(Advanced Motion Vector Prediction)モードという。AMVPモードでは、動き情報として、プレディクタ情報、差分動きベクトル情報及び参照画像情報が符号化され得る。AMVPモードのプレディクタは、AVCにおける上述した予測式と異なり、メディアンオペレーションを含まない。
 例えば、図5Bを参照すると、符号化対象画像内の予測ブロックPTeが再び示されている。ブロックB21~B25は、予測ブロックPTeに隣接する隣接ブロックである。ブロックBcolは、参照画像内の予測ブロックPTeのコロケーテッドブロックである。空間プレディクタが利用される場合、プレディクタ情報は、ブロックB21~B25のいずれかを指し示す。時間プレディクタが利用される場合、プレディクタ情報は、ブロックBcolを指し示す。そして、プレディクタ情報が指し示す参照ブロックの動きベクトルが、予測ブロックPTeについての予測動きベクトルPMVeとして利用される。予測ブロックPTeについての差分動きベクトルMVDeは、式(2)と同じ計算式によって算出される。空間プレディクタが利用されるAMVPモードを空間的動きベクトル予測モード、時間プレディクタが利用されるAMVPモードを時間的動きベクトル予測モードともいう。
 上述した説明から理解されるように、HEVCのインター予測のためにサポートされる予測モードセットは、AVCのインター予測のためにサポートされる予測モードセットと同一ではない。例えば、AVCによりサポートされるダイレクトモードは、HEVCによりサポートされない。また、HEVCによりサポートされるマージモードは、AVCによりサポートされない。また、HEVCのAMVPモードにおいて動きベクトルを予測するために利用されるプレディクタは、AVCにおいて利用されるプレディクタと異なる。従って、ベースレイヤにおいてAVCによりサポートされる予測モードセットから選択される予測モードを、単純にエンハンスメントレイヤにおいて再利用することは困難である。
 なお、HEVCにおいても、動き補償のための参照方向として、L0予測、L1予測及び双予測のいずれかがブロックごとに指定され得る。イントラ予測モードが適用されるブロックにおいては、参照方向は指定されない。
  [1-4.予測モードのマッピング]
 スケーラブル符号化において複数のレイヤを異なる画像符号化方式で符号化する場合にイントラ予測又はインター予測の予測モードをレイヤ間で共有しなければ、予測モード情報の符号量の増大によって、符号化効率が低下し得る。また、符号化の際の予測モードの探索のために、より多くの処理コストが必要となる。そこで、本開示に係る技術では、予測モードセットの異なる画像符号化方式の間の予測モードのマッピングを定義することにより、ベースレイヤで選択された予測モードに基づいてエンハンスメントレイヤで予測モードを選択することを可能とする。
 予測モードのマッピングは、例えば、以下に説明する3つの基準に従って定義されてよい。ここで、ベースレイヤは第1の予測モードセットを有する第1の符号化方式で符号化され、エンハンスメントレイヤは第2の予測モードセットを有する第2の符号化方式で符号化されるものとする。また、第1のブロックはベースレイヤ内の予測ブロックであり、第2のブロックはエンハンスメントレイヤ内の第1のブロックに対応する予測ブロックであるものとする。
 まず、第1の基準として、第1のブロックのために選択されなかった第1の予測モードセット内の予測モードに対応する第2の予測モードセット内の予測モードは、第2のブロックのための選択から除外される。第2の基準として、第2のブロックにおいて選択の候補となる予測モード(以下、候補モードという)は、第1のブロックのために選択された予測モードに対応する予測モード、及び第1の予測モードセット内に対応する予測モードが存在しない予測モードを含んでよい。また、特にインター予測に関し、第3の基準として、画像の空間的相関に基づく予測モードが第1のブロックのために選択された場合には、画像の空間的相関に基づく予測モードが第2のブロックのために選択される。同様に、画像の時間的相関に基づく予測モードが第1のブロックのために選択された場合には、画像の時間的相関に基づく予測モードが第2のブロックのために選択される。なお、これら基準は、どのように組み合わされてもよい。また、追加的な基準が導入されてもよく、一部の基準が省略されてもよい。
   (1)イントラ予測の予測モードのマッピング
 図6は、AVCとHEVCとの間のイントラ予測の予測モードセットのマッピングの一例について説明するための説明図である。図6を参照すると、左側にAVCの予測モードセットPMS1、右側にHEVCの予測モードセットPMS2がリストアップされている。
 例えば、ベースレイヤ内の輝度成分(Luma)の8×8画素の予測ブロック(第1のブロック)について、予測モードセットPMS1は、DC予測モード、及び特定の予測方向とそれぞれ関連付けられる8種類の予測モード(図中の“Others”)を含む。スケーラビリティ比が1:2であるとすると、エンハンスメントレイヤ内の対応する輝度成分の予測ブロック(第2のブロック)のサイズは、16×16画素である。第2のブロックについて、予測モードセットPMS2は、DC予測モード、平面予測モード、及び特定の予測方向とそれぞれ関連付けられる複数の角度予測モードを含む。ここで、予測モードセットPMS1から第1のブロックのためにDC予測モードが選択された場合、第2のブロックのための予測モードの選択から、角度予測モードが除外される。結果的に、エンコーダは、第2の予測ブロックについて、候補モードをDC予測モード及び平面予測モードの2つに絞り込み、これら2つの候補モードのうち最適な予測モードを選択する。この場合、1ビットの予測モード情報のみが符号化ストリーム内に符号化されれば十分である。デコーダは、かかる予測モード情報を復号して、第2のブロックのためにDC予測モード又は平面予測モードを選択する。
 また、例えば、ベースレイヤ内の輝度成分(Luma)の16×16画素の予測ブロック(第1のブロック)について、予測モードセットPMS1は、DC予測モード、平面予測モード並びに垂直方向及び水平方向とそれぞれ関連付けられる2種類の予測モードを含む。スケーラビリティ比が1:2であるとすると、エンハンスメントレイヤ内の対応する輝度成分の予測ブロック(第2のブロック)のサイズは、32×32画素である。第2のブロックについて、予測モードセットPMS2は、DC予測モード、平面予測モード、及び特定の予測方向とそれぞれ関連付けられる複数の角度予測モードを含む。ここで、予測モードセットPMS1から第1のブロックのためにDC予測モードが選択された場合、第2のブロックのための予測モードの選択から、平面予測モード及び角度予測モードが除外される。結果的に、エンコーダは、第2の予測ブロックについて、候補モードをDC予測モードのみに絞り込む。この場合には、候補モードが1つしか残らないため、エンコーダは、当該1つの候補モードであるDC予測モードを選択する。この場合、予測モード情報は符号化されなくてよい。デコーダは、第1のブロックのために指定された予測モードを参照し、第2のブロックのためにDC予測モードを選択する。予測モードセットPMS1から第1のブロックのために平面予測モードが選択された場合には、同様に、第2のブロックのために平面予測モードが選択される。
 ベースレイヤ内の輝度成分の8×8画素の予測ブロックである第1のブロックについて、例えば図2Aに例示したモード7(垂直左)が選択されたものとする。この場合、第2のブロックのための予測モードの選択から、DC予測モード及び平面予測モードが除外される(平面予測モードは除外されなくてもよい)。さらに、図6の例では、予測方向の絞り込みもまた行われる。例えば、水平方向を0度とし、反時計回りに角度が増加するとすると、選択されたモード7の予測方向は、67.5度である。共に選択されなかったモード0の予測方向は90度、モード4の予測方向は45度である。そこで、第2のブロックのための予測モードの選択において、角度予測モードの予測方向の範囲は、45度より大きく90度より小さい範囲内に絞り込まれ得る。結果的に、エンコーダは、第2の予測ブロックについて、候補モードを、50.625度から84.375度までの範囲内の7個の予測方向に対応する角度予測モードに絞り込み、これら候補モードのうち最適な予測モードを選択する(図7参照)。この場合、符号化される予測モード情報は、第1のブロックのために選択された予測モードと第2のブロックのために選択された予測モードとの間の予測方向の差分を示すパラメータであってよい。図7の例では、角度差θ=5.625度を用いて、-3θ、-2θ、-θ、0、θ、2θ、3θにそれぞれ対応する7個の符号番号が予測モード情報のために与えられている。最適な予測方向のレイヤ間の角度差はゼロに近い確率が高いことから、より小さい角度差に対してより小さい符号番号を付与することで、可変長符号化後のエンハンスメントレイヤの符号量を効果的に削減することができる。なお、角度差θは、ブロックサイズに応じて他の値(例えば、11.25度など)であってもよい。
 また、例えば、ベースレイヤ内の色差成分(Chroma)の予測ブロック(第1のブロック)について、予測モードセットPMS1は、DC予測モード、平面予測モード並びに垂直方向及び水平方向とそれぞれ関連付けられる2種類の予測モード(図中の“Others”)を含む。エンハンスメントレイヤ内の対応する色差成分の予測ブロック(第2のブロック)について、予測モードセットPMS2は、DC予測モード、平面予測モード、垂直方向及び水平方向とそれぞれ関連付けられる2種類の角度予測モード、並びにLMモードを含む。ここで、予測モードセットPMS1から第1のブロックのためにDC予測モードが選択された場合、第2のブロックのための予測モードの選択から、平面予測モード及び角度予測モードが除外される。結果的に、エンコーダは、第2の予測ブロックについて、候補モードをDC予測モード及びLMモードの2つに絞り込み、これら2つの候補モードのうち最適な予測モードを選択する。この場合、1ビットの予測モード情報のみが符号化ストリーム内に符号化されれば十分である。デコーダは、かかる予測モード情報を復号して、第2のブロックのためにDC予測モード又はLMモードを選択する。予測モードセットPMS1から第1のブロックのためにDC予測モード以外の予測モードが選択された場合にも、同様に、第2の予測ブロックについて、候補モードは、第1のブロックのために選択された予測モード及びLMモードの2つに絞り込まれる。
   (2)インター予測の予測モードのマッピング
 図8Aは、AVCとHEVCとの間のインター予測の予測モードセットのマッピングの第1の例について説明するための説明図である。図8Aを参照すると、左側にAVCの予測モードセットPMS3、右側にHEVCの予測モードセットPMS4がリストアップされている。
 例えば、ベースレイヤ内の予測ブロック(第1のブロック)について、予測モードセットPMS3は、空間ダイレクトモード、時間ダイレクトモード及びその他の予測モードを含む。エンハンスメントレイヤ内の対応する予測ブロック(第2のブロック)について、予測モードセットPMS4は、空間的動きベクトル予測モード(空間的AMVPモード)、空間マージモード、時間的動きベクトル予測モード(時間的AMVPモード)及び時間マージモードを含む。ここで、予測モードセットPMS3から第1のブロックのために(画像の空間的相関に基づく)空間ダイレクトモードが選択された場合、第2のブロックのための候補モードは、(やはり画像の空間的相関に基づく)空間的動きベクトル予測モード及び空間マージモードの2つに絞り込まれる。エンコーダは、これら2つの候補モードのうち最適な予測モードを選択する。同様に、予測モードセットPMS3から第1のブロックのために(画像の時間的相関に基づく)時間ダイレクトモードが選択された場合、第2のブロックのための候補モードは、(やはり画像の時間的相関に基づく)時間的動きベクトル予測モード及び時間マージモードの2つに絞り込まれる。エンコーダは、これら2つの候補モードのうち最適な予測モードを選択する。予測モードセットPMS3から非ダイレクトモードが選択された場合には、第2のブロックのための候補モードは、絞り込まれなくてもよい。このようなマッピングによって、符号化される予測モード情報の符号量を削減すると共に、符号化の際の予測モードの探索のための処理コストを低減することができる。また、画像の相関特性の類似性に従って予測モードがマッピングされるため、エンハンスメントレイヤにおけるインター予測の予測精度を低下させることなく、符号量を削減することができる。
 図8Bは、AVCとHEVCとの間のインター予測の予測モードセットのマッピングの第2の例について説明するための説明図である。第2の例では、予測モードのマッピングのための上述した基準とは異なる第4の基準が導入される。第4の基準として、動きベクトル情報の符号化を省略することが第1のブロックのために選択された場合には、同様に動きベクトル情報の符号化を省略する予測モードが第2のブロックのために選択される。図8Bを参照すると、左側にAVCの予測モードセットPMS3、右側にHEVCの予測モードセットPMS4が再びリストアップされている。但し、図8Bにおいては、予測モードセットPMS3がスキップモードを含むことが明示されている。
 例えば、第1のブロックのために空間若しくは時間ダイレクトモード又はスキップモードが指定された場合には、第2のブロックのための候補モードはマージモードに絞り込まれる。第1のブロックのために空間ダイレクトモードが指定された場合には、第2のブロックのための予測モードは、空間マージモードであってよい。同様に、第1のブロックのために時間ダイレクトモードが指定された場合には、第2のブロックのための予測モードは、時間マージモードであってよい。第1のブロックのためにスキップモードが指定された場合には、エンコーダは、第2のブロックのために、空間マージモード及び時間マージモードのうち最適な予測モードを選択し得る。一方、第1のブロックのためにダイレクトモード及びスキップモードとは異なる予測モードが指定された場合には、第2のブロックのための候補モードは動きベクトル予測モードに絞り込まれる。この場合、エンコーダは、第2のブロックのために、空間的動きベクトル予測モード及び時間的動きベクトル予測モードのうち最適な予測モードを選択し得る。このようなマッピングによっても、符号化される予測モード情報の符号量を削減すると共に、符号化の際の予測モードの探索のための処理コストを低減することができる。また、画像の相関特性の類似性に従って予測モードがマッピングされるため、エンハンスメントレイヤにおけるインター予測の予測精度を低下させることなく、符号量を削減することができる。
 ここで説明した2つの例のいずれにおいても、ベースレイヤ内の第1のブロックのために選択された参照方向が、エンハンスメントレイヤ内の第2のブロックのために再利用されてもよい。即ち、第1のブロックのためにL0予測が選択された場合には、対応する第2のブロックのためにL0予測が選択され得る。第1のブロックのためにL1予測が選択された場合には、対応する第2のブロックのためにL1予測が選択され得る。第1のブロックのために双予測が選択された場合には、対応する第2のブロックのために双予測が選択され得る。それにより、エンハンスメントレイヤにおいて参照方向を符号化するための符号量を削減することができる。
 なお、本項で示した予測モードのマッピングは一例に過ぎない。異なる形式のマッピングもまた利用可能である。
  [1-5.エンコーダの基本的な構成例]
 図9は、スケーラブル符号化をサポートする、一実施形態に係る画像符号化装置10の概略的な構成を示すブロック図である。図9を参照すると、画像符号化装置10は、第1符号化部1a、第2符号化部1b、共通メモリ2及び多重化部3を備える。
 第1符号化部1aは、ベースレイヤ画像を符号化し、ベースレイヤの符号化ストリームを生成する。第2符号化部1bは、エンハンスメントレイヤ画像を符号化し、エンハンスメントレイヤの符号化ストリームを生成する。共通メモリ2は、レイヤ間で共通的に利用される情報を記憶する。多重化部3は、第1符号化部1aにより生成されるベースレイヤの符号化ストリームと、第2符号化部1bにより生成される1つ以上のエンハンスメントレイヤの符号化ストリームとを多重化し、マルチレイヤの多重化ストリームを生成する。
  [1-6.デコーダの基本的な構成例]
 図10は、スケーラブル符号化をサポートする、一実施形態に係る画像復号装置60の概略的な構成を示すブロック図である。図10を参照すると、画像復号装置60は、逆多重化部5、第1復号部6a、第2復号部6b及び共通メモリ7を備える。
 逆多重化部5は、マルチレイヤの多重化ストリームをベースレイヤの符号化ストリーム及び1つ以上のエンハンスメントレイヤの符号化ストリームに逆多重化する。第1復号部6aは、ベースレイヤの符号化ストリームからベースレイヤ画像を復号する。第2復号部6bは、エンハンスメントレイヤの符号化ストリームからエンハンスメントレイヤ画像を復号する。共通メモリ7は、レイヤ間で共通的に利用される情報を記憶する。
 図9に例示した画像符号化装置10において、ベースレイヤの符号化のための第1符号化部1aの構成と、エンハンスメントレイヤの符号化のための第2符号化部1bの構成とは、互いに類似する。第1符号化部1aにより生成され又は取得されるいくつかのパラメータは、共通メモリ2を用いてバッファリングされ、第2符号化部1bにより再利用される。次節では、そのような第1符号化部1a及び第2符号化部1bの構成について詳細に説明する。
 同様に、図10に例示した画像復号装置60において、ベースレイヤの復号のための第1復号部6aの構成と、エンハンスメントレイヤの復号のための第2復号部6bの構成とは、互いに類似する。第1復号部6aにより生成され又は取得されるいくつかのパラメータは、共通メモリ7を用いてバッファリングされ、第2復号部6bにより再利用される。さらに次の節では、そのような第1復号部6a及び第2復号部6bの構成について詳細に説明する。
 <2.一実施形態に係る符号化部の構成例>
  [2-1.全体的な構成]
 図11は、図9に示した第1符号化部1a及び第2符号化部1bの構成の一例を示すブロック図である。図11を参照すると、第1符号化部1aは、並び替えバッファ12、減算部13、直交変換部14、量子化部15、可逆符号化部16、蓄積バッファ17、レート制御部18、逆量子化部21、逆直交変換部22、加算部23、デブロックフィルタ24、フレームメモリ25、セレクタ26及び27、イントラ予測部30a、及びインター予測部40aを備える。第2符号化部1bは、イントラ予測部30aの代わりにイントラ予測部30bを、インター予測部40aの代わりにインター予測部40bを備える。
 並び替えバッファ12は、一連の画像データに含まれる画像を並び替える。並び替えバッファ12は、符号化処理に係るGOP(Group of Pictures)構造に応じて画像を並び替えた後、並び替え後の画像データを減算部13、イントラ予測部30a又は30b、及びインター予測部40a又は40bへ出力する。
 減算部13には、並び替えバッファ12から入力される画像データ、及び後に説明するイントラ予測部30a若しくは30b又はインター予測部40a若しくは40bから入力される予測画像データが供給される。減算部13は、並び替えバッファ12から入力される画像データと予測画像データとの差分である予測誤差データを算出し、算出した予測誤差データを直交変換部14へ出力する。
 直交変換部14は、減算部13から入力される予測誤差データについて直交変換を行う。直交変換部14により実行される直交変換は、例えば、離散コサイン変換(Discrete Cosine Transform:DCT)又はカルーネン・レーベ変換などであってよい。直交変換部14は、直交変換処理により取得される変換係数データを量子化部15へ出力する。
 量子化部15には、直交変換部14から入力される変換係数データ、及び後に説明するレート制御部18からのレート制御信号が供給される。量子化部15は、変換係数データを量子化し、量子化後の変換係数データ(以下、量子化データという)を可逆符号化部16及び逆量子化部21へ出力する。また、量子化部15は、レート制御部18からのレート制御信号に基づいて量子化パラメータ(量子化スケール)を切り替えることにより、量子化データのビットレートを変化させる。
 可逆符号化部16は、量子化部15から入力される各レイヤの量子化データについて可逆符号化処理を行うことにより、各レイヤの符号化ストリームを生成する。また、可逆符号化部16は、セレクタ27から入力されるイントラ予測に関する情報又はインター予測に関する情報を符号化して、符号化パラメータを符号化ストリームのヘッダ領域内に多重化する。そして、可逆符号化部16は、生成した符号化ストリームを蓄積バッファ17へ出力する。
 蓄積バッファ17は、可逆符号化部16から入力される符号化ストリームを半導体メモリなどの記憶媒体を用いて一時的に蓄積する。そして、蓄積バッファ17は、蓄積した符号化ストリームを、伝送路の帯域に応じたレートで、図示しない伝送部(例えば、通信インタフェース又は周辺機器との接続インタフェースなど)へ出力する。
 レート制御部18は、蓄積バッファ17の空き容量を監視する。そして、レート制御部18は、蓄積バッファ17の空き容量に応じてレート制御信号を生成し、生成したレート制御信号を量子化部15へ出力する。例えば、レート制御部18は、蓄積バッファ17の空き容量が少ない時には、量子化データのビットレートを低下させるためのレート制御信号を生成する。また、例えば、レート制御部18は、蓄積バッファ17の空き容量が十分大きい時には、量子化データのビットレートを高めるためのレート制御信号を生成する。
 逆量子化部21は、量子化部15から入力される量子化データについて逆量子化処理を行う。そして、逆量子化部21は、逆量子化処理により取得される変換係数データを、逆直交変換部22へ出力する。
 逆直交変換部22は、逆量子化部21から入力される変換係数データについて逆直交変換処理を行うことにより、予測誤差データを復元する。そして、逆直交変換部22は、復元した予測誤差データを加算部23へ出力する。
 加算部23は、逆直交変換部22から入力される復元された予測誤差データとイントラ予測部30a若しくは30b又はインター予測部40a若しくは40bから入力される予測画像データとを加算することにより、復号画像データ(いわゆるリコンストラクト画像)を生成する。そして、加算部23は、生成した復号画像データをデブロックフィルタ24及びフレームメモリ25へ出力する。
 デブロックフィルタ24は、画像の符号化時に生じるブロック歪みを減少させるためのフィルタリング処理を行う。デブロックフィルタ24は、加算部23から入力される復号画像データをフィルタリングすることによりブロック歪みを除去し、フィルタリング後の復号画像データをフレームメモリ25へ出力する。
 フレームメモリ25は、加算部23から入力される復号画像データ、及びデブロックフィルタ24から入力されるフィルタリング後の復号画像データを記憶媒体を用いて記憶する。
 セレクタ26は、イントラ予測のために使用されるフィルタリング前の復号画像データをフレームメモリ25から読み出し、読み出した復号画像データを参照画像データとしてイントラ予測部30a又は30bに供給する。また、セレクタ26は、インター予測のために使用されるフィルタリング後の復号画像データをフレームメモリ25から読み出し、読み出した復号画像データを参照画像データとしてインター予測部40a又は40bに供給する。
 セレクタ27は、イントラ予測モードにおいて、イントラ予測部30a又は30bから出力されるイントラ予測の結果としての予測画像データを減算部13へ出力すると共に、イントラ予測に関する情報を可逆符号化部16へ出力する。また、セレクタ27は、インター予測モードにおいて、インター予測部40a又は40bから出力されるインター予測の結果としての予測画像データを減算部13へ出力すると共に、インター予測に関する情報を可逆符号化部16へ出力する。セレクタ27は、イントラ予測モードとインター予測モードとを、コスト関数値の大きさに応じて切り替える。
 イントラ予測部30aは、ベースレイヤの原画像データ及び復号画像データに基づいて、AVCの予測ブロックごとにイントラ予測処理を行う。例えば、イントラ予測部30aは、各予測モードによる予測結果を所定のコスト関数を用いて評価する。次に、イントラ予測部30aは、コスト関数値が最小となる予測モード、即ち圧縮率が最も高くなる予測モードを、最適な予測モードとして選択する。また、イントラ予測部30aは、当該最適な予測モードに従ってベースレイヤの予測画像データを生成する。そして、イントラ予測部30aは、選択した最適な予測モードを表す予測モード情報を含むイントラ予測に関する情報、コスト関数値、及び予測画像データを、セレクタ27へ出力する。また、イントラ予測部30aは、予測モード情報を共通メモリ2によりバッファリングさせる。
 イントラ予測部30bは、エンハンスメントレイヤの原画像データ及び復号画像データに基づいて、HEVCの予測単位ごとにイントラ予測処理を行う。例えば、イントラ予測部30bは、各予測モードによる予測結果を所定のコスト関数を用いて評価する。次に、イントラ予測部30bは、コスト関数値が最小となる予測モード、即ち圧縮率が最も高くなる予測モードを、最適な予測モードとして選択する。また、イントラ予測部30bは、当該最適な予測モードに従ってエンハンスメントレイヤの予測画像データを生成する。そして、イントラ予測部30bは、選択した最適な予測モードを表す予測モード情報を含むイントラ予測に関する情報、コスト関数値、及び予測画像データを、セレクタ27へ出力する。また、イントラ予測部30bは、共通メモリ2によりバッファリングされるベースレイヤの予測モード情報を取得する。ベースレイヤの予測モード情報は、AVCによりサポートされる予測モードセット内のいずれかの予測モードを、予測ブロックごとに表す。イントラ予測部30bは、かかる予測モード情報に基づいて、エンハンスメントレイヤのイントラ予測処理において探索される候補モード(HEVCによりサポートされる予測モードセット内の予測モード)を絞り込む。
 インター予測部40aは、ベースレイヤの原画像データ及び復号画像データに基づいて、AVCの予測ブロックごとに動き探索処理を行う。例えば、インター予測部40aは、各予測モードによる予測結果を所定のコスト関数を用いて評価する。次に、インター予測部40aは、コスト関数値が最小となる予測モード、即ち圧縮率が最も高くなる予測モードを、最適な予測モードとして選択する。また、インター予測部40aは、当該最適な予測モードに従ってベースレイヤの予測画像データを生成する。そして、インター予測部40aは、選択した最適な予測モードを表す予測モード情報と参照画像情報とを含むインター予測に関する情報、コスト関数値、及び予測画像データを、セレクタ27へ出力する。また、インター予測部40aは、予測モード情報及び参照画像情報を、共通メモリ2によりバッファリングさせる。
 インター予測部40bは、エンハンスメントレイヤの原画像データ及び復号画像データに基づいて、HEVCの予測単位ごとに動き探索処理を行う。例えば、インター予測部40bは、各予測モードによる予測結果を所定のコスト関数を用いて評価する。次に、インター予測部40bは、コスト関数値が最小となる予測モード、即ち圧縮率が最も高くなる予測モードを、最適な予測モードとして選択する。また、インター予測部40bは、当該最適な予測モードに従ってエンハンスメントレイヤの予測画像データを生成する。そして、インター予測部40bは、選択した最適な予測モードを表す予測モード情報と参照画像情報とを含むインター予測に関する情報、コスト関数値、及び予測画像データを、セレクタ27へ出力する。また、インター予測部40bは、共通メモリ2によりバッファリングされるベースレイヤの予測モード情報を取得する。ベースレイヤの予測モード情報は、AVCによりサポートされる予測モードセット内のいずれかの予測モードを、予測ブロックごとに表す。インター予測部40bは、かかる予測モード情報に基づいて、エンハンスメントレイヤの動き探索処理において探索される候補モード(HEVCによりサポートされる予測モードセット内の予測モード)を絞り込む。参照画像情報もまたレイヤ間で再利用されてよい。
 第1符号化部1aは、ここで説明した一連の符号化処理を、ベースレイヤの一連の画像データについて実行する。第2符号化部1bは、ここで説明した一連の符号化処理を、エンハンスメントレイヤの一連の画像データについて実行する。エンハンスメントレイヤが複数存在する場合には、エンハンスメントレイヤの符号化処理は、エンハンスメントレイヤの数だけ繰り返され得る。ベースレイヤの符号化処理と、エンハンスメントレイヤの符号化処理とは、例えば、符号化単位又は予測単位などの処理単位ごとに同期して実行されてもよい。
  [2-2.イントラ予測部の詳細な構成]
 図12は、図11に示したイントラ予測部30a及び30bの詳細な構成の一例を示すブロック図である。図12を参照すると、イントラ予測部30aは、予測制御部31a、予測部35a及びモード判定部36aを有する。イントラ予測部30bは、予測制御部31b、係数算出部32b、フィルタ34b、予測部35b及びモード判定部36bを有する。
   (1)ベースレイヤのイントラ予測処理
 イントラ予測部30aの予測制御部31aは、AVCの仕様に従って、ベースレイヤのイントラ予測処理を制御する。例えば、予測制御部31aは、予測ブロックごとに、各色成分についてのイントラ予測処理を実行する。
 より具体的には、予測制御部31aは、図6に例示した予測モードセットPMS1内の複数の予測モードで予測部35aに各予測ブロックの予測画像を生成させ、モード判定部36aに最適な予測モードを判定させる。予測部35aは、予測制御部31aによる制御の下、各色成分について様々な候補モードに従って、各予測ブロックの予測画像を生成する。モード判定部36aは、原画像データと予測部35aから入力される予測画像データとに基づいて、各予測モードのコスト関数値を算出する。モード判定部36aは、算出したコスト関数値に基づき、各色成分についての最適な予測モードを選択する。そして、モード判定部36aは、選択した最適な予測モードを表す予測モード情報を含むイントラ予測に関する情報、コスト関数値、並びに各色成分の予測画像データを、セレクタ27へ出力する。
 また、モード判定部36aは、ベースレイヤ内の予測ブロックごとの最適な予測モードを表す予測モード情報を、共通メモリ2内に設けられるモード情報バッファに格納する。
   (2)エンハンスメントレイヤのイントラ予測処理
 イントラ予測部30bの予測制御部31bは、HEVCの仕様に従って、エンハンスメントレイヤのイントラ予測処理を制御する。例えば、予測制御部31bは、予測単位ごとに、各色成分についてのイントラ予測処理を実行する。
 より具体的には、予測制御部31bは、図6に例示した予測モードセットPMS2内の1つ以上の予測モード(候補モード)で予測部35bに各予測単位の予測画像を生成させる。候補モードは、モード情報バッファから取得されるベースレイヤ(又は下位レイヤ)の予測モード情報に基づいて絞り込まれる。候補モードが複数存在する場合には、予測制御部31bは、モード判定部36bに最適な予測モードを判定させる。
 係数算出部32bは、LMモードにおいて、予測部35bにより使用される予測関数の係数を、上述した式(7)及び式(8)に従って算出する。フィルタ34bは、輝度成分の画素値をクロマフォーマットに応じてダウンサンプリングすることにより、LMモードの予測関数への入力値を生成する。
 予測部35bは、予測制御部31bにより指定される候補モードに従って、各予測単位の予測画像を生成する。
 例えば、輝度成分の予測対象の予測単位(以下、注目PUという)のブロックサイズが16×16画素であり、対応するベースレイヤ内の予測ブロック(以下、対応ブロックという)のブロックサイズが8×8画素であるものとする。対応ブロックのためにDC予測モードが選択されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、DC予測モード及び平面予測モードに絞り込まれる。この場合、予測部35bは、DC予測モードの予測画像と平面予測モードの予測画像とを生成する。
 また、例えば、輝度成分の注目PUのブロックサイズが32×32画素であり、対応ブロックのブロックサイズが16×16画素であるものとする。対応ブロックのためにDC予測モードが選択されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、DC予測モードのみに絞り込まれる。同じケースで対応ブロックのために平面予測モードが選択されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、平面予測モードのみに絞り込まれる。
 また、例えば、輝度成分の注目PUに対応する対応ブロックのために特定の予測方向に関連付けられる予測モードが選択されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、角度予測モードに絞り込まれる。さらに、角度予測モードにおける予測方向は、ベースレイヤの予測モードの予測方向に近い範囲内に絞り込まれ得る。
 また、例えば、色差成分の注目PUについては、候補モードは、対応ブロックのために選択された予測モード及びLMモードに絞り込まれる。
 モード判定部36bは、原画像データと予測部35bから入力される予測画像データとに基づいて各予測モードのコスト関数値を算出する。そして、モード判定部36bは、予測単位ごとに、各色成分についての予測モードを選択する。候補モードが複数存在する場合には、最小のコスト関数値を示す予測モードが選択され、絞り込まれた候補モードの中で選択された予測モードを示す予測モード情報が生成される。候補モードが1つしか存在しない場合には、予測モード情報は生成されなくてよい。そして、モード判定部36bは、予測モード情報を含み得るイントラ予測に関する情報、コスト関数値、並びに各色成分の予測画像データを、セレクタ27へ出力する。
 また、モード判定部36bは、より上位のレイヤが存在する場合には、予測単位ごとの予測モード情報をモード情報バッファに格納してもよい。
  [2-3.インター予測部の詳細な構成]
 図13は、図11に示したインター予測部40a及び40bの詳細な構成の一例を示すブロック図である。図13を参照すると、インター予測部40aは、予測制御部41a、予測部42a及びモード判定部43aを有する。インター予測部40bは、予測制御部41b、予測部42b及びモード判定部43bを有する。
   (1)ベースレイヤの動き探索処理
 インター予測部40aの予測制御部41aは、AVCの仕様に従って、ベースレイヤの動き探索処理を制御する。例えば、予測制御部41aは、予測ブロックごとに、各色成分についての動き探索処理を実行する。
 より具体的には、予測制御部41aは、図8A又は図8Bに例示した予測モードセットPMS3内の複数の予測モードで予測部42aに各予測ブロックの予測画像を生成させ、モード判定部43aに最適な予測モードを判定させる。予測部42aは、予測制御部41aによる制御の下、各色成分について様々な候補モードに従って、各予測ブロックの予測画像を生成する。モード判定部43aは、原画像データと予測部42aから入力される予測画像データとに基づいて、各予測モードのコスト関数値を算出する。モード判定部43aは、算出したコスト関数値に基づき、各色成分についての最適な予測モードを選択する。そして、モード判定部43aは、選択した最適な予測モードを表す予測モード情報と参照画像情報とを含むインター予測に関する情報、コスト関数値、並びに各色成分の予測画像データを、セレクタ27へ出力する。
 また、モード判定部43aは、ベースレイヤ内の予測ブロックごとの予測モード情報と参照画像情報とを、共通メモリ2内に設けられる動き情報バッファに格納する。
   (2)エンハンスメントレイヤの動き探索処理
 インター予測部40bの予測制御部41bは、HEVCの仕様に従って、エンハンスメントレイヤの動き探索処理を制御する。例えば、予測制御部41bは、予測単位ごとに、各色成分についての動き探索処理を実行する。
 より具体的には、予測制御部41bは、図8A又は図8Bに例示した予測モードセットPMS4内の1つ以上の予測モード(候補モード)で予測部42bに各予測単位の予測画像を生成させる。候補モードは、動き情報バッファから取得されるベースレイヤ(又は下位レイヤ)の予測モード情報に基づいて絞り込まれる。候補モードが複数存在する場合には、予測制御部41bは、モード判定部43bに最適な予測モードを判定させる。
 予測部42bは、予測制御部41bにより指定される候補モードに従って、各予測単位の予測画像を生成する。参照画像は、動き情報バッファから取得される参照画像情報に従って決定され得る。
 例えば、ベースレイヤ内の対応ブロックのために空間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは、空間マージモード及び空間的動きベクトル予測モードに絞り込まれる。この場合、予測部42bは、空間マージモードの予測画像と空間的動きベクトル予測モードの予測画像とを生成する。その代わりに、ベースレイヤ内の対応ブロックのために空間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための予測モードは、空間マージモードに決定されてもよい。
 また、例えば、ベースレイヤ内の対応ブロックのために時間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは、時間マージモード及び時間的動きベクトル予測モードに絞り込まれる。この場合、予測部42bは、時間マージモードの予測画像と時間的動きベクトル予測モードの予測画像とを生成する。その代わりに、ベースレイヤ内の対応ブロックのために時間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための予測モードは、時間マージモードに決定されてもよい。
 また、例えば、ベースレイヤ内の対応ブロックのためにスキップモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための予測モードは、マージモードに絞り込まれてもよい。この場合、予測部42bは、空間マージモードの予測画像と時間マージモードの予測画像とを生成する。
 また、例えば、ベースレイヤ内の対応ブロックのために非ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは絞り込まれず、予測部42bは、HEVCによりサポートされる全ての予測モードの予測画像を生成し得る。なお、図8Bに示した例のように、注目PUのための候補モードは、ベースレイヤ内の対応ブロックのためにダイレクトモード又はスキップモードが選択されたか否かに依存して絞り込まれてもよい(例えば、これらモードが選択されなければ、注目PUのための候補モードはAMVPモードに絞り込まれ得る)。
 さらに、例えば、予測部42bは、レイヤ間で参照方向を再利用してもよい。この場合、予測部42bは、ベースレイヤ内の対応ブロックのために使用された参照方向(L0予測、L1予測又は双予測)に従って予測画像を生成し得る。
 モード判定部43bは、原画像データと予測部42bから入力される予測画像データとに基づいて各予測モードのコスト関数値を算出する。そして、モード判定部43bは、予測単位ごとに、各色成分についての予測モードを選択する。候補モードが複数存在する場合には、最小のコスト関数値を示す予測モードが選択され、絞り込まれた候補モードの中で選択された予測モードを示す予測モード情報が生成される。そして、モード判定部43bは、予測モード情報を含み得るインター予測に関する情報、コスト関数値、並びに各色成分の予測画像データを、セレクタ27へ出力する。
 また、モード判定部43aは、より上位のレイヤが存在する場合には、予測単位ごとの予測モード情報を動き情報バッファに格納してもよい。
 <3.一実施形態に係る符号化時の処理の流れ>
   (1)概略的な流れ
 図14は、一実施形態に係る符号化時の概略的な処理の流れの一例を示すフローチャートである。なお、説明の簡明さのために、本開示に係る技術に直接的に関連しない処理ステップは、図から省略されている。
 図14を参照すると、まず、ベースレイヤのためのイントラ予測部30aは、AVCの仕様に従って、ベースレイヤのイントラ予測処理を実行する(ステップS11)。イントラ予測部30aは、予測ブロックごとの予測モード情報を共通メモリ2に格納する。
 次に、ベースレイヤのためのインター予測部40aは、AVCの仕様に従って、ベースレイヤの動き探索処理を実行する(ステップS12)。インター予測部40aは、予測ブロックごとの予測モード情報及び参照画像情報を共通メモリ2に格納する。
 次に、セレクタ27は、イントラ予測部30a及びインター予測部40aから入力されるコスト関数値を比較することにより、イントラ予測モード又はインター予測モードを選択する(ステップS13)。
 次に、可逆符号化部16は、イントラ予測モードが選択された場合には、イントラ予測部30aから入力されるイントラ予測に関する情報を符号化する。また、可逆符号化部16は、インター予測モードが選択された場合には、インター予測部40aから入力されるインター予測に関する情報を符号化する(ステップS14)。
 次に、ベースレイヤのある予測ブロックについてイントラ予測モードが選択された場合には(ステップS15)、エンハンスメントレイヤためのイントラ予測部30bは、エンハンスメントレイヤ内の対応する予測単位についてイントラ予測処理を実行する(ステップS16)。ここで、予測モードの候補は、共通メモリ2から取得されるベースレイヤの予測モード情報に基づいて絞り込まれる。
 また、ベースレイヤのある予測ブロックについてインター予測モードが選択された場合には(ステップS15)、エンハンスメントレイヤためのインター予測部40bは、エンハンスメントレイヤ内の対応する予測単位について動き探索処理を実行する(ステップS17)。ここで、予測モードの候補は、共通メモリ2から取得されるベースレイヤの予測モード情報に基づいて絞り込まれる。参照画像情報もまた再利用され得る。
 次に、可逆符号化部16は、イントラ予測部30bから入力されるイントラ予測に関する情報、又はインター予測部40bから入力されるインター予測に関する情報を符号化する(ステップS18)。
   (2)エンハンスメントレイヤのためのイントラ予測処理
 図15Aは、図14のステップS16に相当する、符号化時のエンハンスメントレイヤのためのイントラ予測処理の詳細な流れの一例を示すフローチャートである。
 図15Aを参照すると、まず、イントラ予測部30bは、共通メモリ2によりバッファリングされるベースレイヤの予測モード情報を取得する(ステップS21)。
 次に、イントラ予測部30bは、取得した予測モード情報により示されるベースレイヤの予測モードに基づいて、エンハンスメントレイヤのためのイントラ予測の候補モードを絞り込む(ステップS22)。
 次に、イントラ予測部30bは、ステップS22においてベースレイヤの予測モードに基づいて絞り込まれた候補モードの各々に従って、予測画像を生成する(ステップS23)。
 次に、イントラ予測部30bは、候補モードが複数存在する場合には(ステップS24)、原画像データと予測画像データとに基づいて算出されるコストを評価することにより、最適な予測モードを選択する(ステップS25)。また、イントラ予測部30bは、絞り込まれた候補モードの中で選択された予測モードを示す予測モード情報を生成する(ステップS26)。
 一方、イントラ予測部30bは、候補モードが1つしか存在しない場合には(ステップS24)、当該1つの候補モードを、最適な予測モードとして選択する(ステップS27)。この場合には、予測モード情報は生成されない。
   (3)エンハンスメントレイヤのための動き探索処理
 図15Bは、図14のステップS17に相当する、符号化時のエンハンスメントレイヤのための動き探索処理の詳細な流れの一例を示すフローチャートである。
 図15Bを参照すると、まず、インター予測部40bは、共通メモリ2によりバッファリングされるベースレイヤの予測モード情報及び参照画像情報を取得する(ステップS31)。
 次に、インター予測部40bは、取得した予測モード情報により示されるベースレイヤの予測モードに基づいて、エンハンスメントレイヤのためのインター予測の候補モードを絞り込む(ステップS32)。
 次に、インター予測部40bは、ステップS32においてベースレイヤの予測モードに基づいて絞り込まれた候補モードの各々に従って、予測画像を生成する(ステップS33)。
 図8Aに示したマッピング例では、ベースレイヤにおいていずれの予測モードが選択された場合にも、エンハンスメントレイヤにおいて候補モードは複数存在する。そこで、インター予測部40bは、次に、原画像データと予測画像データとに基づいて算出されるコストを評価することにより、最適な予測モードを選択する(ステップS34)。
 次に、インター予測部40bは、絞り込まれた候補モードの中で選択された予測モードを示す予測モード情報を生成する(ステップS35)。なお、図8Bに示したマッピング例において、候補モードが1つしか存在しない場合には、当該1つの候補モードが最適な予測モードとして選択され、予測モード情報は生成されない。
 <4.一実施形態に係る復号部の構成例>
  [4-1.全体的な構成]
 図16は、図10に示した第1復号部6a及び第2復号部6bの構成の一例を示すブロック図である。図16を参照すると、第1復号部6aは、蓄積バッファ61、可逆復号部62、逆量子化部63、逆直交変換部64、加算部65、デブロックフィルタ66、並び替えバッファ67、D/A(Digital to Analogue)変換部68、フレームメモリ69、セレクタ70及び71、イントラ予測部80a並びにインター予測部90aを備える。第2復号部6bは、イントラ予測部80aの代わりにイントラ予測部80bを、インター予測部90aの代わりにインター予測部90bを備える。
 蓄積バッファ61は、伝送路を介して入力される符号化ストリームを記憶媒体を用いて一時的に蓄積する。
 可逆復号部62は、蓄積バッファ61から入力される符号化ストリームを、符号化の際に使用された符号化方式に従って復号する。また、可逆復号部62は、符号化ストリームのヘッダ領域に多重化されている情報を復号する。可逆復号部62により復号される情報は、例えば、上述したイントラ予測に関する情報及びインター予測に関する情報を含み得る。可逆復号部62は、イントラ予測に関する情報をイントラ予測部80a又は80bへ出力する。また、可逆復号部62は、インター予測に関する情報をインター予測部90a又は90bへ出力する。
 逆量子化部63は、可逆復号部62による復号後の量子化データを逆量子化する。逆直交変換部64は、符号化の際に使用された直交変換方式に従い、逆量子化部63から入力される変換係数データについて逆直交変換を行うことにより、予測誤差データを生成する。そして、逆直交変換部64は、生成した予測誤差データを加算部65へ出力する。
 加算部65は、逆直交変換部64から入力される予測誤差データと、セレクタ71から入力される予測画像データとを加算することにより、復号画像データを生成する。そして、加算部65は、生成した復号画像データをデブロックフィルタ66及びフレームメモリ69へ出力する。
 デブロックフィルタ66は、加算部65から入力される復号画像データをフィルタリングすることによりブロック歪みを除去し、フィルタリング後の復号画像データを並び替えバッファ67及びフレームメモリ69へ出力する。
 並び替えバッファ67は、デブロックフィルタ66から入力される画像を並び替えることにより、時系列の一連の画像データを生成する。そして、並び替えバッファ67は、生成した画像データをD/A変換部68へ出力する。
 D/A変換部68は、並び替えバッファ67から入力されるデジタル形式の画像データをアナログ形式の画像信号に変換する。そして、D/A変換部68は、例えば、画像復号装置60と接続されるディスプレイ(図示せず)にアナログ画像信号を出力することにより、画像を表示させる。
 フレームメモリ69は、加算部65から入力されるフィルタリング前の復号画像データ、及びデブロックフィルタ66から入力されるフィルタリング後の復号画像データを記憶媒体を用いて記憶する。
 セレクタ70は、可逆復号部62により取得されるモード情報に応じて、画像内のブロックごとに、フレームメモリ69からの画像データの出力先をイントラ予測部80a又は80bとインター予測部90a又は90bとの間で切り替える。例えば、セレクタ70は、イントラ予測モードが指定された場合には、フレームメモリ69から供給されるフィルタリング前の復号画像データを参照画像データとしてイントラ予測部80a又は80bへ出力する。また、セレクタ70は、インター予測モードが指定された場合には、フレームメモリ69から供給されるフィルタリング後の復号画像データを参照画像データとしてインター予測部90a又は90bへ出力する。
 セレクタ71は、可逆復号部62により取得されるモード情報に応じて、加算部65へ供給すべき予測画像データの出力元をイントラ予測部80a又は80bとインター予測部90a又は90bとの間で切り替える。例えば、セレクタ71は、イントラ予測モードが指定された場合には、イントラ予測部80a又は80bから出力される予測画像データを加算部65へ供給する。また、セレクタ71は、インター予測モードが指定された場合には、インター予測部90a又は90bから出力される予測画像データを加算部65へ供給する。
 イントラ予測部80aは、可逆復号部62から入力されるイントラ予測に関する情報とフレームメモリ69からの参照画像データとに基づいてベースレイヤのイントラ予測処理を行い、予測画像データを生成する。そして、イントラ予測部80aは、生成したベースレイヤの予測画像データをセレクタ71へ出力する。また、イントラ予測部80aは、予測モード情報を共通メモリ7によりバッファリングさせる。
 イントラ予測部80bは、可逆復号部62から入力されるイントラ予測に関する情報とフレームメモリ69からの参照画像データとに基づいてエンハンスメントレイヤのイントラ予測処理を行い、予測画像データを生成する。そして、イントラ予測部80bは、生成したエンハンスメントレイヤの予測画像データをセレクタ71へ出力する。また、イントラ予測部80bは、共通メモリ7によりバッファリングされるベースレイヤの予測モード情報を取得する。ベースレイヤの予測モード情報は、AVCによりサポートされる予測モードセット内のいずれかの予測モードを、予測ブロックごとに表す。イントラ予測部80bは、かかる予測モード情報に基づいて、エンハンスメントレイヤのイントラ予測処理において指定される予測モード(HEVCによりサポートされる予測モードセット内の予測モード)を絞り込む。
 インター予測部90aは、可逆復号部62から入力されるインター予測に関する情報とフレームメモリ69からの参照画像データとに基づいてベースレイヤの動き補償処理を行い、予測画像データを生成する。そして、インター予測部90aは、生成したベースレイヤの予測画像データをセレクタ71へ出力する。また、インター予測部90aは、予測モード情報及び参照画像情報を共通メモリ7によりバッファリングさせる。
 インター予測部90bは、可逆復号部62から入力されるインター予測に関する情報とフレームメモリ69からの参照画像データとに基づいてエンハンスメントレイヤの動き補償処理を行い、予測画像データを生成する。そして、インター予測部90aは、生成したエンハンスメントレイヤの予測画像データをセレクタ71へ出力する。また、インター予測部90bは、共通メモリ7によりバッファリングされるベースレイヤの予測モード情報を取得する。ベースレイヤの予測モード情報は、AVCによりサポートされる予測モードセット内のいずれかの予測モードを、予測ブロックごとに表す。インター予測部90bは、かかる予測モード情報に基づいて、エンハンスメントレイヤの動き補償処理において指定される予測モード(HEVCによりサポートされる予測モードセット内の予測モード)を絞り込む。
 第1復号部6aは、ここで説明した一連の復号処理を、ベースレイヤの一連の画像データについて実行する。第2復号部6bは、ここで説明した一連の復号処理を、エンハンスメントレイヤの一連の画像データについて実行する。エンハンスメントレイヤが複数存在する場合には、エンハンスメントレイヤの復号処理は、エンハンスメントレイヤの数だけ繰り返され得る。ベースレイヤの復号処理と、エンハンスメントレイヤの復号処理とは、例えば、符号化単位又は予測単位などの処理単位ごとに同期して実行されてもよい。
  [4-2.イントラ予測部の詳細な構成]
 図17は、図16に示したイントラ予測部80a及び80bの詳細な構成の一例を示すブロック図である。図17を参照すると、イントラ予測部80aは、予測制御部81a及び予測部85aを有する。イントラ予測部80bは、予測制御部81b、係数算出部82b、フィルタ84b及び予測部85bを有する。
   (1)ベースレイヤのイントラ予測処理
 イントラ予測部80aの予測制御部81aは、AVCの仕様に従って、ベースレイヤのイントラ予測処理を制御する。例えば、予測制御部81aは、予測ブロックごとに、各色成分についてのイントラ予測処理を実行する。
 より具体的には、予測制御部81aは、可逆復号部62から入力されるベースレイヤの予測モード情報を取得する。当該予測モード情報は、図6に例示した予測モードセットPMS1内のいずれかの予測モードを示す。予測部85aは、予測モード情報により示される予測モードに従って、各予測ブロックの予測画像を生成する。そして、予測部85aは、生成した予測画像データを、セレクタ71へ出力する。
 また、予測制御部81aは、ベースレイヤ内の予測ブロックごとに指定された予測モードを表す予測モード情報を、共通メモリ7内に設けられるモード情報バッファに格納する。
   (2)エンハンスメントレイヤのイントラ予測処理
 イントラ予測部80bの予測制御部81bは、HEVCの仕様に従って、エンハンスメントレイヤのイントラ予測処理を制御する。例えば、予測制御部81bは、予測単位ごとに、各色成分についてのイントラ予測処理を実行する。
 より具体的には、予測制御部81bは、モード情報バッファから取得されるベースレイヤ(又は下位レイヤ)の予測モード情報に基づいて、エンハンスメントレイヤのための候補モードを絞り込む。ここでの各候補モードは、図6に例示した予測モードセットPMS2内のいずれかの予測モードである。絞り込み後に候補モードが1つしか残らない場合には、予測制御部81bは、当該1つの候補モードを選択する。一方、絞り込み後に候補モードが複数存在する場合には、予測制御部81bは、可逆復号部62から入力されるエンハンスメントレイヤの予測モード情報に基づいて、当該複数の候補モードから1つの候補モードを選択する。予測部85bは、予測制御部81bにより選択される予測モードに従って、各予測ブロックの予測画像を生成する。そして、予測部85bは、生成した予測画像データを、セレクタ71へ出力する。
 係数算出部82bは、LMモードにおいて、予測部85bにより使用される予測関数の係数を、上述した式(7)及び式(8)に従って算出する。フィルタ84bは、輝度成分の画素値をクロマフォーマットに応じてダウンサンプリングすることにより、LMモードの予測関数への入力値を生成する。
 ベースレイヤの予測モードに基づくエンハンスメントレイヤの予測モードの絞り込みは、例えば、図6に示したマッピングに従って行われてよい。
 例えば、輝度成分の注目PUのブロックサイズが16×16画素であり、ベースレイヤ内の対応ブロックのブロックサイズが8×8画素であるものとする。対応ブロックのためにDC予測モードが指定されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、DC予測モード及び平面予測モードに絞り込まれる。この場合、予測制御部81bは、DC予測モード及び平面予測モードのうちエンハンスメントレイヤの予測モード情報により指定される予測モードを選択する。予測モード情報は、たかだか1ビットであってよい。
 また、例えば、輝度成分の注目PUのブロックサイズが32×32画素であり、対応ブロックのブロックサイズが16×16画素であるものとする。対応ブロックのためにDC予測モードが指定されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、DC予測モードのみに絞り込まれる。同じケースで対応ブロックのために平面予測モードが指定されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、平面予測モードのみに絞り込まれる。この場合、予測制御部81bは、エンハンスメントレイヤの予測モード情報を取得しなくてよい。
 また、例えば、輝度成分の注目PUに対応する対応ブロックのために特定の予測方向に関連付けられる予測モードが選択されたことをベースレイヤの予測モード情報が示す場合には、候補モードは、角度予測モードに絞り込まれる。さらに、角度予測モードにおける予測方向は、ベースレイヤの予測モードの予測方向に近い範囲内に絞り込まれ得る。この場合、予測制御部81bは、ベースレイヤの予測モードの予測方向とエンハンスメントレイヤの予測モード情報により指定される予測方向の差分とを用いて、選択すべき予測モードの予測方向を決定する。そして、予測制御部81bは、決定した予測方向に対応する予測モードを注目PUのために選択する。
 また、例えば、色差成分の注目PUについては、候補モードは、ベースレイヤ内の対応ブロックのために選択された予測モード及びLMモードに絞り込まれる。この場合、予測制御部81bは、ベースレイヤ内の対応ブロックのために指定された予測モード及びLMモードのうちエンハンスメントレイヤの予測モード情報により指定される予測モードを選択する。予測モード情報は、たかだか1ビットであってよい。
 予測制御部81bは、より上位のレイヤが存在する場合には、予測単位ごとの予測モード情報をモード情報バッファに格納してもよい。
  [4-3.インター予測部の詳細な構成]
 図18は、図16に示したインター予測部90a及び90bの詳細な構成の一例を示すブロック図である。図18を参照すると、インター予測部90aは、予測制御部91a及び予測部92aを有する。インター予測部90bは、予測制御部91b及び予測部92bを有する。
   (1)ベースレイヤの動き補償処理
 インター予測部90aの予測制御部91aは、AVCの仕様に従って、ベースレイヤの動き補償処理を制御する。例えば、予測制御部91aは、予測ブロックごとに、各色成分についての動き補償処理を実行する。
 より具体的には、予測制御部91aは、可逆復号部62から入力されるベースレイヤの予測モード情報を取得する。当該予測モード情報は、図8A又は図8Bに例示した予測モードセットPMS3内のいずれかの予測モードを示す。予測部92aは、予測モード情報により示される予測モードに従って、各予測ブロックの予測画像を生成する。そして、予測部92aは、生成した予測画像データを、セレクタ71へ出力する。
 また、予測制御部91aは、ベースレイヤ内の予測ブロックごとに指定された予測モードを表す予測モード情報及び参照画像情報を、共通メモリ7内に設けられる動き情報バッファに格納する。
   (2)エンハンスメントレイヤの動き補償処理
 インター予測部90bの予測制御部91bは、HEVCの仕様に従って、エンハンスメントレイヤの動き補償処理を制御する。例えば、予測制御部91bは、予測単位ごとに、各色成分についての動き補償処理を実行する。
 より具体的には、予測制御部91bは、動き情報バッファから取得されるベースレイヤ(又は下位レイヤ)の予測モード情報に基づいて、エンハンスメントレイヤのための候補モードを絞り込む。ここでの各候補モードは、図8A又は図8Bに例示した予測モードセットPMS4内のいずれかの予測モードである。また、予測制御部81bは、可逆復号部62から入力されるエンハンスメントレイヤの予測モード情報に基づいて、絞り込み後の複数の候補モードから1つの候補モードを選択する。予測部92bは、予測制御部91bにより選択される予測モードに従って、各予測ブロックの予測画像を生成する。参照画像は、動き情報バッファから取得される参照画像情報に従って決定され得る。そして、予測部92bは、生成した予測画像データを、セレクタ71へ出力する。
 ベースレイヤの予測モードに基づくエンハンスメントレイヤの予測モードの絞り込みは、例えば、図8A又は図8Bに示したマッピングに従って行われてよい。
 例えば、ベースレイヤ内の対応ブロックのために空間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは、空間マージモード及び空間的動きベクトル予測モードに絞り込まれる。この場合、予測制御部91bは、空間マージモード及び空間的動きベクトル予測モードのうちエンハンスメントレイヤの予測モード情報により指定される予測モードを選択する。その代わりに、ベースレイヤ内の対応ブロックのために空間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、予測モード情報を参照することなく、注目PUのための予測モードとして空間マージモードが選択されてもよい。
 また、例えば、ベースレイヤ内の対応ブロックのために時間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは、時間マージモード及び時間的動きベクトル予測モードに絞り込まれる。この場合、予測制御部91bは、時間マージモード及び時間的動きベクトル予測モードのうちエンハンスメントレイヤの予測モード情報により指定される予測モードを選択する。その代わりに、ベースレイヤ内の対応ブロックのために時間ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、予測モード情報を参照することなく、注目PUのための予測モードとして時間マージモードが選択されてもよい。
 また、例えば、ベースレイヤ内の対応ブロックのためにスキップモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは、空間マージモード及び時間マージモードに絞り込まれてもよい。この場合、予測制御部91bは、空間マージモード及び時間マージモードのうちエンハンスメントレイヤの予測モード情報により指定される予測モードを選択する。
 また、例えば、ベースレイヤ内の対応ブロックのために非ダイレクトモードが選択されたことをベースレイヤの予測モード情報が示す場合には、注目PUのための候補モードは絞り込まれず、予測制御部91bは、HEVCによりサポートされる全ての予測モードのうちエンハンスメントレイヤの予測モード情報により指定される予測モードを選択し得る。なお、図8Bに示した例のように、注目PUのための候補モードは、ベースレイヤ内の対応ブロックのためにダイレクトモード又はスキップモードが選択されたか否かに依存して絞り込まれてもよい。
 さらに、例えば、レイヤ間で参照方向が再利用されてもよい。この場合、予測制御部91bは、ベースレイヤ内の対応ブロックのために使用された参照方向(L0予測、L1予測又は双予測)に従って、予測部92bに予測画像を生成させ得る。
 予測制御部91bは、より上位のレイヤが存在する場合には、予測単位ごとの予測モード情報を動き情報バッファに格納してもよい。
 <5.一実施形態に係る復号時の処理の流れ>
   (1)概略的な流れ
 図19は、一実施形態に係る復号時の概略的な処理の流れの一例を示すフローチャートである。なお、説明の簡明さのために、本開示に係る技術に直接的に関連しない処理ステップは、図から省略されている。
 図19を参照すると、まず、可逆復号部62は、ベースレイヤの符号化パラメータを復号する(ステップS61)。その後の処理は、復号されたパラメータにより各ブロックについてイントラ予測モード及びインター予測モードのいずれが指定されているかに応じて分岐する(ステップS62)。
 イントラ予測モードが指定されている予測ブロックについて、ベースレイヤのためのイントラ予測部80aは、予測モード情報により指定される予測モードに従って、ベースレイヤのイントラ予測処理を実行する(ステップS63)。イントラ予測部80aは、予測ブロックごとの予測モード情報を共通メモリ7に格納する。
 次に、可逆復号部62は、エンハンスメントレイヤの符号化パラメータを復号する(ステップS64)。そして、エンハンスメントレイヤためのイントラ予測部80bは、エンハンスメントレイヤ内の対応する予測単位について、イントラ予測処理を実行する(ステップS65)。ここでの予測モードの候補は、共通メモリ7から取得されるベースレイヤの予測モード情報に基づいて絞り込まれる。
 インター予測モードが指定されている予測ブロックについて、ベースレイヤのためのインター予測部90aは、予測モード情報及び参照画像情報に従って、ベースレイヤの動き補償処理を実行する(ステップS66)。インター予測部90aは、予測ブロックごとの予測モード情報及び参照画像情報を共通メモリ7に格納する。
 次に、可逆復号部62は、エンハンスメントレイヤの符号化パラメータを復号する(ステップS67)。そして、エンハンスメントレイヤためのインター予測部90bは、エンハンスメントレイヤ内の対応する予測単位について、動き補償処理を実行する(ステップS68)。ここでの予測モードの候補は、共通メモリ7から取得されるベースレイヤの予測モード情報に基づいて絞り込まれる。参照画像情報もまた再利用され得る。
   (2)エンハンスメントレイヤのためのイントラ予測処理
 図20Aは、図19のステップS65に相当する、復号時のエンハンスメントレイヤのためのイントラ予測処理の詳細な流れの一例を示すフローチャートである。
 図20Aを参照すると、まず、イントラ予測部80bは、共通メモリ7によりバッファリングされるベースレイヤの予測モード情報を取得する(ステップS71)。
 次に、イントラ予測部80bは、取得した予測モード情報により示されるベースレイヤの予測モードに基づいて、エンハンスメントレイヤのためのイントラ予測の候補モードを絞り込む(ステップS72)。その後の処理は、絞り込み後の候補モードが複数存在するか否かに応じて分岐する(ステップS73)。
 イントラ予測部80bは、絞り込み後の候補モードが複数存在する場合には、エンハンスメントレイヤの予測モード情報を取得する(ステップS74)。そして、イントラ予測部80bは、絞り込み後の候補モードのうち、エンハンスメントレイヤの予測モード情報により示される予測モードを選択する(ステップS75)。
 一方、イントラ予測部80bは、絞り込み後の候補モードが1つしか存在しない場合には、当該1つの候補モードを選択する(ステップS76)。この場合には、エンハンスメントレイヤの予測モード情報は取得されない。
 そして、イントラ予測部80bは、ステップS75又はステップS76において選択された予測モードに従って、予測画像を生成する(ステップS77)。
   (3)エンハンスメントレイヤのための動き補償処理
 図20Bは、図19のステップS68に相当する、復号時のエンハンスメントレイヤのための動き補償処理の詳細な流れの一例を示すフローチャートである。
 図20Bを参照すると、まず、インター予測部90bは、共通メモリ7によりバッファリングされるベースレイヤの予測モード情報及び参照画像情報を取得する(ステップS81)。
 次に、インター予測部90bは、取得した予測モード情報により示されるベースレイヤの予測モードに基づいて、エンハンスメントレイヤのためのインター予測の候補モードを絞り込む(ステップS82)。
 図8Aに示したマッピング例では、ベースレイヤにおいていずれの予測モードが選択された場合にも、エンハンスメントレイヤにおいて候補モードは複数存在する。そこで、インター予測部90bは、さらに、エンハンスメントレイヤの予測モード情報を取得する(ステップS83)。そして、インター予測部90bは、絞り込み後の候補モードのうち、エンハンスメントレイヤの予測モード情報により示される予測モードを選択する(ステップS84)。
 そして、インター予測部90bは、ステップS84において選択された予測モードと再利用され得る参照画像情報とに従って、予測画像を生成する(ステップS85)。なお、図8Bに示したマッピング例において、候補モードが1つしか存在しない場合には、インター予測部90bは、エンハンスメントレイヤの予測モード情報を参照することなく、当該1つの候補モードと参照画像情報とに従って、予測画像を生成してもよい。
 <6.変形例>
  [6-1.予測モードの拡張]
 エンハンスメントレイヤにおいてサポートされる予測モードセットは、シングルレイヤの通常の符号化においてサポートされる予測モードセットとは一致していなくてもよい。下位レイヤが存在するというエンハンスメントレイヤの特徴を活かして拡張された予測モードが、エンハンスメントレイヤにおいてサポートされてもよい。
 例えば、図8A及び図8Bを用いて説明したように、HEVCにおけるインター予測では、マージモード及び動きベクトル予測モードを含む複数の予測モードがサポートされる。ここで、i番目の予測モードにおいて予測され(AMVPモード)又は取得される(マージモード)注目PUの候補予測動きベクトルをPMVとする。また、ベースレイヤ内の対応ブロックについて使用された動きベクトルをMVbaseとする。一例としての拡張される予測モードにおいて、注目PUについて使用される予測動きベクトルPMVeは、次の式(9)及び式(10)に従って決定されてもよい。なお、番号kは、式(9)に示す通り、動きベクトルMVbaseとの間で最も小さい差分を示す候補予測動きベクトルに対応する予測モードの番号である。
Figure JPOXMLDOC01-appb-M000007
 ベースレイヤとエンハンスメントレイヤとの間で空間解像度が異なる場合には、解像度比に応じて動きベクトルMVbaseをスケーリングした上で、上記式(9)が評価されてもよい。また、動きベクトルMVbaseに対応する参照インデックスとi番目の予測モードに対応する参照インデックスとが異なる場合には、参照インデックスの相違に基づいて動きベクトルMVbaseをスケーリングした上で、上記式(9)が評価されてもよい。参照インデックスとは、例えば“Parsing Robustness for Merge/AMVP”(Toshiyasu Sugio, Takahiro Nishi, JCTVC-F470)において説明されているマージインデックス及びAMVPインデックスを含み得る。これらスケーリングによって、空間解像度又は参照画像の時間的位置が異なる状況で動きベクトルが算出される場合にも、それら動きベクトルを適切に比較して、最適な予測モードを決定することが可能となる。
 一般的に、ベースレイヤ内の対応ブロックの動きベクトルは、近傍ブロックの動きベクトルと比較して、エンハンスメントレイヤ内の注目PUのための理想的な動きベクトルに、より近いと想定される。そのため、上述したように動きベクトルMVbaseとの間で最も小さい差分を示す予測動きベクトルを選択することで、エンハンスメントレイヤにおいて動きベクトルの予測精度を高め、符号化効率を向上させることができる。なお、ベースレイヤの動きベクトルMVbaseは、典型的には、共通メモリを用いてバッファリングされる。動きベクトルMVbaseは、メモリリソースの消費を抑制するために、バッファリングの際に間引かれてもよい。その代わりに、動きベクトルMVbaseは、バッファリングされることなく、ベースレイヤのリコンストラクト画像から再探索されてもよい。再探索の手法は、BLR(spatial scalability using BL Reconstructed pixel only)モードという種類のスケーラブル符号化において特に有益である。
 式(9)において、動きベクトルMVbaseとの間で最も小さい差分を示す予測動きベクトルに対応する複数の予測モード(複数のkの解)が存在する場合には、動きベクトルMVbaseに対応する参照インデックスと同じ参照インデックスを有する予測モードが、エンハンスメントレイヤのインター予測のために選択されてよい。それにより、エンハンスメントレイヤにおいてベースレイヤと同等の参照画像を用いて、精度の高い予測画像を生成することができる。動きベクトルMVbaseに対応する参照インデックスと同じ参照インデックスを有する予測モードが1つでない(例えば2つ以上、又はゼロである)ときは、最も小さい差分を示す複数の予測モードのうち参照インデックスの最も小さい予測モードが、エンハンスメントレイヤのインター予測のために選択されてもよい。その代わりに、当該複数の予測モードのうちどの予測モードを使用すべきかを示すパラメータがエンコーダにおいてエンハンスメントレイヤの符号化ストリーム内に符号化され、デコーダにおいて復号されてもよい。
  [6-2.符号化方式の組合せに応じた切替え]
 ここまで、ベースレイヤがAVCで符号化され、エンハンスメントレイヤがHEVCで符号化される例を主に説明した。しかしながら、例えば、レイヤ間の参照方向の再利用、並びに、式(9)及び式(10)を用いて説明した拡張された予測モードなどのアイディアは、エンハンスメントレイヤがHEVCで符号化されるスケーラブル符号化に一般に適用可能である。ベースレイヤの符号化方式は、AVCであってもよく、又はHEVCであってもよい。
 また、JCTVCにおいて、ベースレイヤにおいて使用される符号化方式を示すフラグをVPS(Video Parameter Set)内に符号化することが検討されている(例えば“NAL unit header and parameter set designs for HEVC extensions”(Jill Boyce, Ye-Kui Wang, JCTVC-K1007)参照)。当該フラグは、例えば、ベースレイヤにおいてAVCが使用される場合には“1”を、そうでなければ“0”を示し得る。上述した個々のアイディアは、VPSから復号されるこのフラグの値に応じて、有効化され又は無効化されてもよい。
 例えば、ベースレイヤの符号化方式としてAVCが示された場合(エンハンスメントレイヤの符号化方式はHEVC)に、本開示に係る技術に従って、エンハンスメントレイヤのための予測モードが絞り込まれてもよい。一方、ベースレイヤ及びエンハンスメントレイヤの符号化方式が共にHEVCである場合には、ベースレイヤ内の対応ブロックのために指定された予測モード(例えば、マージモード又はAMVPモード)が、そのままエンハンスメントレイヤ内の注目PUのために選択(再利用)されてもよい。
 その代わりに、例えば、ベースレイヤ及びエンハンスメントレイヤの符号化方式が共にHEVCである場合にはベースレイヤにおいて指定された予測モードがエンハンスメントレイヤにおいて再利用され、ベースレイヤの符号化方式がAVCである場合には、予測モード情報及びその他の情報(例えば、動き情報)が、シングルレイヤの通常の符号化と同様にエンハンスメントレイヤにおいて符号化されてもよい。後者の場合、エンハンスメントレイヤのインター予測は、ベースレイヤの動き情報を参照することなく、エンハンスメントレイヤの符号化ストリームから復号される予測モードで実行され得る。
 なお、AVC及びHEVCの双方において、Pピクチャ及びBピクチャ(インター予測が実行され得るピクチャ)内にイントラ予測ブロックを配置することが許容される。そこで、エンハンスメントレイヤのピクチャタイプに関わらず、ベースレイヤ内の対応ブロックについてイントラ予測が実行された場合には、エンハンスメントレイヤ内の注目PUについてイントラ予測が実行されてもよい。その代わりに、ベースレイヤ内の対応ブロックについてイントラ予測が実行された場合、エンハンスメントレイヤのPピクチャ又はBピクチャ内の注目PUについて、別途動き情報が符号化されてもよい。後者の場合、エンハンスメントレイヤのインター予測は、エンハンスメントレイヤの符号化ストリームから復号される動き情報を用いて実行され得る。
 ここで説明したような予測処理の切替えによって、スケーラブル符号化の用途に応じた柔軟な予測処理の設計を可能とし、エンハンスメントレイヤの予測精度を高めて符号化効率を一層向上させることができる。
 <7.応用例>
  [7-1.様々な製品への応用]
 上述した実施形態に係る画像符号化装置10及び画像復号装置60は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、及びセルラー通信による端末への配信などにおける送信機若しくは受信機、光ディスク、磁気ディスク及びフラッシュメモリなどの媒体に画像を記録する記録装置、又は、これら記憶媒体から画像を再生する再生装置などの様々な電子機器に応用され得る。以下、4つの応用例について説明する。
   (1)第1の応用例
 図21は、上述した実施形態を適用したテレビジョン装置の概略的な構成の一例を示している。テレビジョン装置900は、アンテナ901、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、表示部906、音声信号処理部907、スピーカ908、外部インタフェース909、制御部910、ユーザインタフェース911、及びバス912を備える。
 チューナ902は、アンテナ901を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ902は、復調により得られた符号化ビットストリームをデマルチプレクサ903へ出力する。即ち、チューナ902は、画像が符号化されている符号化ストリームを受信する、テレビジョン装置900における伝送手段としての役割を有する。
 デマルチプレクサ903は、符号化ビットストリームから視聴対象の番組の映像ストリーム及び音声ストリームを分離し、分離した各ストリームをデコーダ904へ出力する。また、デマルチプレクサ903は、符号化ビットストリームからEPG(Electronic Program Guide)などの補助的なデータを抽出し、抽出したデータを制御部910に供給する。なお、デマルチプレクサ903は、符号化ビットストリームがスクランブルされている場合には、デスクランブルを行ってもよい。
 デコーダ904は、デマルチプレクサ903から入力される映像ストリーム及び音声ストリームを復号する。そして、デコーダ904は、復号処理により生成される映像データを映像信号処理部905へ出力する。また、デコーダ904は、復号処理により生成される音声データを音声信号処理部907へ出力する。
 映像信号処理部905は、デコーダ904から入力される映像データを再生し、表示部906に映像を表示させる。また、映像信号処理部905は、ネットワークを介して供給されるアプリケーション画面を表示部906に表示させてもよい。また、映像信号処理部905は、映像データについて、設定に応じて、例えばノイズ除去などの追加的な処理を行ってもよい。さらに、映像信号処理部905は、例えばメニュー、ボタン又はカーソルなどのGUI(Graphical User Interface)の画像を生成し、生成した画像を出力画像に重畳してもよい。
 表示部906は、映像信号処理部905から供給される駆動信号により駆動され、表示デバイス(例えば、液晶ディスプレイ、プラズマディスプレイ又はOLEDなど)の映像面上に映像又は画像を表示する。
 音声信号処理部907は、デコーダ904から入力される音声データについてD/A変換及び増幅などの再生処理を行い、スピーカ908から音声を出力させる。また、音声信号処理部907は、音声データについてノイズ除去などの追加的な処理を行ってもよい。
 外部インタフェース909は、テレビジョン装置900と外部機器又はネットワークとを接続するためのインタフェースである。例えば、外部インタフェース909を介して受信される映像ストリーム又は音声ストリームが、デコーダ904により復号されてもよい。即ち、外部インタフェース909もまた、画像が符号化されている符号化ストリームを受信する、テレビジョン装置900における伝送手段としての役割を有する。
 制御部910は、CPU(Central Processing Unit)などのプロセッサ、並びにRAM(Random Access Memory)及びROM(Read Only Memory)などのメモリを有する。メモリは、CPUにより実行されるプログラム、プログラムデータ、EPGデータ、及びネットワークを介して取得されるデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、テレビジョン装置900の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース911から入力される操作信号に応じて、テレビジョン装置900の動作を制御する。
 ユーザインタフェース911は、制御部910と接続される。ユーザインタフェース911は、例えば、ユーザがテレビジョン装置900を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース911は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部910へ出力する。
 バス912は、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、音声信号処理部907、外部インタフェース909及び制御部910を相互に接続する。
 このように構成されたテレビジョン装置900において、デコーダ904は、上述した実施形態に係る画像復号装置60の機能を有する。それにより、テレビジョン装置900での画像のスケーラブル復号に際して、複数のレイヤが異なる画像符号化方式で符号化される場合にも、予測モード情報のために要する符号量を削減することができる。
   (2)第2の応用例
 図22は、上述した実施形態を適用した携帯電話機の概略的な構成の一例を示している。携帯電話機920は、アンテナ921、通信部922、音声コーデック923、スピーカ924、マイクロホン925、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、制御部931、操作部932、及びバス933を備える。
 アンテナ921は、通信部922に接続される。スピーカ924及びマイクロホン925は、音声コーデック923に接続される。操作部932は、制御部931に接続される。バス933は、通信部922、音声コーデック923、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、及び制御部931を相互に接続する。
 携帯電話機920は、音声通話モード、データ通信モード、撮影モード及びテレビ電話モードを含む様々な動作モードで、音声信号の送受信、電子メール又は画像データの送受信、画像の撮像、及びデータの記録などの動作を行う。
 音声通話モードにおいて、マイクロホン925により生成されるアナログ音声信号は、音声コーデック923に供給される。音声コーデック923は、アナログ音声信号を音声データへ変換し、変換された音声データをA/D変換し圧縮する。そして、音声コーデック923は、圧縮後の音声データを通信部922へ出力する。通信部922は、音声データを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号をアンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部922は、受信信号を復調及び復号して音声データを生成し、生成した音声データを音声コーデック923へ出力する。音声コーデック923は、音声データを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック923は、生成した音声信号をスピーカ924に供給して音声を出力させる。
 また、データ通信モードにおいて、例えば、制御部931は、操作部932を介するユーザによる操作に応じて、電子メールを構成する文字データを生成する。また、制御部931は、文字を表示部930に表示させる。また、制御部931は、操作部932を介するユーザからの送信指示に応じて電子メールデータを生成し、生成した電子メールデータを通信部922へ出力する。通信部922は、電子メールデータを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号をアンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部922は、受信信号を復調及び復号して電子メールデータを復元し、復元した電子メールデータを制御部931へ出力する。制御部931は、表示部930に電子メールの内容を表示させると共に、電子メールデータを記録再生部929の記憶媒体に記憶させる。
 記録再生部929は、読み書き可能な任意の記憶媒体を有する。例えば、記憶媒体は、RAM又はフラッシュメモリなどの内蔵型の記憶媒体であってもよく、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USBメモリ、又はメモリカードなどの外部装着型の記憶媒体であってもよい。
 また、撮影モードにおいて、例えば、カメラ部926は、被写体を撮像して画像データを生成し、生成した画像データを画像処理部927へ出力する。画像処理部927は、カメラ部926から入力される画像データを符号化し、符号化ストリームを記録再生部929の記憶媒体に記憶させる。
 また、テレビ電話モードにおいて、例えば、多重分離部928は、画像処理部927により符号化された映像ストリームと、音声コーデック923から入力される音声ストリームとを多重化し、多重化したストリームを通信部922へ出力する。通信部922は、ストリームを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号をアンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。これら送信信号及び受信信号には、符号化ビットストリームが含まれ得る。そして、通信部922は、受信信号を復調及び復号してストリームを復元し、復元したストリームを多重分離部928へ出力する。多重分離部928は、入力されるストリームから映像ストリーム及び音声ストリームを分離し、映像ストリームを画像処理部927、音声ストリームを音声コーデック923へ出力する。画像処理部927は、映像ストリームを復号し、映像データを生成する。映像データは、表示部930に供給され、表示部930により一連の画像が表示される。音声コーデック923は、音声ストリームを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック923は、生成した音声信号をスピーカ924に供給して音声を出力させる。
 このように構成された携帯電話機920において、画像処理部927は、上述した実施形態に係る画像符号化装置10及び画像復号装置60の機能を有する。それにより、携帯電話機920での画像のスケーラブル符号化及び復号に際して、複数のレイヤが異なる画像符号化方式で符号化される場合にも、予測モード情報のために要する符号量を削減することができる。
   (3)第3の応用例
 図23は、上述した実施形態を適用した記録再生装置の概略的な構成の一例を示している。記録再生装置940は、例えば、受信した放送番組の音声データ及び映像データを符号化して記録媒体に記録する。また、記録再生装置940は、例えば、他の装置から取得される音声データ及び映像データを符号化して記録媒体に記録してもよい。また、記録再生装置940は、例えば、ユーザの指示に応じて、記録媒体に記録されているデータをモニタ及びスピーカ上で再生する。このとき、記録再生装置940は、音声データ及び映像データを復号する。
 記録再生装置940は、チューナ941、外部インタフェース942、エンコーダ943、HDD(Hard Disk Drive)944、ディスクドライブ945、セレクタ946、デコーダ947、OSD(On-Screen Display)948、制御部949、及びユーザインタフェース950を備える。
 チューナ941は、アンテナ(図示せず)を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ941は、復調により得られた符号化ビットストリームをセレクタ946へ出力する。即ち、チューナ941は、記録再生装置940における伝送手段としての役割を有する。
 外部インタフェース942は、記録再生装置940と外部機器又はネットワークとを接続するためのインタフェースである。外部インタフェース942は、例えば、IEEE1394インタフェース、ネットワークインタフェース、USBインタフェース、又はフラッシュメモリインタフェースなどであってよい。例えば、外部インタフェース942を介して受信される映像データ及び音声データは、エンコーダ943へ入力される。即ち、外部インタフェース942は、記録再生装置940における伝送手段としての役割を有する。
 エンコーダ943は、外部インタフェース942から入力される映像データ及び音声データが符号化されていない場合に、映像データ及び音声データを符号化する。そして、エンコーダ943は、符号化ビットストリームをセレクタ946へ出力する。
 HDD944は、映像及び音声などのコンテンツデータが圧縮された符号化ビットストリーム、各種プログラム及びその他のデータを内部のハードディスクに記録する。また、HDD944は、映像及び音声の再生時に、これらデータをハードディスクから読み出す。
 ディスクドライブ945は、装着されている記録媒体へのデータの記録及び読み出しを行う。ディスクドライブ945に装着される記録媒体は、例えばDVDディスク(DVD-Video、DVD-RAM、DVD-R、DVD-RW、DVD+R、DVD+RW等)又はBlu-ray(登録商標)ディスクなどであってよい。
 セレクタ946は、映像及び音声の記録時には、チューナ941又はエンコーダ943から入力される符号化ビットストリームを選択し、選択した符号化ビットストリームをHDD944又はディスクドライブ945へ出力する。また、セレクタ946は、映像及び音声の再生時には、HDD944又はディスクドライブ945から入力される符号化ビットストリームをデコーダ947へ出力する。
 デコーダ947は、符号化ビットストリームを復号し、映像データ及び音声データを生成する。そして、デコーダ947は、生成した映像データをOSD948へ出力する。また、デコーダ904は、生成した音声データを外部のスピーカへ出力する。
 OSD948は、デコーダ947から入力される映像データを再生し、映像を表示する。また、OSD948は、表示する映像に、例えばメニュー、ボタン又はカーソルなどのGUIの画像を重畳してもよい。
 制御部949は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、記録再生装置940の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース950から入力される操作信号に応じて、記録再生装置940の動作を制御する。
 ユーザインタフェース950は、制御部949と接続される。ユーザインタフェース950は、例えば、ユーザが記録再生装置940を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース950は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部949へ出力する。
 このように構成された記録再生装置940において、エンコーダ943は、上述した実施形態に係る画像符号化装置10の機能を有する。また、デコーダ947は、上述した実施形態に係る画像復号装置60の機能を有する。それにより、記録再生装置940での画像のスケーラブル符号化及び復号に際して、複数のレイヤが異なる画像符号化方式で符号化される場合にも、予測モード情報のために要する符号量を削減することができる。
   (4)第4の応用例
 図24は、上述した実施形態を適用した撮像装置の概略的な構成の一例を示している。撮像装置960は、被写体を撮像して画像を生成し、画像データを符号化して記録媒体に記録する。
 撮像装置960は、光学ブロック961、撮像部962、信号処理部963、画像処理部964、表示部965、外部インタフェース966、メモリ967、メディアドライブ968、OSD969、制御部970、ユーザインタフェース971、及びバス972を備える。
 光学ブロック961は、撮像部962に接続される。撮像部962は、信号処理部963に接続される。表示部965は、画像処理部964に接続される。ユーザインタフェース971は、制御部970に接続される。バス972は、画像処理部964、外部インタフェース966、メモリ967、メディアドライブ968、OSD969、及び制御部970を相互に接続する。
 光学ブロック961は、フォーカスレンズ及び絞り機構などを有する。光学ブロック961は、被写体の光学像を撮像部962の撮像面に結像させる。撮像部962は、CCD又はCMOSなどのイメージセンサを有し、撮像面に結像した光学像を光電変換によって電気信号としての画像信号に変換する。そして、撮像部962は、画像信号を信号処理部963へ出力する。
 信号処理部963は、撮像部962から入力される画像信号に対してニー補正、ガンマ補正、色補正などの種々のカメラ信号処理を行う。信号処理部963は、カメラ信号処理後の画像データを画像処理部964へ出力する。
 画像処理部964は、信号処理部963から入力される画像データを符号化し、符号化データを生成する。そして、画像処理部964は、生成した符号化データを外部インタフェース966又はメディアドライブ968へ出力する。また、画像処理部964は、外部インタフェース966又はメディアドライブ968から入力される符号化データを復号し、画像データを生成する。そして、画像処理部964は、生成した画像データを表示部965へ出力する。また、画像処理部964は、信号処理部963から入力される画像データを表示部965へ出力して画像を表示させてもよい。また、画像処理部964は、OSD969から取得される表示用データを、表示部965へ出力する画像に重畳してもよい。
 OSD969は、例えばメニュー、ボタン又はカーソルなどのGUIの画像を生成して、生成した画像を画像処理部964へ出力する。
 外部インタフェース966は、例えばUSB入出力端子として構成される。外部インタフェース966は、例えば、画像の印刷時に、撮像装置960とプリンタとを接続する。また、外部インタフェース966には、必要に応じてドライブが接続される。ドライブには、例えば、磁気ディスク又は光ディスクなどのリムーバブルメディアが装着され、リムーバブルメディアから読み出されるプログラムが、撮像装置960にインストールされ得る。さらに、外部インタフェース966は、LAN又はインターネットなどのネットワークに接続されるネットワークインタフェースとして構成されてもよい。即ち、外部インタフェース966は、撮像装置960における伝送手段としての役割を有する。
 メディアドライブ968に装着される記録媒体は、例えば、磁気ディスク、光磁気ディスク、光ディスク、又は半導体メモリなどの、読み書き可能な任意のリムーバブルメディアであってよい。また、メディアドライブ968に記録媒体が固定的に装着され、例えば、内蔵型ハードディスクドライブ又はSSD(Solid State Drive)のような非可搬性の記憶部が構成されてもよい。
 制御部970は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、撮像装置960の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース971から入力される操作信号に応じて、撮像装置960の動作を制御する。
 ユーザインタフェース971は、制御部970と接続される。ユーザインタフェース971は、例えば、ユーザが撮像装置960を操作するためのボタン及びスイッチなどを有する。ユーザインタフェース971は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部970へ出力する。
 このように構成された撮像装置960において、画像処理部964は、上述した実施形態に係る画像符号化装置10及び画像復号装置60の機能を有する。それにより、撮像装置960での画像のスケーラブル符号化及び復号に際して、複数のレイヤが異なる画像符号化方式で符号化される場合にも、予測モード情報のために要する符号量を削減することができる。
  [7-2.スケーラブル符号化の様々な用途]
 上述したスケーラブル符号化の利点は、様々な用途において享受され得る。以下、3つの用途の例について説明する。
   (1)第1の例
 第1の例において、スケーラブル符号化は、データの選択的な伝送のために利用される。図25を参照すると、データ伝送システム1000は、ストリーム記憶装置1001及び配信サーバ1002を含む。配信サーバ1002は、ネットワーク1003を介して、いくつかの端末装置と接続される。ネットワーク1003は、有線ネットワークであっても無線ネットワークであってもよく、又はそれらの組合せであってもよい。図25には、端末装置の例として、PC(Personal Computer)1004、AV機器1005、タブレット装置1006及び携帯電話機1007が示されている。
 ストリーム記憶装置1001は、例えば、画像符号化装置10により生成される多重化ストリームを含むストリームデータ1011を記憶する。多重化ストリームは、ベースレイヤ(BL)の符号化ストリーム及びエンハンスメントレイヤ(EL)の符号化ストリームを含む。配信サーバ1002は、ストリーム記憶装置1001に記憶されているストリームデータ1011を読み出し、読み出したストリームデータ1011の少なくとも一部分を、ネットワーク1003を介して、PC1004、AV機器1005、タブレット装置1006、及び携帯電話機1007へ配信する。
 端末装置へのストリームの配信の際、配信サーバ1002は、端末装置の能力又は通信環境などの何らかの条件に基づいて、配信すべきストリームを選択する。例えば、配信サーバ1002は、端末装置が扱うことのできる画質を上回るほど高い画質を有する符号化ストリームを配信しないことにより、端末装置における遅延、オーバフロー又はプロセッサの過負荷の発生を回避してもよい。また、配信サーバ1002は、高い画質を有する符号化ストリームを配信しないことにより、ネットワーク1003の通信帯域が占有されることを回避してもよい。一方、配信サーバ1002は、これら回避すべきリスクが存在しない場合、又はユーザとの契約若しくは何らかの条件に基づいて適切だと判断される場合に、多重化ストリームの全てを端末装置へ配信してもよい。
 図25の例では、配信サーバ1002は、ストリーム記憶装置1001からストリームデータ1011を読み出す。そして、配信サーバ1002は、高い処理能力を有するPC1004へ、ストリームデータ1011をそのまま配信する。また、AV機器1005は低い処理能力を有するため、配信サーバ1002は、ストリームデータ1011から抽出されるベースレイヤの符号化ストリームのみを含むストリームデータ1012を生成し、ストリームデータ1012をAV機器1005へ配信する。また、配信サーバ1002は、高い通信レートで通信可能であるタブレット装置1006へストリームデータ1011をそのまま配信する。また、携帯電話機1007は低い通信レートでしか通信できないため、配信サーバ1002は、ベースレイヤの符号化ストリームのみを含むストリームデータ1012を携帯電話機1007へ配信する。
 このように多重化ストリームを用いることにより、伝送されるトラフィックの量を適応的に調整することができる。また、個々のレイヤがそれぞれ単独に符号化されるケースと比較して、ストリームデータ1011の符号量は削減されるため、ストリームデータ1011の全体が配信されるとしても、ネットワーク1003に掛かる負荷は抑制される。さらに、ストリーム記憶装置1001のメモリリソースも節約される。
 端末装置のハードウエア性能は、装置ごとに異なる。また、端末装置において実行されるアプリケーションのケイパビリティも様々である。さらに、ネットワーク1003の通信容量もまた様々である。データ伝送のために利用可能な容量は、他のトラフィックの存在に起因して、時々刻々と変化し得る。そこで、配信サーバ1002は、ストリームデータの配信を開始する前に、配信先の端末装置との間のシグナリングを通じて、端末装置のハードウエア性能及びアプリケーションケイパビリティなどに関する端末情報と、ネットワーク1003の通信容量などに関するネットワーク情報とを取得してもよい。そして、配信サーバ1002は、取得した情報に基づいて、配信すべきストリームを選択し得る。
 なお、復号すべきレイヤの抽出は、端末装置において行われてもよい。例えば、PC1004は、受信した多重化ストリームから抽出され復号されるベースレイヤ画像をその画面に表示してもよい。また、PC1004は、受信した多重化ストリームからベースレイヤの符号化ストリームを抽出してストリームデータ1012を生成し、生成したストリームデータ1012を記憶媒体に記憶させ、又は他の装置へ転送してもよい。
 図25に示したデータ伝送システム1000の構成は一例に過ぎない。データ伝送システム1000は、いかなる数のストリーム記憶装置1001、配信サーバ1002、ネットワーク1003、及び端末装置を含んでもよい。
   (2)第2の例
 第2の例において、スケーラブル符号化は、複数の通信チャネルを介するデータの伝送のために利用される。図26を参照すると、データ伝送システム1100は、放送局1101及び端末装置1102を含む。放送局1101は、地上波チャネル1111上で、ベースレイヤの符号化ストリーム1121を放送する。また、放送局1101は、ネットワーク1112を介して、エンハンスメントレイヤの符号化ストリーム1122を端末装置1102へ送信する。
 端末装置1102は、放送局1101により放送される地上波放送を受信するための受信機能を有し、地上波チャネル1111を介してベースレイヤの符号化ストリーム1121を受信する。また、端末装置1102は、放送局1101と通信するための通信機能を有し、ネットワーク1112を介してエンハンスメントレイヤの符号化ストリーム1122を受信する。
 端末装置1102は、例えば、ユーザからの指示に応じて、ベースレイヤの符号化ストリーム1121を受信し、受信した符号化ストリーム1121からベースレイヤ画像を復号してベースレイヤ画像を画面に表示してもよい。また、端末装置1102は、復号したベースレイヤ画像を記憶媒体に記憶させ、又は他の装置へ転送してもよい。
 また、端末装置1102は、例えば、ユーザからの指示に応じて、ネットワーク1112を介してエンハンスメントレイヤの符号化ストリーム1122を受信し、ベースレイヤの符号化ストリーム1121とエンハンスメントレイヤの符号化ストリーム1122とを多重化することにより多重化ストリームを生成してもよい。また、端末装置1102は、エンハンスメントレイヤの符号化ストリーム1122からエンハンスメントレイヤ画像を復号してエンハンスメントレイヤ画像を画面に表示してもよい。また、端末装置1102は、復号したエンハンスメントレイヤ画像を記憶媒体に記憶させ、又は他の装置へ転送してもよい。
 上述したように、多重化ストリームに含まれる各レイヤの符号化ストリームは、レイヤごとに異なる通信チャネルを介して伝送され得る。それにより、個々のチャネルに掛かる負荷を分散させて、通信の遅延若しくはオーバフローの発生を抑制することができる。
 また、何らかの条件に応じて、伝送のために使用される通信チャネルが動的に選択されてもよい。例えば、データ量が比較的多いベースレイヤの符号化ストリーム1121は帯域幅の広い通信チャネルを介して伝送され、データ量が比較的少ないエンハンスメントレイヤの符号化ストリーム1122は帯域幅の狭い通信チャネルを介して伝送され得る。また、特定のレイヤの符号化ストリーム1122が伝送される通信チャネルが、通信チャネルの帯域幅に応じて切り替えられてもよい。それにより、個々のチャネルに掛かる負荷をより効果的に抑制することができる。
 なお、図26に示したデータ伝送システム1100の構成は一例に過ぎない。データ伝送システム1100は、いかなる数の通信チャネル及び端末装置を含んでもよい。また、放送以外の用途において、ここで説明したシステムの構成が利用されてもよい。
   (3)第3の例
 第3の例において、スケーラブル符号化は、映像の記憶のために利用される。図27を参照すると、データ伝送システム1200は、撮像装置1201及びストリーム記憶装置1202を含む。撮像装置1201は、被写体1211を撮像することにより生成される画像データをスケーラブル符号化し、多重化ストリーム1221を生成する。多重化ストリーム1221は、ベースレイヤの符号化ストリーム及びエンハンスメントレイヤの符号化ストリームを含む。そして、撮像装置1201は、多重化ストリーム1221をストリーム記憶装置1202へ供給する。
 ストリーム記憶装置1202は、撮像装置1201から供給される多重化ストリーム1221を、モードごとに異なる画質で記憶する。例えば、ストリーム記憶装置1202は、通常モードにおいて、多重化ストリーム1221からベースレイヤの符号化ストリーム1222を抽出し、抽出したベースレイヤの符号化ストリーム1222を記憶する。これに対し、ストリーム記憶装置1202は、高画質モードにおいて、多重化ストリーム1221をそのまま記憶する。それにより、ストリーム記憶装置1202は、高画質での映像の記録が望まれる場合にのみ、データ量の多い高画質のストリームを記録することができる。そのため、画質の劣化のユーザへの影響を抑制しながら、メモリリソースを節約することができる。
 例えば、撮像装置1201は、監視カメラであるものとする。撮像画像に監視対象(例えば侵入者)が映っていない場合には、通常モードが選択される。この場合、撮像画像は重要でない可能性が高いため、データ量の削減が優先され、映像は低画質で記録される(即ち、ベースレイヤの符号化ストリーム1222のみが記憶される)。これに対し、撮像画像に監視対象(例えば、侵入者である被写体1211)が映っている場合には、高画質モードが選択される。この場合、撮像画像は重要である可能性が高いため、画質の高さが優先され、映像は高画質で記録される(即ち、多重化ストリーム1221が記憶される)。
 図27の例では、モードは、例えば画像解析結果に基づいて、ストリーム記憶装置1202により選択される。しかしながら、かかる例に限定されず、撮像装置1201がモードを選択してもよい。後者の場合、撮像装置1201は、通常モードにおいて、ベースレイヤの符号化ストリーム1222をストリーム記憶装置1202へ供給し、高画質モードにおいて、多重化ストリーム1221をストリーム記憶装置1202へ供給してもよい。
 なお、モードを選択するための選択基準は、いかなる基準であってもよい。例えば、マイクロフォンを通じて取得される音声の大きさ又は音声の波形などに応じて、モードが切り替えられてもよい。また、周期的にモードが切り替えられてもよい。また、ユーザがらの指示に応じてモードが切り替えられてもよい。さらに、選択可能なモードの数は、階層化されるレイヤの数を超えない限り、いかなる数であってもよい。
 図27に示したデータ伝送システム1200の構成は一例に過ぎない。データ伝送システム1200は、いかなる数の撮像装置1201を含んでもよい。また、監視カメラ以外の用途において、ここで説明したシステムの構成が利用されてもよい。
  [7-3.その他]
   (1)マルチビューコーデックへの応用
 マルチビューコーデックは、いわゆる多視点映像を符号化し及び復号するための画像符号化方式である。図28は、マルチビューコーデックについて説明するための説明図である。図28を参照すると、3つの視点においてそれぞれ撮影される3つのビューのフレームのシーケンスが示されている。各ビューには、ビューID(view_id)が付与される。これら複数のビューのうちいずれか1つのビューが、ベースビュー(base view)に指定される。ベースビュー以外のビューは、ノンベースビューと呼ばれる。図28の例では、ビューIDが“0”であるビューがベースビューであり、ビューIDが“1”又は“2”である2つのビューがノンベースビューである。
 本開示に係る技術に従って、マルチビューの画像データを符号化し又は復号する際、ベースビューのために指定された予測モードに基づいてノンベースビューのための予測モードを選択することにより、全体としての符号量を削減することができる。それにより、スケーラブル符号化のケースと同様に、マルチビューコーデックにおいても、符号化効率を一層向上させることができる。
   (2)ストリーミング技術への応用
 本開示に係る技術は、ストリーミングプロトコルに適用されてもよい。例えば、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)では、解像度などのパラメータが互いに異なる複数の符号化ストリームがストリーミングサーバにおいて予め用意される。そして、ストリーミングサーバは、複数の符号化ストリームからストリーミングすべき適切なデータをセグメント単位で動的に選択し、選択したデータを配信する。このようなストリーミングプロトコルにおいて、1つの符号化ストリームのために指定された予測モードに基づいて他の符号化ストリームのための予測モードが選択されてもよい。
 <8.まとめ>
 ここまで、図1~図28を用いて、一実施形態に係る画像符号化装置10及び画像復号装置60について説明した。上述した実施形態によれば、スケーラブル符号化において複数のレイヤが異なる画像符号化方式で符号化される場合に、ベースレイヤ内の第1のブロックのために選択された予測モードに基づいて、第1のブロックに対応するエンハンスメントレイヤ内の第2のブロックのための予測モードが選択される。従って、エンハンスメントレイヤの予測モード情報のために要する符号量を削減し、符号化効率を高めることができる。
 また、上述した実施形態によれば、第1のブロックのために選択されなかった第1の予測モードセット内の予測モードに対応する第2の予測モードセット内の予測モードは、第2のブロックのための選択から除外される。従って、エンハンスメントレイヤについて、予測モードの候補を絞り込むことができる。それにより、予測モード情報に割当てられるビット数を削減することができる。
 また、上述した実施形態によれば、第1のブロックのために選択された予測モードに対応する予測モードのみならず、第2の予測モードセット内の予測モードのうちの第1の予測モードセット内に対応する予測モードが存在しない予測モードもまた、予測モードの候補に含められる。従って、エンハンスメントレイヤにおいてサポートされる第2の予測モードセットにのみ含まれる予測モードの利用の余地が残される。それにより、予測モード情報のために要する符号量を削減しつつ、より高い予測精度をも達成することができる。
 また、上述した実施形態によれば、画像の空間的相関に基づく予測モードが第1のブロックのために選択された場合には、画像の空間的相関に基づく予測モードが第2のブロックのために選択される。同様に、画像の時間的相関に基づく予測モードが第1のブロックのために選択された場合には、画像の時間的相関に基づく予測モードが第2のブロックのために選択される。従って、レイヤ間で共通する画像の相関特性を活用して、予測モード情報のために要する符号量を効果的に削減することができる。
 なお、本明細書では、イントラ予測に関する情報及びインター予測に関する情報が、符号化ストリームのヘッダに多重化されて、符号化側から復号側へ伝送される例について主に説明した。しかしながら、これら情報を伝送する手法はかかる例に限定されない。例えば、これら情報は、符号化ビットストリームに多重化されることなく、符号化ビットストリームと関連付けられた別個のデータとして伝送され又は記録されてもよい。ここで、「関連付ける」という用語は、ビットストリームに含まれる画像(スライス若しくはブロックなど、画像の一部であってもよい)と当該画像に対応する情報とを復号時にリンクさせ得るようにすることを意味する。即ち、情報は、画像(又はビットストリーム)とは別の伝送路上で伝送されてもよい。また、情報は、画像(又はビットストリーム)とは別の記録媒体(又は同一の記録媒体の別の記録エリア)に記録されてもよい。さらに、情報と画像(又はビットストリーム)とは、例えば、複数フレーム、1フレーム、又はフレーム内の一部分などの任意の単位で互いに関連付けられてよい。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成するベースレイヤ予測部と、
 前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、
 を備える画像処理装置。
(2)
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定されなかった前記第1の予測モードセット内の予測モードに対応する前記第2の予測モードセット内の予測モードを、前記第2のブロックのための選択から除外する、前記(1)に記載の画像処理装置。
(3)
 前記エンハンスメントレイヤ予測部は、前記第2の予測モードセット内の、前記第1のブロックのために選択された予測モードに対応する予測モード、及び前記第1の予測モードセット内に対応する予測モードが存在しない予測モードのうち、予測モード情報により指定される予測モードを、前記第2のブロックのために選択する、前記(2)に記載の画像処理装置。
(4)
 前記第1の予測モードセット及び前記第2の予測モードセットは、イントラ予測のための予測モードのセットである、前記(1)~(3)のいずれか1項に記載の画像処理装置。
(5)
 前記第1の予測モードセットは、DC予測モードを含み、平面予測モードを含まず、
 前記第2の予測モードセットは、DC予測モード及び平面予測モードを含み、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにDC予測モードが指定された場合には、DC予測モード及び平面予測モードのうち前記第2のブロックのために指定される予測モードを選択する、
 前記(4)に記載の画像処理装置。
(6)
 前記第1の予測モードセットは、DC予測モード及び平面予測モードを含み、
 前記第2の予測モードセットは、DC予測モード及び平面予測モードを含み、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにDC予測モード及び平面予測モードの一方が指定された場合には、前記第2のブロックのためにDC予測モード及び平面予測モードの当該一方を選択する、
 前記(4)に記載の画像処理装置。
(7)
 前記第1の予測モードセットは、複数の予測方向に対応する複数の予測モードを含み、
 前記第2の予測モードセットは、前記第1の予測モードセットよりも多くの予測方向に対応する複数の予測モードを含み、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定された予測モードの予測方向に近い範囲内に絞り込まれる予測方向に対応する1つ以上の予測モードのうちのいずれかを前記第2のブロックのために選択する、
 前記(4)~(6)のいずれか1項に記載の画像処理装置。
(8)
 前記画像処理装置は、前記エンハンスメントレイヤの符号化ストリームから予測方向の差分を示すパラメータを復号する復号部、をさらに備え、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定された予測モードの予測方向と前記パラメータにより示される予測方向の前記差分とを用いて決定される予測方向に対応する予測モードを、前記第2のブロックのために選択する、
 前記(7)に記載の画像処理装置。
(9)
 前記第1の予測モードセットは、輝度ベース色差予測モードを含まず、
 前記第2の予測モードセットは、輝度ベース色差予測モードを含み、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定された予測モード及び前記輝度ベース色差予測モードのうち、前記第2のブロックのために指定される予測モードを選択する、
 前記(4)~(8)のいずれか1項に記載の画像処理装置。
(10)
 前記第1の予測モードセット及び前記第2の予測モードセットは、インター予測のための予測モードのセットである、前記(1)~(3)のいずれか1項に記載の画像処理装置。
(11)
 前記エンハンスメントレイヤ予測部は、画像の空間的相関に基づく予測モードが前記第1のブロックのために指定された場合には、画像の空間的相関に基づく予測モードを前記第2のブロックのために選択し、画像の時間的相関に基づく予測モードが前記第1のブロックのために指定された場合には、画像の時間的相関に基づく予測モードを前記第2のブロックのために選択する、前記(10)に記載の画像処理装置。
(12)
 前記第1の予測モードセットは、空間ダイレクトモードを含み、
 前記第2の予測モードセットは、空間マージモード及び空間的動きベクトル予測モードを含み、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために前記空間ダイレクトモードが指定された場合には、前記空間マージモード及び前記空間的動きベクトル予測モードのうち前記第2のブロックのために指定される予測モードを選択する、
 前記(11)に記載の画像処理装置。
(13)
 前記第1の予測モードセットは、時間ダイレクトモードを含み、
 前記第2の予測モードセットは、時間マージモード及び時間的動きベクトル予測モードを含み、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために前記時間ダイレクトモードが指定された場合には、前記時間マージモード及び前記時間的動きベクトル予測モードのうち前記第2のブロックのために指定される予測モードを選択する、
 前記(11)又は前記(12)に記載の画像処理装置。
(14)
 前記第1の符号化方式は、AVC(Advanced Video Coding)であり、
 前記第2の符号化方式は、HEVC(High Efficiency Video Coding)であり、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにダイレクトモード又はスキップモードが指定された場合には、マージモードを前記第2のブロックのために選択する、
 前記(10)に記載の画像処理装置。
(15)
 前記第1の符号化方式は、AVC(Advanced Video Coding)であり、
 前記第2の符号化方式は、HEVC(High Efficiency Video Coding)であり、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにダイレクトモード及びスキップモードとは異なる予測モードが指定された場合には、動きベクトル予測モードを前記第2のブロックのために選択する、
 前記(10)に記載の画像処理装置。
(16)
 前記ベースレイヤ予測部は、L0予測、L1予測及び双予測から選択される参照方向に従って、前記第1のブロックについてインター予測を実行し、
 前記エンハンスメントレイヤ予測部は、前記第1のブロックのために使用された前記参照方向に従って、前記第2のブロックについてインター予測を実行する、
 前記(10)~(15)のいずれか1項に記載の画像処理装置。
(17)
 第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成することと、
 前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成することと、
 を含む画像処理方法。
(18)
 第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の予測モードセットから選択される最適な予測モードで予測画像を生成するベースレイヤ予測部と、
 前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために選択された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、
 を備える画像処理装置。
(19)
 第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の予測モードセットから選択される最適な予測モードで予測画像を生成することと、
 前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために選択された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成することと、
 を含む画像処理方法。
 また、以下のような構成も本開示の技術的範囲に属する。
(1)
 第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の動きベクトルを用いてインター予測を実行することにより、予測画像を生成するベースレイヤ予測部と、
 第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第2の符号化方式のインター予測のための予測モードセットのうち、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する予測モードでインター予測を実行することにより、予測画像を生成するエンハンスメントレイヤ予測部と、
 を備える画像処理装置。
(2)
 前記エンハンスメントレイヤ予測部は、前記ベースレイヤと前記エンハンスメントレイヤとの間の解像度比に応じてスケーリングされた前記第1の動きベクトルと、前記予測モードセットのうちの各予測モードに対応する予測動きベクトルとの間の差分を評価する、前記(1)に記載の画像処理装置。
(3)
 前記エンハンスメントレイヤ予測部は、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する複数の予測モードが存在する場合には、前記ベースレイヤにおける前記第1の動きベクトルに対応する参照インデックスと同じ参照インデックスを有する予測モードを、前記エンハンスメントレイヤのインター予測のために選択する、前記(1)又は前記(2)に記載の画像処理装置。
(4)
 前記エンハンスメントレイヤ予測部は、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する前記複数の予測モードが存在する場合において、前記ベースレイヤにおける前記第1の動きベクトルに対応する参照インデックスと同じ参照インデックスを有する予測モードが1つでないときは、前記複数の予測モードのうち参照インデックスの最も小さい予測モードを、前記エンハンスメントレイヤのインター予測のために選択する、前記(3)に記載の画像処理装置。
(5)
 前記エンハンスメントレイヤ予測部は、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する複数の予測モードが存在する場合には、前記エンハンスメントレイヤの符号化ストリームから復号されるパラメータにより示される予測モードを、前記エンハンスメントレイヤのインター予測のために選択する、前記(1)又は前記(2)に記載の画像処理装置。
(6)
 前記エンハンスメントレイヤ予測部は、前記ベースレイヤと前記エンハンスメントレイヤとの間の参照インデックスの相違に基づいてスケーリングされた前記第1の動きベクトルと、前記予測モードセットのうちの各予測モードに対応する予測動きベクトルとの間の差分を評価する、前記(1)~(5)のいずれか1項に記載の画像処理装置。
(7)
 前記第1の符号化方式は、AVC(Advanced Video Coding)及びHEVC(High Efficiency Video Coding)のうち符号化ストリームから復号されるフラグにより示される方式であり、
 前記第2の符号化方式は、HEVCであり
 前記エンハンスメントレイヤ予測部は、前記フラグがAVCを示す場合には、前記第1のブロックについての動き情報を参照することなく、前記エンハンスメントレイヤの符号化ストリームから復号される予測モードでインター予測を実行する、
 前記(1)~(6)のいずれか1項に記載の画像処理装置。
(8)
 前記エンハンスメントレイヤ予測部は、前記ベースレイヤ内の第3のブロックについて、前記ベースレイヤ予測部によりイントラ予測が実行された場合には、前記エンハンスメントレイヤ内の前記第3のブロックに対応する第4のブロックについて、イントラ予測を実行することにより予測画像を生成する、前記(1)~(7)のいずれか1項に記載の画像処理装置。
(9)
 前記エンハンスメントレイヤ予測部は、前記ベースレイヤ内の第3のブロックについて、前記ベースレイヤ予測部によりイントラ予測が実行された場合には、前記エンハンスメントレイヤ内の前記第3のブロックに対応する第4のブロックについて、前記エンハンスメントレイヤの符号化ストリームから復号される動き情報を用いてインター予測を実行する、前記(1)~(7)のいずれか1項に記載の画像処理装置。
(10)
 第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の動きベクトルを用いてインター予測を実行することにより、予測画像を生成することと、
 第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第2の符号化方式のインター予測のための予測モードセットのうち、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する予測モードでインター予測を実行することにより、予測画像を生成することと、
 を含む画像処理方法。
(11)
 第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の動きベクトルを用いてインター予測を実行することにより、予測画像を生成するベースレイヤ予測部と、
 第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第2の符号化方式のインター予測のための予測モードセットのうち、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する予測モードでインター予測を実行することにより、予測画像を生成するエンハンスメントレイヤ予測部と、
 を備える画像処理装置。
(12)
 第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の動きベクトルを用いてインター予測を実行することにより、予測画像を生成することと、
 第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第2の符号化方式のインター予測のための予測モードセットのうち、前記第1の動きベクトルとの間で最も小さい差分を示す予測動きベクトルに対応する予測モードでインター予測を実行することにより、予測画像を生成することと、
 を含む画像処理方法。
 10    画像符号化装置(画像処理装置)
 30a   イントラ予測部(ベースレイヤ予測部)
 30b   イントラ予測部(エンハンスメントレイヤ予測部)
 40a   インター予測部(ベースレイヤ予測部)
 40b   インター予測部(エンハンスメントレイヤ予測部)
 60    画像復号装置(画像処理装置)
 80a   イントラ予測部(ベースレイヤ予測部)
 80b   イントラ予測部(エンハンスメントレイヤ予測部)
 90a   インター予測部(ベースレイヤ予測部)
 90b   インター予測部(エンハンスメントレイヤ予測部)
 

Claims (19)

  1.  第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成するベースレイヤ予測部と、
     前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、
     を備える画像処理装置。
  2.  前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定されなかった前記第1の予測モードセット内の予測モードに対応する前記第2の予測モードセット内の予測モードを、前記第2のブロックのための選択から除外する、請求項1に記載の画像処理装置。
  3.  前記エンハンスメントレイヤ予測部は、前記第2の予測モードセット内の、前記第1のブロックのために選択された予測モードに対応する予測モード、及び前記第1の予測モードセット内に対応する予測モードが存在しない予測モードのうち、予測モード情報により指定される予測モードを、前記第2のブロックのために選択する、請求項2に記載の画像処理装置。
  4.  前記第1の予測モードセット及び前記第2の予測モードセットは、イントラ予測のための予測モードのセットである、請求項1に記載の画像処理装置。
  5.  前記第1の予測モードセットは、DC予測モードを含み、平面予測モードを含まず、
     前記第2の予測モードセットは、DC予測モード及び平面予測モードを含み、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにDC予測モードが指定された場合には、DC予測モード及び平面予測モードのうち前記第2のブロックのために指定される予測モードを選択する、
     請求項4に記載の画像処理装置。
  6.  前記第1の予測モードセットは、DC予測モード及び平面予測モードを含み、
     前記第2の予測モードセットは、DC予測モード及び平面予測モードを含み、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにDC予測モード及び平面予測モードの一方が指定された場合には、前記第2のブロックのためにDC予測モード及び平面予測モードの当該一方を選択する、
     請求項4に記載の画像処理装置。
  7.  前記第1の予測モードセットは、複数の予測方向に対応する複数の予測モードを含み、
     前記第2の予測モードセットは、前記第1の予測モードセットよりも多くの予測方向に対応する複数の予測モードを含み、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定された予測モードの予測方向に近い範囲内に絞り込まれる予測方向に対応する1つ以上の予測モードのうちのいずれかを前記第2のブロックのために選択する、
     請求項4に記載の画像処理装置。
  8.  前記画像処理装置は、前記エンハンスメントレイヤの符号化ストリームから予測方向の差分を示すパラメータを復号する復号部、をさらに備え、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定された予測モードの予測方向と前記パラメータにより示される予測方向の前記差分とを用いて決定される予測方向に対応する予測モードを、前記第2のブロックのために選択する、
     請求項7に記載の画像処理装置。
  9.  前記第1の予測モードセットは、輝度ベース色差予測モードを含まず、
     前記第2の予測モードセットは、輝度ベース色差予測モードを含み、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのために指定された予測モード及び前記輝度ベース色差予測モードのうち、前記第2のブロックのために指定される予測モードを選択する、
     請求項4に記載の画像処理装置。
  10.  前記第1の予測モードセット及び前記第2の予測モードセットは、インター予測のための予測モードのセットである、請求項1に記載の画像処理装置。
  11.  前記エンハンスメントレイヤ予測部は、画像の空間的相関に基づく予測モードが前記第1のブロックのために指定された場合には、画像の空間的相関に基づく予測モードを前記第2のブロックのために選択し、画像の時間的相関に基づく予測モードが前記第1のブロックのために指定された場合には、画像の時間的相関に基づく予測モードを前記第2のブロックのために選択する、請求項10に記載の画像処理装置。
  12.  前記第1の予測モードセットは、空間ダイレクトモードを含み、
     前記第2の予測モードセットは、空間マージモード及び空間的動きベクトル予測モードを含み、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのために前記空間ダイレクトモードが指定された場合には、前記空間マージモード及び前記空間的動きベクトル予測モードのうち前記第2のブロックのために指定される予測モードを選択する、
     請求項11に記載の画像処理装置。
  13.  前記第1の予測モードセットは、時間ダイレクトモードを含み、
     前記第2の予測モードセットは、時間マージモード及び時間的動きベクトル予測モードを含み、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのために前記時間ダイレクトモードが指定された場合には、前記時間マージモード及び前記時間的動きベクトル予測モードのうち前記第2のブロックのために指定される予測モードを選択する、
     請求項11に記載の画像処理装置。
  14.  前記第1の符号化方式は、AVC(Advanced Video Coding)であり、
     前記第2の符号化方式は、HEVC(High Efficiency Video Coding)であり、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにダイレクトモード又はスキップモードが指定された場合には、マージモードを前記第2のブロックのために選択する、
     請求項10に記載の画像処理装置。
  15.  前記第1の符号化方式は、AVC(Advanced Video Coding)であり、
     前記第2の符号化方式は、HEVC(High Efficiency Video Coding)であり、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのためにダイレクトモード及びスキップモードとは異なる予測モードが指定された場合には、動きベクトル予測モードを前記第2のブロックのために選択する、
     請求項10に記載の画像処理装置。
  16.  前記ベースレイヤ予測部は、L0予測、L1予測及び双予測から選択される参照方向に従って、前記第1のブロックについてインター予測を実行し、
     前記エンハンスメントレイヤ予測部は、前記第1のブロックのために使用された前記参照方向に従って、前記第2のブロックについてインター予測を実行する、
     請求項10に記載の画像処理装置。
  17.  第1の符号化方式で復号されるベースレイヤ内の第1のブロックについて、第1の予測モードセットのうち予測モード情報により指定される予測モードで予測画像を生成することと、
     前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で復号されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために指定された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成することと、
     を含む画像処理方法。
  18.  第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の予測モードセットから選択される最適な予測モードで予測画像を生成するベースレイヤ予測部と、
     前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために選択された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成するエンハンスメントレイヤ予測部と、
     を備える画像処理装置。
  19.  第1の符号化方式で符号化されるベースレイヤ内の第1のブロックについて、第1の予測モードセットから選択される最適な予測モードで予測画像を生成することと、
     前記第1の予測モードセットとは異なる第2の予測モードセットを有する第2の符号化方式で符号化されるエンハンスメントレイヤ内の前記第1のブロックに対応する第2のブロックについて、前記第1のブロックのために選択された予測モードに基づいて前記第2の予測モードセットから選択される予測モードで予測画像を生成することと、
     を含む画像処理方法。
     
PCT/JP2013/055387 2012-04-20 2013-02-28 画像処理装置及び画像処理方法 WO2013157308A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/378,714 US20160119639A1 (en) 2012-04-20 2013-02-28 Image processing apparatus and image processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012-097044 2012-04-20
JP2012097044 2012-04-20
JP2012274470 2012-12-17
JP2012-274470 2012-12-17

Publications (1)

Publication Number Publication Date
WO2013157308A1 true WO2013157308A1 (ja) 2013-10-24

Family

ID=49383276

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/055387 WO2013157308A1 (ja) 2012-04-20 2013-02-28 画像処理装置及び画像処理方法

Country Status (2)

Country Link
US (1) US20160119639A1 (ja)
WO (1) WO2013157308A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014154094A1 (en) * 2013-03-26 2014-10-02 Mediatek Inc. Method of cross color intra prediction
US20150373362A1 (en) * 2014-06-19 2015-12-24 Qualcomm Incorporated Deblocking filter design for intra block copy
US10034010B2 (en) * 2015-10-14 2018-07-24 Qualcomm Incorporated Alignment of operation point sample group in multi-layer bitstreams file format
JP2017099616A (ja) * 2015-12-01 2017-06-08 ソニー株式会社 手術用制御装置、手術用制御方法、およびプログラム、並びに手術システム
US20170359575A1 (en) * 2016-06-09 2017-12-14 Apple Inc. Non-Uniform Digital Image Fidelity and Video Coding
US11102476B2 (en) * 2018-12-28 2021-08-24 Qualcomm Incorporated Subblock based affine motion model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507267A (ja) * 2006-10-16 2010-03-04 シャープ株式会社 マルチレイヤ・ビットストリームデータを情報伝達するための方法およびシステム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507267A (ja) * 2006-10-16 2010-03-04 シャープ株式会社 マルチレイヤ・ビットストリームデータを情報伝達するための方法およびシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANNY HONG ET AL.: "Scalability Support in HEVC", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC)OF ITU-T SG16 WP3 AND ISO/IEC JTC1/ SC29/WG11 6TH MEETING: TORINO, IT, DOCUMENT: JCTVC-F290, ITU-T, July 2011 (2011-07-01) *
JIII BOYCE ET AL.: "Information for HEVC scalability extension", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC)OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11 7TH MEETING: GENEVA, CH, DOCUMENT: JCTVC-G078, ITU-T, November 2011 (2011-11-01) *

Also Published As

Publication number Publication date
US20160119639A1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
JP6670812B2 (ja) 符号化装置および符号化方法
US20200296357A1 (en) Image processing apparatus and method thereof
WO2013164922A1 (ja) 画像処理装置及び画像処理方法
WO2013150838A1 (ja) 画像処理装置及び画像処理方法
WO2013157308A1 (ja) 画像処理装置及び画像処理方法
WO2013088833A1 (ja) 画像処理装置及び画像処理方法
JP5900612B2 (ja) 画像処理装置及び画像処理方法
WO2014038330A1 (ja) 画像処理装置及び画像処理方法
WO2014103774A1 (ja) 画像処理装置および方法
WO2014103764A1 (ja) 画像処理装置および方法
JP6233655B2 (ja) 画像処理装置および方法
WO2014141899A1 (ja) 画像処理装置および方法
WO2014050311A1 (ja) 画像処理装置及び画像処理方法
WO2014203762A1 (ja) 復号装置および復号方法、並びに、符号化装置および符号化方法
WO2014156705A1 (ja) 復号装置および復号方法、並びに、符号化装置および符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13777962

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14378714

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 13777962

Country of ref document: EP

Kind code of ref document: A1