EP4268464A1 - Method for encoding images of a video sequence to be encoded, decoding method, corresponding devices and system with spatial image sub-sampling - Google Patents

Method for encoding images of a video sequence to be encoded, decoding method, corresponding devices and system with spatial image sub-sampling

Info

Publication number
EP4268464A1
EP4268464A1 EP21840565.2A EP21840565A EP4268464A1 EP 4268464 A1 EP4268464 A1 EP 4268464A1 EP 21840565 A EP21840565 A EP 21840565A EP 4268464 A1 EP4268464 A1 EP 4268464A1
Authority
EP
European Patent Office
Prior art keywords
sub
sequence
images
image
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21840565.2A
Other languages
German (de)
French (fr)
Inventor
Benoît LE LUDEC
Patrick DUMÉNIL
Franck CHI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fondation B Com
Original Assignee
Fondation B Com
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fondation B Com filed Critical Fondation B Com
Publication of EP4268464A1 publication Critical patent/EP4268464A1/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities

Definitions

  • the present invention relates to the technical field of the coding and decoding of video sequences. More particularly, it relates to a method and a device for coding, a method and a device for decoding as well as to the corresponding devices.
  • a method for coding images of a video sequence each image being formed of elements organized in rows and columns.
  • the method comprises the implementation of the following steps c) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of a sub-sequence of one or more images of the video sequence called input sub-sequence, d1) carrying out a first spatial sub-sampling of at least part of the elements of the image by using a filter oriented in a first direction and comprising a first set of at at least two different values of sub-sampling factors, the first set of values being determined as a function of said initial configuration, then inserting the resulting image into an output sub-sequence, and e) coding (E2) the images of the output subsequence.
  • the method according to the first aspect of the invention makes it possible to reduce the quantity of coded data to be transmitted, without loss of visual quality for the user viewing the video sequence.
  • the sub-sampling is a function of structural characteristics (for example optical or relating to the shape of the display device) of the display device via which the user views the video sequence. It is therefore possible to adjust the sub-sampling to the areas of interest of the images for the user, with regard to the display device used.
  • step d1) further comprises a second spatial sub-sampling of at least some of the elements of the sub-sampled image using a filter oriented in a second direction and comprising a second set of at least two different values of downsampling factors, the second set of values being determined according to said initial configuration.
  • spatial sub-sampling is carried out using filters oriented in one of the following directions:
  • Each subsampling factor value of a set of values is preferably respectively applied to at least one group of p successive elements according to the direction in which the filter is oriented, p being a positive integer.
  • the method may further comprise an analysis step comprising an analysis of the content of at least one image of said input sub-sequence, and a step of updating the values of the factors of sub- sampling prior to the implementation of step d1), depending on the result of the analysis of the content.
  • the method may further comprise an analysis step comprising an analysis of measurements representative of movements performed by a user, the display device being a visiohead-mounted display worn by said user (for example his head and /or his eyes), and a step for updating the values of the subsampling factors prior to the implementation of step d1), depending on the result of the analysis of the measurements.
  • an analysis step comprising an analysis of measurements representative of movements performed by a user, the display device being a visiohead-mounted display worn by said user (for example his head and /or his eyes), and a step for updating the values of the subsampling factors prior to the implementation of step d1), depending on the result of the analysis of the measurements.
  • the method may further comprise another analysis step comprising an analysis of the visual quality of the images of said output sub-sequence, and a step of updating the values of sub-sampling prior to the implementation of step d1), if the visual quality is lower than a predetermined threshold.
  • the method may further comprise a preliminary step comprising the following sub-steps a) obtaining from said video sequence, so-called initial sub-sequences, and for at least one initial sub-sequence : b1) determination of information representative of the content of at least one image of the initial sub-sequence, and as a function of said information, b2) determination for the initial sub-sequence, of a processing frequency, lower or equal to the initial image display frequency, as a function of the determined information, and b3) insertion, as a function of the determined processing frequency, of all or part of the images of the group of images in a sub-sequence d images forming an input subsequence.
  • the method can then further comprise an a posteriori step for the M images of an output sub-sequence, M being an integer, said a posteriori step comprising the following sub-steps d2) comparison between the associated processing frequency to the images of the output sub-sequence and the initial frame display frequency, and if the processing frequency is lower than the initial frequency, spatial division of each of the M images of the output sub-sequence into N sub-images, N being an integer whose value depends on the ratio between the processing frequency and the initial frequency, the coding step e) corresponding to the coding of the M*N sub-images of the output sub-sequence, otherwise the coding step e) corresponds to the coding of said M images of the output sub-sequence.
  • M being an integer
  • said a posteriori step comprising the following sub-steps d2) comparison between the associated processing frequency to the images of the output sub-sequence and the initial frame display frequency, and if the processing frequency is lower than the initial frequency, spatial
  • the method can also comprise the following steps for each output sub-sequence
  • a method for decoding data corresponding to images of a video sequence each image being formed of elements organized in rows and columns, the images of the video sequence being grouped in sub-sequences of one or more images called output sub-sequences.
  • the method comprises the implementation of the following steps c1) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of an output sub-sequence; d11 ) performing a first spatial oversampling of at least part of the elements of the image using a filter oriented along a first direction and comprising a first set of at least two different values of oversampling factors , the first set of values being determined as a function of said initial configuration, then insertion of the resulting image into a sub-sequence to be decoded, and e1) decoding of the images of the sub-sequence to be decoded.
  • step d11) can further comprise a second spatial oversampling of at least some of the elements of the oversampled image using a filter oriented in a second direction and comprising a second set of at least two different values oversampling factors, the second set of values being determined as a function of said initial configuration.
  • a device for coding images of a video sequence each image being formed of elements organized in rows and columns.
  • the device is configured to implement the following steps c) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of a sub-sequence of one or more images of the video sequence called the input sub-sequence, d1) carrying out a first spatial sub-sampling of at least part of the elements of the image by using a filter oriented in a first direction and comprising a first set of at least two different values of subsampling factors, the first set of values being determined as a function of said initial configuration, then inserting the resulting image into an output sub-sequence, and e) coding the images of the sub -output sequence.
  • a device for decoding data corresponding to images of a video sequence each image being formed of elements organized in rows and columns, the images of the video sequence being grouped in sub-sequences of one or more images called output sub-sequences.
  • the device is configured to implement the following steps c1) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of an output sub-sequence; d11 ) performing a first spatial oversampling of at least part of the elements of the image using a filter oriented along a first direction and comprising a first set of at least two different values of oversampling factors , the first set of values being determined as a function of said initial configuration, then insertion of the resulting image into a sub-sequence to be decoded, and e1) decoding of the images of the sub-sequence to be decoded.
  • FIG. 1 shows a mode of implementation of a method according to the first aspect of the invention
  • FIG. 2 illustrates the optical characteristics of a head-mounted display unit used to display a video sequence
  • FIG. 10 shows a mode of implementation of a method according to the second aspect of the invention.
  • FIG. 11 shows an embodiment of a device according to the third aspect of the invention.
  • FIG. 12 shows an embodiment of a device according to the fourth aspect of the invention.
  • FIG. 13 shows a possible implementation of the devices according to the third or fourth aspect of the invention.
  • FIG. 1 represents a mode of implementation of a method according to the invention.
  • SVD source video data are supplied as input to a preprocessing step E1, for example in an UHD (“Ultra High Definition”) video format.
  • Each source video is processed group of images by group of images (GOP for “Group Of Pictures” in English).
  • a group of images forms an input sub-sequence.
  • This step E1 described in more detail below, makes it possible to apply spatial processing and optionally temporal processing to the video data.
  • the spatial and possibly temporal frequency of the pixels constituting the images of the SVD video sequence is reduced at the end of the preprocessing.
  • the format of the video is then modified.
  • metadata relating to the preprocessing are generated as explained in the following description.
  • the processed video data is coded during a step E2, then transmitted, step E3, to display means.
  • the transmitted coded video data is decoded, step E4.
  • they are subjected to an E5 post-processing function of the E3 pre-processing which was carried out before encoding. Possibly post-processing E5 depends on the metadata generated during the pre-processing step E2.
  • the post-processed video data is finally displayed using the display means in step E6.
  • Steps E1, E2 and E3 are implemented by a transmitter device while steps E4, E5 and E6 are implemented by a receiver device comprising the display means.
  • the display means can comprise a screen with variable dimensions, a head-mounted display or even a simple display surface, this list not being exhaustive. These display means have display configurations that are specific to them.
  • a display configuration can be defined by the structural characteristics of the display device such as its dimensions or else the parameters of its optical components.
  • FIG. 2 schematizes the optical characteristics of the respectively left LG and right LD lenses of a head-mounted display. Conventionally, each LG, LD lens allowing binocular vision has an optimal spatial resolution inside a central circle CCG, CCD.
  • This central circle is, when the visiohead-mounted display is worn by a user, facing the fovea of the left or right eye respectively.
  • the fovea is the area of the retina where the vision of details is most precise.
  • the spatial resolution of the displayed image decreases progressively, in stages, according to concentric circles of increasing radius.
  • a black zone ZN surrounds the circular display zones of the video.
  • FIG. 3 illustrates steps E1 and E5 of FIG. 1 in more detail.
  • the preprocessing step E1 comprises a first substep E100 of initial configuration. This sub-step allows obtaining a set of spatial and optionally temporal filters, to be applied to a group of images of the source video according to a filtering pattern resulting from the configuration.
  • the initial configuration can be defined by default (for example memorized) or updated for each input sub-sequence in order to take into account context variations during use.
  • An initial configuration is a function of one or more criteria combined together, these criteria including the display configuration defined above.
  • the sub-step E100 makes it possible to deliver a value of a spatial and possibly temporal frequency, acceptable a priori so that the content is rendered on the display device without notable loss of quality.
  • a spatial frequency value is associated with a partition of an image (the image comprising at least two partitions).
  • a temporal frequency value (corresponding to an image transmission frequency or “transmitted image frequency”) corresponds to the frequency of images transmitted within a group of images of the source video.
  • step E101 is implemented. It includes for a group of images, a modification of the sub-sequence of input images, keeping only part of the images. For the purposes of simplification, unless otherwise indicated, it is considered in the remainder of the description that spatial filtering (E102) and temporal filtering (E102) are implemented.
  • the input sub-sequences of the source video are therefore subjected to a combination of processing including spatial and temporal sub-sampling for at least part of the images.
  • sub-step E101 delivers a sub-sequence of images whose value of the temporal frequency depends on the initial configuration.
  • the time frame can be the same as the original time frame of the input subsequence GOP.
  • the sub-sequence of images delivered at the output of sub-step E101 is then identical to the sub-sequence of input images.
  • the temporal frequency resulting from the initial configuration can correspond to said original frequency divided by N (N being an integer greater than or equal to 2).
  • N being an integer greater than or equal to 2
  • One image out of N from the input stream is then deleted.
  • the sub-sequence of images delivered at the output of sub-step E101 therefore then has a temporal frequency divided by N.
  • the sub-step E101 can receive information resulting from an analysis (E105) of the measurements of movements performed by the display device and/or by a user (or his eyes) in the case where the display device would be a head-mounted display worn by that user.
  • This information representative of the measurements making it possible to estimate the movement is then used to adapt the temporal frequency in order to prevent the symptoms of kinetosis (“motion sickness” in English) felt by the wearer of the head-mounted display, which could be generated by approaches to motion sickness. state of the art, that is to say non-dynamic with regard to the temporal frequency.
  • the temporal frequency will be kept to its maximum, and the reduction of the spatial resolution, implemented in the sub-step E102, will be preferred.
  • the reduction of the temporal frequency will be preferred, and the spatial resolution, implemented in the sub-step E102, will be reduced little or not at all.
  • a spatial filtering (E102) is then applied to the images of at least one group of images of the input sub-sequence, according to the initial configuration.
  • Spatial filtering is performed using at least one spatial subsampling of elements of at least one row or at least one column of the image. This spatial sub-sampling is a function of a set of factors also called sub-sampling step defined by the initial configuration.
  • An element represents a pixel of the image or the component of this pixel for one of the color components of the image.
  • the spatial filtering is carried out according to two successive sub-samplings, using filters respectively oriented in two different directions, horizontal (horizontal filter) and vertical (vertical filters) independently of the order.
  • horizontal horizontal filter
  • vertical vertical filters
  • the implementation of an electronic processing in a programmable circuit capable of carrying out sub-samplings using vertical or horizontal filters is simple while requiring little memory and limiting processing latency.
  • By finely adapting the values taken by the sampling factors it is possible to obtain very precise patterns, each having its own spatial resolution, depending on the areas of interest of the image. For example, the closer the area of the image is displayed to the fovea of the eye, the greater the spatial resolution.
  • a pattern makes it possible to apply different downsampling factors depending on depending on the different areas of the image, these areas being able to be defined in the initial configuration using their spatial coordinates.
  • FIGS. 4 and 5 respectively present two images sub-sampled according to two different configurations of the sub-sampling steps or factors and of the subsets of pixels concerned by each sub-sampling step value.
  • Each square corresponds to a group of elements of an image.
  • the pattern (horizontal bands) in Figure 4 results from a single downsampling using a set of different sample step values applied using vertical filters.
  • the pattern in Figure 5 results from applying a first sub-sampling using a first set of different sample step values applied using vertical filters, followed by a second sub-sampling. - sampling using a second set of different sampling step values applied using horizontal filters. The order of application of the first and second subsampling can be reversed. Rectangular patterns are obtained according to the values of the sampling steps applied, and the number of pixels affected by each sampling step. The lighter the shade of a rectangle in the pattern, the higher the spatial resolution of the corresponding area of the image. Conversely, the darker the tint, the more the spatial resolution of the corresponding area of the image has been reduced.
  • FIGS. 6 and 7 respectively explain the first and second spatial sub-samplings.
  • Figure 6 schematizes an image or part of an IMA1 image to be processed.
  • the lines of the image are organized in L successive horizontal bands BD1, BD2, BD3, BD4 and BD5. More generally, L is a positive integer.
  • each horizontal band comprises a number of lines depending on the configuration of the filter(s) used to perform the spatial sub-sampling (for example 8 lines).
  • a first set of sub-sampling steps ENS1 is then applied to the image IMA1 using a vertical filter FLV.
  • This first set ENS1 comprises in this example the values of the following sub-sampling factors: ⁇ 1/3, 1/2, 1 , 1/2, 1/3 ⁇ .
  • each pixel retained at the end of the sub-sampling can be interpolated using known methods such as bilinear or bi-cubic algorithms or even using the Lanczos method well known to those skilled in the art. .
  • the value of the retained pixel can be equal to its original value.
  • the resulting subsampled image IMAF1 is obtained, such that the darker the strip represented (the hatches are the denser), the greater the number of remaining pixels.
  • Figure 7 schematizes an image or part of an IMA2 image to be processed.
  • the columns of the image are organized in M successive vertical bands BD6, BD7, BD8, BD9, BD10, BD11, BD12, BD13 and BD14. More generally, M is a positive integer.
  • each vertical band comprises a number of columns depending on the configuration of the filter used to perform the spatial sub-sampling (for example 8 columns).
  • a second set of ENS2 subsampling steps is then applied to the IMA2 image using a FLH horizontal filter.
  • This second set ENS2 includes in this example the following subsampling factor values: ⁇ 1/8, 1/2,1, 1/2, 1/8, 1/2, 1, 1/2, 1/8 ⁇ .
  • the value of each pixel preserved at the end of the sub-sampling can be interpolated using known methods such as bilinear or bi-cubic algorithms or else using the Lanczos method well known to those skilled in the art.
  • the value of the retained pixel can be equal to its original value.
  • the first and the second sub-sampling can be successively applied, regardless of the order. If the sub-sampling of the horizontal bands is applied first, the output image IMA1 F then corresponds to the image to be sub-sampled IMA2 of the second sub-sampling of the vertical bands.
  • Figure 8 schematizes a pattern reflecting a non-uniform resolution of the entire doubly sampled image, this pattern emerging after the successive application of the two spatial sub-samplings illustrated in Figures 6 and 7.
  • the spatial resolution of each part or tile of the doubly undersampled IMAF image depends on the values of the undersampling factors applied to the bands including the considered tile.
  • 8 different values of uniform spatial resolutions Ri coexist within the IMAF image, such as R0 ⁇ R1 ⁇ R2 ⁇ R3 ⁇ R4 ⁇ R5 ⁇ R6 ⁇ R7.
  • the double sub-sampling along two different directions makes it possible to obtain a pattern of complex spatial resolution making it possible to preserve a maximum resolution in certain places of the image when the spatial resolution is equal to R7 (brightest areas).
  • the controlled reduction of the spatial resolution at certain locations in the image also makes it possible to reduce the amount of data that will be transmitted.
  • the pattern in Figure 8 can be implemented when the display configuration is associated with a head-mounted display, like that shown in Figure 2.
  • the maximum spatial resolution R7 then corresponds to the areas located opposite the central circles.
  • the preprocessing means implementing the preprocessing step can store a correspondence table between temporal frequency values implemented in step E101 and sets of sub-sampling steps to be applied during step E102.
  • the correspondence table can memorize an intermediate value of overall resolution of the image once sub-sampled (for example divided by a positive integer P with respect to the original image.
  • At an intermediate value of overall resolution of the image matches one or more sets of downsampling steps, such that the complete image is on average downsampled by the overall resolution intermediate value.
  • the initial configuration may include as an instruction a quantity of data that it is possible to transmit, an instruction expressed as follows:
  • an overall reduction rate RED of the amount of initial data - RED can be expressed as integer or decimal positive values
  • SPAT RED/TEMP.
  • the latter can take positive integer values or not.
  • the set or sets of sub-sampling steps are obtained using a correspondence table for example defined by the initial configuration according to the value taken by SPAT.
  • a sub-step of cutting up the images E103 is implemented for the images of a group of images.
  • the group of processed images forms an output sub-sequence to be coded, this output sub-sequence having rather a low spatial resolution (the value being equal on average to the intermediate value of global resolution) and a temporal frequency equal to the original temporal frequency due to the decomposition of the images into sub-images during the sub-step E103.
  • the conservation of the original temporal frequency makes the preprocessing compatible with an encoding implemented using an encoder operating at a fixed input frequency.
  • the present invention could be combined with the proposal of patent application WO2020/025510 in the names of the applicants.
  • step E2 can therefore be carried out using a standard low-latency codec operating at fixed resolution (the lowest spatial resolution, for example RO in FIG. 8) and at high temporal frequency (frequency original time).
  • An electronic circuit implementing sub-samplings per row and/or per column according to the invention can be miniaturized. Being moreover compatible with a standard codec, it is then possible to embark it within a visiohead-mounted display without noticeable excess weight, for example a VIVETM headset from the company HTC.
  • Each coded output sub-sequence is then transmitted (step E3) via for example a wireless transmission channel (non-limiting example).
  • the output sub-sequences can be intended for several users within the framework of a virtual reality application involving several wearers of visiohead-mounted displays.
  • the wireless transmission channel is then multi-user.
  • the 60 GHz Wi-Fi WiGig wireless network protocol can be used for transmission (the bandwidth is around 7Gbps).
  • the Wi-Fi 5 protocol offering 600 Mbps bandwidth can be used.
  • step E4 Each output sub-sequence is received and decoded (step E4).
  • the decoding implemented depends on the coding implemented during step E2.
  • step E5 takes place.
  • This step includes a sub-step E500 for obtaining a post-processing configuration. This sub-step is detailed in more detail below with reference to Figure 10.
  • step E5 includes an image recomposition sub-step E501, in the case where the image splitting sub-step E103 has been implemented during preprocessing E1. If each image has been divided into 2 halves during step E103, each new recomposed image is obtained by appropriately juxtaposing two successive images of the output sub-sequence received and decoded.
  • an over-sampling sub-step E502 making it possible to increase the spatial resolution of the recomposed images. Oversampling is performed in the same directions as undersampling, and using sets of oversampling steps of inverse values to oversampling step values.
  • each new pixel linked to the oversampling can be extrapolated for example using known methods such as bilinear or bi-cubic algorithms or even using the Lanczos method well known to those skilled in the art.
  • the spatial resolution of the images of the recomposed images is equal to the spatial resolution of the images of the input sub-sequence before the sub-sampling step E102.
  • the post-processing includes a sub-step E503 for restoring the original frequency of the input sub-sequence.
  • each image resulting from sub-step E502 is then repeated N times, so as to restore the temporal frequency of the input sub-sequence.
  • a sub-sequence of decoded and post-processed images at the maximum spatial resolution and temporal frequency, equal to those of the input sub-sequence.
  • the temporal and spatial filters are predefined and stored both for pre and post processing.
  • a correspondence table then associates a configuration with a selection of temporal and/or spatial filters.
  • the identification of the spatial and/or temporal filters at the time of the preprocessing is coupled with the generation and the sending of dedicated metadata, transmitted to the device implementing the postprocessing.
  • Figure 9 illustrates the second mode of implementation.
  • Sub-step E100 is itself broken down into several sub-steps.
  • a first of these sub-steps E1000 comprises obtaining the initial configuration and the parameters associated with this initial configuration, for example: configuration relating to an optic of a visiohead-mounted device.
  • the group of images to be processed is read E1002 then analyzed E1003.
  • the analysis may comprise an analysis of the content of the images (or of a reference image from among the group of images) with for example a detection of contours, an estimation of movements for example using measurements carried out by sensors movement, a determination of a histogram of pixel values.
  • This analysis can be implemented using an algorithm based on prior learning (“machine learning”).
  • the analysis step E1003 can also include an analysis of external information such as the movement of the visiohead-mounted display worn by the user or the analysis of information complementary to the images, such as depth information.
  • the optimal filters for carrying out the filtering steps are identified and selected (E1004) for example using a correspondence table between a content analysis result and temporal filters and /or spatial.
  • An optional verification (E1005) of the settings of the selected filters with respect to a predetermined minimum visually acceptable quality, can be Implementation. If this minimum quality criterion is not satisfied, an update of the temporal and/or spatial filters can be implemented.
  • filters that can be associated with this configuration are predefined T1001 (arrow “Y”), these are then generated (E1006). Then the images of the group of images to be processed are read (E1007) and their content is analyzed (E1008). Depending on the result of the analysis, a T1009 test is implemented to check if an update of the filters parameters is authorized. If this is not the case (“N” arrow), filtering E101, E102 and E103 are then implemented with the generated filters. If an update is authorized (“Y” arrow), a T1010 test is implemented to verify the quality of the images that would result from filtering with the selected filters (for example compared to a predetermined minimum visually acceptable quality) is sufficient or not.
  • optimal filters with respect to the minimum acceptable visual quality are identified and selected (E1004) using the correspondence table between a content analysis result and temporal and/or spatial filters.
  • the optional check E1005 can again be implemented. If the quality is sufficient (T1010, arrow “N”), the filterings E101, E102 and E103 are then implemented with the generated filters.
  • the sub-steps E1004, E1005, E1007 and E1008 as well as the tests T1009 and T1010 are not implemented.
  • the filters generated (E1006) are directly used for filtering E101, E102 and E103.
  • the sub-step E104 can comprise the performance of a test T1041 to check whether the sending of metadata is authorized or not. If this is not the case (“N” arrow), the output sub-sequence to be encoded is transmitted directly to be encoded (step E1043). If the sending of metadata is authorized (arrow "Y"), metadata obtained during the sub-step E100 can be transmitted directly by Ethernet or any other means such as the auxiliary data to the images (E1042) for the production of a or several filtering sub-steps E101, E102, E103 on the one hand and on the other hand intended for the device implementing the post-processing, the metadata possibly being synchronized or not with the images to which they relate.
  • Metadata is transmitted via auxiliary channels to the transmission protocol used for video, for example MJPEG, “Motion Joint Photography Experts Group”).
  • Metadata can represent selected filters and their parameters (for example using an identifier designating a filter from a predetermined list), or parameters making it possible to modify or configure predefined filters or even parameters fully describing the filters using a list of properties to generate these filters.
  • Metadata exchange between sender and receiver is optional. It can be omitted in particular in the case where during post-processing E5, the configuration can be obtained directly from the video format of the output sub-sequences for example.
  • a T1044 test verifies if a new input sub-sequence is available. If so (“Y” arrow), a new input subsequence is read E1007. Otherwise (arrow “N”) the coding step E2 is implemented.
  • FIG. 10 illustrates a mode of implementation of post processing E5.
  • the sub-step E500 includes beforehand a reading of an initial configuration (E5001) for example stored in a memory.
  • This initial configuration can for example correspond to a visiohead.
  • a T5002 test checks whether this initial configuration allows suitable filters to be obtained for each output sub-sequence or whether the filters corresponding to the configuration obtained are valid for a set of output sub-sequences. If the filters can be updated for each output sub-sequence (“Y” arrow), a configuration of the spatial and/or temporal filters is obtained (E5003), for example two successive spatial sub-samplings, in a vertical direction then horizontal. The corresponding filters are then generated (E5004).
  • the output sub-sequence to be post-processed is read (E5005). If the filters cannot be updated for each output sub-sequence (“N” arrow), the post-processing process goes directly to the stage of reading the output sub-sequence to be post-processed ( E5005).
  • the post-processing includes a verification of receipt or not of metadata corresponding to the output sub-sequence considered (T5006). If metadata has been received (“Y” arrow), the filters obtained are configured (no sampling, temporal filtering frequency, etc.) during a step E5007. The various filterings E501, E502 and E503 are then applied to the output sub-sequence. If a new output subsequence is available for post-processing (“Y” arrow of a T504 test), the process is repeated. Otherwise, the post-processing is finished (“N” arrow).
  • FIG. 11 schematically illustrates an embodiment of pre-processing means integrated into a DC coding device according to the invention.
  • the device comprises reading means MLC1 able to read images from a source video SVD, by group of images. The read frames are passed to a means of identification of an optimal MIDI preprocessing.
  • Signaling means MSGA are able to generate metadata MTDA describing the optimal pre-processing or comprising an identifier of this optimal pre-processing if the metadata describing it are not transmitted to the post-processing device.
  • Generation means MGNF1 are capable of generating parameterized filters according to the pre-processing identified by the MIDI means and according to an initial configuration stored in a memory MEM.
  • the device DPRT comprises means able to generate metadata MTDB describing the filtering parameters of the generated filters.
  • the pre-processing means also include means for temporal filtering MFT 1 , spatial sub-sampling MFS1 and image decomposition MD1 capable of filtering the images of the source video SVD as a function of the filters generated by the means MGNF.
  • the IMPR pre-processed images form output sub-sequences transmitted with the MTDA and MTDB metadata to a display device coupled to a decoder and a post-processing device.
  • FIG. 12 schematically illustrates an embodiment of post-processing means forming part of a DDEC decoding device according to the invention.
  • Reading means MLC2 are configured to read the preprocessed images IMPR of the successive output sub-sequences. These MLC2 means can implement the reading of the images for example using the identifier of the preprocessing MTDA transmitted simultaneously to the preprocessed images in order to match each image read with the descriptive metadata of the preprocessing to be applied, for example stored in an annex memory in the form of a list, the annex memory not being represented for the purposes of simplification.
  • Each pre-processing is identifiable thanks to this identifier.
  • the list can vary according to a result provided by analysis means (not shown) of the scenes present on the images.
  • identification means MID2 are able to determine the post-processing filtering to be applied to the images of the output sub-sequences, using the aforementioned identifier MTDA.
  • the identification means MID2 are able to select and configure the filters for the implementation of the identified post-processing.
  • Generation means MGNF2 are configured to generate filters suitable for post-processing using the metadata MTDB transmitted simultaneously to the pre-processed images.
  • the generation means MGNF2 are coupled to a memory MEM2 capable of storing a configuration as described above.
  • the post-processing means further comprise temporal filtering means MFT2, spatial over-sampling MFS2 and image recomposition MD2 capable of filtering the images read by the reading means MLC2 as a function of the post-processing identified by the means MID2 and parameters generated by means MGNF2.
  • the images reconstructed in the format of the MTDC source video are output.
  • FIG. 13 schematically represents an electronic circuit CIR capable of implementing a pre-processing or post-processing method as described with reference to FIGS. 3, 9 and 10. implemented by the first spatial filtering means MFIL1, the spatial undersampling or oversampling and the decompositions or recompositions of images implemented by the second temporal filtering means MFIL2. Furthermore, the microprocessor
  • iP is capable of generating or processing (in post-processing) the processing metadata mentioned above.
  • iP is also coupled to a memory MEM suitable for saving initial configurations as well as, where appropriate, the correspondence tables mentioned above.
  • iP and the spatial MFIL1 and temporal MFIL2 filtering means are respectively coupled to MCOME input and MCOMS output communication means able to exchange processed data or to process with another device such as an encoder or a decoder for example.
  • the data passing through the MCOME input communication means may include the images of the video data sources delivered to the spatial filtering means MFIL1 and configuration parameters of the filtering means supplied to the microprocessor
  • the data transmitted via the input communication means MCOMS can comprise for example the processing metadata generated by the microprocessor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

The invention relates to a method for encoding images of a video sequence that comprises implementing the following steps: c) obtaining an initial configuration (E100) representative of structural characteristics of a display device and, for an image of the video sequence referred to as the input sub-sequence, d1) carrying out a first spatial sub-sampling operation (E102) on the elements of the image by using a filter oriented in a first direction and comprising a first set (ENS1) of values of sub-sampling factors, the latter being determined as a function of the initial configuration, then inserting the resulting image into an output sub-sequence, and e) encoding (E2) the images of the output sub-sequence.

Description

PROCEDE DE CODAGE D'IMAGES D'UNE SEQUENCE VIDEO A CODER, PROCEDE DE DECODAGE, DISPOSITIFS ET SYSTEME CORRESPONDANTS AVEC SOUS-ÉCHANTILLONAGE SPATIAL METHOD FOR CODING IMAGES OF A VIDEO SEQUENCE TO BE CODED, METHOD FOR DECODING, CORRESPONDING DEVICES AND SYSTEM WITH SPATIAL SUB-SAMPLING
D'IMAGE IMAGE
Domaine technique de l'invention Technical field of the invention
La présente invention concerne le domaine technique du codage et du décodage de séquences vidéo. Plus particulièrement, elle porte sur un procédé et un dispositif de codage, un procédé et un dispositif de décodage ainsi que sur les dispositifs correspondants. The present invention relates to the technical field of the coding and decoding of video sequences. More particularly, it relates to a method and a device for coding, a method and a device for decoding as well as to the corresponding devices.
Etat de la technique State of the art
Pour pourvoir transmettre un contenu vidéo de haute résolution spatiale et temporelle, il est connu de mettre en œuvre un procédé dit échelonnable, tel que décrit dans la demande de brevet W02020/025510. En traitant une séquence vidéo à l’aide de ce procédé, la quantité de données vidéo à transmettre est réduite, sans altération visible de la qualité des séquences vidéo dans les domaines spatial et temporel, lors de l’affichage des images. To be able to transmit high spatial and temporal resolution video content, it is known to implement a so-called scalable method, as described in patent application WO2020/025510. By processing a video sequence using this process, the amount of video data to be transmitted is reduced, without visible deterioration of the quality of the video sequences in the spatial and temporal domains, when displaying the images.
Présentation de l'invention Presentation of the invention
Dans ce contexte, selon un premier aspect de l’invention, il est proposé un procédé de codage d’images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes. Le procédé comprend la mise en œuvre des étapes suivantes c) obtention d’une configuration initiale représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous- séquence d’une ou plusieurs images de la séquence vidéo dites sous-séquence d’entrée, d1 ) réalisation d’un premier sous-échantillonnage spatial d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sous-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous- séquence de sortie, et e) codage (E2) des images de la sous-séquence de sortie. Avantageusement le procédé selon le premier aspect de l’invention, permet de réduire la quantité de données codées à transmettre, sans perte de qualité visuelle pour l’utilisateur qui visionne la séquence vidéo. En effet, le sous-échantillonnage est fonction de caractéristiques structurelles (par exemple optiques ou relatives à la forme du dispositif d’affichage) du dispositif d’affichage via lequel l’utilisateur visionne la séquence vidéo. Il est donc possible d’ajuster le sous-échantillonnage aux zones d’intérêt des images pour l’utilisateur, au regard du dispositif d’affichage utilisé. In this context, according to a first aspect of the invention, there is proposed a method for coding images of a video sequence, each image being formed of elements organized in rows and columns. The method comprises the implementation of the following steps c) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of a sub-sequence of one or more images of the video sequence called input sub-sequence, d1) carrying out a first spatial sub-sampling of at least part of the elements of the image by using a filter oriented in a first direction and comprising a first set of at at least two different values of sub-sampling factors, the first set of values being determined as a function of said initial configuration, then inserting the resulting image into an output sub-sequence, and e) coding (E2) the images of the output subsequence. Advantageously, the method according to the first aspect of the invention makes it possible to reduce the quantity of coded data to be transmitted, without loss of visual quality for the user viewing the video sequence. Indeed, the sub-sampling is a function of structural characteristics (for example optical or relating to the shape of the display device) of the display device via which the user views the video sequence. It is therefore possible to adjust the sub-sampling to the areas of interest of the images for the user, with regard to the display device used.
De préférence, l’étape d1 ) comprend en outre un deuxième sous-échantillonnage spatial d’au moins une partie des éléments de l’image sous-échantillonnée en utilisant un filtre orienté selon une deuxième direction et comprenant un deuxième ensemble d’au moins deux valeurs différentes de facteurs de sous-échantillonnage, le deuxième ensemble de valeurs étant déterminé en fonction de ladite configuration initiale. Preferably, step d1) further comprises a second spatial sub-sampling of at least some of the elements of the sub-sampled image using a filter oriented in a second direction and comprising a second set of at least two different values of downsampling factors, the second set of values being determined according to said initial configuration.
La mise en œuvre de deux sous-échantillonnages successifs à l’aide de deux filtres orientés selon deux directions différentes permet de réaliser des motifs relativement complexes, le motif définissant des zones ayant des valeurs de résolutions spatiales différentes. Il est alors possible d’ajuster finement la résolution de chaque zone des images traitées selon les aux caractéristiques structurelles du dispositif d’affichage. The implementation of two successive sub-samplings using two filters oriented in two different directions makes it possible to produce relatively complex patterns, the pattern defining zones having different spatial resolution values. It is then possible to finely adjust the resolution of each zone of the processed images according to the structural characteristics of the display device.
De préférence un sous-échantillonnage spatial est réalisé à l’aide de filtres orientés selon l’une des directions suivantes : Preferably, spatial sub-sampling is carried out using filters oriented in one of the following directions:
- horizontale, - horizontal,
- verticale. - vertical.
Le choix de ces directions permet d’implémenter de façon particulièrement simple la solution au sein d’un dispositif de codage, tout en permettant la réalisation de motifs de résolutions spatiales complexes. The choice of these directions makes it possible to implement the solution in a particularly simple way within a coding device, while allowing the realization of patterns of complex spatial resolutions.
Chaque valeur de facteur de sous-échantillonnage d’un ensemble de valeurs est de préférence respectivement appliquée à au moins un groupe de p éléments successifs selon la direction dans laquelle est orienté le filtre, p étant un entier positif. Each subsampling factor value of a set of values is preferably respectively applied to at least one group of p successive elements according to the direction in which the filter is oriented, p being a positive integer.
Selon un mode de mise en œuvre, le procédé peut comprendre en outre une étape d’analyse comprenant une analyse du contenu d’au moins une image de ladite sous- séquence d’entrée, et une étape de mise à jour des valeurs des facteurs de sous- échantillonnage préalablement à la mise en œuvre de l’étape d1 ), en fonction du résultat de l’analyse du contenu. According to one mode of implementation, the method may further comprise an analysis step comprising an analysis of the content of at least one image of said input sub-sequence, and a step of updating the values of the factors of sub- sampling prior to the implementation of step d1), depending on the result of the analysis of the content.
Selon un mode de mise en œuvre, le procédé peut comprendre en outre une étape d’analyse comprenant une analyse de mesures représentatives de mouvements effectués par un utilisateur, le dispositif d’affichage étant un visiocasque porté par ledit utilisateur (par exemple sa tête et/ou ses yeux), et une étape de mise à jour des valeurs des facteurs de sous-échantillonnage préalablement à la mise en œuvre de l’étape d1 ), en fonction du résultat de l’analyse des mesures. According to one embodiment, the method may further comprise an analysis step comprising an analysis of measurements representative of movements performed by a user, the display device being a visiohead-mounted display worn by said user (for example his head and /or his eyes), and a step for updating the values of the subsampling factors prior to the implementation of step d1), depending on the result of the analysis of the measurements.
Selon un autre mode de mise en œuvre, le procédé peut comprendre en outre une autre étape d’analyse comprenant une analyse de la qualité visuelle des images de ladite sous-séquence de sortie, et une étape de mise à jour des valeurs de facteurs de sous-échantillonnage préalablement à la mise en œuvre de l’étape d1 ), si la qualité visuelle est inférieure à un seuil prédéterminé. According to another mode of implementation, the method may further comprise another analysis step comprising an analysis of the visual quality of the images of said output sub-sequence, and a step of updating the values of sub-sampling prior to the implementation of step d1), if the visual quality is lower than a predetermined threshold.
Selon un autre mode de mise en œuvre, le procédé peut comprendre en outre une étape préalable comprenant les sous-étapes suivantes a) obtention à partir de ladite séquence vidéo, de sous-séquences dites initiales, et pour au moins une sous-séquence initiale : b1 ) détermination d’une information représentative du contenu d’au moins une image de la sous-séquence initiale, et en fonction de ladite information, b2) détermination pour la sous-séquence initiale, d’une fréquence de traitement, inférieure ou égale à la fréquence initiale d’affichage des images, en fonction de l’information déterminée, et b3) insertion, en fonction de la fréquence de traitement déterminée, de tout ou partie des images du groupe d’images dans une sous-séquence d’images formant une sous-séquence d’entrée. According to another mode of implementation, the method may further comprise a preliminary step comprising the following sub-steps a) obtaining from said video sequence, so-called initial sub-sequences, and for at least one initial sub-sequence : b1) determination of information representative of the content of at least one image of the initial sub-sequence, and as a function of said information, b2) determination for the initial sub-sequence, of a processing frequency, lower or equal to the initial image display frequency, as a function of the determined information, and b3) insertion, as a function of the determined processing frequency, of all or part of the images of the group of images in a sub-sequence d images forming an input subsequence.
De préférence le procédé peut alors comprendre en outre une étape a posteriori pour les M images d’une sous-séquence de sortie, M étant un entier, ladite étape a postériori comprenant les sous-étapes suivantes d2) comparaison entre la fréquence de traitement associée aux images de la sous-séquence de sortie et la fréquence initiale d’affichage des images, et si la fréquence de traitement est inférieure à la fréquence initiale, découpage spatial de chacune des M images de la sous-séquence de sortie en N sous-images, N étant un entier dont la valeur est fonction du rapport entre la fréquence de traitement et la fréquence initiale, l’étape de codage e) correspondant au codage des M*N sous- images de la sous-séquence de sortie, sinon l’étape de codage e) correspond au codage desdites M images de la sous- séquence de sortie. Preferably, the method can then further comprise an a posteriori step for the M images of an output sub-sequence, M being an integer, said a posteriori step comprising the following sub-steps d2) comparison between the associated processing frequency to the images of the output sub-sequence and the initial frame display frequency, and if the processing frequency is lower than the initial frequency, spatial division of each of the M images of the output sub-sequence into N sub-images, N being an integer whose value depends on the ratio between the processing frequency and the initial frequency, the coding step e) corresponding to the coding of the M*N sub-images of the output sub-sequence, otherwise the coding step e) corresponds to the coding of said M images of the output sub-sequence.
Selon un autre mode de mise en œuvre, le procédé peut comprendre en outre les étapes suivantes pour chaque sous-séquence de sortie According to another mode of implementation, the method can also comprise the following steps for each output sub-sequence
- obtention d’une information représentative d’au moins l’un des éléments de la liste ci-dessous : o valeurs de facteurs de sous-échantillonnage, o mesures représentatives de mouvements effectués par un utilisateur, le dispositif d’affichage étant un visiocasque porté par ledit utilisateur, o caractéristiques structurelles du dispositif d’affichage, o fréquence de traitement, et - obtaining information representative of at least one of the elements from the list below: o values of sub-sampling factors, o measurements representative of movements performed by a user, the display device being a head-mounted display worn by said user, o structural characteristics of the display device, o processing frequency, and
- codage de ladite information. - coding of said information.
Selon un deuxième aspect de l’invention, il est proposé un procédé de décodage de données correspondant à des images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes, les images de la séquence vidéo étant regroupées en sous-séquences d’une ou plusieurs images dites sous- séquences de sortie. Le procédé comprend la mise en œuvre des étapes suivantes c1 ) obtention d’une configuration initiale représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous- séquence de sortie; d11 ) réalisation d’un premier sur-échantillonnage spatial d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sur-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous-séquence à décoder, et e1 ) décodage des images de la sous-séquence à décoder. According to a second aspect of the invention, there is proposed a method for decoding data corresponding to images of a video sequence, each image being formed of elements organized in rows and columns, the images of the video sequence being grouped in sub-sequences of one or more images called output sub-sequences. The method comprises the implementation of the following steps c1) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of an output sub-sequence; d11 ) performing a first spatial oversampling of at least part of the elements of the image using a filter oriented along a first direction and comprising a first set of at least two different values of oversampling factors , the first set of values being determined as a function of said initial configuration, then insertion of the resulting image into a sub-sequence to be decoded, and e1) decoding of the images of the sub-sequence to be decoded.
De préférence, l’étape d11 ) peut comprendre en outre un deuxième suréchantillonnage spatial d’au moins une partie des éléments de l’image suréchantillonnée en utilisant un filtre orienté selon une deuxième direction et comprenant un deuxième ensemble d’au moins deux valeurs différentes de facteurs de sur-échantillonnage, le deuxième ensemble de valeurs étant déterminé en fonction de ladite configuration initiale. Preferably, step d11) can further comprise a second spatial oversampling of at least some of the elements of the oversampled image using a filter oriented in a second direction and comprising a second set of at least two different values oversampling factors, the second set of values being determined as a function of said initial configuration.
Selon un troisième aspect de l’invention, il est proposé un dispositif de codage d’images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes. Le dispositif est configuré pour mettre en œuvre les étapes suivantes c) obtention d’une configuration initiale représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous- séquence d’une ou plusieurs images de la séquence vidéo dites sous-séquence d’entrée, d1 ) réalisation d’un premier sous-échantillonnage spatial d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sous-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous- séquence de sortie, et e) codage des images de la sous-séquence de sortie. According to a third aspect of the invention, there is proposed a device for coding images of a video sequence, each image being formed of elements organized in rows and columns. The device is configured to implement the following steps c) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of a sub-sequence of one or more images of the video sequence called the input sub-sequence, d1) carrying out a first spatial sub-sampling of at least part of the elements of the image by using a filter oriented in a first direction and comprising a first set of at least two different values of subsampling factors, the first set of values being determined as a function of said initial configuration, then inserting the resulting image into an output sub-sequence, and e) coding the images of the sub -output sequence.
Selon un quatrième aspect de l’invention, il est proposé un dispositif de décodage de données correspondant à des images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes, les images de la séquence vidéo étant regroupées en sous-séquences d’une ou plusieurs images dites sous- séquences de sortie. Le dispositif est configuré pour mettre en œuvre des étapes suivantes c1 ) obtention d’une configuration initiale représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous- séquence de sortie; d11 ) réalisation d’un premier sur-échantillonnage spatial d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sur-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous-séquence à décoder, et e1 ) décodage des images de la sous-séquence à décoder. According to a fourth aspect of the invention, there is proposed a device for decoding data corresponding to images of a video sequence, each image being formed of elements organized in rows and columns, the images of the video sequence being grouped in sub-sequences of one or more images called output sub-sequences. The device is configured to implement the following steps c1) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of an output sub-sequence; d11 ) performing a first spatial oversampling of at least part of the elements of the image using a filter oriented along a first direction and comprising a first set of at least two different values of oversampling factors , the first set of values being determined as a function of said initial configuration, then insertion of the resulting image into a sub-sequence to be decoded, and e1) decoding of the images of the sub-sequence to be decoded.
Description détaillée de l'invention Detailed description of the invention
De plus, diverses autres caractéristiques de l'invention ressortent de la description annexée effectuée en référence aux dessins qui illustrent des formes, non limitatives, de réalisation de l'invention et où : In addition, various other characteristics of the invention emerge from the appended description made with reference to the drawings which illustrate non-limiting forms of embodiment of the invention and where:
- la figure 1 représente un mode de mise en œuvre d’un procédé selon le premier aspect de l’invention ; - Figure 1 shows a mode of implementation of a method according to the first aspect of the invention;
- la figure 2 illustre les caractéristique optiques d’un visiocasque utilisé pour afficher une séquence vidéo ; - Figure 2 illustrates the optical characteristics of a head-mounted display unit used to display a video sequence;
- la figure 3 illustre plus précisément certaines étapes du mode de mise en œuvre représenté sur le figure 1 ; - Figure 3 illustrates more precisely certain steps of the mode of implementation shown in Figure 1;
- la figure 4 représente schématiquement un motif obtenu selon un mode de mise en œuvre du procédé selon l’invention ; - Figure 4 schematically represents a pattern obtained according to an embodiment of the method according to the invention;
- la figure 5 représente schématiquement un autre motif obtenu selon un autre mode de mise en œuvre du procédé selon l’invention ; - Figure 5 schematically represents another pattern obtained according to another mode of implementation of the method according to the invention;
- la figure 6 détaille un mode de mise en œuvre d’une étape de sous- échantillonnage spatial selon l’invention ; - Figure 6 details a mode of implementation of a spatial sub-sampling step according to the invention;
- la figure 7 détaille un autre mode de mise en œuvre d’une étape de sous- échantillonnage spatial selon l’invention ; - Figure 7 details another mode of implementation of a spatial sub-sampling step according to the invention;
- la figure 8 représente schématiquement des motifs obtenus à l’issue des applications successives des modes de mise en œuvre illustrés sur les figures 6 et 7 ; - la figure 9 illustre plus précisément certaines étapes du mode de mise en œuvre représenté sur le figure 1 ; - Figure 8 schematically shows the patterns obtained after successive applications of the embodiments illustrated in Figures 6 and 7; - Figure 9 illustrates more precisely certain steps of the mode of implementation shown in Figure 1;
- la figure 10 représente un mode de mise en œuvre d’un procédé selon le deuxième aspect de l’invention ; - Figure 10 shows a mode of implementation of a method according to the second aspect of the invention;
- la figure 11 représente un mode de réalisation d’un dispositif selon le troisième aspect de l’invention ; - Figure 11 shows an embodiment of a device according to the third aspect of the invention;
- la figure 12 représente un mode de réalisation d’un dispositif selon le quatrième aspect de l’invention ; et - Figure 12 shows an embodiment of a device according to the fourth aspect of the invention; and
- la figure 13 représente une implémentation possible des dispositifs selon le troisième ou le quatrième aspect de l’invention. - Figure 13 shows a possible implementation of the devices according to the third or fourth aspect of the invention.
La figure 1 représente un mode de mise en œuvre d’un procédé selon l’invention. Des données vidéos sources SVD sont fournies en entrée d’une étape E1 de prétraitement, par exemple dans un format vidéo UHD (« Ultra High Definition » en anglais). Chaque vidéo source est traitée groupe d’images par groupe d’images (GOP pour « Group Of Pictures » en anglais). Un groupe d’images forme une sous- séquence d’entrée. Cette étape E1 décrite plus en détail ci-après, permet d’appliquer des traitements spatiaux et optionnellement des traitements temporels sur les données vidéo. La fréquence spatiale et éventuellement temporelle des pixels constituant les images de la séquence vidéo SVD est réduite à l’issue du prétraitement. Le format de la vidéo est alors modifié. Eventuellement, des métadonnées relatives au prétraitement sont générées comme expliqué dans la suite de la description. FIG. 1 represents a mode of implementation of a method according to the invention. SVD source video data are supplied as input to a preprocessing step E1, for example in an UHD (“Ultra High Definition”) video format. Each source video is processed group of images by group of images (GOP for “Group Of Pictures” in English). A group of images forms an input sub-sequence. This step E1, described in more detail below, makes it possible to apply spatial processing and optionally temporal processing to the video data. The spatial and possibly temporal frequency of the pixels constituting the images of the SVD video sequence is reduced at the end of the preprocessing. The format of the video is then modified. Optionally, metadata relating to the preprocessing are generated as explained in the following description.
Les données vidéo traitées sont codées lors d’une étape E2, puis transmises, étape E3, à destination de moyens d’affichage. Préalablement à l’affichage, les données vidéo codées transmises sont décodées, étape E4. Puis elles sont soumises à un posttraitement E5 fonction du prétraitement E3 qui a été réalisé avant l’encodage. Eventuellement le posttraitement E5 est fonction des métadonnées générées lors de l’étape de prétraitement E2. Les données vidéo post traitées sont finalement affichées à l’aide des moyens d’affichage à l’étape E6. The processed video data is coded during a step E2, then transmitted, step E3, to display means. Prior to display, the transmitted coded video data is decoded, step E4. Then they are subjected to an E5 post-processing function of the E3 pre-processing which was carried out before encoding. Possibly post-processing E5 depends on the metadata generated during the pre-processing step E2. The post-processed video data is finally displayed using the display means in step E6.
Les étapes E1 , E2 et E3 sont mises en œuvre par un dispositif émetteur tandis que les étapes E4, E5 et E6 sont mises en œuvre par un dispositif récepteur comprenant les moyens d’affichage. Les moyens d’affichage peuvent comprendre un écran à dimensions variables, un visiocasque ou encore une simple surface d’affichage, cette liste n’étant pas exhaustive. Ces moyens d’affichage présentent des configurations d’affichage qui leur sont propres. Une configuration d’affichage peut être définie par les caractéristiques structurelles du dispositif d’affichage tels que ses dimensions ou encore les paramètres de ses composants optiques. A titre d’exemple, la figure 2 schématise les caractéristiques optiques des lentilles respectivement gauche LG et droite LD d’un visiocasque. Classiquement chaque lentille LG, LD permettant une vision binoculaire, possède une résolution spatiale optimale à l’intérieur d’un cercle central CCG, CCD. Ce cercle central se trouve, lorsque le visiocasque est porté par un utilisateur, face à la fovéa de l’œil respectivement gauche ou droit. La fovéa est la zone de la rétine où la vision des détails est la plus précise. Puis au fur et à mesure que l’on s’éloigne du cercle central, la résolution spatiale de l’image affichée diminue progressivement, par palier, selon des cercles concentriques au rayon croissant. Enfin une zone noire ZN entoure les zones d’affichage circulaires de la vidéo. Steps E1, E2 and E3 are implemented by a transmitter device while steps E4, E5 and E6 are implemented by a receiver device comprising the display means. The display means can comprise a screen with variable dimensions, a head-mounted display or even a simple display surface, this list not being exhaustive. These display means have display configurations that are specific to them. A display configuration can be defined by the structural characteristics of the display device such as its dimensions or else the parameters of its optical components. By way of example, FIG. 2 schematizes the optical characteristics of the respectively left LG and right LD lenses of a head-mounted display. Conventionally, each LG, LD lens allowing binocular vision has an optimal spatial resolution inside a central circle CCG, CCD. This central circle is, when the visiohead-mounted display is worn by a user, facing the fovea of the left or right eye respectively. The fovea is the area of the retina where the vision of details is most precise. Then as one moves away from the central circle, the spatial resolution of the displayed image decreases progressively, in stages, according to concentric circles of increasing radius. Finally, a black zone ZN surrounds the circular display zones of the video.
La figure 3 illustre plus en détail les étapes E1 et E5 de la figure 1. L’étape de prétraitement E1 comprend une première sous-étape E100 de configuration initiale. Cette sous-étape permet l’obtention d’un ensemble de filtres spatiaux et optionnellement temporels, à appliquer à un groupe d’images de la vidéo source selon un motif de filtrage résultant de la configuration. La configuration initiale peut être définie par défaut (par exemple mémorisée) ou mise à jour pour chaque sous- séquence d’entrée de façon à prendre en compte des variations de contexte en cours d’utilisation. Une configuration initiale est fonction d’un ou plusieurs critères combinés entre eux, ces critères comprenant la configuration d’affichage définie ci-avant. Elle peut être en outre fonction de critères supplémentaires, par exemple relatifs à la chaîne de transmission de la vidéo entre l’émetteur et le récepteur ou encore à des consignes données par un utilisateur, consignes portant sur une quantité de données qu’il est possible de transmettre, un seuil de latence autorisé ou un niveau de complexité tolérable. FIG. 3 illustrates steps E1 and E5 of FIG. 1 in more detail. The preprocessing step E1 comprises a first substep E100 of initial configuration. This sub-step allows obtaining a set of spatial and optionally temporal filters, to be applied to a group of images of the source video according to a filtering pattern resulting from the configuration. The initial configuration can be defined by default (for example memorized) or updated for each input sub-sequence in order to take into account context variations during use. An initial configuration is a function of one or more criteria combined together, these criteria including the display configuration defined above. It can also be a function of additional criteria, for example relating to the video transmission chain between the transmitter and the receiver or even to instructions given by a user, instructions relating to a quantity of data that it is possible to transmit, an authorized latency threshold or a tolerable level of complexity.
La sous-étape E100 permet de délivrer une valeur d’une fréquence spatiale et éventuellement temporelle, acceptable a priori pour que le contenu soit rendu sur le dispositif d’affichage sans perte notable de qualité. Une valeur de fréquence spatiale est associée à une partition d’une image (l’image comprenant au moins deux partitions). Une valeur de fréquence temporelle (correspondant à une fréquence de transmission des images ou « fréquence des images transmises ») correspond à la fréquence des images transmises au sein d’un groupe d’images de la vidéo source. The sub-step E100 makes it possible to deliver a value of a spatial and possibly temporal frequency, acceptable a priori so that the content is rendered on the display device without notable loss of quality. A spatial frequency value is associated with a partition of an image (the image comprising at least two partitions). A temporal frequency value (corresponding to an image transmission frequency or “transmitted image frequency”) corresponds to the frequency of images transmitted within a group of images of the source video.
En fonction de la configuration initiale obtenue, les deux sous-étapes suivantes E101 et E102 sont mises en œuvre, l’étape E101 étant optionnelle. Si la configuration initiale implique un filtrage temporel, l’étape E101 est mise en œuvre. Elle comprend pour un groupe d’images, une modification de la sous-séquence d’images d’entrée, en ne conservant qu’une partie des images. A des fins de simplification, sauf indication contraire, il est considéré dans la suite de la description que sont mis en œuvre un filtrage spatial (E102) et un filtrage temporel (E102). Les sous-séquences d’entrée de la vidéo source sont donc soumises à une combinaison de traitements comprenant un sous-échantillonnage spatial et temporel pour au moins une partie des images. Depending on the initial configuration obtained, the following two sub-steps E101 and E102 are implemented, step E101 being optional. If the initial configuration involves temporal filtering, step E101 is implemented. It includes for a group of images, a modification of the sub-sequence of input images, keeping only part of the images. For the purposes of simplification, unless otherwise indicated, it is considered in the remainder of the description that spatial filtering (E102) and temporal filtering (E102) are implemented. The input sub-sequences of the source video are therefore subjected to a combination of processing including spatial and temporal sub-sampling for at least part of the images.
Pour chaque groupe d’images traitées, la sous-étape E101 délivre une sous- séquence d’images dont la valeur de la fréquence temporelle dépend de la configuration initiale. La fréquence temporelle peut être identique à la fréquence temporelle d’origine du groupe d’images de la sous-séquence d’entrée. La sous- séquence d’images délivrée en sortie de la sous-étape E101 est alors identique à la sous-séquence d’images d’entrée. A l’inverse, la fréquence temporelle résultant de la configuration initiale peut correspondre à ladite fréquence d’origine divisée par N (N étant un entier supérieur ou égal à 2). Une image sur N du flux d’entrée est alors supprimée. La sous-séquence d’images délivrée en sortie de la sous-étape E101 possède donc alors une fréquence temporelle divisée par N. For each group of images processed, sub-step E101 delivers a sub-sequence of images whose value of the temporal frequency depends on the initial configuration. The time frame can be the same as the original time frame of the input subsequence GOP. The sub-sequence of images delivered at the output of sub-step E101 is then identical to the sub-sequence of input images. Conversely, the temporal frequency resulting from the initial configuration can correspond to said original frequency divided by N (N being an integer greater than or equal to 2). One image out of N from the input stream is then deleted. The sub-sequence of images delivered at the output of sub-step E101 therefore then has a temporal frequency divided by N.
Dans un mode de mise en œuvre, la sous-étape E101 peut recevoir des informations résultant d’une analyse (E105) des mesures de mouvements effectués par le dispositif d’affichage et/ou par un utilisateur (ou ses yeux) dans le cas où le dispositif d’affichage serait un visiocasque porté par cet utilisateur. Cette information représentative des mesures permettant d’estimer le mouvement est alors utilisée pour adapter la fréquence temporelle afin de prévenir les symptômes de cinétose (« motion sickness » en anglais) ressentis par le porteur du visiocasque, qui pourraient être générés par des approches de l’état de l’art, c’est-à-dire non dynamique en ce qui concerne la fréquence temporelle. De préférence, si la sous-séquence d’entrée présente des mouvements importants, dans ce cas la fréquence temporelle sera conservée à son maximum, et la réduction de la résolution spatiale, mise en œuvre dans la sous-étape E102, sera privilégiée. A l’inverse si la sous-séquence d’entrée présente peu de mouvements, la réduction de la fréquence temporelle sera privilégiée, et la résolution spatiale, mise en œuvre dans la sous-étape E102, sera peu ou pas réduite. In one mode of implementation, the sub-step E101 can receive information resulting from an analysis (E105) of the measurements of movements performed by the display device and/or by a user (or his eyes) in the case where the display device would be a head-mounted display worn by that user. This information representative of the measurements making it possible to estimate the movement is then used to adapt the temporal frequency in order to prevent the symptoms of kinetosis (“motion sickness” in English) felt by the wearer of the head-mounted display, which could be generated by approaches to motion sickness. state of the art, that is to say non-dynamic with regard to the temporal frequency. Preferably, if the input sub-sequence presents important movements, in this case the temporal frequency will be kept to its maximum, and the reduction of the spatial resolution, implemented in the sub-step E102, will be preferred. Conversely, if the input sub-sequence has few movements, the reduction of the temporal frequency will be preferred, and the spatial resolution, implemented in the sub-step E102, will be reduced little or not at all.
Un filtrage spatial (E102) est ensuite appliqué aux images d’au moins un groupe d’images de la sous-séquence d’entrée, en fonction de la configuration initiale. Le filtrage spatial est effectué à l’aide d’au moins un sous-échantillonnage spatial des éléments d’au moins une ligne ou d’au moins une colonne de l’image. Ce sous- échantillonnage spatial est fonction d’un ensemble de facteurs encore appelé pas de sous-échantillonnage défini par la configuration initiale. Un élément représente un pixel de l’image ou la composante de ce pixel pour l’une des composantes couleurs de l’image. A spatial filtering (E102) is then applied to the images of at least one group of images of the input sub-sequence, according to the initial configuration. Spatial filtering is performed using at least one spatial subsampling of elements of at least one row or at least one column of the image. This spatial sub-sampling is a function of a set of factors also called sub-sampling step defined by the initial configuration. An element represents a pixel of the image or the component of this pixel for one of the color components of the image.
En variante et tel que considéré dans la suite de la description, le filtrage spatial est effectué selon deux sous-échantillonnages successifs, à l’aide de filtres respectivement orientés selon deux directions différentes, horizontale (filtre horizontaux) et verticale (filtres verticaux) indépendamment de l’ordre. Ainsi, les colonnes puis les lignes de l’image sont successivement sous-échantillonnées. En variante, il est possible d’alterner le sous-échantillonnage d’une ligne puis le sous- échantillonnage d’une colonne ou vice et versa. As a variant and as considered in the following description, the spatial filtering is carried out according to two successive sub-samplings, using filters respectively oriented in two different directions, horizontal (horizontal filter) and vertical (vertical filters) independently of the order. Thus, the columns and then the rows of the image are successively under-sampled. As a variant, it is possible to alternate the sub-sampling of a row then the sub-sampling of a column or vice versa.
Décomposer le filtrage spatial en deux sous-échantillonnages en utilisant pour chacun des sous-échantillonnages, des filtres orientés selon deux directions différentes, permet d’obtenir au sein d’une image, des zones ou partitions ayant une résolution différente, selon les facteurs d’échantillonnage mis en œuvre par les filtres. L’implémentation d’un traitement électronique dans un circuit programmable apte à réaliser des sous-échantillonnages à l’aide de filtre verticaux ou horizontaux est simple tout en nécessitant peu de mémoire et en limitant la latence de traitement. En adaptant finement les valeurs prises par les facteurs d’échantillonnage, il est possible d’obtenir des motifs très précis, chacun ayant une résolution spatiale propre, fonction des zones d’intérêt de l’image. Par exemple, plus la zone de l’image est affichée dans une zone proche de la fovéa de l’œil, plus la résolution spatiale est importante. Autrement dit un motif permet d’appliquer des facteurs de sous-échantillonnage différents en fonction des différentes zones de l’image, ces zones pouvant être définies dans la configuration initiale à l’aide de leurs coordonnées spatiales. Breaking down the spatial filtering into two sub-samplings, using for each of the sub-samplings, filters oriented in two different directions, makes it possible to obtain within an image, zones or partitions having a different resolution, according to the factors of sampling implemented by the filters. The implementation of an electronic processing in a programmable circuit capable of carrying out sub-samplings using vertical or horizontal filters is simple while requiring little memory and limiting processing latency. By finely adapting the values taken by the sampling factors, it is possible to obtain very precise patterns, each having its own spatial resolution, depending on the areas of interest of the image. For example, the closer the area of the image is displayed to the fovea of the eye, the greater the spatial resolution. In other words, a pattern makes it possible to apply different downsampling factors depending on depending on the different areas of the image, these areas being able to be defined in the initial configuration using their spatial coordinates.
Les figures 4 et 5 présentent respectivement deux images sous-échantillonnées selon deux configurations différentes des pas ou facteurs de sous-échantillonnage et des sous-ensembles de pixels concernés par chaque valeur de pas de sous- échantillonnage. FIGS. 4 and 5 respectively present two images sub-sampled according to two different configurations of the sub-sampling steps or factors and of the subsets of pixels concerned by each sub-sampling step value.
Chaque carré correspond à un groupe d’éléments d’une image. Le motif (bandes horizontales) de la figure 4 résulte d’un seul sous-échantillonnage à l’aide d’un ensemble de différentes valeurs de pas d’échantillonnage appliqué à l’aide de filtres verticaux. Le motif de la figure 5 résulte de l’application d’un premier sous- échantillonnage à l’aide d’un premier ensemble de différentes valeurs de pas d’échantillonnage appliqué à l’aide de filtres verticaux, suivi d’un deuxième sous- échantillonnage à l’aide d’un deuxième ensemble de différentes valeurs de pas d’échantillonnage appliqué à l’aide de filtres horizontaux. L’ordre d’application du premier et du deuxième sous-échantillonnage peut être inversé. Des motifs rectangulaires sont obtenus en fonction des valeurs des pas d’échantillonnage appliqués, et du nombre de pixels concernés par chaque pas d’échantillonnage. Plus la teinte d’un rectangle du motif est claire, plus la résolution spatiale de la zone correspondante de l’image est élevée. Inversement, plus la teinte est foncée, plus la résolution spatiale de la zone correspondante de l’image a été diminuée. Each square corresponds to a group of elements of an image. The pattern (horizontal bands) in Figure 4 results from a single downsampling using a set of different sample step values applied using vertical filters. The pattern in Figure 5 results from applying a first sub-sampling using a first set of different sample step values applied using vertical filters, followed by a second sub-sampling. - sampling using a second set of different sampling step values applied using horizontal filters. The order of application of the first and second subsampling can be reversed. Rectangular patterns are obtained according to the values of the sampling steps applied, and the number of pixels affected by each sampling step. The lighter the shade of a rectangle in the pattern, the higher the spatial resolution of the corresponding area of the image. Conversely, the darker the tint, the more the spatial resolution of the corresponding area of the image has been reduced.
Les figures 6 et 7 explicitent respectivement les premier et deuxième sous- échantillonnages spatiaux. FIGS. 6 and 7 respectively explain the first and second spatial sub-samplings.
La figure 6 schématise une image ou une partie d’image IMA1 à traiter. Les lignes de l’image sont organisées en L bandes horizontales successives BD1 , BD2, BD3, BD4 et BD5. Plus généralement, L est un entier positif. Par exemple, chaque bande horizontale comprend un nombre de lignes fonction de la configuration du (ou des) filtre(s) utilisé(s) pour réaliser le sous-échantillonnage spatial (par exemple 8 lignes). Figure 6 schematizes an image or part of an IMA1 image to be processed. The lines of the image are organized in L successive horizontal bands BD1, BD2, BD3, BD4 and BD5. More generally, L is a positive integer. For example, each horizontal band comprises a number of lines depending on the configuration of the filter(s) used to perform the spatial sub-sampling (for example 8 lines).
Un premier ensemble de pas de sous-échantillonnage ENS1 est alors appliqué à l’image IMA1 à l’aide d’un filtre vertical FLV. Ce premier ensemble ENS1 comprend dans cet exemple les valeurs de facteurs de sous-échantillonnage suivants : {1/3, 1/2, 1 , 1/2, 1/3}. Ainsi, pour les lignes appartenant à la première BD1 et la cinquième bande BD5 horizontale, seul un pixel sur trois pixels successifs selon la direction verticale est conservé. Pour les lignes appartenant à la deuxième BD2 et la quatrième bande BD4 horizontale, seul un pixel sur deux pixels successifs est conservé selon la direction verticale. Enfin pour la troisième bande BD3 horizontale, l’ensemble des pixels sont conservés. A first set of sub-sampling steps ENS1 is then applied to the image IMA1 using a vertical filter FLV. This first set ENS1 comprises in this example the values of the following sub-sampling factors: {1/3, 1/2, 1 , 1/2, 1/3}. Thus, for the lines belonging to the first BD1 and the fifth horizontal band BD5, only one pixel out of three successive pixels in the vertical direction is retained. For the lines belonging to the second BD2 and the fourth horizontal band BD4, only one pixel out of two successive pixels is retained in the vertical direction. Finally for the third horizontal band BD3, all the pixels are kept.
La valeur de chaque pixel conservé à l’issue du sous-échantillonnage, peut être interpolée à l’aide des méthodes connues que sont les algorithmes bilinéaire ou bi- cubique ou encore grâce à la méthode de Lanczos bien connue de l’homme du métier. En variante la valeur du pixel conservé peut être égale à sa valeur d’origine. The value of each pixel retained at the end of the sub-sampling can be interpolated using known methods such as bilinear or bi-cubic algorithms or even using the Lanczos method well known to those skilled in the art. . As a variant, the value of the retained pixel can be equal to its original value.
Une fois l’ensemble des bandes horizontales sous-échantillonnées, on obtient l’image résultante sous-échantillonnée IMAF1 , telle que plus la bande représentée est sombre (les hachures sont les plus denses), plus le nombre de pixels restants est élevé. Once all the horizontal stripes have been subsampled, the resulting subsampled image IMAF1 is obtained, such that the darker the strip represented (the hatches are the denser), the greater the number of remaining pixels.
La figure 7 schématise une image ou une partie d’image IMA2 à traiter. Les colonnes de l’image sont organisées en M bandes verticales successives BD6, BD7, BD8, BD9, BD10, BD11 , BD12, BD13 et BD14. Plus généralement, M est un entier positif. Par exemple, chaque bande verticale comprend un nombre de colonnes fonction de la configuration du filtre utilisé pour réaliser le sous-échantillonnage spatial (par exemple 8 colonnes). Figure 7 schematizes an image or part of an IMA2 image to be processed. The columns of the image are organized in M successive vertical bands BD6, BD7, BD8, BD9, BD10, BD11, BD12, BD13 and BD14. More generally, M is a positive integer. For example, each vertical band comprises a number of columns depending on the configuration of the filter used to perform the spatial sub-sampling (for example 8 columns).
Un deuxième ensemble de pas de sous-échantillonnage ENS2 est alors appliqué à l’image IMA2 à l’aide d’un filtre horizontal FLH. Ce deuxième ensemble ENS2 comprend dans cet exemple les valeurs de facteurs de sous-échantillonnage suivants : {1/8, 1/2,1 , 1/2, 1/8, 1/2, 1 , 1/2, 1/8}. Ainsi, pour les colonnes appartenant à la première BD6, la cinquième BD10 et la dernière BD14 bande verticale, seul un pixel sur huit pixels successifs est conservé selon la direction horizontale. Pour les colonnes appartenant à la deuxième BD7, la quatrième BD9, la sixième BD11 et la huitième BD13 bande verticale, seul un pixel sur deux pixels successifs est conservé selon la direction horizontale. Enfin pour la troisième BD8 et la septième bande BD12 verticale, l’ensemble des pixels sont conservés selon la direction horizontale. A second set of ENS2 subsampling steps is then applied to the IMA2 image using a FLH horizontal filter. This second set ENS2 includes in this example the following subsampling factor values: {1/8, 1/2,1, 1/2, 1/8, 1/2, 1, 1/2, 1/8 }. Thus, for the columns belonging to the first BD6, the fifth BD10 and the last vertical band BD14, only one pixel out of eight successive pixels is retained in the horizontal direction. For the columns belonging to the second BD7, the fourth BD9, the sixth BD11 and the eighth BD13 vertical band, only one pixel out of two successive pixels is retained in the horizontal direction. Finally for the third BD8 and the seventh vertical BD12 band, all the pixels are kept in the horizontal direction.
De même que pour le sous-échantillonnage décrit sur la figure précédente, la valeur de chaque pixel conservé à l’issue du sous-échantillonnage peut être interpolée à l’aide des méthodes connues que sont les algorithmes bilinéaire ou bi-cubique ou encore grâce à la méthode de Lanczos bien connue de l’homme du métier. En variante la valeur du pixel conservé peut être égale à sa valeur d’origine. As for the sub-sampling described in the previous figure, the value of each pixel preserved at the end of the sub-sampling can be interpolated using known methods such as bilinear or bi-cubic algorithms or else using the Lanczos method well known to those skilled in the art. As a variant, the value of the retained pixel can be equal to its original value.
Une fois le sous-échantillonnage réalisé, on obtient l’image résultante sous- échantillonnée IMAF2, telle que plus la bande représentée est sombre (les hachures sont les plus denses), plus le nombre de pixels restants est élevé. Once the sub-sampling has been carried out, we obtain the resulting sub-sampled image IMAF2, such that the darker the band represented (the hatches are the denser), the higher the number of remaining pixels.
Le premier et le deuxième sous-échantillonnage peuvent être successivement appliqués, indifféremment de l’ordre. Si le sous-échantillonnage des bandes horizontales est appliqué en premier, l’image de sortie IMA1 F correspond alors à l’image à sous-échantillonner IMA2 du deuxième sous-échantillonnage des bandes verticales. The first and the second sub-sampling can be successively applied, regardless of the order. If the sub-sampling of the horizontal bands is applied first, the output image IMA1 F then corresponds to the image to be sub-sampled IMA2 of the second sub-sampling of the vertical bands.
La figure 8 schématise un motif traduisant une résolution non-uniforme de l’image entière doublement échantillonnée, ce motif se dessinant à l’issue de l’application successive des deux sous-échantillonnages spatiaux illustrés sur les figures 6 et 7. Figure 8 schematizes a pattern reflecting a non-uniform resolution of the entire doubly sampled image, this pattern emerging after the successive application of the two spatial sub-samplings illustrated in Figures 6 and 7.
La résolution spatiale de chaque partie ou tuile de l’image doublement sous- échantillonnée IMAF est fonction des valeurs des facteurs de sous-échantillonnage appliquées aux bandes incluant la tuile considérée. Finalement 8 valeurs différentes de résolutions spatiales uniformes Ri coexistent au sein de l’image IMAF, telles que R0<R1 <R2<R3<R4<R5<R6<R7. Le double sous-échantillonnage selon deux directions différentes permet d’obtenir un motif de résolution spatiale complexe permettant de préserver une résolution maximale à certains endroits de l’image lorsque la résolution spatiale est égale à R7 (zones les plus claires). La réduction contrôlée de la résolution spatiale à certains endroits de l’image permet par ailleurs de réduire la quantité de données qui sera transmise. The spatial resolution of each part or tile of the doubly undersampled IMAF image depends on the values of the undersampling factors applied to the bands including the considered tile. Finally, 8 different values of uniform spatial resolutions Ri coexist within the IMAF image, such as R0<R1 <R2<R3<R4<R5<R6<R7. The double sub-sampling along two different directions makes it possible to obtain a pattern of complex spatial resolution making it possible to preserve a maximum resolution in certain places of the image when the spatial resolution is equal to R7 (brightest areas). The controlled reduction of the spatial resolution at certain locations in the image also makes it possible to reduce the amount of data that will be transmitted.
Par exemple le motif de la figure 8 peut être mis en œuvre lorsque la configuration d’affichage est associée à un visiocasque, comme celle représentée sur la figure 2. La résolution spatiale maximale R7 correspond alors aux zones situées face aux cercles centraux. For example, the pattern in Figure 8 can be implemented when the display configuration is associated with a head-mounted display, like that shown in Figure 2. The maximum spatial resolution R7 then corresponds to the areas located opposite the central circles.
Selon un mode de réalisation, plus la valeur de la fréquence temporelle d’un groupe d’images est élevée, plus les valeurs des résolutions spatiales sont faibles. Par exemple, les moyens de prétraitement mettant en œuvre l’étape de prétraitement peut mémoriser une table de correspondance entre des valeurs de fréquence temporelle mises en œuvre dans l’étape E101 et des ensembles de pas de sous- échantillonnage à appliquer lors de l’étape E102. La table de correspondance peut mémoriser une valeur intermédiaire de résolution globale de l’image une fois sous- échantillonnée (par exemple divisée par un entier positif P par rapport à l’image d’origine. A une valeur intermédiaire de résolution globale de l’image correspond un ou plusieurs ensembles de pas de sous-échantillonnage, de façon que l’image complète soit en moyenne sous-échantillonnée de la valeur intermédiaire de résolution globale. According to one embodiment, the higher the value of the temporal frequency of a group of images, the lower the values of the spatial resolutions. For example, the preprocessing means implementing the preprocessing step can store a correspondence table between temporal frequency values implemented in step E101 and sets of sub-sampling steps to be applied during step E102. The correspondence table can memorize an intermediate value of overall resolution of the image once sub-sampled (for example divided by a positive integer P with respect to the original image. At an intermediate value of overall resolution of the image matches one or more sets of downsampling steps, such that the complete image is on average downsampled by the overall resolution intermediate value.
Par exemple, la configuration initiale peut comprendre comme consigne une quantité de données qu’il est possible de transmettre, consigne exprimée de la façon suivante : For example, the initial configuration may include as an instruction a quantity of data that it is possible to transmit, an instruction expressed as follows:
- un taux de réduction global RED de la quantité de données initiales - RED peut être exprimée sous forme de valeurs positives entières ou décimales; - an overall reduction rate RED of the amount of initial data - RED can be expressed as integer or decimal positive values;
- un taux de sous-échantillonnage temporel autorisé TEMP (ce taux pouvant prendre des valeurs entières positives pour un traitement moins complexe, cette contrainte pouvant être levée si le contexte technique permet un traitement plus complexe). - an authorized temporal sub-sampling rate TEMP (this rate being able to take on positive integer values for less complex processing, this constraint being able to be lifted if the technical context allows more complex processing).
Le taux de sous-échantillonnage spatial SPAT est alors obtenu à partir de la formule suivante : SPAT=RED/TEMP. Ce dernier peut prendre des valeurs positives entières ou non. The SPAT spatial sub-sampling rate is then obtained from the following formula: SPAT=RED/TEMP. The latter can take positive integer values or not.
Par exemple, si le taux de réduction global est égal à RED=4, il vient : For example, if the global reduction rate is equal to RED=4, it comes:
-si TEMP=4, alors SPAT=1 ; -if TEMP=4, then SPAT=1;
-si TEMP=3, alors SPAT=4/3 ; -if TEMP=3, then SPAT=4/3;
-si TEMP=2, alors SPAT=2 ; -if TEMP=2, then SPAT=2;
-si TEMP=1 , alors SPAT=4. -if TEMP=1 , then SPAT=4.
Le ou les ensembles de pas de sous-échantillonnage sont obtenus à l’aide d’une table de correspondance par exemple définie par la configuration initiale en fonction de la valeur prise par SPAT. The set or sets of sub-sampling steps are obtained using a correspondence table for example defined by the initial configuration according to the value taken by SPAT.
On se réfère de nouveau à la figure 3. Optionnellement est mis en oeuvre pour les images d’un groupe d’images une sous-étape de découpage des images E103. Cette étape précède l’étape de codage E2. Elle a pour but de décomposer chaque image du groupe d’images en k sous-images (k étant un entier positif). Par exemple, si k=2, chaque image est découpée en deux moitiés. Plus généralement, si la fréquence temporelle du groupe d’images en sortie de la sous-étape E101 est égale à fréquence d’origine divisée par N, chaque image est alors divisée en N sous-images lors de la sous-étape E103. Lorsque l’ensemble des images de la sous-séquence d’entrée sont traitées, celles-ci sont délivrées (E104) pour être codées. Reference is made again to FIG. 3. Optionally, a sub-step of cutting up the images E103 is implemented for the images of a group of images. This step precedes the coding step E2. It aims to break down each image of the group of images into k sub-images (k being a positive integer). For example, if k=2, each image is split into two halves. More generally, if the temporal frequency of the group of images output from sub-step E101 is equal to the original frequency divided by N, each image is then divided into N sub-images during sub-step E103. When all the images of the input sub-sequence are processed, these are delivered (E104) to be coded.
Ainsi en sortie de la sous-étape E104, le groupe d’images traitées forme une sous-séquence de sortie à coder, cette sous-séquence de sortie ayant plutôt une résolution spatiale basse (la valeur étant égale en moyenne à la valeur intermédiaire de résolution globale) et une fréquence temporelle égale à la fréquence temporelle d’origine du fait de la décomposition des images en sous-images lors de la sous-étape E103. La conservation de la fréquence temporelle d’origine rend le prétraitement compatible avec un codage mis en œuvre à l’aide d’un encodeur fonctionnant à une fréquence d’entrée fixe. Thus at the output of sub-step E104, the group of processed images forms an output sub-sequence to be coded, this output sub-sequence having rather a low spatial resolution (the value being equal on average to the intermediate value of global resolution) and a temporal frequency equal to the original temporal frequency due to the decomposition of the images into sub-images during the sub-step E103. The conservation of the original temporal frequency makes the preprocessing compatible with an encoding implemented using an encoder operating at a fixed input frequency.
La présente invention pourrait être combinée avec la proposition de la demande de brevet W02020/025510 aux noms des demanderesses. Auquel cas, seules les sous-étapes E101 et E103 peuvent également être mises en œuvre. Dans ce cas le procédé résultant de la combinaison permettrait de diviser la quantité de données par 2 (si N=2) sans changement de la résolution et sans perte subjective de qualité visuelle également. Le procédé résultant de ladite combinaison (et le dispositif correspondant) offre donc trois variantes permettant de réduire la quantité de données à transmettre avec, selon la variante, un facteur de réduction variant de 2 à 4 dans le cas où N=2. Soit seule la fréquence temporelle est réduite, soit seule la résolution spatiale est dégradée ou soit la résolution spatiale et fréquence temporelle sont toutes les deux diminuées. The present invention could be combined with the proposal of patent application WO2020/025510 in the names of the applicants. In which case, only the sub-steps E101 and E103 can also be implemented. In this case, the process resulting from the combination would make it possible to divide the quantity of data by 2 (if N=2) without changing the resolution and also without subjective loss of visual quality. The method resulting from said combination (and the corresponding device) therefore offers three variants making it possible to reduce the quantity of data to be transmitted with, depending on the variant, a reduction factor varying from 2 to 4 in the case where N=2. Either only the temporal frequency is reduced, or only the spatial resolution is degraded or either the spatial resolution and the temporal frequency are both reduced.
Le codage de l’étape E2 peut donc être réalisé à l’aide d’un codec standard à faible latence fonctionnant à résolution fixe (la résolution spatiale la plus faible, par exemple RO sur la figure 8) et à fréquence temporelle élevée (fréquence temporelle d’origine). Un circuit électronique mettant en œuvre des sous-échantillonnages par ligne et/ou par colonne selon l’invention peut être miniaturisé. Etant par ailleurs compatible, avec un codec standard il est alors possible de l’embarquer au sein d’un visiocasque sans surpoids notable, par exemple un casque VIVE™ de la société HTC. Chaque sous-séquence de sortie codée est alors transmise (étape E3) via par exemple un canal de transmission sans fil (exemple non limitatif). Par exemple, les sous-séquences de sortie peuvent être destinées à plusieurs utilisateurs dans le cadre d’une application de réalité virtuelle impliquant plusieurs porteurs de visiocasques. Le canal de transmission sans fil est alors multi-utilisateurs. Par exemple, le protocole réseau sans-fil 60 GHz Wi-Fi WiGig peut être utilisé pour la transmission (la bande passante est de l’ordre de 7Gbps). Alternativement, le protocole Wi-Fi 5 offrant une bande passante de 600 Mbps peut être utilisé. The coding of step E2 can therefore be carried out using a standard low-latency codec operating at fixed resolution (the lowest spatial resolution, for example RO in FIG. 8) and at high temporal frequency (frequency original time). An electronic circuit implementing sub-samplings per row and/or per column according to the invention can be miniaturized. Being moreover compatible with a standard codec, it is then possible to embark it within a visiohead-mounted display without noticeable excess weight, for example a VIVE™ headset from the company HTC. Each coded output sub-sequence is then transmitted (step E3) via for example a wireless transmission channel (non-limiting example). For example, the output sub-sequences can be intended for several users within the framework of a virtual reality application involving several wearers of visiohead-mounted displays. The wireless transmission channel is then multi-user. For example, the 60 GHz Wi-Fi WiGig wireless network protocol can be used for transmission (the bandwidth is around 7Gbps). Alternatively, the Wi-Fi 5 protocol offering 600 Mbps bandwidth can be used.
Chaque sous-séquence de sortie est reçue et décodée (étape E4). Le décodage mis en œuvre est fonction du codage implémenté lors de l’étape E2. Puis a lieu l’étape de post-traitement E5. Cette étape comprend une sous-étape E500 d’obtention d’une configuration de post-traitement. Cette sous-étape est détaillée plus en détail ci-après en référence à la figure 10. Each output sub-sequence is received and decoded (step E4). The decoding implemented depends on the coding implemented during step E2. Then the post-processing step E5 takes place. This step includes a sub-step E500 for obtaining a post-processing configuration. This sub-step is detailed in more detail below with reference to Figure 10.
Puis l’étape E5 comprend une sous-étape de recomposition d’images E501 , dans le cas où la sous-étape de découpage des images E103 a été mise en œuvre lors de prétraitement E1 . Si chaque image a été découpée en 2 moitiés lors de l’étape E103, chaque nouvelle image recomposée est obtenue en juxtaposant de façon appropriée deux images successives de la sous-séquence de sortie reçue et décodée. Une fois les images recomposées, une sous-étape de sur-échantillonnage E502 permettant d’augmenter la résolution spatiale des images recomposées. Le suréchantillonnage est effectué selon les mêmes directions que le sous-échantillonnage, et à l’aide d’ensembles de pas de sur-échantillonnage de valeurs inverses aux valeurs de pas de sur-échantillonnage. La valeur de chaque nouveau pixel lié au suréchantillonnage peut être extrapolée par exemple à l’aide des méthodes connues que sont les algorithmes bilinéaire ou bi-cubique ou encore grâce à la méthode de Lanczos bien connue de l’homme du métier. A la fin de la sous-étape de suréchantillonnage E502, la résolution spatiale des images des images recomposées est égale à la résolution spatiale des images de la sous-séquence d’entrée avant l’étape de sous-échantillonnage E102. Enfin, si une sous-étape E101 de réduction de la fréquence temporelle a eu lieu en prétraitement, le post-traitement comprend une sous-étape E503 de restauration de la fréquence d’origine de la sous-séquence d’entrée. Pour ce faire, si la fréquence temporelle de la sous-séquence de sortie correspond à la fréquence temporelle de la sous-séquence d’entrée divisée par N, chaque image issue de de la sous-étape E502 est alors répétée N fois, de façon à restaurer la fréquence temporelle de la sous-séquence d’entrée. Ainsi est délivrée en entrée de l’étape d’affichage E6, une sous-séquence d’images décodées et post traitées, à la résolution spatiale et la fréquence temporelle maximales, égales à celles de la sous-séquence d’entrée. Then step E5 includes an image recomposition sub-step E501, in the case where the image splitting sub-step E103 has been implemented during preprocessing E1. If each image has been divided into 2 halves during step E103, each new recomposed image is obtained by appropriately juxtaposing two successive images of the output sub-sequence received and decoded. Once the images have been recomposed, an over-sampling sub-step E502 making it possible to increase the spatial resolution of the recomposed images. Oversampling is performed in the same directions as undersampling, and using sets of oversampling steps of inverse values to oversampling step values. The value of each new pixel linked to the oversampling can be extrapolated for example using known methods such as bilinear or bi-cubic algorithms or even using the Lanczos method well known to those skilled in the art. At the end of the oversampling sub-step E502, the spatial resolution of the images of the recomposed images is equal to the spatial resolution of the images of the input sub-sequence before the sub-sampling step E102. Finally, if a sub-step E101 for reducing the temporal frequency took place in pre-processing, the post-processing includes a sub-step E503 for restoring the original frequency of the input sub-sequence. To do this, if the time frequency of the output subsequence matches the time frequency of the input subsequence divided by N, each image resulting from sub-step E502 is then repeated N times, so as to restore the temporal frequency of the input sub-sequence. Thus is delivered at the input of the display step E6, a sub-sequence of decoded and post-processed images, at the maximum spatial resolution and temporal frequency, equal to those of the input sub-sequence.
Selon un premier mode de mise en œuvre, les filtres temporels et spatiaux sont prédéfinis et mémorisés à la fois pour le pré et le post traitement. Une table de correspondance associe alors une configuration à une sélection de filtres temporels et/ou spatiaux. Selon un deuxième mode de mise en œuvre, l’identification des filtres spatiaux et/ou temporels au moment du prétraitement est couplée à la génération et l’envoi de métadonnées dédiées, transmises au dispositif mettant en œuvre le posttraitement. La figure 9 illustre le deuxième mode de mise en œuvre. La sous-étape E100 est décomposée elle-même en plusieurs sous-étapes. Une première de ces sous-étapes E1000 comprend une obtention de la configuration initiale et des paramètres associés à cette configuration initiale, par exemple : configuration se rapportant à une optique d’un visiocasque. Si les filtres pouvant être associés à la configuration initiale ne sont pas prédéfinis (par exemple préalablement mémorisés) T1001 , dans ce cas (flèche « N »), le groupe d’images à traiter est lu E1002 puis analysé E1003. L’analyse peut comprendre une analyse du contenu des images (ou d’une image de référence parmi le groupe d’images) avec par exemple une détection de contours, une estimation de mouvements par exemple à l’aide de mesures effectuées par des capteurs de mouvement, une détermination d’un histogramme de valeurs des pixels. Cette analyse peut être mise en œuvre à l’aide d’un algorithme basé sur un apprentissage préalable (« machine learning » en anglais). L’étape d’analyse E1003 peut également comprendre une analyse d’informations externes telles que le mouvement du visiocasque porté par l’utilisateur ou l’analyse d’informations complémentaires aux images, telles que des informations de profondeur. A l’issue de l’analyse, les filtres optimaux pour réaliser les étapes de filtrage sont identifiés et sélectionnés (E1004) par exemple à l’aide d’une table de correspondance entre un résultat d’analyse de contenu et des filtres temporels et/ou spatiaux. Une vérification optionnelle (E1005) du paramétrage des filtres sélectionnés par rapport à une qualité minimale visuellement acceptable prédéterminée, peut être mise en œuvre. Si ce critère de qualité minimale n’est pas satisfait, une mise à jour des filtres temporels et/ou spatiaux peut être mise en œuvre. According to a first mode of implementation, the temporal and spatial filters are predefined and stored both for pre and post processing. A correspondence table then associates a configuration with a selection of temporal and/or spatial filters. According to a second mode of implementation, the identification of the spatial and/or temporal filters at the time of the preprocessing is coupled with the generation and the sending of dedicated metadata, transmitted to the device implementing the postprocessing. Figure 9 illustrates the second mode of implementation. Sub-step E100 is itself broken down into several sub-steps. A first of these sub-steps E1000 comprises obtaining the initial configuration and the parameters associated with this initial configuration, for example: configuration relating to an optic of a visiohead-mounted device. If the filters that can be associated with the initial configuration are not predefined (for example memorized beforehand) T1001, in this case (arrow “N”), the group of images to be processed is read E1002 then analyzed E1003. The analysis may comprise an analysis of the content of the images (or of a reference image from among the group of images) with for example a detection of contours, an estimation of movements for example using measurements carried out by sensors movement, a determination of a histogram of pixel values. This analysis can be implemented using an algorithm based on prior learning (“machine learning”). The analysis step E1003 can also include an analysis of external information such as the movement of the visiohead-mounted display worn by the user or the analysis of information complementary to the images, such as depth information. At the end of the analysis, the optimal filters for carrying out the filtering steps are identified and selected (E1004) for example using a correspondence table between a content analysis result and temporal filters and /or spatial. An optional verification (E1005) of the settings of the selected filters with respect to a predetermined minimum visually acceptable quality, can be Implementation. If this minimum quality criterion is not satisfied, an update of the temporal and/or spatial filters can be implemented.
Si des filtres pouvant être associés à cette configuration sont prédéfinis T1001 , (flèche « Y »), ces derniers sont alors générés (E1006). Puis les images du groupe d’images à traiter sont lues (E1007) et leur contenu est analysé (E1008). En fonction du résultat de l’analyse, un test T1009 est mis en œuvre pour vérifier si une mise à jour des paramètres des filtres est autorisée. Si ce n’est pas le cas (flèche « N »), les filtrages E101 , E102 et E103 sont alors mis en œuvre avec les filtres générés. Si une mise à jour est autorisée (flèche « Y »), un test T1010 est mis en œuvre pour vérifier la qualité des images qui résulterait d’un filtrage avec les filtres sélectionnés (par exemple par rapport à une qualité minimale visuellement acceptable prédéterminée) est suffisante ou non. Si la qualité est insuffisante (flèche « Y »), des filtres optimaux par rapport à la qualité visuelle minimale acceptable, sont identifiés et sélectionnés (E1004) à l’aide de la table de correspondance entre un résultat d’analyse de contenu et des filtres temporels et/ou spatiaux. La vérification optionnelle E1005 peut de nouveau être mise en œuvre. Si la qualité est suffisante (T1010, flèche « N »), les filtrages E101 , E102 et E103 sont alors mis en œuvre avec les filtres générés. If filters that can be associated with this configuration are predefined T1001 (arrow “Y”), these are then generated (E1006). Then the images of the group of images to be processed are read (E1007) and their content is analyzed (E1008). Depending on the result of the analysis, a T1009 test is implemented to check if an update of the filters parameters is authorized. If this is not the case (“N” arrow), filtering E101, E102 and E103 are then implemented with the generated filters. If an update is authorized (“Y” arrow), a T1010 test is implemented to verify the quality of the images that would result from filtering with the selected filters (for example compared to a predetermined minimum visually acceptable quality) is sufficient or not. If the quality is insufficient ("Y" arrow), optimal filters with respect to the minimum acceptable visual quality are identified and selected (E1004) using the correspondence table between a content analysis result and temporal and/or spatial filters. The optional check E1005 can again be implemented. If the quality is sufficient (T1010, arrow “N”), the filterings E101, E102 and E103 are then implemented with the generated filters.
Selon une autre variante non illustrée, les sous sous-étapes E1004, E1005, E1007 et E1008 ainsi que les tests T1009 et T1010 ne sont pas mis en œuvre. Les filtres générés (E1006) sont directement utilisés pour les filtrages E101 , E102 et E103. According to another variant not illustrated, the sub-steps E1004, E1005, E1007 and E1008 as well as the tests T1009 and T1010 are not implemented. The filters generated (E1006) are directly used for filtering E101, E102 and E103.
Dans un mode de mise en œuvre, la sous-étape E104 peut comprendre la réalisation d’un test T1041 pour vérifier si l’envoi de métadonnées est autorisé ou non. Si ce n’est pas le cas (flèche « N ») la sous-séquence de sortie à coder est transmise directement pour être encodée (étape E1043). Si l’envoi de métadonnées est autorisé (flèche « Y »), des métadonnées obtenues durant la sous-étape E100 peuvent être transmises directement en Ethernet ou tout autre moyen telle que les données auxiliaires aux images (E1042) pour la réalisation d’une ou plusieurs sous-étapes de filtrage E101 , E102, E103 d’une part et d’autre part à destination du dispositif mettant en œuvre le post-traitement, les métadonnées pouvant ou non être synchronisées avec les images auxquelles elles se rapportent. Dans ce dernier cas de figure, les métadonnées sont transmises via des canaux auxiliaires au protocole de transmission utilisé pour la vidéo par exemple MJPEG, « Motion Joint Photographie Experts Group »). Les métadonnées peuvent représenter les filtres sélectionnés et leurs paramètres (par exemple à l’aide d’un identifiant désignant un filtre parmi une liste prédéterminée), ou des paramètres permettant de modifier ou configurer des filtres prédéfinis ou encore des paramètres décrivant entièrement les filtres à l’aide d’une liste de propriétés permettant de générer ces filtres. In one mode of implementation, the sub-step E104 can comprise the performance of a test T1041 to check whether the sending of metadata is authorized or not. If this is not the case (“N” arrow), the output sub-sequence to be encoded is transmitted directly to be encoded (step E1043). If the sending of metadata is authorized (arrow "Y"), metadata obtained during the sub-step E100 can be transmitted directly by Ethernet or any other means such as the auxiliary data to the images (E1042) for the production of a or several filtering sub-steps E101, E102, E103 on the one hand and on the other hand intended for the device implementing the post-processing, the metadata possibly being synchronized or not with the images to which they relate. In the latter case, the metadata is transmitted via auxiliary channels to the transmission protocol used for video, for example MJPEG, “Motion Joint Photography Experts Group”). Metadata can represent selected filters and their parameters (for example using an identifier designating a filter from a predetermined list), or parameters making it possible to modify or configure predefined filters or even parameters fully describing the filters using a list of properties to generate these filters.
L’échange de métadonnées entre l’émetteur et le récepteur est optionnel. Il peut être omis notamment dans le cas où lors du post-traitement E5, la configuration peut être obtenue directement à partir du format vidéo des sous-séquences de sortie par exemple. Metadata exchange between sender and receiver is optional. It can be omitted in particular in the case where during post-processing E5, the configuration can be obtained directly from the video format of the output sub-sequences for example.
Finalement un test T1044 vérifie si une nouvelle sous-séquence d’entrée est disponible. Si tel est le cas (flèche « Y »), une nouvelle sous-séquence d’entrée est lue E1007. Sinon (flèche « N ») l’étape de codage E2 est mise en œuvre. Finally a T1044 test verifies if a new input sub-sequence is available. If so (“Y” arrow), a new input subsequence is read E1007. Otherwise (arrow “N”) the coding step E2 is implemented.
La figure 10 illustre un mode de mise en œuvre du post traitement E5. La sous- étape E500 comprend au préalable une lecture d’une configuration initiale (E5001 ) par exemple stockée dans une mémoire. Cette configuration initiale peut par exemple correspondre à un visiocasque. Un test T5002 vérifie si cette configuration initiale autorise l’obtention de filtres adaptés pour chaque sous-séquence de sortie ou si les filtres correspondant à la configuration obtenue sont valables pour un ensemble de sous-séquences de sortie. Si les filtres peuvent être mis à jour pour chaque sous- séquence de sortie (flèche « Y »), une configuration des filtres spatiaux et/ou temporels est obtenue (E5003), par exemple deux sous-échantillonnages spatiaux successifs, selon une direction verticale puis horizontale. Les filtres correspondants sont alors générés (E5004). Puis la sous-séquence de sortie à post-traiter est lue (E5005). Si les filtres ne peuvent pas être mis à jour pour chaque sous-séquence de sortie (flèche « N »), le procédé de post-traitement passe directement à l’étape de lecture de la sous-séquence de sortie à post-traiter (E5005). FIG. 10 illustrates a mode of implementation of post processing E5. The sub-step E500 includes beforehand a reading of an initial configuration (E5001) for example stored in a memory. This initial configuration can for example correspond to a visiohead. A T5002 test checks whether this initial configuration allows suitable filters to be obtained for each output sub-sequence or whether the filters corresponding to the configuration obtained are valid for a set of output sub-sequences. If the filters can be updated for each output sub-sequence (“Y” arrow), a configuration of the spatial and/or temporal filters is obtained (E5003), for example two successive spatial sub-samplings, in a vertical direction then horizontal. The corresponding filters are then generated (E5004). Then the output sub-sequence to be post-processed is read (E5005). If the filters cannot be updated for each output sub-sequence (“N” arrow), the post-processing process goes directly to the stage of reading the output sub-sequence to be post-processed ( E5005).
Puis le post-traitement comprend une vérification de réception ou non de métadonnées correspondant à la sous-séquence de sortie considérée (T5006). Si des métadonnées ont été reçues (flèche « Y »), les filtres obtenus sont paramétrés (pas d’échantillonnages, fréquence de filtrage temporel... ) lors d’une étape E5007. Les différents filtrages E501 , E502 et E503 sont alors appliqués à la sous-séquence de sortie. Si une nouvelle sous-séquence de sortie est disponible pour le post-traitement (flèche « Y » d’un test T504), le procédé est réitéré. Sinon, le post-traitement est terminé (flèche « N »). Then the post-processing includes a verification of receipt or not of metadata corresponding to the output sub-sequence considered (T5006). If metadata has been received (“Y” arrow), the filters obtained are configured (no sampling, temporal filtering frequency, etc.) during a step E5007. The various filterings E501, E502 and E503 are then applied to the output sub-sequence. If a new output subsequence is available for post-processing (“Y” arrow of a T504 test), the process is repeated. Otherwise, the post-processing is finished (“N” arrow).
La figure 11 illustre de façon schématique un mode de réalisation de moyens de prétraitement intégrés dans un dispositif de codage DC selon l’invention. Le dispositif comprend des moyens de lecture MLC1 aptes à lire des images d’une vidéo source SVD, par groupe d’images. Les images lues sont transmises à des moyens d’identification d’un prétraitement optimal MIDI . Des moyens de signalisation MSGA sont aptes à générer des métadonnées MTDA décrivant le prétraitement optimal ou comprenant un identifiant de ce prétraitement optimal si les métadonnées le décrivant ne sont pas transmises au dispositif de post-traitement. Des moyens de génération MGNF1 sont aptes à générer des filtres paramétrés selon le prétraitement identifié par les moyens MIDI et en fonction d’une configuration initiale stockée dans une mémoire MEM. Dans ce mode de réalisation, le dispositif DPRT comprend des moyens aptes à générer des métadonnées MTDB décrivant les paramètres de filtrage des filtres générés. FIG. 11 schematically illustrates an embodiment of pre-processing means integrated into a DC coding device according to the invention. The device comprises reading means MLC1 able to read images from a source video SVD, by group of images. The read frames are passed to a means of identification of an optimal MIDI preprocessing. Signaling means MSGA are able to generate metadata MTDA describing the optimal pre-processing or comprising an identifier of this optimal pre-processing if the metadata describing it are not transmitted to the post-processing device. Generation means MGNF1 are capable of generating parameterized filters according to the pre-processing identified by the MIDI means and according to an initial configuration stored in a memory MEM. In this embodiment, the device DPRT comprises means able to generate metadata MTDB describing the filtering parameters of the generated filters.
Les moyens de prétraitement comprennent également des moyens de filtrage temporel MFT 1 , de sous-échantillonnage spatial MFS1 et de décomposition d’images MD1 aptes à filtrer les images de la vidéo source SVD en fonction des filtres générés par les moyens MGNF. Les images prétraitées IMPR forment des sous-séquences de sortie transmises avec les métadonnées MTDA et MTDB à un dispositif d’affichage couplé à un décodeur et un dispositif de posttraitement. The pre-processing means also include means for temporal filtering MFT 1 , spatial sub-sampling MFS1 and image decomposition MD1 capable of filtering the images of the source video SVD as a function of the filters generated by the means MGNF. The IMPR pre-processed images form output sub-sequences transmitted with the MTDA and MTDB metadata to a display device coupled to a decoder and a post-processing device.
La figure 12 illustre de façon schématique un mode de réalisation de moyens de post-traitement faisant partie d’un dispositif de décodage DDEC selon l’invention. Des moyens de lecture MLC2 sont configurés pour lire les images prétraitées IMPR des sous-séquences de sortie successives. Ces moyens MLC2 peuvent mettre en œuvre la lecture des images par exemple à l’aide de l’identifiant du prétraitement MTDA transmis simultanément aux images prétraitées afin de mettre en correspondance chaque image lue avec les métadonnées descriptives du prétraitement à appliquer, par exemple mémorisée dans une mémoire annexe sous forme de liste, la mémoire annexe n’étant pas représentée à des fins de simplifications. Chaque prétraitement est identifiable grâce à cet identifiant. Par exemple, la liste peut varier en fonction d’un résultat fourni par des moyens d’analyse (non représentés) des scènes présentes sur les images. Puis des moyens d’identification MID2 sont aptes à déterminer les filtrages de posttraitement à appliquer aux images des sous-séquences de sortie, à l’aide de l’identifiant précités MTDA. Les moyens d’identification MID2 sont aptes à sélectionner et paramétrer les filtres pour la mise en œuvre du posttraitement identifié. Des moyens de génération MGNF2 sont configurés pour générer des filtres adaptés au posttraitement à l’aide des métadonnées MTDB transmises simultanément aux images prétraitées. Les moyens de génération MGNF2 sont couplés à une mémoire MEM2 apte à stocker une configuration telle que décrit ci- avant. FIG. 12 schematically illustrates an embodiment of post-processing means forming part of a DDEC decoding device according to the invention. Reading means MLC2 are configured to read the preprocessed images IMPR of the successive output sub-sequences. These MLC2 means can implement the reading of the images for example using the identifier of the preprocessing MTDA transmitted simultaneously to the preprocessed images in order to match each image read with the descriptive metadata of the preprocessing to be applied, for example stored in an annex memory in the form of a list, the annex memory not being represented for the purposes of simplification. Each pre-processing is identifiable thanks to this identifier. For example, the list can vary according to a result provided by analysis means (not shown) of the scenes present on the images. Then identification means MID2 are able to determine the post-processing filtering to be applied to the images of the output sub-sequences, using the aforementioned identifier MTDA. The identification means MID2 are able to select and configure the filters for the implementation of the identified post-processing. Generation means MGNF2 are configured to generate filters suitable for post-processing using the metadata MTDB transmitted simultaneously to the pre-processed images. The generation means MGNF2 are coupled to a memory MEM2 capable of storing a configuration as described above.
Les moyens de post-traitement comprennent en outre des moyens de filtrage temporel MFT2, de sur-échantillonnage spatial MFS2 et de recomposition d’images MD2 aptes à filtrer les images lues par les moyens de lecture MLC2 en fonction du post-traitement identifié par les moyens MID2 et des paramètres générés par les moyens MGNF2. Les images reconstruites au format de la vidéo source MTDC sont délivrées en sortie. The post-processing means further comprise temporal filtering means MFT2, spatial over-sampling MFS2 and image recomposition MD2 capable of filtering the images read by the reading means MLC2 as a function of the post-processing identified by the means MID2 and parameters generated by means MGNF2. The images reconstructed in the format of the MTDC source video are output.
La figure 13 représente schématiquement un circuit électronique CIR apte à mettre en œuvre un procédé de prétraitement ou de posttraitement tel que décrit en référence aux figures 3, 9 et 10. Le circuit comprend un microprocesseur |iP configuré pour piloter notamment les filtrages temporels mis en œuvre par les premiers moyens de filtrage spatiaux MFIL1 , les sous ou sur-échantillonnage spatiaux et les décompositions ou recompositions d’images mis en œuvre par les deuxièmes moyens de filtrage temporels MFIL2. Par ailleurs le microprocesseur |iP est apte à générer ou traiter (en post-traitement) les métadonnées de traitement mentionnées ci-avant. Le microprocesseur |iP est également couplé à une mémoire MEM adaptée pour sauvegarder des configurations initiales ainsi que le cas échéant, les tables de correspondance précédemment mentionnées. Le microprocesseur |iP et les moyens de filtrage spatiaux MFIL1 et temporels MFIL2 sont respectivement couplés à des moyens de communication d’entrée MCOME et de sortie MCOMS apte à échanger des données traitées ou à traiter avec un autre dispositif tel qu’un codeur ou un décodeur par exemple. Par exemple, les données transitant par les moyens de communication d’entrée MCOME peuvent comprendre les images des données vidéo sources délivrées aux moyens de filtrage spatiaux MFIL1 et des paramètres de configurations des moyens de filtrages fournies au microprocesseur |iP. Les données transmises vis les moyens de communication d’entrée MCOMS peuvent comprendre par exemple les métadonnées de traitement générées par le microprocesseur |iP ainsi que les images sous-échantillonnées spatialement et temporellement. FIG. 13 schematically represents an electronic circuit CIR capable of implementing a pre-processing or post-processing method as described with reference to FIGS. 3, 9 and 10. implemented by the first spatial filtering means MFIL1, the spatial undersampling or oversampling and the decompositions or recompositions of images implemented by the second temporal filtering means MFIL2. Furthermore, the microprocessor |iP is capable of generating or processing (in post-processing) the processing metadata mentioned above. The microprocessor |iP is also coupled to a memory MEM suitable for saving initial configurations as well as, where appropriate, the correspondence tables mentioned above. The microprocessor |iP and the spatial MFIL1 and temporal MFIL2 filtering means are respectively coupled to MCOME input and MCOMS output communication means able to exchange processed data or to process with another device such as an encoder or a decoder for example. For example, the data passing through the MCOME input communication means may include the images of the video data sources delivered to the spatial filtering means MFIL1 and configuration parameters of the filtering means supplied to the microprocessor |iP. The data transmitted via the input communication means MCOMS can comprise for example the processing metadata generated by the microprocessor |iP as well as the spatially and temporally subsampled images.

Claims

23 Revendications 23 Claims
1 . Procédé de codage d’images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes, le procédé comprenant la mise en œuvre des étapes suivantes c) obtention d’une configuration initiale (E100) représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous-séquence d’une ou plusieurs images de la séquence vidéo dites sous-séquence d’entrée, d1 ) réalisation d’un premier sous-échantillonnage spatial (E102) d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble (ENS1 ) d’au moins deux valeurs différentes de facteurs de sous-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous-séquence de sortie, et e) codage (E2) des images de la sous-séquence de sortie. 1 . Method for coding images of a video sequence, each image being formed of elements organized in rows and columns, the method comprising the implementation of the following steps c) obtaining an initial configuration (E100) representative of characteristics structures of a display device, and for at least one image of a sub-sequence of one or more images of the video sequence called the input sub-sequence, d1) carrying out a first spatial sub-sampling (E102) of at least some of the elements of the image by using a filter oriented along a first direction and comprising a first set (ENS1) of at least two different values of subsampling factors, the first set of values being determined as a function of said initial configuration, then insertion of the resulting image into an output sub-sequence, and e) coding (E2) of the images of the output sub-sequence.
2. Procédé selon la revendication précédente, dans lequel l’étape d1 ) comprend en outre un deuxième sous-échantillonnage spatial d’au moins une partie des éléments de l’image sous-échantillonnée en utilisant un filtre orienté selon une deuxième direction et comprenant un deuxième ensemble (ENS2) d’au moins deux valeurs différentes de facteurs de sous-échantillonnage, le deuxième ensemble de valeurs étant déterminé en fonction de ladite configuration initiale. 2. Method according to the preceding claim, in which step d1) further comprises a second spatial sub-sampling of at least some of the elements of the sub-sampled image using a filter oriented in a second direction and comprising a second set (ENS2) of at least two different values of sub-sampling factors, the second set of values being determined according to said initial configuration.
3. Procédé selon l’une quelconque des revendications 1 ou 2, dans lequel un sous- échantillonnage spatial est réalisé à l’aide de filtres orientés selon l’une des directions suivantes : 3. Method according to any one of claims 1 or 2, in which spatial sub-sampling is carried out using filters oriented in one of the following directions:
- horizontale, - horizontal,
- verticale. - vertical.
4. Procédé selon l’une des revendications précédentes, dans lequel chaque valeur de facteur de sous-échantillonnage d’un ensemble de valeurs est respectivement appliquée à au moins un groupe de p éléments successifs selon la direction dans laquelle est orienté le filtre, p étant un entier positif. 4. Method according to one of the preceding claims, in which each subsampling factor value of a set of values is respectively applied to at least one group of p successive elements according to the direction in which the filter is oriented, p being a positive integer.
5. Procédé selon l’une des revendications précédentes, comprenant en outre une étape d’analyse (E1003, E1008) comprenant une analyse du contenu d’au moins une image de ladite sous-séquence d’entrée, et une étape de mise à jour des valeurs des facteurs de sous-échantillonnage préalablement à la mise en œuvre de l’étape d1 ), en fonction du résultat de l’analyse du contenu. 5. Method according to one of the preceding claims, further comprising an analysis step (E1003, E1008) comprising an analysis of the content of at least one image of said input sub-sequence, and a step of updating the values of the sub-sampling factors prior to the implementation of step d1), according to the result of the analysis of the content.
6. Procédé selon l’un des revendications précédentes, comprenant en outre une étape d’analyse comprenant une analyse de mesures représentatives de mouvements effectués par un utilisateur, le dispositif d’affichage étant un visiocasque porté par ledit utilisateur, et une étape de mise à jour des valeurs des facteurs de sous-échantillonnage préalablement à la mise en œuvre de l’étape d1 ), en fonction du résultat de l’analyse des mesures. 6. Method according to one of the preceding claims, further comprising an analysis step comprising an analysis of measurements representative of movements performed by a user, the display device being a head-mounted display worn by said user, and a step of setting updating of the values of the sub-sampling factors prior to the implementation of step d1), according to the result of the analysis of the measurements.
7. Procédé selon l’une des revendications précédentes, comprenant en outre une autre étape d’analyse comprenant une analyse de la qualité visuelle (E1005) des images de ladite sous-séquence de sortie, et une étape de mise à jour des valeurs de facteurs de sous-échantillonnage préalablement à la mise en œuvre de l’étape d1 ), si la qualité visuelle est inférieure à un seuil prédéterminé. 7. Method according to one of the preceding claims, further comprising another analysis step comprising an analysis of the visual quality (E1005) of the images of said output sub-sequence, and a step of updating the values of sub-sampling factors prior to the implementation of step d1), if the visual quality is lower than a predetermined threshold.
8. Procédé selon l’une des revendications précédentes, comprenant une étape préalable (E101 ) comprenant les sous-étapes suivantes a) obtention à partir de ladite séquence vidéo, de sous-séquences dites initiales, et pour au moins une sous-séquence initiale : b1 ) détermination d’une information représentative du contenu d’au moins une image de la sous-séquence initiale, et en fonction de ladite information, b2) détermination pour la sous-séquence initiale, d’une fréquence de traitement, inférieure ou égale à la fréquence initiale d’affichage des images, en fonction de l’information déterminée, et b3) insertion, en fonction de la fréquence de traitement déterminée, de tout ou partie des images du groupe d’images dans une sous-séquence d’images formant une sous-séquence d’entrée. 8. Method according to one of the preceding claims, comprising a preliminary step (E101) comprising the following sub-steps a) obtaining from said video sequence, so-called initial sub-sequences, and for at least one initial sub-sequence : b1) determination of information representative of the content of at least one image of the initial sub-sequence, and as a function of said information, b2) determination for the initial sub-sequence, of a processing frequency, lower or equal to the initial image display frequency, as a function of the determined information, and b3) insertion, as a function of the determined processing frequency, of all or part of the images of the group of images in a sub-sequence d images forming an input subsequence.
9. Procédé selon la revendication précédente, comprenant en outre une étape a posteriori (E103) pour les M images d’une sous-séquence de sortie, M étant un entier, ladite étape a postériori comprenant les sous-étapes suivantes d2) comparaison entre la fréquence de traitement associée aux images de la sous- séquence de sortie et la fréquence initiale d’affichage des images, et si la fréquence de traitement est inférieure à la fréquence initiale, découpage spatial de chacune des M images de la sous-séquence de sortie en N sous-images, N étant un entier dont la valeur est fonction du rapport entre la fréquence de traitement et la fréquence initiale, l’étape de codage e) correspondant au codage des M*N sous-images de la sous-séquence de sortie, sinon l’étape de codage e) correspond au codage desdites M images de la sous- séquence de sortie. 9. Method according to the preceding claim, further comprising an a posteriori step (E103) for the M images of an output sub-sequence, M being an integer, said a posteriori step comprising the following sub-steps d2) comparison between the processing frequency associated with the images of the output sub-sequence and the initial frequency of displaying the images, and if the processing frequency is lower than the initial frequency, spatial division of each of the M images of the output sub-sequence into N sub-images, N being an integer whose value depends on the ratio between the processing frequency and the initial frequency, the coding step e) corresponding to the coding of the M*N sub-images of the output sub-sequence, otherwise the coding step e) corresponds to the coding of said M images of the output sub-sequence.
10. Procédé selon la revendication précédente, comprenant en outre les étapes suivantes pour chaque sous-séquence de sortie 10. Method according to the preceding claim, further comprising the following steps for each output sub-sequence
- obtention d’une information représentative d’au moins l’un des éléments de la liste ci-dessous : o valeurs de facteurs de sous-échantillonnage, o mesures représentatives de mouvements effectués par un utilisateur, le dispositif d’affichage étant un visiocasque porté par ledit utilisateur, o caractéristiques structurelles du dispositif d’affichage, o fréquence de traitement, et - obtaining information representative of at least one of the elements from the list below: o values of sub-sampling factors, o measurements representative of movements performed by a user, the display device being a head-mounted display worn by said user, o structural characteristics of the display device, o processing frequency, and
- codage de ladite information. - coding of said information.
11 . Procédé de décodage de données correspondant à des images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes, les images de la séquence vidéo étant regroupées en sous-séquences d’une ou plusieurs images dites sous-séquences de sortie, le procédé comprenant la mise en œuvre des étapes suivantes c1 ) obtention d’une configuration initiale (E5001 ) représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous- séquence de sortie; d11 ) réalisation d’un premier sur-échantillonnage spatial (E502) d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sur-échantillonnage, le premier ensemble de valeurs étant déterminé 26 en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous-séquence à décoder, et e1 ) décodage (E4) des images de la sous-séquence à décoder. 11 . Method for decoding data corresponding to images of a video sequence, each image being formed of elements organized in rows and columns, the images of the video sequence being grouped together in sub-sequences of one or more images called sub- output sequences, the method comprising the implementation of the following steps c1) obtaining an initial configuration (E5001) representative of structural characteristics of a display device, and for at least one image of a sub-sequence of exit; d11 ) carrying out a first spatial oversampling (E502) of at least part of the elements of the image by using a filter oriented along a first direction and comprising a first set of at least two different values of oversampling, the first set of values being determined 26 according to said initial configuration, then insertion of the resulting image in a sub-sequence to be decoded, and e1) decoding (E4) of the images of the sub-sequence to be decoded.
12. Procédé selon la revendication précédente, dans lequel l’étape d11 ) comprend en outre un deuxième sur-échantillonnage spatial d’au moins une partie des éléments de l’image sur-échantillonnée en utilisant un filtre orienté selon une deuxième direction et comprenant un deuxième ensemble d’au moins deux valeurs différentes de facteurs de sur-échantillonnage, le deuxième ensemble de valeurs étant déterminé en fonction de ladite configuration initiale. 12. Method according to the preceding claim, in which step d11) further comprises a second spatial oversampling of at least some of the elements of the oversampled image by using a filter oriented in a second direction and comprising a second set of at least two different values of oversampling factors, the second set of values being determined according to said initial configuration.
13. Dispositif de codage (DC) d’images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes, le dispositif étant configuré pour mettre en œuvre les étapes suivantes c) obtention d’une configuration initiale représentative de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous-séquence d’une ou plusieurs images de la séquence vidéo dites sous-séquence d’entrée, d1 ) réalisation d’un premier sous-échantillonnage spatial d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sous-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous-séquence de sortie, et e) codage des images de la sous-séquence de sortie. 13. Device for coding (DC) images of a video sequence, each image being formed of elements organized in rows and columns, the device being configured to implement the following steps c) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of a sub-sequence of one or more images of the video sequence referred to as the input sub-sequence, d1) production of a first sub-sequence - spatial sampling of at least part of the elements of the image using a filter oriented along a first direction and comprising a first set of at least two different values of sub-sampling factors, the first set of values being determined as a function of said initial configuration, then inserting the resulting image into an output sub-sequence, and e) coding the images of the output sub-sequence.
14. Dispositif de décodage (DDEC) de données correspondant à des images d’une séquence vidéo, chaque image étant formée d’éléments organisés en lignes et en colonnes, les images de la séquence vidéo étant regroupées en sous-séquences d’une ou plusieurs images dites sous-séquences de sortie, le dispositif étant configuré pour mettre en œuvre des étapes suivantes c1 ) obtention d’une configuration initiale représentatives de caractéristiques structurelles d’un dispositif d’affichage, et pour au moins une image d’une sous- séquence de sortie; Tl d11 ) réalisation d’un premier sur-échantillonnage spatial d’au moins une partie des éléments de l’image en utilisant un filtre orienté selon une première direction et comprenant un premier ensemble d’au moins deux valeurs différentes de facteurs de sur-échantillonnage, le premier ensemble de valeurs étant déterminé en fonction de ladite configuration initiale, puis insertion de l’image résultante dans une sous-séquence à décoder, et e1 ) décodage des images de la sous-séquence à décoder. 14. Device for decoding (DDEC) data corresponding to images of a video sequence, each image being formed of elements organized in rows and columns, the images of the video sequence being grouped into sub-sequences of one or several images called output sub-sequences, the device being configured to implement the following steps c1) obtaining an initial configuration representative of structural characteristics of a display device, and for at least one image of a sub - output sequence; Tl d11 ) carrying out a first spatial oversampling of at least part of the elements of the image by using a filter oriented in a first direction and comprising a first set of at least two different values of oversampling factors sampling, the first set of values being determined as a function of said initial configuration, then insertion of the resulting image into a sub-sequence to be decoded, and e1) decoding of the images of the sub-sequence to be decoded.
EP21840565.2A 2020-12-22 2021-12-17 Method for encoding images of a video sequence to be encoded, decoding method, corresponding devices and system with spatial image sub-sampling Pending EP4268464A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2013944A FR3118380A1 (en) 2020-12-22 2020-12-22 Method of coding images of a video sequence to be coded, method of decoding, corresponding devices and system.
PCT/EP2021/086398 WO2022136143A1 (en) 2020-12-22 2021-12-17 Method for encoding images of a video sequence to be encoded, decoding method, corresponding devices and system with spatial image sub-sampling

Publications (1)

Publication Number Publication Date
EP4268464A1 true EP4268464A1 (en) 2023-11-01

Family

ID=75690351

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21840565.2A Pending EP4268464A1 (en) 2020-12-22 2021-12-17 Method for encoding images of a video sequence to be encoded, decoding method, corresponding devices and system with spatial image sub-sampling

Country Status (7)

Country Link
US (1) US20240056603A1 (en)
EP (1) EP4268464A1 (en)
JP (1) JP2024500168A (en)
KR (1) KR20230124619A (en)
CN (1) CN116746158A (en)
FR (1) FR3118380A1 (en)
WO (1) WO2022136143A1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102823242B (en) * 2010-01-22 2016-08-10 汤姆森特许公司 Based on sampling super-resolution Video coding and the method and apparatus of decoding
US9503645B2 (en) * 2012-05-24 2016-11-22 Mediatek Inc. Preview system for concurrently displaying multiple preview images generated based on input image generated by image capture apparatus and related preview method thereof
US10349064B2 (en) * 2015-03-10 2019-07-09 Apple Inc. Adaptive chroma downsampling and color space conversion techniques
FR3084552B1 (en) 2018-07-30 2020-12-11 Bcom PROCESS FOR FORMING AN OUTPUT IMAGE SEQUENCE FROM AN INPUT IMAGE SEQUENCE, RECONSTRUCTION PROCESS OF AN INPUT IMAGE SEQUENCE FROM AN OUTPUT IMAGE SEQUENCE, DEVICES, SERVER EQUIPMENT, CLIENT EQUIPMENT AND ASSOCIATED COMPUTER PROGRAMS
US11695977B2 (en) * 2018-09-28 2023-07-04 Apple Inc. Electronic device content provisioning adjustments based on wireless communication channel bandwidth condition

Also Published As

Publication number Publication date
CN116746158A (en) 2023-09-12
FR3118380A1 (en) 2022-06-24
KR20230124619A (en) 2023-08-25
US20240056603A1 (en) 2024-02-15
WO2022136143A1 (en) 2022-06-30
JP2024500168A (en) 2024-01-04

Similar Documents

Publication Publication Date Title
EP0547696B1 (en) System for the transmission and/or storage of signals corresponding to textured images
EP3005296B1 (en) Merging of a plurality of video flows
FR2660139A1 (en) METHOD OF ENCODING AND TRANSMITTING AT AT LEAST TWO QUALITY LEVELS OF DIGITAL IMAGES BELONGING TO A SEQUENCE OF IMAGES, AND CORRESPONDING DEVICES THEREOF.
EP0413017A1 (en) Process and device for compressing data designed for the compatible decoding of a group of television signals with an increasing degree of resolution.
FR2896371A1 (en) Video sequence`s digital image processing method, involves generating output images by transformation of original digital images and/or intermediary images in chosen order so that number of images to be stored is minimal
FR2886787A1 (en) METHOD AND DEVICE FOR ENCODING AND DECODING AN IMAGE SEQUENCE
FR2867329A1 (en) Image sequence coding method for use in video compression field, involves selecting images with additional condition, for high frequency images, and calibrating selected images by performing inverse operation of images scaling step
EP4268464A1 (en) Method for encoding images of a video sequence to be encoded, decoding method, corresponding devices and system with spatial image sub-sampling
FR2684829A1 (en) METHODS OF SYNTHESIZING TEXTURE SIGNALS AND TRANSMITTING AND / OR STORING SUCH SIGNALS, AND DEVICES AND SYSTEMS FOR THEIR IMPLEMENTATION.
FR3026261A1 (en) METHOD FOR ENCODING AND DECODING INTEGRAL IMAGES, DEVICE FOR ENCODING AND DECODING INTEGRAL IMAGES, AND CORRESPONDING COMPUTER PROGRAMS
FR2809572A1 (en) VIDEO SOURCE CODING WITH MOTION PREDICTION AND BLOCK EFFECT FILTERING
WO2007060316A1 (en) High-dynamics image transmission system, encoding and decoding units and methods therefor
FR2822330A1 (en) BLOCK CODING METHOD, MPEG TYPE, IN WHICH A RESOLUTION IS AFFECTED TO EACH BLOCK
FR2634086A1 (en) TEMPORAL SUB-SAMPLING DEVICE AND MOTION-COMPENSATED TIME INTERPOLATION IN INTERLACED IMAGE SEQUENCE, USE OF SUCH A DEVICE IN CODING AND DECODING DEVICES OF HIGH-DEFINITION TELEVISION IMAGE TRANSMISSION SYSTEM , AND DEVICES FOR ENCODING AND DECODING FOR SUCH A SYSTEM
WO2020188172A1 (en) Methods and devices for coding and decoding a multi-view video sequence
EP4104446A1 (en) Method and device for processing multi-view video data
WO1991008546A1 (en) Method for compressing images by self-organization of a neuronal network
EP3991401A1 (en) Method and device for processing multi-view video data
FR2782878A1 (en) SYSTEM FOR COMPRESSION AND DECOMPRESSION OF DIGITAL VIDEO SIGNALS
FR2654285A1 (en) SYSTEM FOR COMPRESSING DIGITAL IMAGES BELONGING TO AN IMAGE SEQUENCE WITH ADAPTIVE QUANTIFICATION BASED ON PSYCHOVISUAL INFORMATION.
FR3137240A1 (en) Method for segmenting a plurality of data, coding method, decoding method, corresponding devices, systems and computer program
FR2717648A1 (en) Method and device for estimating motion between television images of a sequence of images.
FR2683968A1 (en) CODING / DECODING METHOD FOR DIGITAL VIDEO IMAGES AND ENCODER / DECODER FOR IMPLEMENTING THE METHOD.
FR2646576A1 (en) TRANSMITTING-RECEIVING SYSTEM FOR TRANSMITTING ANIMATED COLOR IMAGES AND SOUND FROM INDEPENDENT CHANNELS
FR2963865A1 (en) Method for coding filtering information of digital video signal captured by camcorder, involves encoding filtering tables in filtering information of signal, where encoding step is taken into consideration by occurrence information

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230613

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20231117

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)