EP4042418A1 - Determining corrections to be applied to a multichannel audio signal, associated coding and decoding - Google Patents

Determining corrections to be applied to a multichannel audio signal, associated coding and decoding

Info

Publication number
EP4042418A1
EP4042418A1 EP20792467.1A EP20792467A EP4042418A1 EP 4042418 A1 EP4042418 A1 EP 4042418A1 EP 20792467 A EP20792467 A EP 20792467A EP 4042418 A1 EP4042418 A1 EP 4042418A1
Authority
EP
European Patent Office
Prior art keywords
signal
decoded
multichannel signal
decoding
corrections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP20792467.1A
Other languages
German (de)
French (fr)
Other versions
EP4042418B1 (en
Inventor
Pierre Clément MAHE
Stéphane RAGOT
Jerome Daniel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP4042418A1 publication Critical patent/EP4042418A1/en
Application granted granted Critical
Publication of EP4042418B1 publication Critical patent/EP4042418B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Definitions

  • the present invention relates to the encoding / decoding of spatialized sound data, in particular in a surround sound context (hereinafter also referred to as “ambisonic”).
  • the encoders / decoders which are currently used in mobile telephony are mono (a single signal channel for reproduction on a single loudspeaker).
  • coded which are currently used in mobile telephony are mono (a single signal channel for reproduction on a single loudspeaker).
  • the 3GPP EVS (for “Enhanced Voice Services”) code makes it possible to offer “Super-HD” quality (also called “High Definition Rus” or HD + voice) with a super-widened audio band (SWB for “super- wideband ”in English) for signals sampled at 32 or 48 kHz or full band (FB for“ Fullband ”) for signals sampled at 48 kHz; the audio bandwidth is 14.4 to 16 kHz in SWB mode (9.6 to 128 kbit / s) and 20 kHz in FB mode (16.4 to 128 kbit / s).
  • the next quality evolution in conversational services offered by operators should be immersive services, using terminals such as smartphones equipped with several microphones or spatialized audio conferencing or videoconferencing equipment such as tele-presence or video. 360 °, or even “live” audio content sharing equipment, with spatialized 3D sound rendering that is far more immersive than a simple 2D stereo reproduction.
  • terminals such as smartphones equipped with several microphones or spatialized audio conferencing or videoconferencing equipment such as tele-presence or video. 360 °, or even “live” audio content sharing equipment, with spatialized 3D sound rendering that is far more immersive than a simple 2D stereo reproduction.
  • advanced audio equipment accessories such as a 3D microphone, voice assistants with acoustic antennas, virtual reality headsets, etc.
  • the capture and rendering of spatialized sound scenes are now common enough to offer an immersive communication experience.
  • IVAS Intelligent Voice And Audio Services
  • Ambisonics is a recording method (“encoding” in the acoustic sense) of spatialized sound and a reproduction system (“decoding” in the acoustic sense).
  • An ambisonic microphone (at order 1) comprises at least four capsules (typically of the cardioid or sub-cardioid type) arranged on a spherical grid, for example the vertices of a regular tetrahedron.
  • the audio channels associated with these capsules are called “A-format”. This format is converted into a “B-format”, in which the sound field is broken down into four components (spherical harmonics) denoted W, X, Y, Z, which correspond to four coincident virtual microphones.
  • the W component corresponds to an omnidirectional capture of the sound field while the X, Y and Z components, which are more directive, can be compared to microphones with pressure gradients oriented along the three orthogonal axes of space.
  • An ambisonic system is a flexible system in the sense that recording and playback are separate and decoupled. It allows decoding (in the acoustic sense) on any speaker configuration (for example, binaural, 5.1-type “surround” sound or 7.1.4-type periphery (with elevation)).
  • the ambisonics approach can be generalized to more than four channels in B-format and this generalized representation is commonly referred to as “HOA” (for “Higher-Order Ambisonics”).
  • FOA First-Order Ambisonics
  • There is also a so-called "planar" variant of ambisonics (W, X, Y) which decomposes the sound defined in a plane which is generally the horizontal plane. In this case, the number of components is K 2M + 1 channels.
  • ambisonics 1st order ambisonics (4 channels: W, X, Y, Z), 1st order planar ambisonics (3 channels: W, X, Y), higher order ambisonics are all referred to here -after “ambisonics” indiscriminately to facilitate reading, the treatments presented being applicable independently of the planar type or not and of the number of ambisonic components.
  • an “ambisonic signal” will be called a signal in B-format with a predetermined order with a certain number of ambisonic components.
  • This also includes hybrid cases, where for example in order 2 there are only 8 channels (instead of 9) - more predsly, in order 2, we find the 4 channels of order 1 (W , X, Y, Z) to which we normally add 5 channels (usually denoted R, S, T, U, V), and we can for example ignore one of the higher order channels (for example
  • the signals to be processed by the encoder / decoder are in the form of successions of blocks of sound samples called "frames" or “sub-frames” below.
  • the notations A T and A H indicate respectively the transposition and the Hermitian transposition (transposed and conjugated) of A.
  • a multidimensional discrete-time signal, b (i), defined over a time interval i 0, .., L-1 of length L and with K dimensions is represented by a matrix of size
  • a 3D point of Cartesian coordinates (x, y, z) can be converted to spherical coordinates (r, ⁇ , ⁇ ), where r is the distance to the origin, ⁇ is the azimuth and ⁇ the elevation.
  • r is the distance to the origin
  • is the azimuth
  • the elevation.
  • the first component of an ambisonic signal generally corresponds to the omnidirectional component W .
  • the simplest approach to encoding an ambisonic signal is to use a mono encoder and apply it in parallel to all channels, possibly with different bit allocation depending on the channel. This approach is referred to herein as “multi-mono”.
  • the multi-mono approach can be extended to multi-stereo coding (where pairs of channels are coded separately by a stereo coded) or more generally to the use of several parallel instances of the same core coded.
  • the input signal is divided into channels (a mono channel or several channels) by the block 100. These channels are coded separately by the blocks 120 to 122 according to a distribution and of a predetermined binary allocation. Their bit stream is multiplexed (block 130) and after transmission and / or storage, it is demultiplexed (block 140) to apply a decoding to reconstruct the decoded channels (blocks 150 to 152) which are recombined (block 160).
  • the associated quality varies depending on the core encoding and decoding used (blocks 120 to 122 and 150 to 152), and it is generally only satisfactory at very high speed.
  • the multi-mono coding approach does not take into account the correlation between channels, it produces spatial distortions with the addition of different artefacts such as the appearance of phantom sound sources, diffuse noise or movements of the trajectories of sound sources. .
  • the encoding of an ambisonic signal according to this approach generates degradation of spatialization.
  • An alternative approach to coding all channels separately is given, for a stereo or multichannel signal, by parametric coding.
  • the input multichannel signal is reduced to a smaller number of channels, after a processing called “downmix”, these channels are encoded and transmitted and additional spatialization information is also encoded.
  • Parametric decoding consists in increasing the number of channels after decoding of the transmitted channels, by using a processing called “upmix” (typically implemented by decorrelation) and a spatial synthesis as a function of the additional decoded spatialization information.
  • upmix typically implemented by decorrelation
  • 3GPP e-AAC + codec An example of stereo parametric coding is given by the 3GPP e-AAC + codec. It should be noted that the downmix operation also generates degradation of spatialization; in this case, the spatial image is changed.
  • the invention improves the state of the art.
  • the determined set of corrections, to be applied to the decoded multichannel signal makes it possible to limit the spatial degradations due to the coding and possibly to channel reduction / increase operations.
  • the implementation of the correction thus makes it possible to find a spatial image of the decoded multichannel signal closest to the spatial image of the original multichannel signal.
  • the determination of the set of corrections is performed in the full band time domain (a frequency band). In variants, it is performed in the time domain by frequency sub-band. This makes it possible to adapt the corrections according to the frequency bands. In other variants, it is performed in a real or complex transformed domain (typically frequency) of the short-term discrete Fourier transform (STFT), modified discrete cosine transform (MDCT), or other type.
  • STFT short-term discrete Fourier transform
  • MDCT modified discrete cosine transform
  • the invention also relates to a method for decoding a multichannel sound signal, comprising the following steps:
  • the decoder is able to determine the corrections to be made to the decoded multichannel signal, from information representative of the spatial image of the original multichannel signal, received from the encoder.
  • the information received from the encoder is thus limited. It is the decoder that takes care of both determining and applying corrections.
  • the invention also relates to a method for encoding a multichannel sound signal, comprising the following steps:
  • the encoder which determines the set of corrections to be made to the decoded multichannel signal and which transmits it to the decoder. It is therefore the coder who initiates this determination of corrections.
  • the information representative of a spatial image is a covariance matrix and the determination of the set of corrections comprises in in addition to the following steps:
  • the determination of the set of corrections of the decoding method comprises furthermore the following steps: - Obtaining a weighting matrix comprising weighting vectors associated with a set of virtual loudspeakers;
  • the decoding method or the encoding method comprises a step of limiting the values of gains obtained according to at least one threshold.
  • Get set of gains constitutes the set of corrections and may for example be in the form of a correction matrix comprising all of the gains thus determined.
  • the information representative of a spatial image is a covariance matrix and the determination of the set of corrections comprises a step of determining a matrix of transformation by matrix decomposition of the two covariance matrices, the transformation matrix constituting the set of corrections.
  • This embodiment has the advantage of making the corrections directly in the ambisonic domain in the case of an ambisonic multichannel signal. The steps of transforming the signals reproduced on loudspeakers into the ambisonic domain are thus avoided.
  • the correction of the multi-channel signal decoded by the determined set of corrections is performed by the application of the set of corrections to the decoded multichannel signal, that is to say directly in the ambisonic domain in the case of an ambisonic signal.
  • the correction of the multichannel signal decoded by the determined set of corrections is performed according to the following steps:
  • the steps of decoding, applying gains and encoding / summing above are grouped together in a direct correction operation by a correction matrix.
  • This correction matrix can be applied directly to the decoded multichannel signal, which has the advantage as described above of making the corrections directly in the ambisonic domain.
  • the decoding method comprises the following steps:
  • the encoder which determines the corrections to be made to the decoded multichannel signal, directly in the ambisonic domain and it is the decoder which implements the application of these corrections to the decoded multichannel signal, directly in the ambisonic domain.
  • the set of corrections can in this case be a transformation matrix or else a correction matrix comprising a set of gains.
  • the decoding method comprises the following steps:
  • the encoder which determines the corrections to be made to the signals resulting from the acoustic decoding on a set of virtual loudspeakers and it is the decoder which implements the application of these corrections to the signals.
  • signals resulting from acoustic decoding then which transforms these signals to return to the ambisonic domain in the case of an ambisonic multichannel signal.
  • the steps of decoding, applying gains and encoding / summing above are grouped together in a direct correction operation by a correction matrix.
  • the correction is then carried out directly by applying a correction matrix to the decoded multichannel signal, for example the ambisonic signal. As described previously, this has the advantage of making corrections directly in the Ambisonic domain.
  • the invention also relates to a decoding device comprising a processing circuit for implementing the decoding methods as described above.
  • the invention also relates to a decoding device comprising a processing circuit for implementing the coding methods as described above.
  • the invention relates to a computer program comprising instructions for implementing decoding methods or encoding methods as described above, when they are executed by a processor.
  • the invention relates to a storage medium, readable by a processor, storing a computer program comprising instructions for carrying out the decoding methods or the encoding methods described above.
  • Figure 1 illustrates multi-mono coding according to the state of the art and as described above;
  • Figure 2 illustrates in flowchart form the steps of a method for determining a set of corrections according to one embodiment of the invention
  • FIG. 3 illustrates a first embodiment of an encoder and a decoder, an encoding method and a decoding method according to the invention
  • FIG. 4 illustrates a first detailed embodiment of the block for determining the set of corrections
  • FIG. 5 illustrates a second detailed embodiment of the block for determining the set of corrections
  • FIG 6 Figure 6 illustrates a second embodiment of an encoder and a decoder, a coding method and a decoding method according to the invention
  • Figure 7 illustrates examples of structural embodiments of a coder and of a decoder according to one embodiment of the invention.
  • the method described below is based on the correction of spatial degradations, in particular to ensure that the spatial image of the decoded signal is as close as possible to the original signal.
  • the invention is not based on a perceptual interpretation of spatial image information because the ambisonic domain is not directly “listenable”.
  • FIG. 2 represents the main steps implemented to determine a set of corrections to be applied to the encoded and then decoded multichannel signal.
  • the original multichannel signal B of dimension KxL (ie K components of L time or frequency samples) is input to the determination method.
  • step S1 information representative of a spatial image of the original multichannel signal is extracted.
  • the invention can also be applied for other types of multichannel signal such as a B-format signal with modifications, such as, for example, the removal of certain components (e.g. removal of the R component at order 2 in order to keep only 8 channels) or the matrixing of the B-format to pass into an equivalent domain (called “Equivalent Spatial Domain”) as described in the specification 3GPP TS 26.260 - another example of matrixing is given by the “channel mapping 3” of the IETF Opus coded and in the 3GPP TS 26.918 specification (dause 6.1.6.3).
  • spatial image The distribution of sound energy from the ambisonic soundstage to different directions in space is referred to here as a "spatial image"; in variants, this spatial image describing the sound scene generally corresponds to positive quantities evaluated at different predetermined directions in space, for example in the form of a pseudo-spectrum of the MUSIC (Multiple Signal Classification) type sampled at these directions or a histogram of directions of arrival (where the directions of arrival are counted according to the discretization given by the predetermined directions); these positive quantities can be interpreted as energies and are seen as such hereafter to simplify the description of the invention.
  • MUSIC Multiple Signal Classification
  • a spatial image associated with an ambisonic sound scene therefore represents the sound energy (or more generally a positive quantity) relative as a function of different directions in space.
  • a piece of information representative of a spatial image can be for example a covariance matrix calculated between the channels of the multichannel signal or else an information of energy associated with directions of origin of the sound (associated with directions of height. - virtual speakers distributed over a unity sphere).
  • the set of corrections to be applied to a multichannel signal is a piece of information which can be defined by a set of gains associated with directions of origin of the sound which can be in the form of a matrix of corrections comprising this set of gains or a transformation matrix.
  • a covariance matrix of a multichannel signal B is for example obtained in step S1. As described later with reference to FIGS. 3 and 6, this matrix is for example calculated as follows:
  • the covariance can be estimated recursively (sample by sample) in the form:
  • energy information is obtained in different directions (associated with directions of virtual loudspeakers distributed over a unit sphere).
  • SRP for “Steered-Response Power”
  • MUSIC pseudo-spectrum, arrival direction histogram can be used.
  • multi-stereo coding where the channels b k are coded in separate pairs is also possible.
  • a typical example for a 5.1 input signal is to use two separate stereo encodings of L / R and Ls / Rs with mono encodings of C and LFE (low frequencies only); for the ambisonic case, the multi-stereo coding can be applied to the ambisonic components (B-format) or to an equivalent multichannel signal obtained after matrixing of the B-format channels - for example at order 1 the channels W, X, Y, Z can be converted to four transformed channels and two pairs of channels are encoded separately and converted back to B-format on decoding.
  • An example is given in recent versions of the Opus code (“channel mapping 3”) and in specification 3GPP TR 26.918 (dause 6.1.6.3).
  • step S2 it is also possible to use in step S2 a joint multichannel coding, such as for example the MPEG-H 3D Audio coded for the ambisonic format (scene-based); in this case, the codec performs coding of the input channels jointly.
  • this joint coding is broken down for an ambisonic signal into several steps such as the extraction and coding of predominant mono sources, the extraction of an ambience (typically reduced to an ambisonic signal of order 1 ), the coding of all the extracted channels (called “transport channels”) and of metadata describing the acoustic beamforming vectors for the extraction of predominant channels.
  • Joint multichannel encoding makes it possible to exploit the relationships between all channels to, for example, extract predominant audio sources and ambience or perform global bit allocation taking into account all audio content.
  • step S2 is taken as a multi-mono coding which is carried out using the 3GPP EVS code as described above.
  • the method according to the invention can thus be used independently of the core coded (multi-mono, multi-stereo, joint coding) used to represent the channels to be coded.
  • the signal thus encoded in the form of a bitstream can be decoded in step S3 either by a local decoder of the encoder, or by a decoder after transmission.
  • the signal is decoded to find the channels of the multichannel signal S (for example by several instances of decoder EVS according to a multi-mono decoding).
  • Steps S2a, S2b, S3a, S3b represent an alternative embodiment of the encoding and decoding of the multichannel signal B.
  • the difference with the encoding of step S2 described above lies in the use of additional processing operations for reducing the number. of channels (“downmix” in English) in step S2a and increase in the number of channels (“upmix” in English) in step S3b.
  • Ges encoding and decoding steps are similar to steps S2 and S3 except that the number of respective input and output channels is lower in steps S2b and S3a
  • An example of a downmix for a first-order ambisonic input signal is to keep only the W channel; for an ambisonic input signal of order> 1, we can take as a downmix the first 4 components W, X, Y, Z (therefore truncate the signal to order 1).
  • An example of upmixing a mono signal consists of applying different room spatial impulse responses (SRIR for "Spatial Room Impulse Response") or different decorrelator filters (of the all-pass type) in the time or frequency domain.
  • SRIR Room spatial impulse responses
  • decorrelator filters of the all-pass type
  • An exemplary embodiment of decorrelation in a frequency domain is given for example in document 3GPP S4-180975, pCR to 26.118 on Dolby VRStream audio profile candidate (dause X6.2.3.5).
  • the signal B * resulting from this “downmix” processing is coded in step S2b by a core coded (multi-mono, multi-stereo, joint coding), for example by a mono or multi-mono approach with the coded 3GPP EVS .
  • the audio signal input from encoding step S2b and output from decoding step S3 has fewer channels than the original multi-channel audio signal.
  • the spatial image represented by the core coded is already significantly degraded even before the coding.
  • the number of channels is reduced to a single mono channel, by encoding only the W channel; the input signal is then limited to a single audio channel and the spatial image is therefore lost.
  • the method according to the invention makes it possible to describe and reconstruct this spatial image as close as possible to that of the original multichannel signal.
  • step S4 information representative of the spatial image of the decoded multichannel signal.
  • this information can be a covariance matrix calculated on the decoded multichannel signal or else an information of energy associated with directions of origin of the sound (or in an equivalent way, with virtual points on a unit sphere ).
  • the information representative of the original multichannel signal and of the decoded multichannel signal is used in step S5 to determine a set of corrections to be made to the decoded multichannel signal in order to limit the spatial degradations.
  • the method described in FIG. 2 can be implemented in the time domain, in full frequency band (with a single band) or else by frequency sub-bands (with several bands), this does not change the operation of the process, each sub-band then being treated separately. If the method is carried out by sub-band, the set of corrections is then determined by sub-band, which causes an additional cost of calculation and of data to be transmitted to the decoder compared to the case of a single band.
  • the division into sub-bands can be uniform or non-uniform. For example, we can divide the spectrum of a signal sampled at 32 kHz according to different variants:
  • Bark bands (100 Hz wide at low frequencies to 3.5-4 kHz for the last sub-band)
  • the 24 Bark bands can optionally be grouped into blocks of 4 or
  • ERB bands - for "equivalent rectangular bandwidth" in English - or in 1/3 octave
  • sampling frequency for example 16 or 48 kHz
  • the invention may also be implemented in a transform domain, for example in the domain of the short-term discrete Fourier transform (STFT) or the domain of the modified discrete cosine transform
  • STFT short-term discrete Fourier transform
  • modified discrete cosine transform for example in the domain of the short-term discrete Fourier transform (STFT) or the domain of the modified discrete cosine transform
  • a mono sound source can be artificially spatialized by multiplying its signal by the values of the spherical harmonics associated with its direction of origin (assuming the signal carried by a plane wave) to obtain as many ambisonic components. For this, we calculate the coefficients for each spherical harmonic for a position determined in azimuth ⁇ and in elevation ⁇ to the desired order:
  • Y ( ⁇ , ⁇ ) .s
  • s the mono signal to spatialize
  • Y ( ⁇ , ⁇ ) the encoding vector defining the coeffidents of the spherical harmonics associated with the direction ( ⁇ , ⁇ ) for the order M.
  • An example of an encoding vector is given below for order 1 with the SN3D convention and the order of the SI D or FuMa channels:
  • the Y ( ⁇ , ⁇ ) coefficients of the spherical harmonics can be found in the book by B. Rafaely, Fundamentals of Spherical Array Processing, Springer, 2015.
  • such matrices will serve as a matrix for forming directional beams ("beamforming" in English) describing how to obtain signals characteristic of directions of space in order to carry out an analysis and / or transformations. space.
  • beamforming in English
  • We therefore define the reciprocal conversion as involving the pseudo-inverse of D: pinv (D) .S D T (DD T ) -1 .S
  • FIG. 3 represents a first embodiment of an encoding device and of a decoding device for the implementation of an encoding and decoding method including a method for determining a set of corrections as described. with reference to figure 2.
  • the encoder calculates information representative of the spatial image of the original multichannel signal and transmits it to the decoder to enable it to correct the spatial degradation caused by the encoding. This allows during decoding to attenuate spatial artefacts in the decoded ambisonic signal.
  • the encoder receives a multichannel input signal of, for example, an FOA ambisonic representation, or HOA, or a hybrid representation with a subset of ambisonic components up to a given partial ambisonic order - the latter case is in fact undue. equivalent way in the case of FOA or HOA where the missing ambisonic components are zero and the ambisonic order is given by the order minimum required to indure all defined components.
  • FOA or HQA cases are considered in the remainder of the description.
  • the input signal is sampled at 32 kHz.
  • the coding is performed in the time domain (on one or more bands), however in variants, the invention can be implemented in a transformed domain, for example after a short discrete Fourier transform. term (STFT) or modified discrete cosine transform (MDCT).
  • STFT short discrete Fourier transform
  • MDCT modified discrete cosine transform
  • a block 310 for reducing the number of channels can be implemented; the input of block 311 is signal B * at the output of block 310 when the downmix is implemented or signal B otherwise.
  • the downmix if the downmix is applied, it consists, for example, for an ambisonic input signal of order 1 to keep only the channel W and for an ambisonic input signal of order> 1, to not keep only the first 4 ambisonic components W, X, Y, Z (therefore to truncate the signal at order 1).
  • Other types of downmix (such as those described above with a selection of a subset of channels and / or matrixing) can be implemented without modifying the process according to the invention.
  • Block 311 encodes the audio signal b'k of B * at the output of block 310 in the case where the downmix step is performed or the audio signal bk of the original multichannel signal B. This signal corresponds to the ambisonic components of the signal. original multichannel if no channel count reduction processing has been applied.
  • block 311 uses multi-mono coding (COD) with fixed or variable allocation, where the core codec is the 3GPP EVS standardized codec.
  • CDD multi-mono coding
  • each bk or b'k channel is coded separately by an instance of the coded; however, in variations other coding methods are possible, for example multi-stereo coding or joint multichannel coding. Therefore, at the output of this coding block 311, an encoded audio signal originating from the original multichannel signal is obtained, in the form of a binary train which is sent to the multiplexer 340.
  • block 320 performs a sub-band division.
  • this division into sub-bands could reuse equivalent processing operations carried out in blocks 310 or 311; the separation of block 320 is here functional.
  • the channels of the original multichannel audio signal are divided into 4 frequency sub-bands of respective width 1 kHz, 3 kHz, 4 kHz, 8 kHz (which amounts to a division of the frequencies according to the 0 -1000, 1000- 4000, 4000-8000 and 8000-16000 Hz.
  • Oe slicing can be implemented by means of a short-term discrete Fourier transform (STFT), band-pass filtering in the Fourier domain (by application of a frequency mask), and inverse transform with overlap addition
  • STFT discrete Fourier transform
  • the sub-bands remain sampled at the same original frequency and the processing according to the invention is applied in the time domain; variants, it is possible to use a filter bank with a critical sampling.
  • the sub-band cutting operation generally involves a processing delay which is a function of the type of filter bank used; invention a time alignment can be applied ique before or after encoding-decoding and / or before the extraction of spatial image information, so that the spatial image information is well synchronized in time with the corrected signal.
  • full-band processing may be carried out, or the sub-band cutting may be different as explained previously.
  • the signal from a transform of the original multichannel audio signal is directly used and the invention is applied in the transformed domain with subband slicing in the transformed domain.
  • a high-pass filtering (with a cut-off frequency typically at 20 or 50 Hz), for example in the form of an elliptical IIR filter of order 2 whose frequency of cut-off is preferably set at 20 or 50 Hz (50 Hz in some variants).
  • Ge preprocessing avoids a potential bias for the subsequent estimation of covariance during coding; without this preprocessing, the correction implemented in block 390 described later will tend to amplify the low frequencies during full band processing.
  • Block 321 determines (Inf. B) information representative of a spatial image of the original multichannel signal.
  • this information is energy information associated with directions of origin of sound (associated with directions of virtual speakers distributed over a unit sphere).
  • this 3D sphere is discretized by N points (“point” virtual speakers) whose position is defined in spherical coordinates by the directions ( ⁇ n , ⁇ n ) for the nth speaker.
  • the loudspeakers are typically placed (almost) uniformly on the sphere.
  • a “Lebedev” type quadrature method can for example be used to perform this discretization, according to the references Vl Lebedev, and DN Laikov, “A quadrature formula for the sphere of the 131st algebraic order of accuracy”, Doklady Mathematics, vol. 59, no. 3, 1999, pp. 477- 481 or Pierre Lecomte, Philippe-Aubert Gauthier, Christophe Langrenne, Alexandre Garcia and Alain Berry, On the use of a Lebedev grid for Ambisonics, AES Convention 139, New York, 2015.
  • the spatial image of the multichannel signal is for example the SRP method (for "Steered- Response Power ”in English). Indeed, this method consists in calculating the short-term energy coming from different directions defined in terms of azimuth and elevation. For this, as explained previously, similarly to rendering on N speakers, a weighting matrix of the ambisonic components is calculated, then this matrix is applied to the multichannel signal to sum the contribution of the components and produce a set of N acoustic beams (or “beamformers” in English).
  • SRP method for "Steered- Response Power ”in English.
  • this method consists in calculating the short-term energy coming from different directions defined in terms of azimuth and elevation. For this, as explained previously, similarly to rendering on N speakers, a weighting matrix of the ambisonic components is calculated, then this matrix is applied to the multichannel signal to sum the contribution of the components and produce a set of N acoustic beams (or “beamformers” in English).
  • the d n values may vary depending on the type of acoustic beam forming used (delay-sum, MVDR, LCMV, etc.).
  • the invention also applies to these variant calculations of the matrix D and of the spatial image.
  • the MUSIC method also provides another way of calculating a spatial image, with a subspace approach.
  • the invention also applies in this variant of calculation of the spatial image.
  • the spatial image can be calculated from a histogram of the intensity vector (at order 1) as for example in the article by S. Tervo, Direction estimation based on sound intensity vectors, Proc. EUSI PCOO, 2009, or its generalization into a pseudo-intensity vector.
  • 'histogram (whose values are the number of occurrences of values of arrival directions according to the predetermined directions ( ⁇ n , ⁇ n )) is interpreted as a set of energies according to the predetermined directions.
  • Block 330 then quantizes the spatial image thus determined, for example with 16-bit scalar quantization by coefficients (directly using the 16-bit truncated floating point representation). In variations, other scalar or vector quantization methods are possible.
  • the information representative of the spatial image of the original multichannel signal is a covariance matrix (of the subbands) of the input channels B. This matrix is calculated as:
  • the covariance matrix C (of size Kx (K) being, by definition, symmetric, only one of the lower or upper triangles is transmitted to the quantization block 330 which codes (Q) K (K + 1) / 2 coefficients, K being the number of ambisonic components.
  • This block 330 performs a quantization of these coefficients, for example with a scalar quantization on 16 bits by coefficient (by using directly the floating point representation truncated on 16 bits).
  • scalar or vector quantization of the covariance matrix can be implemented.For example, we can calculate the maximum value (maximum variance) of the covariance matrix then code by scalar quantization with a logarithmic step, on a number of bits more low (for example 8 bits), the values of the upper (or lower) triangle of the covariance matrix normalized by its maximum value.
  • the covariance matrix C could be regularized before quantification in the form C + ⁇ l.
  • the quantized values are sent to multiplexer 340.
  • the decoder receives in the demultiplexer block 350, a bit stream comprising an encoded audio signal from the original multichannel signal and information representative of a spatial image of the original multichannel signal.
  • Block 360 decodes (Q 1 ) the covariance matrix or other information representative of the spatial image of the original signal.
  • Block 370 decodes (DEC) the audio signal as represented by the bit stream.
  • the decoded multichannel signal is obtained at the output of decoding block 370.
  • the decoding implemented in block 370 provides a decoded audio signal which is input to upmix block 371.
  • block 371 implements an optional step (UPMIX) of increasing the number of channels.
  • this step for the channel of a mono signal , it consists in changing the signal by different responses room spatial impulses (SRIR for “Spatial Room Impulse Response”); these SRIRs are defined in the original ambisonic order of B.
  • SRIR room spatial impulses
  • Other decorrelation methods are possible, for example the application of all-pass decorrelator filters to the different channels of the signal.
  • the block 372 implements an optional step (SB) of division into sub-bands to obtain either sub-bands in the time domain or in a transformed domain.
  • SB optional step
  • Block 375 determines (Inf ) information representative of a spatial image of the decoded multichannel signal in a manner similar to that described for block 321 (for the original multichannel signal), this time applied to the decoded multichannel signal obtained at the output of the block 371 or block 370 depending on the embodiments decoding.
  • this information is energy information associated with directions of origin of the sound (associated with the directions of virtual loudspeakers distributed over a unit sphere).
  • an SRP (or other) type method can be used to determine the spatial image of the decoded multichannel signal.
  • this information is a covariance matrix of the channels of the decoded multichannel signal. This covariance matrix is then obtained as follows:
  • the covariance matrices C and block 380 implements the method of determination (Det.Corr) of a set of corrections as described with reference to FIG. 2.
  • a method using rendering (explicit or not) on a virtual loudspeaker is used and in the embodiment of FIG. 5, a method implemented based on a factorization of the Cholesky type is used.
  • Block 390 of Figure 3 implements a correction (CORR) of the multichannel signal decoded by the set of corrections determined by block 380 to obtain a corrected decoded multichannel signal.
  • CORR correction
  • FIG. 4 therefore represents an embodiment of the step of determining a set of corrections. This embodiment is accomplished through the use of virtual speaker rendering.
  • the information representative of the spatial image of the original multichannel signal and of the decoded multichannel signal are the respective covariance matrices C and
  • blocks 420 and 421 respectively determine the spatial images of the original multichannel signal and the decoded multichannel signal.
  • the spatial image of the multichannel signal we can determine the spatial image of the multichannel signal.
  • one possible method is the SRP (or other) method which consists in calculating the short-term energy coming from different directions defined in terms of azimuth and elevation.
  • the information representative of the spatial image of the original signal (Inf B) received and decoded in 360 by the decoder is the spatial image itself, that is to say information of energy (or a positive quantity) associated with directions of origin of the sound (associated with directions of virtual loudspeakers distributed over a unit sphere), it is then no longer necessary to calculate it at 420.
  • This spatial image is then used directly by block 430 described below.
  • the determination at 375 of the information representative of the spatial image of the decoded multichannel signal (I nf ) is the spatial image itself of the decoded multichannel signal, then it is no longer necessary to calculate it at 421. This spatial image is then used directly by block 430 described below.
  • Block 440 optionally makes it possible to limit (Limit g n ) the maximum value that a gain g n can take. It is recalled here that the positive quantities noted ⁇ ⁇ 2 and can correspond more generally to quantities resulting from of a MUSIC pseudo-spectrum or of the values resulting from a histogram of directions of arrival according to the discretized directions ( ⁇ n , ⁇ n ).
  • a threshold is applied to the value of g n . Any value greater than this threshold is forced to be equal to this threshold value.
  • the threshold can be for example fixed at 6 dB, so that a gain value outside the range ⁇
  • 6 dB is saturated to ⁇ 6 dB.
  • This set of gains g n therefore constitutes the set of corrections to be made to the decoded multichannel signal.
  • This set of gains is received at the input of the correction block 390 of FIG. 3.
  • Block 390 applies, for each virtual loudspeaker, the corresponding gain g n , determined previously. The application of this gain makes it possible to obtain, on this loudspeaker, the same energy as the original signal.
  • An acoustic encoding step for example ambisonic encoding by the matrix E, is then implemented to obtain components of the multichannel signal, for example ambisonic components. These ambisonic components are finally summed to obtain the multichannel output signal, corrected (Corr). It is therefore possible to calculate explicitly the channels associated with the virtual loudspeakers, to apply a gain to them, then to recombine the processed channels, or in an equivalent manner to apply the matrix G to the signal to be corrected.
  • the normalization factor g norm can be determined without calculating the entire matrix R, because it suffices to calculate only a subset of matrix elements to determine R 00 and therefore g norm ).
  • the matrix G or G norm rm thus obtained corresponds to the set of corrections to be made to the decoded multichannel signal.
  • Figure 5 now shows another embodiment of the method for determining the set of corrections implemented in block 380 of Figure
  • the information representative of the spatial image of the original multichannel signal and of the decoded multichannel signal are the respective covariance matrices C and
  • a transformation matrix T to be applied to the decoded signal is determined, so that the spatial image modified after application of the transformation matrix T to the decoded signal is the same as that of the original signal B.
  • C BB T is the covariance matrix of B and is the covariance matrix of , in the current frame.
  • the matrix A must be a positive definite symmetric matrix (real case) or a definite Hermitian matrix. positive (complex case); in the real case, the diagonal coefficients of L are strictly positive.
  • Ax b
  • the Cholesky factorization cannot be used as is.
  • the matrices L and are lower triangular (respectively upper)
  • the transformation matrix T is also lower triangular (respectively upper).
  • block 510 forces the covariance matrix C to be positive definite.
  • block 520 forces the covariance matrix to be positive definite, by modifying this matrix in the form, where ⁇ is a weak value set for example at 10 -9 and I is the identity matrix.
  • block 530 calculates the associated Cholesky factorizations and finds (Det.T) the optimal transformation matrix T in the form
  • an alternative resolution can be made with an eigenvalue decomposition.
  • the decomposition into eigenvalues consists in factoring a real or complex matrix A of size n x n in the form:
  • A Q ⁇ Q -1
  • A is a diagonal matrix containing the eigenvalues ⁇ i and Q is the matrix of eigenvectors.
  • the stability of the solution from one frame to another is typically poorer than with a Cholesky factorization approach. To this instability are added larger approximations of calculation potentially larger during the decomposition into eigenvalues.
  • Block 640 optionally takes care of normalizing (Norm. T) this correction.
  • a normalization factor is therefore calculated so as not to amplify frequency zones.
  • the normalization factor g norm can be determined without calculating the entire matrix R, because it suffices to calculate only a subset of matrix elements to determine R 00 (and therefore g norm ).
  • the matrix T or T norm thus obtained corresponds to the set of corrections to be made to the decoded multichannel signal.
  • the block 390 of FIG. 3 performs the step of correcting the decoded multichannel signal by applying the transformation matrix T or T norm directly to the decoded multichannel signal, in the ambisonic domain, to obtain the ambisonic signal of output corrected (corr).
  • FIG. 6 A second embodiment of an encoder / decoder according to the invention will now be described in which the method for determining the set of corrections is implemented at the encoder.
  • Figure 6 describes this embodiment.
  • This figure therefore represents a second embodiment of an encoding device and of a decoding device for the implementation of a coding and decoding method. including a method for determining a set of corrections as described with reference to FIG. 2.
  • the method of determining the set of corrections is carried out to the encoder which then transmits this set of corrections to the decoder.
  • the decoder decodes this set of corrections to apply it to the decoded multichannel signal.
  • Oe embodiment therefore involves implementing a local decoding at the encoder, this local decoding is represented by blocks 612 to 613.
  • the blocks 610, 611, 620 and 621 are identical respectively to the blocks 310, 311, 320 and 321 described with reference to FIG. 3.
  • Block 612 implements local decoding (DEc_loc) in connection with the coding performed by block 611.
  • the local decoding can consist of a complete decoding from the binary train coming from the block 611 or, preferably, it can be integrated into the block 611.
  • the decoded multichannel signal is obtained at the output of local decoding block 612.
  • the local decoding implemented in block 612 makes it possible to obtain a decoded audio signal which is sent as input to block 613 of upmix.
  • block 613 implements an optional step (UPMIX) of increasing the number of channels.
  • this step for the channel of a mono signal , it consists in convolving the signal by different room spatial impulse responses (SRIR for “Spatial Room Impulse Response”); these SRIRs are defined in the original ambisonic order of B.
  • SRIR room spatial impulse responses
  • Other decorrelation methods are possible, for example the application of all-pass decorrelator filters to the different channels of the signal.
  • the block 614 implements an optional step (SB) of division into sub-bands to obtain either sub-bands in the time domain or in a transformed domain.
  • Block 615 determines (Inf) information representative of a spatial image of the decoded multichannel signal similarly to what has been described for blocks 621 and 321 (for the original multichannel signal), applied this time. to the decoded multichannel signal obtained at the output of block 612 or of block 613 according to the modes for performing local decoding. This block 615 is equivalent to block 375 of figure
  • this information is energy information associated with directions of origin of sound (associated with directions of virtual speakers distributed over a unit sphere) .
  • an SRP or other type method can be used to determine the spatial image of the decoded multichannel signal.
  • this information is a covariance matrix of the channels of the decoded multichannel signal. This covariance matrix is then obtained as follows: up to a normalization factor (in the real case) or up to a normalization factor (in the complex case)
  • the covariance matrices C and , block 680 implements the method for determining (Det.Gorr) a set of corrections as described with reference to FIG. 2.
  • a method using speaker rendering is used and in the embodiment of FIG. 5, a method implemented directly in the ambisonic domain based on a factorization of the Cholesky type or by eigenvalue decomposition is used.
  • the determined set of corrections is a set of gains g n for a set of directions ( ⁇ n , ⁇ n ) defined by a set of virtual loudspeakers.
  • This set of gains can be determined in the form of a correction matrix G as described with reference to FIG. 4.
  • This set of gains (Gorr.) Is then coded at 640.
  • the coding of this set of gains can consist in coding the correction matrix G or G norm .
  • the matrix G of size KxK is symmetrical, so according to the invention it is possible to code only the lower or upper triangle of G or G norm , i.e.
  • Kx (K + 1) / 2 values In general, the values on the diagonal are positive.
  • the coding of the matrix G or G norm is carried out by scalar quantization (with or without a sign bit) depending on whether the values are outside the diagonal or not.
  • G norm the coding of the matrix G or G norm is carried out by scalar quantization (with or without a sign bit) depending on whether the values are outside the diagonal or not.
  • G norm we can omit to code and transmit the first value of the diagonal (corresponding to the omnidirectional component) of G norm because it is always at 1; for example in the ambisonic case of order 1 to
  • other scalar or vector quantization methods (with or without prediction) could be used.
  • the determined set of corrections is a transformation matrix T or T norm which is then coded at 640.
  • the matrix T of size KxK is triangular in the variant using Cholesky factorization and symmetric in the variant using the eigenvalue decomposition; thus according to the invention it is possible to code only the lower or upper triangle of T or T norm , ie Kx (K + 1) / 2 values.
  • the values on the diagonal are positive.
  • the coding of the T or T norm matrix is performed by scalar quantization (with or without a sign bit) depending on whether the values are outside the diagonal or not.
  • other scalar or vector quantization methods could be used.
  • Block 640 thus encodes the determined set of corrections and sends the encoded set of corrections to multiplexer 650.
  • the decoder receives in the demultiplexer block 660, a bit stream comprising an encoded audio signal from the original multichannel signal and the encoded set of corrections to be applied to the decoded multichannel signal.
  • Block 670 decodes (Q -1 ) the encoded set of corrections.
  • Block 680 decodes (DEC) the encoded audio signal received in the stream.
  • the decoded multichannel signal is obtained at the output of decoding block 680.
  • the decoding implemented in block 680 provides a decoded audio signal which is input to upmix block 681.
  • block 681 implements an optional step (UPMIX) of increasing the number of channels.
  • this step for the channel of a mono signal, it consists in convolving the signal by different responses room spatial impulses (SRIR for “Spatial Room Impulse Response”); these SRIRs are defined in the original ambisonic order of B.
  • SRIR room spatial impulses
  • Other decorrelation methods are possible, for example the application of all-pass decorrelator filters to the different channels of the signal.
  • the block 682 implements an optional step (SB) of division into sub-bands to obtain either sub-bands in the time domain or in a transformed domain and the block 691 groups the sub-bands to find the output multichannel signal .
  • SB optional step
  • Block 690 implements a correction (CORR) of the multi-channel signal decoded by the set of corrections decoded at block 670 to obtain a corrected decoded multi-channel signal (Corr).
  • CORR correction
  • the set of corrections is a set of gains as described with reference to FIG. 4, this set of gains is received at the input of the correction block 690.
  • the set of gains is in the form of a correction matrix directly applicable to the decoded multichannel signal, defined, for example in the form
  • G E.diag ([g 0 ... g N-1 ]).
  • D or G norm g norm .G, this matrix G or G norm is then applied to the decoded multichannel signal S to obtain the ambisonic output signal corrected (Corr).
  • the block 690 receives a set of gains g n , the block 690 applies for each virtual loudspeaker, the corresponding gain g n.
  • the application of this gain makes it possible to obtain, on this loudspeaker, the same energy as the original signal.
  • An acoustic encoding step for example ambisonic encoding, is then implemented to obtain components of the multichannel signal, for example ambisonic components. These ambisonic components are then summed to obtain the multichannel output signal, corrected (Corr).
  • the transformation matrix T decoded at 670 is received at the input of the correction block 690.
  • block 690 performs the step of correcting the decoded multichannel signal by applying the T or T norm transformation matrix directly to the decoded multichannel signal, in the ambisonic domain, to obtain the corrected ambisonic output signal ( Corr).
  • FIG. 7 shows a DCOD encoding device and a DDEC decoding device; within the meaning of the invention, these devices being dual from each other (in the sense of “reversible”) and connected to each other by a communication network RES.
  • the DCOD coding device comprises a processing circuit typically including:
  • a memory ⁇ EM1 for storing instruction data of a computer program within the meaning of the invention (these instructions can be distributed between the DOOD encoder and the DDEC decoder);
  • an interface INT1 for receiving an original multichannel signal B for example an ambisonic signal distributed over different channels (for example four channels W, Y, Z, X at order 1) with a view to its coding in compression within the meaning of the invention;
  • processor PROC1 for receiving this signal and processing it by executing the computer program instructions stored in the memory ⁇ BM1, with a view to its coding
  • COM 1 communication interface for transmitting the coded signals via the network.
  • the DDEC decoding device comprises its own processing circuit, typically including:
  • a memory ⁇ EM2 for storing instruction data of a computer program within the meaning of the invention (these instructions can be distributed between the DOOD encoder and the DDEC decoder as indicated above);
  • a PAOC2 processor for processing these signals by executing the computer program instructions stored in the memory ⁇ EM2, with a view to their decoding;
  • an output interface INT2 to deliver the corrected decoded signals (Corr) for example in the form of ambisonic channels W..X, with a view to their reproduction.
  • FIG. 7 illustrates an example of a structural embodiment of a codec (encoder or decoder) within the meaning of the invention.
  • Figures 3 to 6 commented above describe in detail rather functional embodiments of these coded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The invention relates to a method for determining a set of corrections (Corr.) to be made to a multichannel sound signal, in which the set of corrections is determined on the basis of an item of information representative of a spatial image of an original multichannel signal (Inf.B) and an item of information representative of a spatial image of the original multichannel signal that has been coded and then decoded (Inf. B). The invention also relates to a decoding method and a coding method implementing the determining method, and to the associated coding and decoding devices.

Description

DESCRIPTION DESCRIPTION
Titre: Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés Title: Determination of corrections to be applied to a multichannel audio signal, associated encoding and decoding
La présente invention concerne le codage/décodage de données sonores spatialisées, notamment en contexte ambiophonique (noté ci-après également « ambisonique »). The present invention relates to the encoding / decoding of spatialized sound data, in particular in a surround sound context (hereinafter also referred to as “ambisonic”).
Les codeurs/décodeurs (ci-après appelés « codées ») qui sont utilisés actuellement en téléphonie mobile sont mono (un seul canal de signal pour une restitution sur un seul haut-parleur). Le codée 3GPP EVS (pour « Enhanced Voice Services ») permet d’offrir une qualité « Super- HD » (aussi appelée voix « Haute Définition Rus » ou HD+) avec une bande audio en bande super-éiargie (SWB pour « super-wideband » en anglais) pour des signaux échantillonnés à 32 ou 48 kHz ou pleine bande (FB pour « Fullband ») pour des signaux échantillonnés à 48 kHz ; la largeur de bande audio est de 14,4 à 16 kHz en mode SWB (de 9,6 à 128 kbit/s) et de 20 kHz en mode FB (de 16,4 à 128 kbit/s). The encoders / decoders (hereinafter called “coded”) which are currently used in mobile telephony are mono (a single signal channel for reproduction on a single loudspeaker). The 3GPP EVS (for “Enhanced Voice Services”) code makes it possible to offer “Super-HD” quality (also called “High Definition Rus” or HD + voice) with a super-widened audio band (SWB for “super- wideband ”in English) for signals sampled at 32 or 48 kHz or full band (FB for“ Fullband ”) for signals sampled at 48 kHz; the audio bandwidth is 14.4 to 16 kHz in SWB mode (9.6 to 128 kbit / s) and 20 kHz in FB mode (16.4 to 128 kbit / s).
La prochaine évolution de qualité dans les services conversationnels proposés par les opérateurs devrait être constituée par les services immersifs, en utilisant des terminaux tels que des smartphones équipés de plusieurs microphones ou des équipements de conférence audio spatialisée ou de visioconférence de type télé- présence ou vidéo 360°, ou encore des équipements de partage de contenus audio « live », avec un rendu sonore spatialisé en 3D autrement plus immersif qu'une simple restitution stéréo 2D. Avec les usages de plus en plus répandus d’écoute sur téléphone mobile avec un casque audio et l’apparition d’équipements audio avancés (accessoires tels qu’un microphone 3D, assistants vocaux avec antennes acoustiques, casques de réalité virtuelle, etc.) la captation et le rendu de scènes sonores spatialisées sont désormais assez communes pour offrir une expérience de communication immersive. The next quality evolution in conversational services offered by operators should be immersive services, using terminals such as smartphones equipped with several microphones or spatialized audio conferencing or videoconferencing equipment such as tele-presence or video. 360 °, or even “live” audio content sharing equipment, with spatialized 3D sound rendering that is far more immersive than a simple 2D stereo reproduction. With the increasingly widespread use of listening on mobile phones with an audio headset and the appearance of advanced audio equipment (accessories such as a 3D microphone, voice assistants with acoustic antennas, virtual reality headsets, etc.) the capture and rendering of spatialized sound scenes are now common enough to offer an immersive communication experience.
Ace titre, la future norme 3GPP « IVAS » (pour « Immersive Voice And Audio Services ») propose l’extension du codée EVS à l’immersif en acceptant comme format d’entrée du codée au moins les formats de son spatialisé listés d-dessous (et leurs combinaisons): As such, the future 3GPP standard “IVAS” (for “Immersive Voice And Audio Services”) proposes the extension of the EVS code to the immersive by accepting as input format of the code at least the spatialized sound formats listed d- below (and their combinations):
- Format multicanal (channel-based en anglais) de type stéréo ou 5.1 où chaque canal vient alimenter un haut-parleur (par exemple L et R en stéréo ou L, R, Ls, Rs et C en 5.1) ; - Multichannel format (channel-based in English) of stereo or 5.1 type where each channel feeds a speaker (for example L and R in stereo or L, R, Ls, Rs and C in 5.1);
- Format objet (object-based en anglais) où des objets sonores sont décrits comme un signal audio (en général mono) associé à des métadonnées décrivant les attributs de cet objet (position dans l'espace, largeur spatiale de la source, etc.),- Object-based format where sound objects are described as an audio signal (generally mono) associated with metadata describing the attributes of this object (position in space, spatial width of the source, etc. ),
- Format ambisonique (scene-based en anglais) qui décrit le champ sonore en un point donné, en général capté par un microphone sphérique ou synthétisé dans le domaine des harmoniques sphériques. - Ambisonic format (scene-based in English) which describes the sound field at a given point, generally picked up by a spherical microphone or synthesized in the field of spherical harmonics.
On s’intéresse ci-après typiquement au codage d’un son au format ambisonique, à titre d’exemple de réalisation (au moins certains aspects présentés en lien avec l’invention ci-après pouvant également s’appliquer à d’autres formats que de l’ambisonique). Hereinafter, we are typically interested in the coding of a sound in ambisonic format, by way of exemplary embodiment (at least certain aspects presented in connection with the invention below can also be applied to other formats. than ambisonics).
L'ambisonique est une méthode d’enregistrement (« codage » au sens acoustique) de son spatialisé et un système de reproduction (« décodage » au sens acoustique). Un microphone ambisonique (à l’ordre 1) comprend au moins quatre capsules (typiquement de type cardioïde ou sous-cardioïde) arrangées sur une grille sphérique, par exemple les sommets d’un tétraèdre régulier. Les canaux audio assodés à ces capsules s’appellent le « A-format ». Ce format est converti dans un « B-format », dans lequel le champ sonore est décomposé en quatre composantes (harmoniques sphériques) notées W, X, Y, Z, qui correspondent à quatre microphones virtuels coïncidents. La composante W correspond à une captation omnidirectionnelle du champ sonore alors que les composantes X, Y et Z, plus directives, sont assimilables à des microphones à gradients de pression orientés suivant les trois axes orthogonaux de l’espace. Un système ambisonique est un système flexible dans le sens où l’enregistrement et la restitution sont séparés et découplés. Il permet un décodage (au sens acoustique) sur une configuration quelconque de haut-parleurs (par exemple, binaural, son « surround » de type 5.1 ou périphonie (avec élévation) de type 7.1.4). L'approche ambisonique peut être généralisée à plus de quatre canaux en B-format et cette représentation généralisée est couramment nommée « HOA » (pour « Higher-Order Ambisonics »). Le fait de décomposer le son sur plus d’harmoniques sphériques améliore la prédsion spatiale de restitution lors d’un rendu sur haut-parleurs. Un signal ambisonique à l'ordre M comprend K=(M+ 1)2 composantes et, à l’ordre 1 (si M= 1), on retrouve les quatre composantes W, X, Y, et Z, couramment appelé FOA (pour First-Order Ambisonics). Il existe aussi une variante dite « planaire » de l’ambisonique (W, X, Y) qui décompose le son défini dans un plan qui est en général le plan horizontal. Dans ce cas, le nombre de composantes est de K =2M+ 1 canaux.Ambisonics is a recording method (“encoding” in the acoustic sense) of spatialized sound and a reproduction system (“decoding” in the acoustic sense). An ambisonic microphone (at order 1) comprises at least four capsules (typically of the cardioid or sub-cardioid type) arranged on a spherical grid, for example the vertices of a regular tetrahedron. The audio channels associated with these capsules are called “A-format”. This format is converted into a “B-format”, in which the sound field is broken down into four components (spherical harmonics) denoted W, X, Y, Z, which correspond to four coincident virtual microphones. The W component corresponds to an omnidirectional capture of the sound field while the X, Y and Z components, which are more directive, can be compared to microphones with pressure gradients oriented along the three orthogonal axes of space. An ambisonic system is a flexible system in the sense that recording and playback are separate and decoupled. It allows decoding (in the acoustic sense) on any speaker configuration (for example, binaural, 5.1-type “surround” sound or 7.1.4-type periphery (with elevation)). The ambisonics approach can be generalized to more than four channels in B-format and this generalized representation is commonly referred to as “HOA” (for “Higher-Order Ambisonics”). The fact of breaking down the sound on more spherical harmonics improves the spatial predsion of reproduction when rendering on loudspeakers. An ambisonic signal at order M comprises K = (M + 1) 2 components and, at order 1 (if M = 1), we find the four components W, X, Y, and Z, commonly called FOA (for First-Order Ambisonics). There is also a so-called "planar" variant of ambisonics (W, X, Y) which decomposes the sound defined in a plane which is generally the horizontal plane. In this case, the number of components is K = 2M + 1 channels.
L'ambisonique d’ordre 1 (4 canaux : W, X, Y , Z), l’ambisonique d’ordre 1 planaire (3 canaux : W, X, Y), l’ambisonique d’ordre supérieur sont tous désignés ci-après par « ambisonique » indistinctement pour faciliter la lecture, les traitements présentés étant applicables indépendamment du type planaire ou non et du nombre de composantes ambisoniques. 1st order ambisonics (4 channels: W, X, Y, Z), 1st order planar ambisonics (3 channels: W, X, Y), higher order ambisonics are all referred to here -after “ambisonics” indiscriminately to facilitate reading, the treatments presented being applicable independently of the planar type or not and of the number of ambisonic components.
Par la suite, on appellera « signal ambisonique » un signal en B-format à un ordre prédéterminé avec un certain nombre de composantes ambisoniques. Cela comprend également les cas hybrides, où par exemple à l’ordre 2 on ne dispose que de 8 canaux (au lieu de 9) - plus prédsément, à l’ordre 2, on retrouve les 4 canaux de l’ordre 1 (W, X, Y, Z) auxquels on ajoute normalement 5 canaux (habituellement notés R, S, T, U, V), et on peut par exemple ignorer un des canaux d’ordre supérieur (par exempleHereinafter, an “ambisonic signal” will be called a signal in B-format with a predetermined order with a certain number of ambisonic components. This also includes hybrid cases, where for example in order 2 there are only 8 channels (instead of 9) - more predsly, in order 2, we find the 4 channels of order 1 (W , X, Y, Z) to which we normally add 5 channels (usually denoted R, S, T, U, V), and we can for example ignore one of the higher order channels (for example
R). R).
Les signaux à traiter par le codeur/décodeur se présentent comme des successions de blocs d’échantillons sonores appelés « trames » ou « sous-trames » ci-après. The signals to be processed by the encoder / decoder are in the form of successions of blocks of sound samples called "frames" or "sub-frames" below.
En outre, ci-après, les notations mathématiques suivent la convention suivante :In addition, hereafter, the mathematical notations follow the following convention:
- Scalaire : s ou N (minuscule pour les variables ou majuscule pour les constantes)- Scalar: s or N (lowercase for variables or uppercase for constants)
- l’opérateur Re(.) désigne la partie réelle d’un nombre complexe - the operator Re (.) designates the real part of a complex number
- Vecteur : u (minuscule, gras) - Vector: u (lowercase, bold)
- Matrice : A (majuscule, gras) - Matrix: A (uppercase, bold)
Les notations AT et AH indique respectivement la transposition et la transposition hermitienne (transposée et conjuguée) de A. The notations A T and A H indicate respectively the transposition and the Hermitian transposition (transposed and conjugated) of A.
- Un signal unidimensionnel à temps discret, s(i), défini sur un intervalle temporel i=0, ..., L-1 de longueur L est représenté par un vecteur ligne s=[s(0,) ...,s(L-1)] - A one-dimensional discrete-time signal, s (i), defined over a time interval i = 0, ..., L-1 of length L is represented by a row vector s = [s (0,) ..., s (L-1)]
On pourra aussi écrire : s = [S0,.., SL-1 ] pour éviter l'usage des parenthèses. We can also write: s = [S 0 , .., S L-1 ] to avoid the use of parentheses.
- Un signal multidimensionnel à temps discret, b(i), défini sur un intervalle temporel i=0, .., L-1 de longueur L et à K dimensions est représenté par une matrice de taille - A multidimensional discrete-time signal, b (i), defined over a time interval i = 0, .., L-1 of length L and with K dimensions is represented by a matrix of size
On pourra aussi noter : B = [Bij], i=0,..K-1 , j=0..L-1 , pour éviter l'usage des parenthèses. We can also note: B = [B ij ], i = 0, .. K-1, j = 0..L-1, to avoid the use of parentheses.
- Un point 3D de coordonnées cartésiennes (x,y,z) peut être converti en coordonnées sphériques (r, Θ ,φ), où r est la distance à l'origine, Θ est l’azimut et φ l’élévation. On utilise ici, sans perte de généralité, la convention mathématique où l’élévation est définie par rapport au plan horizontal (0xy) ; l’invention peut être facilement adaptée à d’autres définitions, dont la convention utilisée en physique où l’azimut est défini par rapport à l’axe Oz. - A 3D point of Cartesian coordinates (x, y, z) can be converted to spherical coordinates (r, Θ, φ), where r is the distance to the origin, Θ is the azimuth and φ the elevation. We use here, without loss of generality, the mathematical convention where the elevation is defined with respect to the horizontal plane (0xy); the invention can be easily adapted to other definitions, including the convention used in physics where the azimuth is defined with respect to the Oz axis.
Par ailleurs, on ne rappelle pas ici les conventions connues de l’état de l’art en ambisonique concernant l’ordre des composantes ambisoniques (dont ACN pour Ambisonic Channel Number, SID pour Sngle Index Désignation, FUMA pour Furse- Malham) et la normalisation des composantes ambisoniques (SN3D, N3D, maxN). Plus de détails peuvent être trouvés par exemple dans la ressource disponible en ligne : https://en.wikipedia.org/wiki/Ambisonic data exchange formats Par convention, la première composante d’un signal ambisonique correspond en général à la composante omnidirectionnelle W. In addition, we do not recall here the conventions known to the state of the art in ambisonics concerning the order of the ambisonic components (including ACN for Ambisonic Channel Number, SID for Sngle Index Designation, FUMA for Furse-Malham) and the normalization of ambisonic components (SN3D, N3D, maxN). More details can be found for example in the resource available online: https://en.wikipedia.org/wiki/Ambisonic data exchange formats By convention, the first component of an ambisonic signal generally corresponds to the omnidirectional component W .
L'approche la plus simple pour coder un signal ambisonique consiste à utiliser un codeur mono et à l’appliquer en parallèle à tous les canaux avec éventuellement une allocation des bits différente selon les canaux. Cette approche est appelée ici « multi- mono ». On peut étendre l’approche multi-mono à du codage multi-stéréo (où des paires de canaux sont codées séparément par un codée stéréo) ou plus généralement à l’utilisation de plusieurs instances parallèles d’un même codée cœur. The simplest approach to encoding an ambisonic signal is to use a mono encoder and apply it in parallel to all channels, possibly with different bit allocation depending on the channel. This approach is referred to herein as “multi-mono”. The multi-mono approach can be extended to multi-stereo coding (where pairs of channels are coded separately by a stereo coded) or more generally to the use of several parallel instances of the same core coded.
Une telle réalisation est présentée à la figure 1. Le signal d'entrée est divisé en canaux (un canal mono ou plusieurs canaux) par le bloc 100. Oes canaux sont codés séparément par les blocs 120 à 122 en fonction d’une répartition et d’une allocation binaire prédéterminées. Leur train binaire est multiplexé (bloc 130) et après transmission et/ou stockage, il est démultiplexé (bloc 140) pour appliquer un décodage pour reconstruire les canaux décodés (blocs 150 à 152) qui sont recombinés (bloc 160). Such an embodiment is shown in FIG. 1. The input signal is divided into channels (a mono channel or several channels) by the block 100. These channels are coded separately by the blocks 120 to 122 according to a distribution and of a predetermined binary allocation. Their bit stream is multiplexed (block 130) and after transmission and / or storage, it is demultiplexed (block 140) to apply a decoding to reconstruct the decoded channels (blocks 150 to 152) which are recombined (block 160).
La qualité associée varie selon le codage et le décodage cœur utilisé (blocs 120 à 122 et 150 à 152), et elle n'est en général satisfaisante qu’à très haut débit. Par exemple, dans le cas multimono, le codage EVS peut être jugé quasi-transparent (d’un point de vue perceptif) à un débit d’au moins 48 kbit/s par canal (mono); ainsi pour un signal ambisonique à l’ordre 1 on obtient un débit minimal de 4x48 = 192 kbit/s.The associated quality varies depending on the core encoding and decoding used (blocks 120 to 122 and 150 to 152), and it is generally only satisfactory at very high speed. For example, in the multimono case, the EVS encoding can be considered quasi-transparent (perceptually) at a rate of at least 48 kbit / s per channel (mono); thus for an ambisonic signal of order 1 we obtain a minimum bit rate of 4x48 = 192 kbit / s.
L'approche de codage multi-mono ne prenant pas en compte la corrélation entre canaux, elle produit des déformations spatiales avec l’ajout de différents artéfacts comme l’apparition de sources sonores fantômes, de bruits diffus ou de déplacements des trajectoires de sources sonores. Ainsi, le codage d’un signal ambisonique selon cette approche engendre des dégradations de la spatialisation. The multi-mono coding approach does not take into account the correlation between channels, it produces spatial distortions with the addition of different artefacts such as the appearance of phantom sound sources, diffuse noise or movements of the trajectories of sound sources. . Thus, the encoding of an ambisonic signal according to this approach generates degradation of spatialization.
Une approche alternative au codage séparé de tous les canaux est donnée, pour un signal stéréo ou multicanal, par le codage paramétrique. Pour ce type de codage, le signal multicanal d’entrée est réduit en nombre plus faible de canaux, après un traitement appelé « downmix », ces canaux sont codés et transmis et des informations de spatialisation supplémentaires sont également codées. Le décodage paramétrique consiste à augmenter le nombre de canaux après décodage des canaux transmis, en utilisant un traitement appelé « upmix » (typiquement mis en œuvre par décorrélation) et une synthèse spatiale en fonction des informations de spatialisation supplémentaires décodées. Un exemple de codage paramétrique stéréo est donné par le codée 3GPP e-AAC+ . On notera que l’opération de downmix engendre aussi des dégradations de la spatialisation ; dans ce cas, l’image spatiale est modifiée. An alternative approach to coding all channels separately is given, for a stereo or multichannel signal, by parametric coding. For this type of encoding, the input multichannel signal is reduced to a smaller number of channels, after a processing called "downmix", these channels are encoded and transmitted and additional spatialization information is also encoded. Parametric decoding consists in increasing the number of channels after decoding of the transmitted channels, by using a processing called “upmix” (typically implemented by decorrelation) and a spatial synthesis as a function of the additional decoded spatialization information. An example of stereo parametric coding is given by the 3GPP e-AAC + codec. It should be noted that the downmix operation also generates degradation of spatialization; in this case, the spatial image is changed.
L'invention vient améliorer l'état de la technique. The invention improves the state of the art.
Elle propose à cet effet, un procédé de détermination d’un ensemble de corrections à apporter à un signal sonore multicanal, dans lequel l’ensemble de corrections est déterminé à partir d’une information représentative d’une image spatiale d’un signal multicanal d’origine et d’une information représentative d’une image spatiale du signal multicanal d’origine codé puis décodé. For this purpose, it proposes a method for determining a set of corrections to be made to a multichannel sound signal, in which the set of corrections is determined from information representative of a spatial image of a multichannel signal. source and a piece of information representative of a spatial image of the original encoded and decoded multichannel signal.
Ainsi, l’ensemble de corrections déterminé, à appliquer au signal multicanal décodé, permet de limiter les dégradations spatiales dues au codage et éventuellement à des opérations de réduction/augmentation de canaux. La mise en œuvre de la correction permet ainsi de retrouver une image spatiale du signal multicanal décodé la plus proche de l'image spatiale du signal multicanal d’origine. Thus, the determined set of corrections, to be applied to the decoded multichannel signal, makes it possible to limit the spatial degradations due to the coding and possibly to channel reduction / increase operations. The implementation of the correction thus makes it possible to find a spatial image of the decoded multichannel signal closest to the spatial image of the original multichannel signal.
Dans un mode de réalisation particulier, la détermination de l’ensemble de corrections est effectuée dans le domaine temporel en pleine bande (une bande de fréquence). Dans des variantes, elle est effectuée dans le domaine temporel par sous-bande de fréquence. Cela permet d’adapter les corrections selon les bandes de fréquences. Dans d’autres variantes, elle est effectuée dans un domaine transformé réel ou complexe (typiquement fréquentiel) de type transformée de Fourier discrète court- terme (STFT), transformée en cosinus discrète modifiée (MDCT), ou autre. In a particular embodiment, the determination of the set of corrections is performed in the full band time domain (a frequency band). In variants, it is performed in the time domain by frequency sub-band. This makes it possible to adapt the corrections according to the frequency bands. In other variants, it is performed in a real or complex transformed domain (typically frequency) of the short-term discrete Fourier transform (STFT), modified discrete cosine transform (MDCT), or other type.
L'invention se rapporte également à un procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes : The invention also relates to a method for decoding a multichannel sound signal, comprising the following steps:
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et une information représentative d’une image spatiale du signal multicanal d’origine ; - reception of a binary stream comprising an encoded audio signal from an original multichannel signal and information representative of a spatial image of the original multichannel signal;
- décodage du signal audio codé reçu et obtention d’un signal multicanal décodé ;- decoding of the received encoded audio signal and obtaining a decoded multichannel signal;
- décodage de l’information représentative d’une image spatiale du signal multicanal d’origine ; - decoding of information representative of a spatial image of the original multichannel signal;
- détermination d’une information représentative d’une image spatiale du signal multicanal décodé ; - determination of information representative of a spatial image of the decoded multichannel signal;
- détermination d’un ensemble de corrections à apporter au signal décodé selon le procédé de détermination décrit d-dessus ; - determination of a set of corrections to be made to the decoded signal according to the determination method described above;
- correction du signal multicanal décodé par l’ensemble de corrections déterminé. Ainsi, dans ce mode de réalisation, le décodeur est apte à déterminer les corrections à apporter au signal multicanal décodé, à partir d’une information représentative de l’image spatiale du signal multicanal d’origine, reçue du codeur. L'information reçue du codeur est ainsi limitée. Cest le décodeur qui prend en charge à la fois la détermination et l’application des corrections. - correction of the multi-channel signal decoded by the determined set of corrections. Thus, in this embodiment, the decoder is able to determine the corrections to be made to the decoded multichannel signal, from information representative of the spatial image of the original multichannel signal, received from the encoder. The information received from the encoder is thus limited. It is the decoder that takes care of both determining and applying corrections.
L'invention se rapporte également à un procédé de codage d’un signal sonore multicanal, comportant les étapes suivantes : The invention also relates to a method for encoding a multichannel sound signal, comprising the following steps:
- codage d’un signal audio issu d’un signal multicanal d’origine; - encoding of an audio signal from an original multichannel signal;
- détermination d’une information représentative d’une image spatiale du signal multicanal d’origine ; - determination of information representative of a spatial image of the original multichannel signal;
- décodage local du signal audio codé et obtention d’un signal multicanal décodé;- local decoding of the encoded audio signal and obtaining a decoded multichannel signal;
- détermination d’une information représentative d’une image spatiale du signal multicanal décodé ; - determination of information representative of a spatial image of the signal multi-channel decoded;
- détermination d'un ensemble de corrections à apporter au signal multicanal décodé selon le procédé de détermination décrit précédemment ; - determination of a set of corrections to be made to the decoded multichannel signal according to the determination method described above;
- codage de l’ensemble de corrections déterminé. - coding of the determined set of corrections.
Dans ce mode de réalisation, c’est le codeur qui détermine l’ensemble de corrections à apporter au signal multicanal décodé et qui le transmet au décodeur. Cest donc le codeur qui est à l’initiative de cette détermination de corrections. In this embodiment, it is the encoder which determines the set of corrections to be made to the decoded multichannel signal and which transmits it to the decoder. It is therefore the coder who initiates this determination of corrections.
Dans un premier mode de réalisation particulier du procédé de décodage tel que décrit précédemment ou du procédé de codage tel que décrit précédemment, l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte en outre les étapes suivantes :In a first particular embodiment of the decoding method as described above or of the encoding method as described above, the information representative of a spatial image is a covariance matrix and the determination of the set of corrections comprises in in addition to the following steps:
- obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels ; - obtaining a weighting matrix comprising weighting vectors associated with a set of virtual loudspeakers;
- détermination d’une image spatiale du signal multicanal d’origine à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal d’origine reçue ; - determination of a spatial image of the original multichannel signal from the weighting matrix obtained and from the covariance matrix of the original multichannel signal received;
- détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal décodé déterminé; - determination of a spatial image of the decoded multichannel signal from the weighting matrix obtained and from the covariance matrix of the determined decoded multichannel signal;
- calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains. - calculating a ratio between the spatial image of the original multichannel signal and the spatial image of the decoded multichannel signal at the speaker directions of the virtual speaker set, to obtain a set of gains.
Selon ce mode de réalisation, cette méthode utilisant le rendu sur haut-parleurs permet de ne transmettre qu’une quantité limitée de données du codeur vers le décodeur. En effet, pour un ordre donné M, K=(M+1)2 coefficients à transmettre (associés à autant de haut-parleurs virtuels) peuvent être suffisants, mais pour une correction plus stable il peut être recommandé d’utiliser plus de haut-parleurs virtuels et donc de transmettre plus de points. De plus, la correction est facilement interprétable en termes de gains associés à des haut-parleurs virtuels. According to this embodiment, this method using rendering on loudspeakers makes it possible to transmit only a limited quantity of data from the encoder to the decoder. Indeed, for a given order M, K = (M + 1) 2 coefficients to be transmitted (associated with as many virtual loudspeakers) may be sufficient, but for a more stable correction it may be recommended to use more height -virtual speakers and therefore transmit more points. In addition, the correction can be easily interpreted in terms of the gains associated with virtual loudspeakers.
Dans une autre variante de réalisation, dans le cas où le codeur détermine directement l’énergie du signal selon différentes directions et transmet cette image spatiale du signal multicanal d’origine au décodeur, la détermination de l’ensemble de corrections du procédé de décodage comporte en outre les étapes suivantes : - obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels ; In another variant embodiment, in the case where the encoder directly determines the energy of the signal in different directions and transmits this spatial image of the original multichannel signal to the decoder, the determination of the set of corrections of the decoding method comprises furthermore the following steps: - Obtaining a weighting matrix comprising weighting vectors associated with a set of virtual loudspeakers;
- détermination d' une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de l’information représentative d’une image spatiale du signal multicanal décodé déterminé; - determination of a spatial image of the decoded multichannel signal from the weighting matrix obtained and from the information representative of a spatial image of the determined decoded multichannel signal;
- calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains. - calculating a ratio between the spatial image of the original multichannel signal and the spatial image of the decoded multichannel signal at the speaker directions of the virtual speaker set, to obtain a set of gains.
Afin de garantir une valeur de correction qui ne soit pas trop brutale, le procédé de décodage ou le procédé de codage, comporte une étape de limitation des valeurs de gains obtenus selon au moins un seuil. In order to guarantee a correction value which is not too abrupt, the decoding method or the encoding method comprises a step of limiting the values of gains obtained according to at least one threshold.
Get ensemble de gains constitue l’ensemble de corrections et peut être par exemple sous la forme d’une matrice de correction comportant l’ensemble des gains ainsi déterminés. Get set of gains constitutes the set of corrections and may for example be in the form of a correction matrix comprising all of the gains thus determined.
Dans un deuxième mode de réalisation particulier du procédé de décodage ou du procédé de codage, l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte une étape de détermination d’une matrice de transformation par décomposition matricielle des deux matrices de covariance, la matrice de transformation constituant l’ensemble des corrections. In a second particular embodiment of the decoding method or of the encoding method, the information representative of a spatial image is a covariance matrix and the determination of the set of corrections comprises a step of determining a matrix of transformation by matrix decomposition of the two covariance matrices, the transformation matrix constituting the set of corrections.
Ge mode de réalisation a l’avantage d’apporter les corrections directement dans le domaine ambisonique dans le cas d’un signal multicanal ambisonique. Les étapes de transformation des signaux restitués sur haut-parleurs vers le domaine ambisonique étant ainsi évitées. Ge mode de réalisation permet de plus d’optimiser la correction pour qu’elle soit optimale mathématiquement même si elle nécessite la transmission d’un plus grand nombre de coefficients par rapport à la méthode avec rendu sur haut-parleurs. En effet, pour un ordre M et par conséquent un nombre de composantes K=(M+ 1)2, le nombre de coefficients à transmettre est de Kx(K+ 1)/2. Afin d’éviter d’amplifier de manière trop importante sur certaines zones fréquentielles, un facteur de normalisation est déterminé et appliqué à la matrice de transformation. Dans le cas où l’ensemble de corrections est représenté par une matrice de transformation ou une matrice de correction comme décrit d-dessus, la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée par l’application de l'ensemble de corrections au signal multicanal décodé, c’est-à-dire directement dans le domaine ambisonique dans le cas d’un signal ambisonique.This embodiment has the advantage of making the corrections directly in the ambisonic domain in the case of an ambisonic multichannel signal. The steps of transforming the signals reproduced on loudspeakers into the ambisonic domain are thus avoided. This embodiment also makes it possible to optimize the correction so that it is mathematically optimal even if it requires the transmission of a greater number of coefficients compared to the method with rendering on loudspeakers. Indeed, for an order M and consequently a number of components K = (M + 1) 2 , the number of coefficients to be transmitted is Kx (K + 1) / 2. In order to avoid amplifying too much in certain frequency zones, a normalization factor is determined and applied to the transformation matrix. In the case where the set of corrections is represented by a transformation matrix or a correction matrix as described above, the correction of the multi-channel signal decoded by the determined set of corrections is performed by the application of the set of corrections to the decoded multichannel signal, that is to say directly in the ambisonic domain in the case of an ambisonic signal.
Dans le mode de réalisation par rendu sur haut-parleurs mis en œuvre par le décodeur, la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée selon les étapes suivantes : In the speaker rendering embodiment implemented by the decoder, the correction of the multichannel signal decoded by the determined set of corrections is performed according to the following steps:
- décodage acoustique du signal multicanal décodé sur l’ensemble défini de haut- parleurs virtuels ; - acoustic decoding of the decoded multichannel signal on the defined set of virtual speakers;
- application de l’ensemble de gains obtenu aux signaux issus du décodage acoustique ; - application of the set of gains obtained to the signals resulting from the acoustic decoding;
- codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ; - acoustic coding of the signals resulting from the acoustic decoding and corrected to obtain components of the multichannel signal;
- sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé. summation of the components of the multichannel signal thus obtained to obtain a corrected multichannel signal.
Dans une variante de réalisation, les étapes de décodage, application de gains et codage/ sommation d-dessus sont regroupées en une opération de correction directe par une matrice de correction. Dette matrice de correction peut être appliquée directement au signal multicanal décodé, ce qui a l’avantage comme décrit d-dessus d’apporter les corrections directement dans le domaine ambisonique. In an alternative embodiment, the steps of decoding, applying gains and encoding / summing above are grouped together in a direct correction operation by a correction matrix. This correction matrix can be applied directly to the decoded multichannel signal, which has the advantage as described above of making the corrections directly in the ambisonic domain.
Dans un deuxième mode de réalisation, où le procédé de codage met en œuvre le procédé de détermination de l’ensemble des corrections, le procédé de décodage comporte les étapes suivantes : In a second embodiment, where the encoding method implements the method for determining all of the corrections, the decoding method comprises the following steps:
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage décrit précédemment; - reception of a binary stream comprising an encoded audio signal from an original multichannel signal and a coded set of corrections to be made to the decoded multichannel signal, the set of corrections having been coded according to a coding method described above;
- décodage du signal audio codé reçu obtention d’un signal multicanal décodé; - decoding of the received encoded audio signal obtaining a decoded multichannel signal;
- décodage de l’ensemble codé de corrections ; - decoding of the coded set of corrections;
- correction du signal multicanal décodé par l’application de l’ensemble de corrections décodé au signal multicanal décodé. - correction of the decoded multichannel signal by applying the decoded set of corrections to the decoded multichannel signal.
Dans ce mode de réalisation, c’est le codeur qui détermine les corrections à apporter sur le signal multicanal décodé, directement dans le domaine ambisonique et c’est le décodeur qui met en œuvre l’application de ces corrections sur le signal multicanal décodé, directement dans le domaine ambisonique. L'ensemble de corrections peut être dans ce cas, une matrice de transformation ou bien une matrice de correction comportant un ensemble de gains. In this embodiment, it is the encoder which determines the corrections to be made to the decoded multichannel signal, directly in the ambisonic domain and it is the decoder which implements the application of these corrections to the decoded multichannel signal, directly in the ambisonic domain. The set of corrections can in this case be a transformation matrix or else a correction matrix comprising a set of gains.
Dans une variante de réalisation du procédé de décodage par rendu sur haut- parleurs, le procédé de décodage comporte les étapes suivantes : In an alternative embodiment of the decoding method by rendering on loudspeakers, the decoding method comprises the following steps:
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage tel que décrit précédemment; - reception of a binary stream comprising an encoded audio signal originating from an original multichannel signal and a coded set of corrections to be made to the decoded multichannel signal, the set of corrections having been coded according to a coding method as described previously;
- décodage du signal audio codé reçu et obtention d’un signal multicanal décodé;- decoding of the received encoded audio signal and obtaining a decoded multichannel signal;
- décodage de l’ensemble codé de corrections ; - decoding of the coded set of corrections;
- correction du signal multicanal décodé par l’ensemble de corrections décodé selon les étapes suivantes : - correction of the multi-channel signal decoded by the set of decoded corrections according to the following steps:
. décodage acoustique du signal multicanal décodé sur l’ensemble défini de haut- parleurs virtuels; . acoustic decoding of the decoded multichannel signal on the defined set of virtual speakers;
. application de l’ensemble de gains obtenu aux signaux issus du décodage acoustique; . application of the set of gains obtained to the signals resulting from the acoustic decoding;
. codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ; . acoustic coding of the signals resulting from the acoustic decoding and corrected to obtain components of the multichannel signal;
. sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé. . summation of the components of the multichannel signal thus obtained to obtain a corrected multichannel signal.
Dans ce mode de réalisation, c’est le codeur qui détermine les corrections à apporter sur les signaux issus du décodage acoustique sur un ensemble de haut-parleurs virtuels et c’est le décodeur qui met en œuvre l’application de ces corrections sur les signaux issus du décodage acoustique puis qui transforme ces signaux pour revenir dans le domaine ambisonique dans le cas d’un signal multicanal ambisonique. In this embodiment, it is the encoder which determines the corrections to be made to the signals resulting from the acoustic decoding on a set of virtual loudspeakers and it is the decoder which implements the application of these corrections to the signals. signals resulting from acoustic decoding then which transforms these signals to return to the ambisonic domain in the case of an ambisonic multichannel signal.
Dans une variante de réalisation, les étapes de décodage, application de gains et codage/sommation d-dessus sont regroupées en une opération de correction directe par une matrice de correction. La correction s’effectue alors directement par l’application d’une matrice de correction sur le signal multicanal décodé, par exemple le signal ambisonique. Comme décrit précédemment, ceci a l’avantage d’apporter les corrections directement dans le domaine ambisonique. In an alternative embodiment, the steps of decoding, applying gains and encoding / summing above are grouped together in a direct correction operation by a correction matrix. The correction is then carried out directly by applying a correction matrix to the decoded multichannel signal, for example the ambisonic signal. As described previously, this has the advantage of making corrections directly in the Ambisonic domain.
L'invention se rapporte également à un dispositif de décodage comportant un drcuit de traitement pour la mise en œuvre des procédés de décodage tel que décrit précédemment. L'invention se rapporte également à un dispositif de décodage comportant un circuit de traitement pour la mise en œuvre des procédés de codage tel que décrit précédemment. The invention also relates to a decoding device comprising a processing circuit for implementing the decoding methods as described above. The invention also relates to a decoding device comprising a processing circuit for implementing the coding methods as described above.
L'invention se rapporte à un programme informatique comportant des instructions pour la mise en œuvre des procédés de décodage ou des procédés de codage tels que décrits précédemment, lorsqu’ils sont exécutés par un processeur. The invention relates to a computer program comprising instructions for implementing decoding methods or encoding methods as described above, when they are executed by a processor.
Enfin, l’invention se rapporte à un support de stockage, lisible par un processeur, mémorisant un programme informatique comportant des instructions pour l’exécution des procédés de décodage ou des procédés de codage décrits précédemment. Finally, the invention relates to a storage medium, readable by a processor, storing a computer program comprising instructions for carrying out the decoding methods or the encoding methods described above.
D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels : Other characteristics and advantages of the invention will emerge more clearly on reading the following description of particular embodiments, given by way of simple illustrative and non-limiting examples, and the accompanying drawings, among which:
[Fig 1] La figure 1 illustre un codage multi-mono selon l’état de l’art et tel que décrit précédemment ; [Fig 1] Figure 1 illustrates multi-mono coding according to the state of the art and as described above;
[Fig 2] La figure 2 illustre sous forme d’organigramme, les étapes d’un procédé de détermination d’un ensemble de corrections selon un mode de réalisation de l’invention ; [Fig 2] Figure 2 illustrates in flowchart form the steps of a method for determining a set of corrections according to one embodiment of the invention;
[Fig 3] La figure 3 illustre un premier mode de réalisation d’un codeur et d’un décodeur, d’un procédé de codage et d’un procédé de décodage selon l’invention ; [Fig 4] La figure 4 illustre un premier mode de réalisation détaillé du bloc de détermination de l’ensemble de corrections ; [Fig 3] Figure 3 illustrates a first embodiment of an encoder and a decoder, an encoding method and a decoding method according to the invention; [Fig 4] FIG. 4 illustrates a first detailed embodiment of the block for determining the set of corrections;
[Fig 5] La figure 5 illustre un deuxième mode de réalisation détaillé du bloc de détermination de l’ensemble de corrections ; [Fig 5] FIG. 5 illustrates a second detailed embodiment of the block for determining the set of corrections;
[Fig 6] La figure 6 illustre un deuxième mode de réalisation d’un codeur et d’un décodeur, d’un procédé de codage et d’un procédé de décodage selon l’invention ;et [Fig 7] La figure 7 illustre des exemples de réalisation structurelle d’un codeur et d’un décodeur selon un mode de réalisation de l’invention. [Fig 6] Figure 6 illustrates a second embodiment of an encoder and a decoder, a coding method and a decoding method according to the invention; and [Fig 7] Figure 7 illustrates examples of structural embodiments of a coder and of a decoder according to one embodiment of the invention.
La méthode décrite d-dessous repose sur la correction des dégradations spatiales, notamment pour s’assurer que l’image spatiale du signal décodé est la plus proche possible du signal d’origine. A l’opposé des approches de codage paramétrique connues pour les signaux stéréo ou multicanal, où des attributs perceptifs (« perceptual eues » en anglais) sont codés, l’invention ne repose pas sur une interprétation perceptuelle des informations d'image spatiale car le domaine ambisonique n'est pas directement « écoutable ». The method described below is based on the correction of spatial degradations, in particular to ensure that the spatial image of the decoded signal is as close as possible to the original signal. Unlike the parametric coding approaches known for stereo or multichannel signals, where perceptual attributes are coded, the invention is not based on a perceptual interpretation of spatial image information because the ambisonic domain is not directly “listenable”.
La figure 2 représente les étapes principales mises en œuvre pour déterminer un ensemble de corrections à appliquer au signal multicanal codé puis décodé. FIG. 2 represents the main steps implemented to determine a set of corrections to be applied to the encoded and then decoded multichannel signal.
Le signal multicanal d’origine B de dimension KxL (soit K composantes de L échantillons temporels ou fréquentiels) est en entrée du procédé de détermination. A l’étape SI une information représentative d’une image spatiale du signal multicanal d’origine est extraite. The original multichannel signal B of dimension KxL (ie K components of L time or frequency samples) is input to the determination method. In step S1, information representative of a spatial image of the original multichannel signal is extracted.
On s'intéresse ici au cas d’un signal multicanal en représentation ambisonique, tel que décrit précédemment. L'invention peut s’appliquer également pour d’autres types de signal multicanal comme un signal en B-format avec des modifications, comme par exemple la suppression de certaines composantes (ex : suppression de la composante R à l’ordre 2 pour ne garder que 8 canaux) ou le matriçage du B-format pour passer dans un domaine équivalent (appelé « Equivalent Spatial Domain ») comme décrit dans la spécification 3GPP TS 26.260 - un autre exemple de matriçage est donné par le « channel mapping 3 » du codée IETF Opus et dans la spédf ication 3GPP TS 26.918 (dause 6.1.6.3). We are interested here in the case of a multichannel signal in ambisonic representation, as described previously. The invention can also be applied for other types of multichannel signal such as a B-format signal with modifications, such as, for example, the removal of certain components (e.g. removal of the R component at order 2 in order to keep only 8 channels) or the matrixing of the B-format to pass into an equivalent domain (called “Equivalent Spatial Domain”) as described in the specification 3GPP TS 26.260 - another example of matrixing is given by the “channel mapping 3” of the IETF Opus coded and in the 3GPP TS 26.918 specification (dause 6.1.6.3).
On appelle ici « image spatiale » la répartition de l’énergie sonore de la scène sonore ambisonique à différentes directions de l’espace ; dans des variantes, cette image spatiale décrivant la scène sonore correspond de façon générale à des grandeurs positives évaluées à différentes directions prédéterminées de l’espace, par exemple sous la forme d’un pseudo-spectre de type MUSIC (MUltiple Signal Classification) échantillonné à ces directions ou d’un histogramme de directions d’arrivée (où les directions d’arrivée sont décomptées selon la discrétisation donnée par les directions prédéterminées) ; ces grandeurs positives peuvent être interprétées comme des énergies et sont vues comme telles par la suite pour simplifier la description de l’invention. The distribution of sound energy from the ambisonic soundstage to different directions in space is referred to here as a "spatial image"; in variants, this spatial image describing the sound scene generally corresponds to positive quantities evaluated at different predetermined directions in space, for example in the form of a pseudo-spectrum of the MUSIC (Multiple Signal Classification) type sampled at these directions or a histogram of directions of arrival (where the directions of arrival are counted according to the discretization given by the predetermined directions); these positive quantities can be interpreted as energies and are seen as such hereafter to simplify the description of the invention.
Une image spatiale associée à une scène sonore ambisonique représente donc l’énergie sonore (ou plus généralement une grandeur positive) relative en fonction de différentes directions dans l’espace. Dans l’invention, une information représentative d’une image spatiale peut être par exemple une matrice de covariance calculée entre les canaux du signal multicanal ou bien une information d'énergie associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité). L'ensemble de corrections à appliquer à un signal multicanal est une information qui peut être définie par un ensemble de gains associés à des directions de provenance du son qui peuvent être sous la forme d’une matrice de corrections comportant cet ensemble de gains ou une matrice de transformation. A spatial image associated with an ambisonic sound scene therefore represents the sound energy (or more generally a positive quantity) relative as a function of different directions in space. In the invention, a piece of information representative of a spatial image can be for example a covariance matrix calculated between the channels of the multichannel signal or else an information of energy associated with directions of origin of the sound (associated with directions of height. - virtual speakers distributed over a unity sphere). The set of corrections to be applied to a multichannel signal is a piece of information which can be defined by a set of gains associated with directions of origin of the sound which can be in the form of a matrix of corrections comprising this set of gains or a transformation matrix.
Une matrice de covariance d’un signal multicanal B est par exemple obtenue à l’étape SI . Comme décrit ultérieurement en référence aux figures 3 et 6, cette matrice est par exemple calculée comme suit : A covariance matrix of a multichannel signal B is for example obtained in step S1. As described later with reference to FIGS. 3 and 6, this matrix is for example calculated as follows:
C = B.BT à un facteur de normalisation près (dans le cas réel) ou C = BB T up to a normalization factor (in the real case) or
C = Re(B.BH) à un facteur de normalisation près (dans le cas complexe) C = Re (BB H ) up to a normalization factor (in the complex case)
Dans des variantes, des opérations de lissage temporel de la matrice de covariance pourront être utilisées. Dans les cas d’un signal multicanal dans le domaine temporel, la covariance peut être estimée de façon récursive (échantillon par échantillon) sous la forme : In variants, operations of temporal smoothing of the covariance matrix could be used. In the case of a multichannel signal in the time domain, the covariance can be estimated recursively (sample by sample) in the form:
Qj(n) = n/(n+1) Qj(n-1) + 1/(n+1) bi(n) bj(n). Qj (n) = n / (n + 1) Qj (n-1) + 1 / (n + 1) bi (n) bj (n).
Dans une variante de réalisation, une information d’énergie est obtenue selon différentes directions (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité). Pour cela, une méthode de type SRP (pour « Steered-Response Power » en anglais) décrite ultérieurement en référence à la figure 3 et 4 pourra par exemple être appliquée. Dans des variantes, d’autres méthodes de calcul d’image spatiale (pseudo-spectre MUSIC, histogramme de directions d’arrivée) peuvent être utilisées. In an alternative embodiment, energy information is obtained in different directions (associated with directions of virtual loudspeakers distributed over a unit sphere). For this, an SRP (for “Steered-Response Power”) type method described later with reference to FIGS. 3 and 4 could for example be applied. In variations, other spatial image computation methods (MUSIC pseudo-spectrum, arrival direction histogram) can be used.
Plusieurs modes de réalisation sont envisageables et décrits ici pour coder le signal multicanal d’origine. Several embodiments are possible and described here to encode the original multichannel signal.
Dans un premier mode de réalisation, les différents canaux bk, k=0, ... K-1 , de B sont codés, à l’étape S2, par un codage multi-mono, chaque canal bk étant codé séparément. Dans des variantes de réalisation, un codage multi-stéréo où les canaux bk sont codés par paires séparées est également possible. Un exemple dassique pour un signal d’entrée 5.1 consiste à utiliser deux codages stéréo séparés de L / R et de Ls / Rs avec des codages mono de C et LFE (basses fréquences uniquement) ; pour le cas ambisonique, le codage multi-stéréo peut être appliqué aux composantes ambisoniques (B-format) ou à un signal multicanal équivalent obtenu après matriçage des canaux du B-format - par exemple à l’ordre 1 les canaux W, X, Y, Z peuvent être convertis en quatre canaux transformés et deux paires de canaux sont codées séparément et reconverties en B-format au décodage. Un exemple est donné dans les versions récentes du codée Opus (« channel mapping 3 ») et dans la spécification 3GPP TR 26.918 (dause 6.1.6.3) . In a first embodiment, the various channels b k , k = 0, ... K-1, of B are coded, in step S2, by multi-mono coding, each channel b k being coded separately. In alternative embodiments, multi-stereo coding where the channels b k are coded in separate pairs is also possible. A typical example for a 5.1 input signal is to use two separate stereo encodings of L / R and Ls / Rs with mono encodings of C and LFE (low frequencies only); for the ambisonic case, the multi-stereo coding can be applied to the ambisonic components (B-format) or to an equivalent multichannel signal obtained after matrixing of the B-format channels - for example at order 1 the channels W, X, Y, Z can be converted to four transformed channels and two pairs of channels are encoded separately and converted back to B-format on decoding. An example is given in recent versions of the Opus code (“channel mapping 3”) and in specification 3GPP TR 26.918 (dause 6.1.6.3).
Dans d’autres variantes, on pourra aussi utiliser à l’étape S2 un codage multicanal conjoint, comme par exemple le codée MPEG- H 3D Audio pour le format ambisonique (scene-based); dans ce cas, le codée réalise un codage des canaux d’entrée de façon conjointe. Dans l’exemple MPEG-H, ce codage conjoint se décompose pour un signal ambisonique en plusieurs étapes comme l’extraction et le codage de sources mono prédominantes, l’extraction d’une ambiance (typiquement réduit à un signal ambisonique d’ordre 1), le codage de tous les canaux extraits (appelés « transport channels ») et de métadonnées décrivant les vecteurs de formation de faisceaux acoustiques (« beamforming » en anglais) pour l’extraction de canaux prédominants. Le codage multicanal conjoint permet d’exploiter les relations entre tous les canaux pour, par exemple, extraire des sources audio prédominantes et une ambiance ou effectuer une allocation globale des bits prenant en compte l’ensemble du contenu audio. In other variants, it is also possible to use in step S2 a joint multichannel coding, such as for example the MPEG-H 3D Audio coded for the ambisonic format (scene-based); in this case, the codec performs coding of the input channels jointly. In the MPEG-H example, this joint coding is broken down for an ambisonic signal into several steps such as the extraction and coding of predominant mono sources, the extraction of an ambience (typically reduced to an ambisonic signal of order 1 ), the coding of all the extracted channels (called “transport channels”) and of metadata describing the acoustic beamforming vectors for the extraction of predominant channels. Joint multichannel encoding makes it possible to exploit the relationships between all channels to, for example, extract predominant audio sources and ambience or perform global bit allocation taking into account all audio content.
Dans le mode de réalisation privilégié, on prend comme exemple de réalisation de l’étape S2 un codage multi-mono qui est effectué en utilisant le codée 3GPP EVS tel que décrit précédemment. Cependant, la méthode selon l’invention peut ainsi être utilisée indépendamment du codée cœur (multi-mono, multi-stéréo, codage conjoint) utilisée pour représenter les canaux à coder. In the preferred embodiment, the embodiment of step S2 is taken as a multi-mono coding which is carried out using the 3GPP EVS code as described above. However, the method according to the invention can thus be used independently of the core coded (multi-mono, multi-stereo, joint coding) used to represent the channels to be coded.
Le signal ainsi codé sous forme de flux binaire (« bitstream » en anglais) peut être décodé à l’étape S3 soit par un décodeur local du codeur, soit par un décodeur après transmission. Ge signal est décodé pour retrouver les canaux du signal multicanal S (par exemple par plusieurs instances de décodeur EVS selon un décodage multi- mono). The signal thus encoded in the form of a bitstream can be decoded in step S3 either by a local decoder of the encoder, or by a decoder after transmission. The signal is decoded to find the channels of the multichannel signal S (for example by several instances of decoder EVS according to a multi-mono decoding).
Les étapes S2a, S2b, S3a, S3b représentent une variante de réalisation du codage et du décodage du signal multicanal B. La différence avec le codage de l’étape S2 décrite ci-dessus réside dans l’utilisation de traitements additionnels de réduction du nombre de canaux (« downmix » en anglais) à l’étape S2a et d’augmentation du nombre de canaux (« upmix » en anglais) à l’étape S3b. Ges étapes de codage et décodage (S2b et S3a) sont similaires aux étapes S2 et S3 mis à part que le nombre de canaux respectifs en entrée et sortie est plus faible dans les étapes S2b et S3a Un exemple de downmix pour un signal d'entrée ambisonique d’ordre 1 consiste à ne garder que le canal W ; pour un signal d’entrée ambisonique d’ordre > 1 , on pourra prendre comme downmix les 4 premières composantes W, X, Y, Z (donc tronquer le signal à l’ordre 1). Dans des variantes, on pourra prendre comme downmix un sous- ensemble des composantes ambisoniques (par exemple 8 canaux à l’ordre 2 sans la composante R) et aussi considérer les cas de matriçage comme par exemple un downmix stéréo obtenu sous la forme : L = W-Y+0.3*X, R=W+Y+0.3*X (en n’utilisant que les canaux FOA). Steps S2a, S2b, S3a, S3b represent an alternative embodiment of the encoding and decoding of the multichannel signal B. The difference with the encoding of step S2 described above lies in the use of additional processing operations for reducing the number. of channels (“downmix” in English) in step S2a and increase in the number of channels (“upmix” in English) in step S3b. Ges encoding and decoding steps (S2b and S3a) are similar to steps S2 and S3 except that the number of respective input and output channels is lower in steps S2b and S3a An example of a downmix for a first-order ambisonic input signal is to keep only the W channel; for an ambisonic input signal of order> 1, we can take as a downmix the first 4 components W, X, Y, Z (therefore truncate the signal to order 1). In variants, we could take as a downmix a subset of the ambisonic components (for example 8 channels at order 2 without the R component) and also consider the matrixing cases such as for example a stereo downmix obtained in the form: L = W-Y + 0.3 * X, R = W + Y + 0.3 * X (using only FOA channels).
Un exemple d’upmix d’un signal mono consiste à appliquer différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response ») ou différents filtres décorrélateurs (de type passe-tout) dans le domaine temporel ou fréquentiel. Un exemple de réalisation de décorrélation dans un domaine fréquentiel est donné par exemple dans le document 3GPP S4-180975, pCR to 26.118 on Dolby VRStream audio profile candidate (dause X6.2.3.5). An example of upmixing a mono signal consists of applying different room spatial impulse responses (SRIR for "Spatial Room Impulse Response") or different decorrelator filters (of the all-pass type) in the time or frequency domain. An exemplary embodiment of decorrelation in a frequency domain is given for example in document 3GPP S4-180975, pCR to 26.118 on Dolby VRStream audio profile candidate (dause X6.2.3.5).
Le signal B* issu de ce traitement « downmix » est codé à l’étape S2b par un codée cœur (multi-mono, multi-stéréo, codage conjoint), par exemple par une approche mono ou multi-mono avec le codée 3GPP EVS. Le signal audio d’entrée de l’étape de codage S2b et de sortie de l’étape de décodage S3a un nombre de canaux inférieur au signal audio multicanal d’origine. Dans ce cas l’image spatiale représentée par le codée cœur est déjà sensiblement dégradée avant même le codage. Dans un cas extrême, le nombre de canaux est réduit à un seul canal mono, en ne codant que le canal W ; le signal d’entrée est alors limité à un seul canal audio et l’image spatiale est donc perdue. Le procédé selon l’invention permet de décrire et de reconstruire cette image spatiale la plus proche possible de celle du signal multicanal d’origine.The signal B * resulting from this “downmix” processing is coded in step S2b by a core coded (multi-mono, multi-stereo, joint coding), for example by a mono or multi-mono approach with the coded 3GPP EVS . The audio signal input from encoding step S2b and output from decoding step S3 has fewer channels than the original multi-channel audio signal. In this case, the spatial image represented by the core coded is already significantly degraded even before the coding. In an extreme case, the number of channels is reduced to a single mono channel, by encoding only the W channel; the input signal is then limited to a single audio channel and the spatial image is therefore lost. The method according to the invention makes it possible to describe and reconstruct this spatial image as close as possible to that of the original multichannel signal.
En sortie de l’étape d’upmix en S3b de cette variante de réalisation, on retrouve un signal multicanal décodé 8 . At the output of the upmix step in S3b of this variant embodiment, there is a decoded multichannel signal 8.
A partir du signal multicanal décodé 8 selon les deux variantes (S2-S3 ou S2a-S2b- S3a-S3b), est extrait, à l’étape S4, une information représentative de l’image spatiale du signal multicanal décodé. Comme pour l’image originale, cette information peut être une matrice de covariance calculée sur le signal multicanal décodé ou bien une information d’énergie associée à des directions de provenance du son (ou de façon équivalente, à des points virtuels sur une sphère unité). Oes informations représentatives du signal multicanal d’origine et du signal multicanal décodé sont utilisées à l’étape S5 pour déterminer un ensemble de corrections à apporter au signal multicanal décodé afin de limiter les dégradations spatiales. From the decoded multichannel signal 8 according to the two variants (S2-S3 or S2a-S2b-S3a-S3b), is extracted, in step S4, information representative of the spatial image of the decoded multichannel signal. As for the original image, this information can be a covariance matrix calculated on the decoded multichannel signal or else an information of energy associated with directions of origin of the sound (or in an equivalent way, with virtual points on a unit sphere ). The information representative of the original multichannel signal and of the decoded multichannel signal is used in step S5 to determine a set of corrections to be made to the decoded multichannel signal in order to limit the spatial degradations.
Deux modes de réalisation seront détaillés par la suite en référence aux figures 4 etTwo embodiments will be detailed below with reference to Figures 4 and
5 pour illustrer cette étape. 5 to illustrate this step.
Le procédé décrit à la figure 2 peut être mis en œuvre dans le domaine temporel, en pleine-bande de fréquence (avec une seule bande) ou bien par sous-bandes de fréquence (avec plusieurs bandes), cela ne change pas le fonctionnement du procédé, chaque sous-bande étant alors traitée de manière séparée. S le procédé est effectué par sous-bande, l’ensemble de corrections est alors déterminé par sous- bande, ce qui occasionne un surcoût de calcul et de données à transmettre vers le décodeur par rapport au cas d’une seule bande. Le découpage en sous-bandes peut être uniforme ou non-uniforme. Par exemple on pourra diviser le spectre d’un signal échantillonné à 32 kHz selon différentes variantes : The method described in FIG. 2 can be implemented in the time domain, in full frequency band (with a single band) or else by frequency sub-bands (with several bands), this does not change the operation of the process, each sub-band then being treated separately. If the method is carried out by sub-band, the set of corrections is then determined by sub-band, which causes an additional cost of calculation and of data to be transmitted to the decoder compared to the case of a single band. The division into sub-bands can be uniform or non-uniform. For example, we can divide the spectrum of a signal sampled at 32 kHz according to different variants:
- 4 bandes de largeur respective 1 , 3, 4 et 8 kHz ou encore 2, 2, 4, 8 khz - 4 bands of respective width 1, 3, 4 and 8 kHz or 2, 2, 4, 8 kHz
- 24 bandes de Bark (de largeur 100 Hz en basses fréquences à 3.5-4 kHz pour la dernière sous-bande) - 24 Bark bands (100 Hz wide at low frequencies to 3.5-4 kHz for the last sub-band)
- les 24 bandes de Bark peuvent être éventuellement regroupées par blocs de 4 ou- the 24 Bark bands can optionally be grouped into blocks of 4 or
6 bandes successives pour former un ensemble de respectivement 6 ou 4 bandes « agglomérées ». 6 successive bands to form a set of respectively 6 or 4 “agglomerated” bands.
D’autres découpages sont possibles (par exemple bandes ERB - pour « équivalent rectangular bandwidth » en anglais - ou en 1/3 d’octave), y compris pour le cas d’une fréquence d’échantillonnage différente (par exemple 16 ou 48 kHz). Other splits are possible (for example ERB bands - for "equivalent rectangular bandwidth" in English - or in 1/3 octave), including for the case of a different sampling frequency (for example 16 or 48 kHz).
Dans des variantes, l’invention pourra aussi être mise en œuvre dans un domaine transformée, par exemple dans le domaine de la transformée de Fourier discrète court-terme (STFT) ou le domaine de la transformée en cosinus discrète modifiéeIn variants, the invention may also be implemented in a transform domain, for example in the domain of the short-term discrete Fourier transform (STFT) or the domain of the modified discrete cosine transform
(MDCT). (MDCT).
Plusieurs modes de réalisation sont maintenant décrits pour mettre en œuvre la détermination de cet ensemble de corredions et pour appliquer cet ensemble de corrections au signal décodé. Several embodiments are now described for implementing the determination of this set of corrections and for applying this set of corrections to the decoded signal.
On rappelle ici la technique connue d’encodage d’une source sonore au format ambisonique. Une source sonore mono peut-être spatialisée artifidellement en multipliant son signal par les valeurs des harmoniques sphériques assodées à sa direction de provenance (en supposant le signal porté par une onde plane) pour obtenir autant de composantes ambisoniques. Pour cela, on calcule les coefficients pour chaque harmonique sphérique pour une position déterminée en azimut Θ et en élévation φ à l’ordre désiré : We recall here the known technique of encoding a sound source in ambisonic format. A mono sound source can be artificially spatialized by multiplying its signal by the values of the spherical harmonics associated with its direction of origin (assuming the signal carried by a plane wave) to obtain as many ambisonic components. For this, we calculate the coefficients for each spherical harmonic for a position determined in azimuth Θ and in elevation φ to the desired order:
Β=Y(Θ,φ).s où s est le signal mono à spatialiser et Y( Θ , φ) est le vecteur d'encodage définissant les coeffidents des harmoniques sphériques assodées à la direction ( Θ , φ) pour l’ordre M. Un exemple de vecteur d’encodage est donné ci-après pour l’ordre 1 avec la convention SN3D et l’ordre des canaux SI D ou FuMa: Β = Y (Θ, φ) .s where s is the mono signal to spatialize and Y (Θ, φ) is the encoding vector defining the coeffidents of the spherical harmonics associated with the direction (Θ, φ) for the order M. An example of an encoding vector is given below for order 1 with the SN3D convention and the order of the SI D or FuMa channels:
10 10
Dans des variantes, d’autres convention de normalisation (ex : maxN, N3D) et d’ordre des canaux (ex : ACN) pourront être utilisées et les différents modes de réalisation sont alors adaptés en fonction de la convention utilisée pour l’ordre des ou la normalisation des composantes ambisoniques (PDA ou HOA). Gela revient à modifier l’ordre des lignes Y( Θ ,φ) ou multiplier ces lignes par des constantes prédéfinies. In variants, other standardization conventions (eg: maxN, N3D) and order of the channels (eg: ACN) may be used and the different embodiments are then adapted according to the convention used for the order. or the standardization of ambisonic components (PDA or HOA). This is the same as changing the order of the Y (Θ, lignes) lines or multiplying these lines by predefined constants.
Pour les ordres supérieurs, les coefficients Y( Θ ,φ) des harmoniques sphériques peuvent être trouvés dans le livre de B.Rafaely, Fundamentals of Spherical Array Processing, Springer, 2015. De manière générale pour un ordre M, les signaux ambisoniques sont au nombre de K=(M+ 1)2. For higher orders, the Y (Θ, φ) coefficients of the spherical harmonics can be found in the book by B. Rafaely, Fundamentals of Spherical Array Processing, Springer, 2015. In general, for an M order, the ambisonic signals are at number of K = (M + 1) 2 .
De même, on rappelle ici quelques notions sur le rendu ou restitution ambisonique par haut-parleurs. Un son ambisonique n’est pas fait pour être écouté tel quel ; pour une écoute immersive sur haut-parleurs ou sur casque, une étape de « décodage » au sens acoustique aussi appelé rendu (« r entier er » en anglais) doit être faite. On considère le cas de N haut-parleurs (virtuels ou physiques) répartis sur une sphère - typiquement de rayon unité - et dont les directions ( Θn , φn), n=0, .., N-1, en termes d’azimut et d’élévation sont connues. Le décodage, tel qu’on le considère ici, est une opération linéaire qui consiste à appliquer une matrice D aux signaux ambisoniques B pour obtenir les signaux Sn des haut-parleurs, que l’on peut rassembler en une matrice S=[ S0, ... SN-1] , S=D.B où un peut décomposer la matrice D en vecteurs lignes dn, soit dn peut être vu comme un vecteur de pondération pour le nième haut-parleur, utilisé pour recombiner les composantes du signal ambisonique et calculer le signal joué sur le nième haut-parleur : Sn= dn.B. Likewise, we recall here some notions on rendering or ambisonic reproduction by loudspeakers. Ambisonic sound is not meant to be heard as it is; for immersive listening on speakers or headphones, a step of “decoding” in the acoustic sense also called rendering (“r integer” in English) must be carried out. We consider the case of N loudspeakers (virtual or physical) distributed over a sphere - typically of unit radius - and whose directions (Θ n , φ n ), n = 0, .., N-1, in terms of azimuth and elevation are known. Decoding, as considered here, is a linear operation which consists in applying a matrix D to the ambisonic signals B to obtain the signals Sn from the loudspeakers, which can be gathered into a matrix S = [S 0 , ... S N-1 ], S = DB where un can decompose the matrix D into row vectors d n , i.e. d n can be seen as a weighting vector for the nth loudspeaker, used to recombine the components of the ambisonic signal and calculate the signal played on the nth loudspeaker: Sn = d n .B.
Il existe de multiples méthodes de « décodage » au sens acoustique. La méthode dite de « décodage basique » également dénommée « mode-matching », se base sur la matrice d'encodage E associée à l’ensemble des directions de haut-parleurs virtuels : There are many methods of "decoding" in the acoustic sense. The so-called “basic decoding” method, also called “mode-matching”, is based on the encoding matrix E associated with all the directions of virtual loudspeakers:
Selon cette méthode, la matrice D se définit typiquement comme la pseudo-inverse de E : D=pinv(E)= DT(D.DT)-1 According to this method, the matrix D is typically defined as the pseudo-inverse of E: D = pinv (E) = D T (DD T ) -1
En alternative, la méthode que l’on peut appeler « de projection » donne des résultats similaires pour certaines distributions régulières de directions, et se décrit par l’équation : As an alternative, the method which one can call “projection” gives similar results for certain regular distributions of directions, and is described by the equation:
Dans ce dernier cas, on voit que pour chaque direction d’indice n, In the latter case, we see that for each direction of index n,
Dans le cadre de cette invention, de telles matrices serviront de matrice de formation de faisceaux directifs (« beamforming » en anglais) décrivant comment obtenir des signaux caractéristiques de directions de l’espace dans le but d’opérer une analyse et/ou des transformations spatiales. Dans le cadre de la présente invention, il est utile de décrire la conversion réciproque pour passer du domaine des haut-parleurs vers le domaine ambisonique. Il convient que l'application successive des deux conversions reproduise de façon exacte les signaux ambisoniques d'origine si aucune modification intermédiaire n’est appliquée dans le domaine des haut-parleurs. On définit donc la conversion réciproque comme mettant en jeu la pseudo-inverse de D : pinv (D).S=DT(D.DT)-1.S In the context of this invention, such matrices will serve as a matrix for forming directional beams ("beamforming" in English) describing how to obtain signals characteristic of directions of space in order to carry out an analysis and / or transformations. space. In the context of the present invention, it is useful to describe the reciprocal conversion to pass from the loudspeaker domain to the ambisonic domain. The successive application of the two conversions should accurately reproduce the original ambisonic signals if no intermediate modification is applied in the loudspeaker area. We therefore define the reciprocal conversion as involving the pseudo-inverse of D: pinv (D) .S = D T (DD T ) -1 .S
Quand K=(M+ 1)2, la matrice D de taille KxK est inversible sous certaines conditions et dans ce cas : B= D-1.S When K = (M + 1) 2 , the matrix D of size KxK is invertible under certain conditions and in this case: B = D -1 .S
Dans le cas de la méthode « mode-matching », il apparaît que pinv(D)=E Dans des variantes, d’autres méthodes de décodage par D pourront être utilisées, avec la conversion inverse E correspondante ; la seule condition à vérifier est que la combinaison du décodage par D et de la conversion inverse par E doit donner une reconstruction parfaite (quand aucun traitement intermédiaire n’est réalisé entre le décodage acoustique et l’encodage acoustique). In the case of the "mode-matching" method, it appears that pinv (D) = E In variants, other D decoding methods can be used, with the corresponding inverse E conversion; the only condition to check is that the combination of the decoding by D and the inverse conversion by E must give a perfect reconstruction (when no intermediate processing is carried out between the acoustic decoding and the acoustic encoding).
De telles variantes sont par exemple données par : Such variants are for example given by:
- le décodage « mode-matching » avec un terme de régulation sous la forme DT(D.DT+εl)-1 où ε est une faible valeur (par exemple 0.01), - "mode-matching" decoding with a regulation term in the form D T (DD T + εl) -1 where ε is a low value (for example 0.01),
- Les décodages « in phase » ou « max-rE » connus de l’état de l’art - "in phase" or "max-rE" decoding known to the state of the art
- ou des variantes où la répartition des directions des haut-parleurs n’est pas régulière sur la sphère. - or variants where the distribution of the directions of the loudspeakers is not regular on the sphere.
La figure 3 représente un premier mode de réalisation d’un dispositif de codage et d’un dispositif de décodage pour la mise en œuvre d’un procédé de codage et de décodage incluant un procédé de détermination d’un ensemble de corrections tel que décrit en référence à la figure 2. FIG. 3 represents a first embodiment of an encoding device and of a decoding device for the implementation of an encoding and decoding method including a method for determining a set of corrections as described. with reference to figure 2.
Dans ce mode de réalisation, le codeur calcule l’information représentative de l’image spatiale du signal multicanal d’origine et la transmet au décodeur afin de lui permettre de corriger la dégradation spatiale engendrée par le codage. Oela permet lors du décodage, d’atténuer les artéfacts spatiaux dans le signal ambisonique décodé.In this embodiment, the encoder calculates information representative of the spatial image of the original multichannel signal and transmits it to the decoder to enable it to correct the spatial degradation caused by the encoding. This allows during decoding to attenuate spatial artefacts in the decoded ambisonic signal.
Ainsi, le codeur reçoit un signal d’entrée multicanal par exemple de représentation ambisonique FOA, ou HOA, ou une représentation hybride avec un sous-ensemble de composantes ambisoniques jusqu’à un ordre ambisonique partiel donné - ce dernier cas est en fait indus de façon équivalente dans le cas FOA ou HOA où les composantes ambisoniques manquantes sont nulles et l’ordre ambisonique est donné par l’ordre minimal requis pour indure toutes les composantes définies. Ainsi, sans perte de généralité on considère dans la suite de la description les cas FOA ou HQA. Thus, the encoder receives a multichannel input signal of, for example, an FOA ambisonic representation, or HOA, or a hybrid representation with a subset of ambisonic components up to a given partial ambisonic order - the latter case is in fact undue. equivalent way in the case of FOA or HOA where the missing ambisonic components are zero and the ambisonic order is given by the order minimum required to indure all defined components. Thus, without loss of generality, the FOA or HQA cases are considered in the remainder of the description.
Dans le mode de réalisation ainsi décrit, le signal d’entrée est échantillonné à 32 kHz. Le codeur fonctionne par trames qui sont de façon préférentielle d’une longueur de 20 ms, soit L=640 échantillons par trame à 32 khz. Dans des variantes, d’autres longueurs de trame et fréquences d’échantillonnage sont possibles (par exemple L=480 échantillons par trame de 10 ms à 48 kHz). In the embodiment thus described, the input signal is sampled at 32 kHz. The encoder operates in frames which are preferably 20 ms in length, ie L = 640 samples per frame at 32 kHz. In variations, other frame lengths and sampling rates are possible (eg L = 480 samples per frame of 10 msec at 48 kHz).
Dans un mode de réalisation privilégié, le codage est effectué dans le domaine temporel (sur une ou plusieurs bandes), cependant dans des variantes, l’invention peut être mise en œuvre dans un domaine transformé, par exemple après transformée de Fourier discrète court-terme (STFT) ou transformée en cosinus discrète modifiée (MDCT). In a preferred embodiment, the coding is performed in the time domain (on one or more bands), however in variants, the invention can be implemented in a transformed domain, for example after a short discrete Fourier transform. term (STFT) or modified discrete cosine transform (MDCT).
Selon le mode de réalisation de codage utilisé, comme expliqué en référence à la figure 2, un bloc 310 de réduction du nombre de canaux (DMX) peut être mis en œuvre ; l’entrée du bloc 311 est le signal B* en sortie du bloc 310 quand le downmix est mis en œuvre ou le signal B dans le cas contraire. Dans un mode de réalisation, si le downmix est appliqué, il consiste par exemple pour un signal d’entrée ambisonique d’ordre 1 à ne garder que le canal W et pour un signal d’entrée ambisonique d’ordre > 1 , à ne garder que les 4 premières composantes ambisoniques W, X, Y, Z (donc à tronquer le signal à l’ordre 1). D’autres types de downmix (comme ceux décrits précédemment avec une sélection d’un sous-ensemble de canaux et/ou un matriçage) peuvent être mis en œuvres sans que cela ne modifie le procédé selon l’invention. According to the coding embodiment used, as explained with reference to FIG. 2, a block 310 for reducing the number of channels (DMX) can be implemented; the input of block 311 is signal B * at the output of block 310 when the downmix is implemented or signal B otherwise. In one embodiment, if the downmix is applied, it consists, for example, for an ambisonic input signal of order 1 to keep only the channel W and for an ambisonic input signal of order> 1, to not keep only the first 4 ambisonic components W, X, Y, Z (therefore to truncate the signal at order 1). Other types of downmix (such as those described above with a selection of a subset of channels and / or matrixing) can be implemented without modifying the process according to the invention.
Le bloc 311 code le signal audio b'k de B* en sortie du bloc 310 dans le cas où l’étape de downmix est effectuée ou le signal audio bk du signal multicanal d’origine B. Ce signal correspond aux composantes ambisoniques du signal multicanal d’origine si aucun traitement de réduction du nombre de canaux n’a été appliqué. Block 311 encodes the audio signal b'k of B * at the output of block 310 in the case where the downmix step is performed or the audio signal bk of the original multichannel signal B. This signal corresponds to the ambisonic components of the signal. original multichannel if no channel count reduction processing has been applied.
Dans un mode de réalisation privilégié, le bloc 311 utilise un codage multi-mono (COD) avec une allocation fixe ou variable, où le codée cœur est le codée normalisé 3GPP EVS. Dans cette approche multi-mono, chaque canal bk ou b'k est codé séparément par une instance du codée ; cependant, dans des variantes d’autres méthodes de codage sont possibles, par exemple un codage multi-stéréo ou un codage multicanal conjoint. On obtient donc, en sortie de ce bloc de codage 311 , un signal audio codé issu du signal multicanal d’origine, sous forme de train binaire qui est envoyé au multiplexeur 340. In a preferred embodiment, block 311 uses multi-mono coding (COD) with fixed or variable allocation, where the core codec is the 3GPP EVS standardized codec. In this multi-mono approach, each bk or b'k channel is coded separately by an instance of the coded; however, in variations other coding methods are possible, for example multi-stereo coding or joint multichannel coding. Therefore, at the output of this coding block 311, an encoded audio signal originating from the original multichannel signal is obtained, in the form of a binary train which is sent to the multiplexer 340.
De façon optionnelle, le bloc 320 réalise une division en sous-bandes. Dans des variantes, cette division en sous-bandes pourra réutiliser des traitements équivalents effectués dans les blocs 310 ou 311 ; la séparation du bloc 320 est ici fonctionnelle. Dans un mode de réalisation privilégié, les canaux du signal audio multicanal d’origine sont découpés en 4 sous-bandes fréquentielles de largeur respective 1 kHz, 3 kHz, 4 kHz, 8 kHz (ce qui revient à un découpage des fréquences selon les 0-1000, 1000- 4000, 4000-8000 et 8000-16000 Hz. Oe découpage peut être mis en œuvre par le biais d’une transformée de Fourier discrète à court-terme (STFT), filtrage passe- bande dans le domaine de Fourier (par application d’un masque fréquentiel), et transformée inverse avec addition recouvrement. Dans ce cas, les sous-bandes restent échantillonnées à la même fréquence d’origine et le traitement selon l’invention s’applique dans le domaine temporel ; dans des variantes, on pourra utiliser un banc de filtre avec un échantillonnage critique. On notera que l’opération de découpage en sous-bandes implique en général un retard de traitement qui est fonction du type de banc de filtres mis en œuvre ; selon l’invention un alignement temporel pourra être appliqué avant ou après codage-décodage et/ou avant l’extraction d’informations d’image spatiale, de sorte que les informations d’image spatiale soient bien synchronisées temporellement avec le signal corrigé. Optionally, block 320 performs a sub-band division. In variants, this division into sub-bands could reuse equivalent processing operations carried out in blocks 310 or 311; the separation of block 320 is here functional. In a preferred embodiment, the channels of the original multichannel audio signal are divided into 4 frequency sub-bands of respective width 1 kHz, 3 kHz, 4 kHz, 8 kHz (which amounts to a division of the frequencies according to the 0 -1000, 1000- 4000, 4000-8000 and 8000-16000 Hz. Oe slicing can be implemented by means of a short-term discrete Fourier transform (STFT), band-pass filtering in the Fourier domain (by application of a frequency mask), and inverse transform with overlap addition In this case, the sub-bands remain sampled at the same original frequency and the processing according to the invention is applied in the time domain; variants, it is possible to use a filter bank with a critical sampling. It will be noted that the sub-band cutting operation generally involves a processing delay which is a function of the type of filter bank used; invention a time alignment can be applied ique before or after encoding-decoding and / or before the extraction of spatial image information, so that the spatial image information is well synchronized in time with the corrected signal.
Dans des variantes, un traitement pleine bande pourra être effectué, ou le découpage en sous-bandes pourra être différent comme expliqué précédemment. In variants, full-band processing may be carried out, or the sub-band cutting may be different as explained previously.
Dans d’autres variantes, le signal issu d’une transformée du signal audio multicanal d’origine est directement utilisé et l’invention s’applique dans le domaine transformé avec un découpage en sous-bandes dans le domaine transformé. In other variations, the signal from a transform of the original multichannel audio signal is directly used and the invention is applied in the transformed domain with subband slicing in the transformed domain.
Dans la suite de la description, on décrit les différentes étapes du codage et du décodage comme s’il s’agissait d’un traitement dans le domaine temporel ou fréquentiel (réel ou complexe) avec une seule bande de fréquence afin de simplifier la description. In the remainder of the description, the various stages of coding and decoding are described as if it were a processing in the time or frequency domain (real or complex) with a single frequency band in order to simplify the description. .
On pourra également mettre en œuvre, de façon optionnelle, dans chaque sous- bande, un filtrage passe-haut (de fréquence de coupure typiquement à 20 ou 50 Hz), par exemple sous la forme d’un filtre IIR elliptique d’ordre 2 dont la fréquence de coupure est de façon privilégiée fixée à 20 ou 50 Hz (50 Hz dans des variantes). Ge prétraitement évite un biais potentiel pour l’estimation ultérieure de covariance lors du codage ; sans ce prétraitement, la correction mise en œuvre dans le bloc 390 décrit ultérieurement, aura tendance à amplifier les basses fréquences lors d’un traitement pleine bande. It is also possible to implement, optionally, in each sub-band, a high-pass filtering (with a cut-off frequency typically at 20 or 50 Hz), for example in the form of an elliptical IIR filter of order 2 whose frequency of cut-off is preferably set at 20 or 50 Hz (50 Hz in some variants). Ge preprocessing avoids a potential bias for the subsequent estimation of covariance during coding; without this preprocessing, the correction implemented in block 390 described later will tend to amplify the low frequencies during full band processing.
Le bloc 321 détermine (Inf. B) une information représentative d’une image spatiale du signal multicanal d’origine. Block 321 determines (Inf. B) information representative of a spatial image of the original multichannel signal.
Dans un mode de réalisation, cette information est une information d’énergie associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité). In one embodiment, this information is energy information associated with directions of origin of sound (associated with directions of virtual speakers distributed over a unit sphere).
Pour ce faire, on définit une sphère 3D virtuelle de rayon unité, cette sphère 3D est discrétisée par N points (haut-parleurs virtuels « ponctuels ») dont la position est définie en coordonnées sphériques par les directions ( Θn , φn) pour le nième haut- parleur. Les haut-parleurs sont typiquement placés de manière (quasi-) uniforme sur la sphère. Le nombre N de haut-parleurs virtuels est déterminé comme une discrétisation ayant au moins N= K points, avec M l’ordre ambisonique du signal et K=(M+ 1)2, soit N≥K. Une méthode de quadrature de type « Lebedev » peut par exemple être utilisée pour effectuer cette discrétisation, selon les références V.l. Lebedev, and D.N. Laikov, « A quadrature formula for the sphere of the 131st algebraic order of accuracy », Doklady Mathematics, vol. 59, no. 3, 1999, pp. 477- 481 ou Pierre Lecomte, Philippe-Aubert Gauthier, Christophe Langrenne, Alexandre Garcia et Alain Berry, On the use of a Lebedev grid for Ambisonics, AES Convention 139, New York, 2015. To do this, we define a virtual 3D sphere of unit radius, this 3D sphere is discretized by N points (“point” virtual speakers) whose position is defined in spherical coordinates by the directions (Θ n , φ n ) for the nth speaker. The loudspeakers are typically placed (almost) uniformly on the sphere. The number N of virtual loudspeakers is determined as a discretization having at least N = K points, with M the ambisonic order of the signal and K = (M + 1) 2 , ie N≥K. A “Lebedev” type quadrature method can for example be used to perform this discretization, according to the references Vl Lebedev, and DN Laikov, “A quadrature formula for the sphere of the 131st algebraic order of accuracy”, Doklady Mathematics, vol. 59, no. 3, 1999, pp. 477- 481 or Pierre Lecomte, Philippe-Aubert Gauthier, Christophe Langrenne, Alexandre Garcia and Alain Berry, On the use of a Lebedev grid for Ambisonics, AES Convention 139, New York, 2015.
Dans des variantes on pourra utiliser d’autres discrétisations, comme par exemple une discrétisation de Riege avec au moins N= K points (N≥K), comme décrit dans la référence J. Riege und U. Maier, « A two-stage approach for computing cubature formulae for the sphere », Technical Report, Dortmund University, 1999 ou bien une discrétisation en prenant les points d’un « spherical t-design » comme décrit dans l’article de R H. Hardin and N. J. A Soane, « McLaren's Improved Snub Cube and Other New Spherical Designs in Three Dimensions », Discrète and Gomputational Geometry, 15 (1996), pp. 429-441. In variants, other discretizations can be used, such as for example a Riege discretization with at least N = K points (N≥K), as described in the reference J. Riege und U. Maier, “A two-stage approach for computing cubature formulated for the sphere ”, Technical Report, Dortmund University, 1999 or a discretization taking the points of a“ spherical t-design ”as described in the article by R H. Hardin and NJ A Soane,“ McLaren's Improved Snub Cube and Other New Spherical Designs in Three Dimensions ”, Discrète and Gomputational Geometry, 15 (1996), pp. 429-441.
A partir de cette discrétisation, on peut déterminer l’image spatiale du signal multicanal. Une méthode possible est par exemple la méthode SRP (pour « Steered- Response Power » en anglais). En effet, cette méthode consiste à calculer l’énergie court-terme provenant de différentes directions définies en termes d'azimut et d’élévation. Pour cela, comme expliqué précédemment, de manière similaire au rendu sur N haut-parleurs, une matrice de pondération des composantes ambisoniques est calculée, puis cette matrice est appliquée au signal multicanal pour sommer la contribution des composantes et réaliser un ensemble de N faisceaux acoustiques (ou « beamformers » en anglais). From this discretization, it is possible to determine the spatial image of the multichannel signal. One possible method is for example the SRP method (for "Steered- Response Power ”in English). Indeed, this method consists in calculating the short-term energy coming from different directions defined in terms of azimuth and elevation. For this, as explained previously, similarly to rendering on N speakers, a weighting matrix of the ambisonic components is calculated, then this matrix is applied to the multichannel signal to sum the contribution of the components and produce a set of N acoustic beams (or "beamformers" in English).
Le signal issu du faisceau acoustique pour la direction ( Θn , φn) du nième haut- parleur est donné par : Sn= dn.B où dn est le vecteur (ligne) de pondération donnant les coefficients de formation du faisceau acoustique pour la direction donnée et B est une matrice de taille KxL représentant le signal ambisonique (B-format) à K composantes, sur intervalle temporel de longueur L The signal from the acoustic beam for the direction (Θ n , φ n ) of the nth loudspeaker is given by: S n = d n .B where d n is the weighting vector (line) giving the beam formation coefficients acoustic for the given direction and B is a matrix of size KxL representing the ambisonic signal (B-format) with K components, over time interval of length L
L'ensemble des signaux issus des N faisceaux acoustiques conduit à l’équation : S= D.B o ù et S est une matrice de taille NxL représentant les signaux de N haut-parleurs virtuels sur un intervalle temporel de longueur L The set of signals from the N acoustic beams leads to the equation: S = DB where ù and S is a matrix of size NxL representing the signals of N virtual loudspeakers over a time interval of length L
L'énergie court-terme sur le segment temporel de longueur L pour chaque directionThe short-term energy on the time segment of length L for each direction
( Θn , φn) est : où C= B.BT (cas réel) ou Re(B.BH) (cas complexe) est la matrice de covariance de B.n , φ n ) is: where C = BB T (real case) or Re (BB H ) (complex case) is the covariance matrix of B.
Chaque terme σn 2 =sn.snT peut être calculé ainsi pour l’ensemble des directions Each term σ n 2 = s n .s nT can be calculated thus for the set of directions
( Θn , φn) qui correspondent à une discrétisation de la sphère 3D par des haut- parleurs virtuels. n , φ n ) which correspond to a discretization of the 3D sphere by virtual speakers.
L'image spatiale ∑ est alors donnée par : The spatial image ∑ is then given by:
D’autres variantes de calcul d’une image spatiale ∑ que la méthode SRP, peuvent être utilisées. Other variations of the calculation of a spatial image ∑ than the SRP method, can be used.
- Les valeurs dn peuvent varier selon le type de formation de faisceau acoustique utilisé (delay-sum, MVDR, LCMV..). L'invention s’applique aussi pour ces variantes de calcul de la matrice D et de l’image spatiale - The d n values may vary depending on the type of acoustic beam forming used (delay-sum, MVDR, LCMV, etc.). The invention also applies to these variant calculations of the matrix D and of the spatial image.
- La méthode MUSIC(MUItiple Sgnal Classification) fournit également une autre façon de calculer une image spatiale, avec une approche sous-espaces. - The MUSIC method (MUItiple Sgnal Classification) also provides another way of calculating a spatial image, with a subspace approach.
L'invention s’applique aussi dans cette variante de calcul de l’image spatiale qui correspond au pseudo-spectre MUSIC calculé en diagonalisant la matrice de covariance et évalué pour les directions ( Θn , φn). The invention also applies in this variant of calculation of the spatial image. which corresponds to the MUSIC pseudo-spectrum calculated by diagonalizing the covariance matrix and evaluated for the directions (Θ n , φ n ).
- L'image spatiale peut être calculée à partir d’un histogramme du vecteur intensité (à l’ordre 1) comme par exemple dans l'article de S. Tervo, Direction estimation based on sound intensity vectors, Proc. EUSI PCOO, 2009, ou sa généralisation en vecteur pseudo-intensité. Dans ce cas, ('histogramme (dont les valeurs sont le nombre d'occurrences de valeurs de directions d’arrivée selon les directions prédéterminées ( Θn , φn )) est interprété comme un ensemble d'énergies selon les directions prédéterminées. - The spatial image can be calculated from a histogram of the intensity vector (at order 1) as for example in the article by S. Tervo, Direction estimation based on sound intensity vectors, Proc. EUSI PCOO, 2009, or its generalization into a pseudo-intensity vector. In this case, ('histogram (whose values are the number of occurrences of values of arrival directions according to the predetermined directions (Θ n , φ n )) is interpreted as a set of energies according to the predetermined directions.
Le bloc 330 réalise alors une quantification de l’image spatiale ainsi déterminée, par exemple avec une quantification scalaire sur de 16 bits par coefficients (en utilisant directement la représentation en virgule flottante tronquée sur 16 bits). Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle sont possibles. Dans un autre mode de réalisation, l’information représentative de l’image spatiale du signal multicanal d’origine est une matrice de covariance (des sous-bandes) des canaux d'entrée B. Cette matrice est calculée comme : Block 330 then quantizes the spatial image thus determined, for example with 16-bit scalar quantization by coefficients (directly using the 16-bit truncated floating point representation). In variations, other scalar or vector quantization methods are possible. In another embodiment, the information representative of the spatial image of the original multichannel signal is a covariance matrix (of the subbands) of the input channels B. This matrix is calculated as:
C = B.BT à un facteur de normalisation près (dans le cas réel). C = BB T up to a normalization factor (in the real case).
S l’invention est mise en œuvre dans un domaine par transformée à valeurs complexes, cette covariance se calcule comme : C=Re (B.BH) à un facteur de normalisation près. If the invention is implemented in a domain by transforming complex values, this covariance is calculated as: C = Re (BB H ) up to a normalization factor.
Dans des variantes, des opérations de lissage temporel de la matrice de covariance pourront être utilisés. Dans les cas d'un signal multicanal dans le domaine temporel, la covariance peut être estimée de façon récursive (échantillon par échantillon).In variants, operations of temporal smoothing of the covariance matrix could be used. In the case of a multichannel signal in the time domain, the covariance can be estimated recursively (sample by sample).
La matrice de covariance C (de taille Kx(K) étant, par définition, symétrique, seul un des triangles inférieur ou supérieur est transmis au bloc de quantification 330 qui code (Q) K(K+1)/2 coefficients, K étant le nombre de composantes ambisoniques. Ce bloc 330 réalise une quantification de ces coefficients, par exemple avec une quantification scalaire sur 16 bits par coefficient (en utilisant directement la représentation en virgule flottante tronquée sur 16 bits). Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle de la matrice de covariance pourront être mises en œuvre. Par exemple, on pourra calculer la valeur maximale (variance maximale) de la matrice de covariance puis coder par quantification scalaire avec un pas logarithmique, sur un nombre de bits plus faible (par exemple 8 bits), les valeurs du triangle supérieur (ou inférieur) de la matrice de covariance normalisée par sa valeur maximale. The covariance matrix C (of size Kx (K) being, by definition, symmetric, only one of the lower or upper triangles is transmitted to the quantization block 330 which codes (Q) K (K + 1) / 2 coefficients, K being the number of ambisonic components. This block 330 performs a quantization of these coefficients, for example with a scalar quantization on 16 bits by coefficient (by using directly the floating point representation truncated on 16 bits). scalar or vector quantization of the covariance matrix can be implemented.For example, we can calculate the maximum value (maximum variance) of the covariance matrix then code by scalar quantization with a logarithmic step, on a number of bits more low (for example 8 bits), the values of the upper (or lower) triangle of the covariance matrix normalized by its maximum value.
Dans des variantes, la matrice de covariance C pourra être régularisée avant quantification sous la forme C+ εl . In variants, the covariance matrix C could be regularized before quantification in the form C + εl.
Les valeurs quantifiées sont envoyées au multiplexeur 340. The quantized values are sent to multiplexer 340.
Dans ce mode de réalisation, le décodeur reçoit dans le bloc démultiplexeur 350, un flux binaire comportant un signal audio codé issu du signal multicanal d’origine et l’information représentative d’une image spatiale du signal multicanal d’origine.In this embodiment, the decoder receives in the demultiplexer block 350, a bit stream comprising an encoded audio signal from the original multichannel signal and information representative of a spatial image of the original multichannel signal.
Le bloc 360 décode (Q1) la matrice de covariance ou une autre information représentative de l’image spatiale du signal d’origine. Le bloc 370 décode (DEC) le signal audio tel que représenté par le flux binaire. Block 360 decodes (Q 1 ) the covariance matrix or other information representative of the spatial image of the original signal. Block 370 decodes (DEC) the audio signal as represented by the bit stream.
Dans un mode de réalisation du codage et du décodage, ne mettant pas en œuvre les étapes de downmix et d’upmix, le signal multicanal décodé est obtenu à la sortie du bloc de décodage 370. In one embodiment of the encoding and decoding, not implementing the downmix and upmix steps, the decoded multichannel signal is obtained at the output of decoding block 370.
Dans le mode de réalisation où l’étape de downmix a été utilisée au codage, le décodage mis en œuvre dans le bloc 370 permet d’obtenir un signal audio décodé qui est envoyé en entrée du bloc 371 d’upmix. In the embodiment where the downmix step has been used in encoding, the decoding implemented in block 370 provides a decoded audio signal which is input to upmix block 371.
Ainsi, le bloc 371 met en œuvre une étape optionnelle (UPMIX) d’augmentation du nombre de canaux. Dans un mode de réalisation de cette étape, pour le canal d’un signal mono , elle consiste à oonvoluer le signal par différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response »); ces SRIRs sont définis à l’ordre ambisonique d’origine de B. D’autres méthodes de décorrélation sont possibles, par exemple l’application de filtres décorrélateurs passe- tout aux différents canaux du signal . Thus, block 371 implements an optional step (UPMIX) of increasing the number of channels. In one embodiment of this step, for the channel of a mono signal , it consists in changing the signal by different responses room spatial impulses (SRIR for “Spatial Room Impulse Response”); these SRIRs are defined in the original ambisonic order of B. Other decorrelation methods are possible, for example the application of all-pass decorrelator filters to the different channels of the signal.
Le bloc 372 met en œuvre une étape optionnelle (SB) de division en sous-bandes pour obtenir soit des sous-bandes dans le domaine temporel ou dans un domaine transformé. Une étape inverse, dans le bloc 391 , regroupe les sous-bandes pour retrouver un signal multicanal en sortie. The block 372 implements an optional step (SB) of division into sub-bands to obtain either sub-bands in the time domain or in a transformed domain. A reverse step, in block 391, groups the sub-bands to find a multichannel signal at the output.
Le bloc 375 détermine (Inf ) une information représentative d’une image spatiale du signal multicanal décodé de manière similaire à que ce qui a été décrit pour le bloc 321 (pour le signal multicanal d’origine), appliqué cette fois-ci au signal multicanal décodé obtenu en sortie du bloc 371 ou du bloc 370 selon les modes de réalisation de décodage. Block 375 determines (Inf ) information representative of a spatial image of the decoded multichannel signal in a manner similar to that described for block 321 (for the original multichannel signal), this time applied to the decoded multichannel signal obtained at the output of the block 371 or block 370 depending on the embodiments decoding.
De la même façon que ce qui a été décrit pour le bloc 321 , dans un mode de réalisation, cette information est une information d’énergie assodée à des diredions de provenance du son (assodées à des directions de haut-parleurs virtuels répartis sur une sphère unité). Comme expliqué plus haut, une méthode de type SRP (ou autre) peut être utilisée pour déterminer l’image spatiale du signal multicanal décodé. Dans un autre mode de réalisation, cette information est une matrice de covariance des canaux du signal multicanal décodé. Cette matrice de covariance est alors obtenue comme suit : In the same way as what has been described for the block 321, in one embodiment, this information is energy information associated with directions of origin of the sound (associated with the directions of virtual loudspeakers distributed over a unit sphere). As explained above, an SRP (or other) type method can be used to determine the spatial image of the decoded multichannel signal. In another embodiment, this information is a covariance matrix of the channels of the decoded multichannel signal. This covariance matrix is then obtained as follows:
(cas réel) ou (cas complexe) à un facteur de normalisation près. (real case) or (complex case) up to a normalization factor.
Dans des variantes, des opérations de lissage temporel de la matrice de covariance pourront être utilisées. Dans les cas d’un signal multicanal dans le domaine temporel, la covariance peut être estimée de façon récursive (échantillon par échantillon).In variants, operations of temporal smoothing of the covariance matrix could be used. In the case of a multichannel signal in the time domain, the covariance can be estimated recursively (sample by sample).
A partir des informations représentatives des images spatiales respectivement du signal multicanal d’origine (Inf. B) et du signal multicanal décodé (Inf. ), par exemple, les matrices de covariance C et le bloc 380 met en œuvre le procédé de détermination (Det.Corr) d'un ensemble de corrections tel que décrit en référence à la figure 2. From the information representative of the spatial images respectively of the original multichannel signal (Inf. B) and of the decoded multichannel signal (Inf. ), for example, the covariance matrices C and block 380 implements the method of determination (Det.Corr) of a set of corrections as described with reference to FIG. 2.
Deux modes de réalisation particuliers de cette détermination sont décrits en référence aux figures 4 et 5. Two particular embodiments of this determination are described with reference to FIGS. 4 and 5.
Dans le mode de réalisation de la figure 4, une méthode utilisant le rendu (explicite ou non) sur haut-parleur virtuel est utilisée et dans le mode de réalisation de la figure 5, une méthode mise en œuvre basée sur une factorisation de type Cholesky est utilisée. In the embodiment of FIG. 4, a method using rendering (explicit or not) on a virtual loudspeaker is used and in the embodiment of FIG. 5, a method implemented based on a factorization of the Cholesky type is used.
Le bloc 390 de la figure 3 met en œuvre une correction (CORR) du signal multicanal décodé par l’ensemble de corrections déterminé par le bloc 380 pour obtenir un signal multicanal décodé corrigé. Block 390 of Figure 3 implements a correction (CORR) of the multichannel signal decoded by the set of corrections determined by block 380 to obtain a corrected decoded multichannel signal.
La figure 4 représente donc un mode de réalisation de l’étape de détermination d’un ensemble de corrections. Ce mode de réalisation s’effectue par l’utilisation du rendu sur haut-parleurs virtuels. FIG. 4 therefore represents an embodiment of the step of determining a set of corrections. This embodiment is accomplished through the use of virtual speaker rendering.
Dans ce mode de réalisation, on considère dans un premier temps que les informations représentatives de l’image spatiale du signal multicanal d’origine et du signal multicanal décodé sont les matrices de covariance respectives C et In this embodiment, it is initially considered that the information representative of the spatial image of the original multichannel signal and of the decoded multichannel signal are the respective covariance matrices C and
Dans ce cas, les blocs 420 et 421 déterminent respectivement les images spatiales du signal multicanal d’origine et du signal multicanal décodé. In this case, blocks 420 and 421 respectively determine the spatial images of the original multichannel signal and the decoded multichannel signal.
Pour ce faire, comme déait précédemment, on discrétise une sphère 3D virtuelle de rayon unité, par N points (haut-parleurs virtuels « ponctuels ») dont la direction est définie en coordonnées sphériques par les directions ( Θn , φn) pour le nième haut- parleur. To do this, as was done previously, we discretize a virtual 3D sphere of unit radius, by N points (“point” virtual speakers) whose direction is defined in spherical coordinates by the directions (Θ n , φ n ) for the nth speaker.
Plusieurs méthodes de discrétisation ont été définies ci-dessus. Several discretization methods have been defined above.
A partir de cette discrétisation, on peut déterminer l’image spatiale du signal multicanal. Gomme déait précédemment une méthode possible est la méthode SRP (ou autre) qui consiste à calculer l’énergie court-terme provenant de différentes directions définies en termes d’azimut et d’élévation. From this discretization, we can determine the spatial image of the multichannel signal. As previously mentioned, one possible method is the SRP (or other) method which consists in calculating the short-term energy coming from different directions defined in terms of azimuth and elevation.
Dette méthode ou d’autres types de méthodes telles que listées précédemment peuvent être utilisées pour déterminer les images spatiales ∑ et Debt method or other types of methods as listed previously can be used to determine the spatial images ∑ and
) respectivement du signal multicanal d’origine, en 420 (IMG B) et du signal multicanal décodé en 421 (IMG ). Dans le cas où l'information représentative de l’image spatiale du signal d’origine (Inf B) reçue et décodée en 360 par le décodeur est l’image spatiale elle-même, c’est-à- dire une information d’énergie (ou une grandeur positive) associée à des directions de provenance du son (associées à des directions de haut-parleurs virtuels répartis sur une sphère unité), il n’est alors plus nécessaire de la calculer en 420. Cette image spatiale est alors utilisée directement par le bloc 430 décrit ci-après. ) respectively of the original multichannel signal, in 420 (IMG B) and of the multichannel signal decoded in 421 (IMG ). In the case where the information representative of the spatial image of the original signal (Inf B) received and decoded in 360 by the decoder is the spatial image itself, that is to say information of energy (or a positive quantity) associated with directions of origin of the sound (associated with directions of virtual loudspeakers distributed over a unit sphere), it is then no longer necessary to calculate it at 420. This spatial image is then used directly by block 430 described below.
De même, si la détermination en 375 de l’information représentative de l’image spatiale du signal multicanal décodé ( I nf ) est l’image spatiale elle-même du signal multicanal décodé, alors il n’est plus nécessaire de la calculer en 421. Cette image spatiale est alors utilisée directement par le bloc 430 décrit-ci-après. Likewise, if the determination at 375 of the information representative of the spatial image of the decoded multichannel signal (I nf ) is the spatial image itself of the decoded multichannel signal, then it is no longer necessary to calculate it at 421. This spatial image is then used directly by block 430 described below.
A partir des images spatiales ∑ et le bloc 430 calcule (Ratio) pour chaque point donné par ( Θn , φn), le ratio d’énergie entre l’énergie σπ 2= ∑n du signal d’origine et l’énergie du signal décodé. Un ensemble de gains gn est ainsi obtenu selon l’équation suivante : From the spatial images ∑ and block 430 calculates (Ratio) for each point given by (Θ n , φ n ), the energy ratio between the energy σ π 2 = ∑ n of the original signal and the energy of the decoded signal. A set of gains g n is thus obtained according to the following equation:
Le ratio d’énergie, selon la direction ( Θn , φn) et la bande de fréquence, peut être très important. Le bloc 440 permet, de façon optionnelle, de limiter (Limit gn) la valeur maximale que peut prendre un gain gn. On rappelle ici que les grandeurs positives notées σπ 2 et peuvent correspondre plus généralement à des quantités issues d’un pseudo-spectre MUSIC ou des valeurs issues d’un histogramme de directions d’arrivée selon les directions discrétisées ( Θn , φn). The energy ratio, depending on the direction (Θ n , φ n ) and the frequency band, can be very important. Block 440 optionally makes it possible to limit (Limit g n ) the maximum value that a gain g n can take. It is recalled here that the positive quantities noted σ π 2 and can correspond more generally to quantities resulting from of a MUSIC pseudo-spectrum or of the values resulting from a histogram of directions of arrival according to the discretized directions (Θ n , φ n ).
Dans une réalisation possible, un seuil est appliqué à la valeur de gn. Toute valeur supérieure à ce seuil est forcée à être égale à cette valeur seuil. Le seuil peut être par exemple fixé à 6 dB, de sorte qu’une valeur de gain en dehors de l’intervalle ±In one possible embodiment, a threshold is applied to the value of g n . Any value greater than this threshold is forced to be equal to this threshold value. The threshold can be for example fixed at 6 dB, so that a gain value outside the range ±
6 dB est saturé à ± 6 dB. 6 dB is saturated to ± 6 dB.
Cet ensemble de gains gn constitue donc l’ensemble de corrections à apporter au signal multicanal décodé. Cet ensemble de gains est reçu en entrée du bloc 390 de correction de la figure 3. Une matrice de correction directement applicable au signal multicanal décodé peut être définie, par exemple sous la forme G= E.diag([g0 ... gN-1]).D où D et E sont les matrices de décodage et d’encodage acoustiques définies précédemment Cette matrice G est appliquée au signal multicanal décodé pour obtenir le signal ambisonique de sortie corrigé ( corr). This set of gains g n therefore constitutes the set of corrections to be made to the decoded multichannel signal. This set of gains is received at the input of the correction block 390 of FIG. 3. A correction matrix directly applicable to the decoded multichannel signal can be defined, for example in the form G = E.diag ([g 0 ... g N-1 ]). D where D and E are the acoustic decoding and encoding matrices defined previously This matrix G is applied to the decoded multichannel signal to obtain the signal corrected output ambisonics (corr).
Une décomposition des étapes mises en œuvre pour la correction est maintenant décrit. Le bloc 390 applique pour chaque haut-parleur virtuel, le gain gn correspondant, déterminé précédemment. L'application de ce gain permet d’obtenir, sur ce haut-parleur, la même énergie que le signal d’origine. A breakdown of the steps implemented for the correction is now described. Block 390 applies, for each virtual loudspeaker, the corresponding gain g n , determined previously. The application of this gain makes it possible to obtain, on this loudspeaker, the same energy as the original signal.
Le rendu sur chaque haut-parleur des signaux décodés est ainsi corrigé. The rendering on each loudspeaker of the decoded signals is thus corrected.
Une étape d’encodage acoustique, par exemple un encodage ambisonique par la matrice E est alors mise en œuvre pour obtenir des composantes du signal multicanal, par exemple des composantes ambisoniques. Ces composantes ambisoniques sont finalement sommées pour obtenir le signal multicanal de sortie, corrigé ( Corr). On peut donc calculer explicitement les canaux associés aux haut-parleurs virtuels, leur appliquer un gain, puis recombiner les canaux traités, ou de façon équivalente appliquer la matrice G au signal à corriger. An acoustic encoding step, for example ambisonic encoding by the matrix E, is then implemented to obtain components of the multichannel signal, for example ambisonic components. These ambisonic components are finally summed to obtain the multichannel output signal, corrected (Corr). It is therefore possible to calculate explicitly the channels associated with the virtual loudspeakers, to apply a gain to them, then to recombine the processed channels, or in an equivalent manner to apply the matrix G to the signal to be corrected.
Dans des variantes, à partir de la matrice de covariance du signal multicanal codé puis décodé et de la matrice de correction G on peut calculer dans le bloc 390 la matrice de covariance du signal corrigé comme : In variants, from the covariance matrix of the encoded multichannel signal then decoded and from the correction matrix G one can calculate in block 390 the covariance matrix of the corrected signal as:
Seule la valeur du premier coefficient R00 de la matrice R, correspondant à la composante omnidirectionnelle (canal W), est conservée pour être appliquée comme facteur de normalisation à R et éviter une augmentation du gain global due à la matrice de correction G: où correspond au premier coefficient de la matrice de covariance du signal multicanal décodé. Only the value of the first coefficient R 00 of the matrix R, corresponding to the omnidirectional component (channel W), is kept to be applied as a normalization factor to R and to avoid an increase in the overall gain due to the correction matrix G: where corresponds to the first coefficient of the covariance matrix of the decoded multichannel signal.
Dans des variantes, le facteur de normalisation gnorm pourra être déterminé sans calculer toute la matrice R, car il suffit de ne calculer qu'un sous-ensemble d’éléments matriciels pour déterminer R00 et donc gnorm ). In variants, the normalization factor g norm can be determined without calculating the entire matrix R, because it suffices to calculate only a subset of matrix elements to determine R 00 and therefore g norm ).
La matrice G ou Gnormrm ainsi obtenue correspond à l’ensemble de corrections à apporter au signal multicanal décodé. The matrix G or G norm rm thus obtained corresponds to the set of corrections to be made to the decoded multichannel signal.
La figure 5 représente, à présent, un autre mode de réalisation du procédé de détermination de l’ensemble de corrections mis en œuvre dans le bloc 380 de la figureFigure 5 now shows another embodiment of the method for determining the set of corrections implemented in block 380 of Figure
3. 3.
Dans ce mode de réalisation, on considère que les informations représentatives de l’image spatiale du signal multicanal d’origine et du signal multicanal décodé sont les matrices de covariance respectives C et In this embodiment, it is considered that the information representative of the spatial image of the original multichannel signal and of the decoded multichannel signal are the respective covariance matrices C and
Dans ce mode de réalisation, on ne cherche pas à faire un rendu sur haut-parleurs virtuels pour corriger l’image spatiale d’un signal multicanal. De façon particulière, pour un signal ambisonique, on cherche à calculer la correction de l’image spatiale directement dans le domaine ambisonique. In this embodiment, no attempt is made to render on virtual speakers in order to correct the spatial image of a multichannel signal. In particular, for an ambisonic signal, we seek to calculate the correction of the spatial image directly in the ambisonic domain.
Pour cela, une matrice de transformation T à appliquer au signal décodé est déterminée, de sorte que l’image spatiale modifiée après application de la matrice de transformation T au signal décodé soit la même que celle du signal d’origine B. On cherche donc une matrice T qui vérifie l’équation suivante : où C= B.BT est la matrice de covariance de B et est la matrice de covariance de , dans la trame courante. For this, a transformation matrix T to be applied to the decoded signal is determined, so that the spatial image modified after application of the transformation matrix T to the decoded signal is the same as that of the original signal B. We are therefore looking for a matrix T which satisfies the following equation: where C = BB T is the covariance matrix of B and is the covariance matrix of , in the current frame.
Dans ce mode de réalisation, on utilise une factorisation dite factorisation de Cholesky pour résoudre cette équation. In this embodiment, a factorization known as Cholesky factorization is used to solve this equation.
Etant donnée une matrice A de taille n x n, la factorisation de Cholesky consiste à déterminer une matrice L triangulaire (inférieure ou supérieure) telle que A= LLT (cas réel) et A= LLH (cas complexe). Pour que la décomposition soit possible, la matrice A doit être une matrice symétrique définie positive (cas réel) ou hermitienne définie positive (cas complexe) ; dans le cas réel, les coefficients diagonaux de L sont strictement positifs. Given a matrix A of size nxn, the Cholesky factorization consists in determining a triangular matrix L (lower or higher) such that A = LL T (real case) and A = LL H (complex case). For the decomposition to be possible, the matrix A must be a positive definite symmetric matrix (real case) or a definite Hermitian matrix. positive (complex case); in the real case, the diagonal coefficients of L are strictly positive.
Dans le cas réel, une matrice M taille n x n est dite symétrique définie positive si elle est symétrique (MT= M) et définie positive (xTMx> 0 pour tout ). In the real case, a matrix M size nxn is said to be symmetric positive definite if it is symmetric (M T = M) and positive definite (x T Mx> 0 for all).
Pour une matrice symétrique M, il est possible de vérifier que la matrice est définie positive si toutes ses valeurs propres sont strictement positives ( λi>0 ). S les valeurs propres sont positives ( λl≥ 0 ), la matrice est dite semi-définie positive. For a symmetric matrix M, it is possible to check that the matrix is positive definite if all its eigenvalues are strictly positive (λ i > 0). If the eigenvalues are positive (λl ≥ 0), the matrix is said to be positive semi-definite.
Une matrice M taille n x n est dite hermitienne symétrique définie positive si elle est hermitienne (MH= M) et définie positive (zHMz est un réel >0 pour tout ). A matrix M size nxn is said to be symmetric Hermitian positive definite if it is Hermitian (M H = M) and positive definite (z H Mz is a real> 0 for all ).
La factorisation de Cholesky est par exemple utilisée pour trouver une solution à un système d’équation linaire du type Ax= b. Par exemple, dans le cas complexe, il est possible de transformer A en LLH par la factorisation de Cholesky, de résoudre Ly= b puis de résoudre LHx= y. Cholesky factorization is for example used to find a solution to a system of linear equations of the type Ax = b. For example, in the complex case, it is possible to transform A into LL H by the Cholesky factorization, to solve Ly = b then to solve L H x = y.
De façon équivalente, la factorisation de Cholesky peut s’écrire comme A= UTU (cas réel) et A= UHU (cas complexe), où U est une matrice triangulaire supérieure. Equivalently, the Cholesky factorization can be written as A = U T U (real case) and A = U H U (complex case), where U is an upper triangular matrix.
Dans le mode de réalisation décrit ici, sans perte de généralité, on ne traite que le cas d’une factorisation de Cholesky par matrice triangulaire L. In the embodiment described here, without loss of generality, we only deal with the case of a Cholesky factorization by triangular matrix L.
Ainsi, la factorisation de Cholesky permet de décomposer une matrice C= LLT en deux matrices triangulaires à la condition que la matrice C soit symétrique définie positive. Cela donne l’équation suivante : Thus, the factorization of Cholesky makes it possible to decompose a matrix C = LL T into two triangular matrices on the condition that the matrix C is symmetrically positive definite. This gives the following equation:
25 25
Par identification, on trouve : By identification, we find:
Soit : Is :
Les matrices de covariance C et étant en général des matrice semi-définies positives, la factorisation de Cholesky ne peut pas être utilisée telle quelle. On note ici quand les matrices L et sont triangulaires inférieures (respectivement supérieures), la matrice de transformation T est aussi triangulaire inférieure (respectivement supérieure). Since the covariance matrices C are generally positive semi-defined matrices, the Cholesky factorization cannot be used as is. We note here when the matrices L and are lower triangular (respectively upper), the transformation matrix T is also lower triangular (respectively upper).
Ainsi, le bloc 510 force la matrice de covariance C à être définie positive. Pour cela, une valeur ε est ajoutée (Fact. C pour factorisation de C) sur les coeffidents de la diagonale de la matrice pour garantir que la matrice soit bien définie positive : C=C+εI , où ε est une faible valeur fixée par exemple à 10-9 et I est la matrice identité. De manière similaire, le bloc 520 force la matrice de covariance à être définie positive, en modifiant cette matrice sous la forme , où ε est une faible valeur fixée par exemple à 10-9 et I est la matrice identité. Thus, block 510 forces the covariance matrix C to be positive definite. For this, a value ε is added (Fact. C for factorization of C) on the coefficients of the diagonal of the matrix to guarantee that the matrix is well defined positive: C = C + εI, where ε is a low value fixed by example at 10 -9 and I is the identity matrix. Similarly, block 520 forces the covariance matrix to be positive definite, by modifying this matrix in the form, where ε is a weak value set for example at 10 -9 and I is the identity matrix.
Une fois que les deux matrices de covariance C et sont conditionnées pour être définies positives, le bloc 530 calcule les factorisations de Cholesky assodées et trouve (Det.T) la matrice de transformation optimale T sous la forme Once the two covariance matrices C and are conditioned to be positive, block 530 calculates the associated Cholesky factorizations and finds (Det.T) the optimal transformation matrix T in the form
Dans des variantes, une résolution alternative peut être faite avec une décomposition en valeurs propres. In variants, an alternative resolution can be made with an eigenvalue decomposition.
La décomposition en valeurs propres (« eigen décomposition » en anglais) consiste à factoriser une matrice réelle ou complexe A de taille n x n sous la forme : The decomposition into eigenvalues ("eigen decomposition" in English) consists in factoring a real or complex matrix A of size n x n in the form:
A=Q Λ Q-1 où A est une matrice diagonale contenant les valeurs propres λi et Q est la matrice des vecteurs propres. A = Q Λ Q -1 where A is a diagonal matrix containing the eigenvalues λ i and Q is the matrix of eigenvectors.
S la matrice est réelle: If the matrix is real:
A=Q Λ QT A = Q Λ Q T
Dans le cas complexe, la décomposition s’écrit: A=QΛQH In the complex case, the decomposition is written: A = QΛQ H
Dans le cas présent, on cherche alors une matrice T telle que : où C= Q Λ Qt et soit : In the present case, one then seeks a matrix T such as: where C = Q Λ Q t and is :
Par identification on trouve : By identification we find:
Soit : Is :
La stabilité de la solution d’une trame à l’autre est typiquement moins bonne qu’avec une approche par factorisation par Cholesky. A cette instabilité s’ajoutent de plus importantes approximations de calcul potentiellement plus grandes lors de la décomposition en valeurs propres. The stability of the solution from one frame to another is typically poorer than with a Cholesky factorization approach. To this instability are added larger approximations of calculation potentially larger during the decomposition into eigenvalues.
Dans des variantes le calcul de la matrice diagonale pourra être effectué élément par élément sous la forme où sgn(.) est une fonction de signe (+1 si positif, -1 autrement) et ε est un terme de régularisation (par exemple ε= 109) pour éviter les divisions par zéro. In variants the calculation of the diagonal matrix or can be done element by element in the form where sgn (.) is a sign function (+1 if positive, -1 otherwise) and ε is a regularization term (eg ε = 10 9 ) to avoid divisions by zero.
Dans ce mode de réalisation, il est possible que la différence relative d'énergie entre le signal ambisonique décodé et le signal ambisonique corrigé soit très importante, notamment au niveau des hautes fréquences qui peuvent être fortement détériorées par les codeurs tels que le codage EVS multi-mono. Pour éviter d’amplifier de manière trop importante certaines zones fréquentielles un terme de régularisation peut être ajouté. Le bloc 640 se charge de manière optionnelle de normaliser (Norm. T) cette correction. In this embodiment, it is possible that the relative difference in energy between the decoded ambisonic signal and the corrected ambisonic signal is very large, especially at the high frequencies which can be greatly deteriorated by encoders such as multi-EVS coding. -mono. To avoid excessively amplifying certain frequency zones, a regularization term can be added. Block 640 optionally takes care of normalizing (Norm. T) this correction.
Dans le mode de réalisation privilégié, un facteur de normalisation est donc calculé pour ne pas amplifier de zones fréquentielles. A partir de la matrice de covariance du signal multicanal codé puis décodé et de la matrice de transformation T on peut calculer la matrice de covariance du signal corrigé comme : In the preferred embodiment, a normalization factor is therefore calculated so as not to amplify frequency zones. From the covariance matrix of the encoded then decoded multichannel signal and from the transformation matrix T we can calculate the covariance matrix of the corrected signal as:
Seule la valeur du premier coefficient R00 de la matrice R, correspondant à la composante omnidirectionnelle (canal W), est conservée pour être appliquée comme facteur de normalisation à T et éviter une augmentation du gain global due à la matrice de correction T: avec où correspond au premier coefficient de la matrice de covariance du signal multicanal décodé. Only the value of the first coefficient R 00 of the matrix R, corresponding to the omnidirectional component (channel W), is kept to be applied as a normalization factor to T and to avoid an increase in the overall gain due to the correction matrix T: with where corresponds to the first coefficient of the covariance matrix of the decoded multichannel signal.
Dans des variantes, le facteur de normalisation gnorm pourra être déterminé sans calculer toute la matrice R, car il suffit de ne calculer qu'un sous-ensemble d’éléments matriciels pour déterminer R00 (et donc gnorm ). In variants, the normalization factor g norm can be determined without calculating the entire matrix R, because it suffices to calculate only a subset of matrix elements to determine R 00 (and therefore g norm ).
La matrice T ou Tnorm ainsi obtenue correspond à l’ensemble de corrections à apporter au signal multicanal décodé. The matrix T or T norm thus obtained corresponds to the set of corrections to be made to the decoded multichannel signal.
Avec ce mode de réalisation le bloc 390 de la figure 3 effectue l’étape de correction du signal multicanal décodé par application de la matrice de transformation T ou Tnorm directement au signal multicanal décodé, dans le domaine ambisonique, pour obtenir le signal ambisonique de sortie corrigé ( corr). With this embodiment, the block 390 of FIG. 3 performs the step of correcting the decoded multichannel signal by applying the transformation matrix T or T norm directly to the decoded multichannel signal, in the ambisonic domain, to obtain the ambisonic signal of output corrected (corr).
On décrit à présent un deuxième mode de réalisation d’un codeur/décodeur selon l’invention dans lequel le procédé de détermination de l’ensemble de corrections est mis en œuvre au codeur. La figure 6 décrit ce mode de réalisation. Cette figure représente donc un deuxième mode de réalisation d’un dispositif de codage et d’un dispositif de décodage pour la mise en œuvre d’un procédé de codage et de décodage incluant un procédé de détermination d'un ensemble de corrections tel que décrit en référence à la figure 2. A second embodiment of an encoder / decoder according to the invention will now be described in which the method for determining the set of corrections is implemented at the encoder. Figure 6 describes this embodiment. This figure therefore represents a second embodiment of an encoding device and of a decoding device for the implementation of a coding and decoding method. including a method for determining a set of corrections as described with reference to FIG. 2.
Dans ce mode de réalisation le procédé de détermination de l’ensemble de corrections (par exemple des gains associés à des directions) est effectué au codeur qui transmet alors au décodeur cet ensemble de corrections. Le décodeur décode cet ensemble de corrections pour l’appliquer au signal multicanal décodé. Oe mode de réalisation implique donc de mettre en œuvre un décodage local au codeur, ce décodage local est représenté par les blocs 612 à 613. In this embodiment, the method of determining the set of corrections (for example the gains associated with the directions) is carried out to the encoder which then transmits this set of corrections to the decoder. The decoder decodes this set of corrections to apply it to the decoded multichannel signal. Oe embodiment therefore involves implementing a local decoding at the encoder, this local decoding is represented by blocks 612 to 613.
Les blocs 610, 611 , 620 et 621 sont identiques respectivement aux blocs 310, 311 , 320 et 321 décrits en référence à la figure 3. The blocks 610, 611, 620 and 621 are identical respectively to the blocks 310, 311, 320 and 321 described with reference to FIG. 3.
On obtient ainsi, à la sortie du bloc 621 , une information représentative de l’image spatiale du signal multicanal d’origine (Inf. B). Thus, at the output of block 621, information representative of the spatial image of the original multichannel signal (Inf. B) is obtained.
Le bloc 612 met en œuvre un décodage local (DEc_loc) en lien avec le codage effectué par le bloc 611. Block 612 implements local decoding (DEc_loc) in connection with the coding performed by block 611.
Oe décodage local peut consister en un décodage complet à partir du train binaire issu du bloc 611 ou de façon préférentielle il peut être intégré au bloc 611. The local decoding can consist of a complete decoding from the binary train coming from the block 611 or, preferably, it can be integrated into the block 611.
Dans un mode de réalisation du codage et du décodage, ne mettant pas en œuvre les étapes de downmix et d’upmix, le signal multicanal décodé est obtenu à la sortie du bloc de décodage local 612. In one embodiment of the encoding and decoding, not implementing the downmix and upmix steps, the decoded multichannel signal is obtained at the output of local decoding block 612.
Dans le mode de réalisation où l’étape de downmix en 610 a été utilisée au codage, le décodage local mis en œuvre dans le bloc 612 permet d’obtenir un signal audio décodé qui est envoyé en entrée du bloc 613 d’upmix. In the embodiment where the downmix step in 610 has been used for encoding, the local decoding implemented in block 612 makes it possible to obtain a decoded audio signal which is sent as input to block 613 of upmix.
Ainsi, le bloc 613 met en œuvre une étape optionnelle (UPMIX) d’augmentation du nombre de canaux. Dans un mode de réalisation de cette étape, pour le canal d’un signal mono , elle consiste à convoluer le signal par différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response »); ces SRIRs sont définis à l’ordre ambisonique d’origine de B. D’autres méthodes de décorrélation sont possibles, par exemple l’application de filtres décorrélateurs passe- tout aux différents canaux du signal . Thus, block 613 implements an optional step (UPMIX) of increasing the number of channels. In one embodiment of this step, for the channel of a mono signal , it consists in convolving the signal by different room spatial impulse responses (SRIR for “Spatial Room Impulse Response”); these SRIRs are defined in the original ambisonic order of B. Other decorrelation methods are possible, for example the application of all-pass decorrelator filters to the different channels of the signal.
Le bloc 614 met en œuvre une étape optionnelle (SB) de division en sous-bandes pour obtenir soit des sous-bandes dans le domaine temporel ou dans un domaine transformé. Le bloc 615 détermine (Inf ) une information représentative d'une image spatiale du signal multicanal décodé de manière similaire à que ce qui a été décrit pour les blocs 621 et 321 (pour le signal multicanal d’origine), appliqué cette fois-ci au signal multicanal décodé obtenu en sortie du bloc 612 ou du bloc 613 selon les modes de réalisation du décodage local. Ce bloc 615 est équivalent au bloc 375 de la figureThe block 614 implements an optional step (SB) of division into sub-bands to obtain either sub-bands in the time domain or in a transformed domain. Block 615 determines (Inf) information representative of a spatial image of the decoded multichannel signal similarly to what has been described for blocks 621 and 321 (for the original multichannel signal), applied this time. to the decoded multichannel signal obtained at the output of block 612 or of block 613 according to the modes for performing local decoding. This block 615 is equivalent to block 375 of figure
3. 3.
De la même façon que pour les blocs 621 et 321 , dans un mode de réalisation, cette information est une information d’énergie assodée à des directions de provenance du son (assodées à des directions de haut-parleurs virtuels répartis sur une sphère unité). Comme expliqué plus haut, une méthode de type SRP ou autre (comme les variantes décrites précédemment) peut être utilisée pour déterminer l’image spatiale du signal multicanal décodé. In the same way as for blocks 621 and 321, in one embodiment, this information is energy information associated with directions of origin of sound (associated with directions of virtual speakers distributed over a unit sphere) . As explained above, an SRP or other type method (such as the variants described above) can be used to determine the spatial image of the decoded multichannel signal.
Dans un autre mode de réalisation, cette information est une matrice de covariance des canaux du signal multicanal décodé. Cette matrice de covariance est alors obtenue comme suit : à un facteur de normalisation près (dans le cas réel) ou à un facteur de normalisation près (dans le cas complexe) In another embodiment, this information is a covariance matrix of the channels of the decoded multichannel signal. This covariance matrix is then obtained as follows: up to a normalization factor (in the real case) or up to a normalization factor (in the complex case)
A partir des informations représentatives des images spatiales respectivement du signal multicanal d’origine (Inf. B) et du signal multicanal décodé (Inf. ), par exemple, les matrices de covariance C et , le bloc 680 met en œuvre le procédé de détermination (Det.Gorr) d’un ensemble de corrections tel que décrit en référence à la figure 2. From the information representative of the spatial images respectively of the original multichannel signal (Inf. B) and of the decoded multichannel signal (Inf. ), for example, the covariance matrices C and , block 680 implements the method for determining (Det.Gorr) a set of corrections as described with reference to FIG. 2.
Deux modes de réalisation particuliers de cette détermination sont possibles et ont été décrits en référence aux figures 4 et 5. Two particular embodiments of this determination are possible and have been described with reference to FIGS. 4 and 5.
Dans le mode de réalisation de la figure 4, une méthode utilisant le rendu sur haut- parleur est utilisé et dans le mode de réalisation de la figure 5, une méthode mise en œuvre directement dans le domaine ambisonique basée sur une factorisation de type Cholesky ou par décomposition en valeurs propres est utilisée. In the embodiment of FIG. 4, a method using speaker rendering is used and in the embodiment of FIG. 5, a method implemented directly in the ambisonic domain based on a factorization of the Cholesky type or by eigenvalue decomposition is used.
Ainsi, si le mode de réalisation de la figure 4 est appliqué en 630, l’ensemble de corrections déterminé est un ensemble de gains gn pour un ensemble de directions ( Θn , φn) définis par un ensemble de haut-parleurs virtuels. Cet ensemble de gains peut être déterminé sous la forme d’une matrice de correction G comme décrit en référence à la figure 4. Thus, if the embodiment of FIG. 4 is applied at 630, the determined set of corrections is a set of gains g n for a set of directions (Θ n , φ n ) defined by a set of virtual loudspeakers. This set of gains can be determined in the form of a correction matrix G as described with reference to FIG. 4.
Oet ensemble de gains (Gorr.) est alors codé en 640. Le codage de cet ensemble de gains peut consister au codage de la matrice de correction G ou Gnorm. This set of gains (Gorr.) Is then coded at 640. The coding of this set of gains can consist in coding the correction matrix G or G norm .
On note que la matrice G de taille KxK est symétrique, ainsi selon l’invention il est possible de ne coder que le triangle inférieur ou supérieur de G ou Gnorm, soitIt is noted that the matrix G of size KxK is symmetrical, so according to the invention it is possible to code only the lower or upper triangle of G or G norm , i.e.
Kx(K+ 1)/2 valeurs. En général, les valeurs sur la diagonale sont positives. Dans un mode de réalisation le codage de la matrice G ou Gnorm est effectué par quantification scalaire (avec ou sans bit de signe) selon que les valeurs sont hors diagonale ou non. Dans les variantes où Gnorm est utilisée, on pourra omettre de coder et transmettre la première valeur de la diagonale (correspondant à la composante omnidirectionnelle) de Gnorm car elle est toujours à 1 ; par exemple dans le cas ambisonique d’ordre 1 àKx (K + 1) / 2 values. In general, the values on the diagonal are positive. In one embodiment, the coding of the matrix G or G norm is carried out by scalar quantization (with or without a sign bit) depending on whether the values are outside the diagonal or not. In the variants where G norm is used, we can omit to code and transmit the first value of the diagonal (corresponding to the omnidirectional component) of G norm because it is always at 1; for example in the ambisonic case of order 1 to
K=4 canaux cela revient à ne transmettre que 9 valeurs au lieu de Kx(K+ 1)/2= 10 valeurs. Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle (avec ou sans prédiction) pourront être utilisées. K = 4 channels this amounts to transmitting only 9 values instead of Kx (K + 1) / 2 = 10 values. In variants, other scalar or vector quantization methods (with or without prediction) could be used.
S le mode de réalisation de la figure 5 est appliqué en 630, l’ensemble de corrections déterminé est une matrice de transformation T ou Tnorm qui est alors codée en 640.If the embodiment of FIG. 5 is applied at 630, the determined set of corrections is a transformation matrix T or T norm which is then coded at 640.
On note que la matrice T de taille KxK est triangulaire dans la variante utilisant factorisation de Cholesky et symétrique dans la variante utilisant la décomposition en valeurs propres; ainsi selon l’invention il est possible de ne coder que le triangle inférieur ou supérieur de T ou Tnorm, soit Kx(K+ 1)/2 valeurs. It is noted that the matrix T of size KxK is triangular in the variant using Cholesky factorization and symmetric in the variant using the eigenvalue decomposition; thus according to the invention it is possible to code only the lower or upper triangle of T or T norm , ie Kx (K + 1) / 2 values.
En général, les valeurs sur la diagonale sont positives. Dans un mode de réalisation le codage de la matrice T ou Tnorm est effectué par quantification scalaire (avec ou sans bit de signe) selon que les valeurs sont hors diagonale ou non. Dans des variantes, d’autres méthodes de quantification scalaire ou vectorielle (avec ou sans prédiction) pourront être utilisées. Dans les variantes où Tnorm est utilisée, on pourra omettre de coder et transmettre la première valeur de la diagonale (correspondant à la composante omnidirectionnelle) de Tnorm car elle est toujours à 1 ; par exemple dans le cas ambisonique d’ordre 1 à K=4 canaux cela revient à ne transmettre que 9 valeurs au lieu de Kx(Κ+ 1)/2= 10 valeurs. In general, the values on the diagonal are positive. In one embodiment, the coding of the T or T norm matrix is performed by scalar quantization (with or without a sign bit) depending on whether the values are outside the diagonal or not. In variants, other scalar or vector quantization methods (with or without prediction) could be used. In the variants where T norm is used, we can omit coding and transmit the first value of the diagonal (corresponding to the omnidirectional component) of T norm because it is always at 1; for example in the ambisonic case of order 1 with K = 4 channels, this amounts to transmitting only 9 values instead of Kx (Κ + 1) / 2 = 10 values.
Le bloc 640 code ainsi l’ensemble de corrections déterminé et envoie l’ensemble codé de corrections au multiplexeur 650. Block 640 thus encodes the determined set of corrections and sends the encoded set of corrections to multiplexer 650.
Le décodeur reçoit dans le bloc démultiplexeur 660, un flux binaire comportant un signal audio codé issu du signal multicanal d’origine et l’ensemble codé de corrections à appliquer au signal multicanal décodé. The decoder receives in the demultiplexer block 660, a bit stream comprising an encoded audio signal from the original multichannel signal and the encoded set of corrections to be applied to the decoded multichannel signal.
Le bloc 670 décode (Q-1) l’ensemble codé de corrections. Le bloc 680 décode (DEC) le signal audio codé reçu dans le flux. Block 670 decodes (Q -1 ) the encoded set of corrections. Block 680 decodes (DEC) the encoded audio signal received in the stream.
Dans un mode de réalisation du codage et du décodage, ne mettant pas en œuvre les étapes de downmix et d’upmix, le signal multicanal décodé est obtenu à la sortie du bloc de décodage 680. In one embodiment of the encoding and decoding, not implementing the downmix and upmix steps, the decoded multichannel signal is obtained at the output of decoding block 680.
Dans le mode de réalisation où l’étape de downmix a été utilisée au codage, le décodage mis en œuvre dans le bloc 680 permet d’obtenir un signal audio décodé qui est envoyé en entrée du bloc 681 d’upmix. In the embodiment where the downmix step has been used in encoding, the decoding implemented in block 680 provides a decoded audio signal which is input to upmix block 681.
Ainsi, le bloc 681 met en œuvre une étape optionnelle (UPMIX) d’augmentation du nombre de canaux. Dans un mode de réalisation de cette étape, pour le canal d’un signal mono , elle consiste à convoluer le signal par différentes réponses impulsionnelles spatiales de salle (SRIR pour « Spatial Room Impulse Response »); ces SRIRs sont définis à l’ordre ambisonique d’origine de B. D’autres méthodes de décorrélation sont possibles, par exemple l’application de filtres décorrélateurs passe- tout aux différents canaux du signal . Thus, block 681 implements an optional step (UPMIX) of increasing the number of channels. In one embodiment of this step, for the channel of a mono signal, it consists in convolving the signal by different responses room spatial impulses (SRIR for “Spatial Room Impulse Response”); these SRIRs are defined in the original ambisonic order of B. Other decorrelation methods are possible, for example the application of all-pass decorrelator filters to the different channels of the signal.
Le bloc 682 met en œuvre une étape optionnelle (SB) de division en sous-bandes pour obtenir soit des sous-bandes dans le domaine temporel ou dans un domaine transformé et le bloc 691 regroupe les sous-bandes pour retrouver le signal multicanal de sortie. The block 682 implements an optional step (SB) of division into sub-bands to obtain either sub-bands in the time domain or in a transformed domain and the block 691 groups the sub-bands to find the output multichannel signal .
Le bloc 690 met en œuvre une correction (CORR) du signal multicanal décodé par l’ensemble de corrections décodé au bloc 670 pour obtenir un signal multicanal décodé corrigé ( Corr). Dans un mode de réalisation où l’ensemble de corrections est un ensemble de gains comme décrit en référence à la figure 4, cet ensemble de gains est reçu en entrée du bloc 690 de correction. Block 690 implements a correction (CORR) of the multi-channel signal decoded by the set of corrections decoded at block 670 to obtain a corrected decoded multi-channel signal (Corr). In one embodiment where the set of corrections is a set of gains as described with reference to FIG. 4, this set of gains is received at the input of the correction block 690.
S l’ensemble de gains est sous la forme d’une matrice de correction directement applicable au signal multicanal décodé, définie, par exemple sous la formeS the set of gains is in the form of a correction matrix directly applicable to the decoded multichannel signal, defined, for example in the form
G= E.diag([g0 ... gN-1]).D ou Gnorm=gnorm .G, cette matrice G ou Gnorm est alors appliquée au signal multicanal décodé S pour obtenir le signal ambisonique de sortie corrigé ( Corr). G = E.diag ([g 0 ... g N-1 ]). D or G norm = g norm .G, this matrix G or G norm is then applied to the decoded multichannel signal S to obtain the ambisonic output signal corrected (Corr).
S le bloc 690 reçoit un ensemble de gains gn, le bloc 690 applique pour chaque haut- parleur virtuel, le gain gn correspondant. L'application de ce gain permet d’obtenir, sur ce haut-parleur, la même énergie que le signal d’origine. If the block 690 receives a set of gains g n , the block 690 applies for each virtual loudspeaker, the corresponding gain g n. The application of this gain makes it possible to obtain, on this loudspeaker, the same energy as the original signal.
Le rendu sur chaque haut-parleur des signaux décodés est ainsi corrigé. The rendering on each loudspeaker of the decoded signals is thus corrected.
Une étape d’encodage acoustique, par exemple un encodage ambisonique, est alors mise en œuvre pour obtenir des composantes du signal multicanal, par exemple des composantes ambisoniques. Ces composantes ambisoniques sont alors sommées pour obtenir le signal multicanal de sortie, corrigé ( Corr). An acoustic encoding step, for example ambisonic encoding, is then implemented to obtain components of the multichannel signal, for example ambisonic components. These ambisonic components are then summed to obtain the multichannel output signal, corrected (Corr).
Dans un mode de réalisation où l’ensemble de corrections est une matrice de transformation comme décrit en référence à la figure 5, la matrice de transformation T décodée en 670 est reçue en entrée du bloc 690 de correction. In an embodiment where the set of corrections is a transformation matrix as described with reference to FIG. 5, the transformation matrix T decoded at 670 is received at the input of the correction block 690.
Avec ce mode de réalisation, le bloc 690 effectue l’étape de correction du signal multicanal décodé par application de la matrice de transformation T ou Tnorm directement au signal multicanal décodé, dans le domaine ambisonique, pour obtenir le signal ambisonique de sortie corrigé ( Corr). With this embodiment, block 690 performs the step of correcting the decoded multichannel signal by applying the T or T norm transformation matrix directly to the decoded multichannel signal, in the ambisonic domain, to obtain the corrected ambisonic output signal ( Corr).
Même si l’invention s’applique au cas ambisonique, dans des variantes on pourra convertir d’autres formats (multicanal, objet...) en ambisonique pour appliquer les procédés mis en œuvre selon les différents modes de réalisation décrits. Un exemple de réalisation d’une telle conversion d’un format multicanal ou objet à un format ambisonique est décrit à la figure 2 de la spécification 3GPP TS 26.259 (v15.0.0). Even if the invention applies to the ambisonic case, in variants it is possible to convert other formats (multichannel, object, etc.) into ambisonic in order to apply the methods implemented according to the various embodiments described. An exemplary embodiment of such a conversion from a multichannel or object format to an ambisonic format is described in figure 2 of the 3GPP TS 26.259 (v15.0.0) specification.
On a illustré sur la figure 7 un dispositif de codage DCOD et un dispositif de décodage DDEC; au sens de l’invention, ces dispositifs étant duals l’un de l’autre (dans le sens de « réversibles ») et reliés l’un à l’autre par un réseau de communication RES. Le dispositif de codage DCOD comporte un circuit de traitement incluant typiquement : FIG. 7 shows a DCOD encoding device and a DDEC decoding device; within the meaning of the invention, these devices being dual from each other (in the sense of “reversible”) and connected to each other by a communication network RES. The DCOD coding device comprises a processing circuit typically including:
- une mémoire ΜEM1 pour stocker des données d’instructions d’un programme informatique au sens de l’invention (ces instructions pouvant être réparties entre le codeur DOOD et le décodeur DDEC) ; - A memory ΜEM1 for storing instruction data of a computer program within the meaning of the invention (these instructions can be distributed between the DOOD encoder and the DDEC decoder);
- une interface INT1 de réception d’un signal multicanal d’origine B, par exemple un signal ambisonique réparti sur différents canaux (par exemple quatre canaux W, Y, Z, X à l’ ordre 1) en vue de son codage en compression au sens de l’invention ; - an interface INT1 for receiving an original multichannel signal B, for example an ambisonic signal distributed over different channels (for example four channels W, Y, Z, X at order 1) with a view to its coding in compression within the meaning of the invention;
- un processeur PROC1 pour recevoir ce signal et le traiter en exécutant les instructions de programme informatique que stocke la mémoire ΜBM1 , en vue de son codage ; et a processor PROC1 for receiving this signal and processing it by executing the computer program instructions stored in the memory ΜBM1, with a view to its coding; and
- une interface de communication COM 1 pour transmettre les signaux codés via le réseau. - a COM 1 communication interface for transmitting the coded signals via the network.
Le dispositif de décodage DDEC comporte un circuit de traitement propre, incluant typiquement : The DDEC decoding device comprises its own processing circuit, typically including:
- une mémoire ΜEM2 pour stocker des données d’instructions d’un programme informatique au sens de l’invention (ces instructions pouvant être réparties entre le codeur DOOD et le décodeur DDEC comme indiqué précédemment) ; - A memory ΜEM2 for storing instruction data of a computer program within the meaning of the invention (these instructions can be distributed between the DOOD encoder and the DDEC decoder as indicated above);
- une interface COM2 pour recevoir du réseau RES les signaux codés en vue de leur décodage en compression au sens de l’invention ; - a COM2 interface for receiving the encoded signals from the RES network with a view to their compression decoding within the meaning of the invention;
- un processeur PAOC2 pour traiter ces signaux en exécutant les instructions de programme informatique que stocke la mémoire ΜEM2, en vue de leur décodage ; eta PAOC2 processor for processing these signals by executing the computer program instructions stored in the memory ΜEM2, with a view to their decoding; and
- une interface de sortie INT2 pour délivrer les signaux décodés corrigés ( Corr) par exemple sous forme de canaux ambisoniques W..X, en vue de leur restitution. - an output interface INT2 to deliver the corrected decoded signals (Corr) for example in the form of ambisonic channels W..X, with a view to their reproduction.
Bien entendu, cette figure 7 illustre un exemple d’une réalisation structurelle d’un codée (codeur ou décodeur) au sens de l’invention. Les figures 3 à 6 commentées ci- dessus décrivent en détails des réalisations plutôt fonctionnelles de ces codées. Of course, this FIG. 7 illustrates an example of a structural embodiment of a codec (encoder or decoder) within the meaning of the invention. Figures 3 to 6 commented above describe in detail rather functional embodiments of these coded.

Claims

REVENDICATIONS
1 . Procédé de détermination d'un ensemble de corrections (Corr.) à apporter à un signal sonore multicanal, dans lequel l’ensemble de corrections est déterminé à partir d’une information représentative d’une image spatiale d’un signal multicanal d’origine (Inf. B) et d’une information représentative d'une image spatiale du signal multicanal d’origine codé puis décodé (Inf. ).1. Method of determining a set of corrections (Corr.) To be made to a multichannel sound signal, in which the set of corrections is determined from information representative of a spatial image of an original multichannel signal (Inf. B) and information representative of a spatial image of the original multichannel signal encoded then decoded (Inf. ).
2. Procédé selon la revendication 1 , dans lequel la détermination de l’ensemble de corrections est effectuée par sous-bande de fréquence. 2. The method of claim 1, wherein the determination of the set of corrections is performed by frequency sub-band.
3. Procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes : 3. A method of decoding a multichannel sound signal, comprising the following steps:
- réception (350) d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et une information représentative d’une image spatiale du signal multicanal d’origine ; - reception (350) of a binary stream comprising an encoded audio signal from an original multichannel signal and information representative of a spatial image of the original multichannel signal;
- décodage (370) du signal audio codé reçu et obtention d’un signal multicanal décodé; - decoding (370) of the received encoded audio signal and obtaining a decoded multichannel signal;
- décodage (360) de l’information représentative d’une image spatiale du signal multicanal d’origine ; - decoding (360) of information representative of a spatial image of the original multichannel signal;
- détermination (375) d’une information représentative d’une image spatiale du signal multicanal décodé ; - determination (375) of information representative of a spatial image of the decoded multichannel signal;
- détermination (380) d’un ensemble de corrections à apporter au signal décodé selon le procédé de détermination conforme à l’une des revendications 1 à 2 ; - determination (380) of a set of corrections to be made to the decoded signal according to the determination method according to one of claims 1 to 2;
- correction (390) du signal multicanal décodé par l’ensemble de corrections déterminé. - correction (390) of the multichannel signal decoded by the determined set of corrections.
4. Procédé de codage d’un signal sonore multicanal, comportant les étapes suivantes : 4. Method for encoding a multichannel sound signal, comprising the following steps:
- codage (611) d’un signal audio issu d’un signal multicanal d’origine; - encoding (611) of an audio signal from an original multichannel signal;
- détermination (621) d’une information représentative d’une image spatiale du signal multicanal d’origine ; - determination (621) of information representative of a spatial image of the original multichannel signal;
- décodage local (612) du signal audio codé et obtention d’un signal multicanal décodé; - local decoding (612) of the encoded audio signal and obtaining a decoded multichannel signal;
- détermination (615) d’une information représentative d’une image spatiale du signal multicanal décodé ; - determination (615) of information representative of a spatial image of the decoded multichannel signal;
- détermination (630) d’un ensemble de corrections à apporter au signal multicanal décodé selon le procédé de détermination conforme à l'une des revendications 1 à 2 ; - determination (630) of a set of corrections to be made to the signal multichannel decoded according to the determination method according to one of claims 1 to 2;
- codage (640) de l’ensemble de corrections déterminé. - coding (640) of the determined set of corrections.
5. Procédé de décodage selon la revendication 3 ou procédé de codage selon la revendication 4, dans lesquels l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte en outre les étapes suivantes : 5. A decoding method according to claim 3 or an encoding method according to claim 4, in which the information representative of a spatial image is a covariance matrix and the determination of the set of corrections further comprises the following steps:
- obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels; - obtaining a weighting matrix comprising weighting vectors associated with a set of virtual loudspeakers;
- détermination d’une image spatiale du signal multicanal d’origine à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal d’origine ; - determining a spatial image of the original multichannel signal from the weighting matrix obtained and from the covariance matrix of the original multichannel signal;
- détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de la matrice de covariance du signal multicanal décodé déterminé; - determination of a spatial image of the decoded multichannel signal from the weighting matrix obtained and from the covariance matrix of the determined decoded multichannel signal;
- calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains. - calculating a ratio between the spatial image of the original multichannel signal and the spatial image of the decoded multichannel signal at the speaker directions of the virtual speaker set, to obtain a set of gains.
6. Procédé de décodage selon la revendication 3, dans lequel l’information représentative d’une image spatiale du signal multicanal d’origine reçue est l’image spatiale du signal multicanal d’origine et la détermination de l’ensemble de corrections comporte en outre les étapes suivantes : 6. The decoding method according to claim 3, wherein the information representative of a spatial image of the original multichannel signal received is the spatial image of the original multichannel signal and the determination of the set of corrections comprises in in addition to the following steps:
- obtention d’une matrice de pondération comportant des vecteurs de pondération associés à un ensemble de haut-parleurs virtuels; - obtaining a weighting matrix comprising weighting vectors associated with a set of virtual loudspeakers;
- détermination d’une image spatiale du signal multicanal décodé à partir de la matrice de pondération obtenue et à partir de l’information représentative d’une image spatiale du signal multicanal décodé déterminé; - determination of a spatial image of the decoded multichannel signal from the weighting matrix obtained and from the information representative of a spatial image of the determined decoded multichannel signal;
- calcul d’un ratio entre l’image spatiale du signal multicanal d’origine et l’image spatiale du signal multicanal décodé aux directions des haut-parleurs de l’ensemble de haut-parleurs virtuels, pour obtenir un ensemble de gains. - calculating a ratio between the spatial image of the original multichannel signal and the spatial image of the decoded multichannel signal at the speaker directions of the virtual speaker set, to obtain a set of gains.
7. Procédé de décodage selon la revendication 3 ou procédé de codage selon la revendication 4, dans lesquels l’information représentative d’une image spatiale est une matrice de covariance et la détermination de l’ensemble de corrections comporte une étape de détermination d’une matrice de transformation par décomposition matricielle des deux matrices de covariance, la matrice de transformation constituant l’ensemble des corrections. 7. The decoding method according to claim 3 or the encoding method according to claim 4, in which the information representative of a spatial image is a covariance matrix and the determination of the set of corrections comprises a step of determining the a matrix of transformation by matrix decomposition of the two covariance matrices, the transformation matrix constituting the set of corrections.
8. Procédé de décodage selon l’une des revendications 5 à 7, dans lequel la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée par l’application de l’ensemble des corrections au signal multicanal décodé. 8. The decoding method according to one of claims 5 to 7, wherein the correction of the multi-channel signal decoded by the determined set of corrections is performed by applying all of the corrections to the decoded multi-channel signal.
9. Recédé de décodage selon l’une des revendications 5 à 6, dans lequel la correction du signal multicanal décodé par l’ensemble de corrections déterminé est effectuée selon les étapes suivantes : 9. Decoding recipe according to one of claims 5 to 6, wherein the correction of the multichannel signal decoded by the determined set of corrections is carried out according to the following steps:
- décodage acoustique du signal multicanal décodé sur l’ensemble défini de haut-parleurs virtuels ; - acoustic decoding of the decoded multichannel signal on the defined set of virtual loudspeakers;
- application de l’ensemble de gains obtenu aux signaux issus du décodage acoustique ; - application of the set of gains obtained to the signals resulting from the acoustic decoding;
- codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ; - acoustic coding of the signals resulting from the acoustic decoding and corrected to obtain components of the multichannel signal;
- sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé. summation of the components of the multichannel signal thus obtained to obtain a corrected multichannel signal.
10. Procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes : 10. A method of decoding a multichannel sound signal, comprising the following steps:
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage conforme à l’une des revendications 4,5 ou 7; - reception of a binary stream comprising an encoded audio signal originating from an original multichannel signal and a coded set of corrections to be made to the decoded multichannel signal, the set of corrections having been coded according to a coding method in accordance with the one of claims 4, 5 or 7;
- décodage du signal audio codé reçu et obtention d’un signal multicanal décodé; - decoding of the received encoded audio signal and obtaining a decoded multichannel signal;
- décodage de l’ensemble codé de corrections ; - decoding of the coded set of corrections;
- correction du signal multicanal décodé par l’application de l’ensemble de corrections décodé au signal multicanal décodé. - correction of the decoded multichannel signal by applying the decoded set of corrections to the decoded multichannel signal.
11 . Procédé de décodage d’un signal sonore multicanal, comportant les étapes suivantes : 11. Multichannel sound signal decoding method, comprising the following steps:
- réception d’un flux binaire comportant un signal audio codé issu d’un signal multicanal d’origine et un ensemble codé de corrections à apporter au signal multicanal décodé, l’ensemble de corrections ayant été codé selon un procédé de codage conforme à la revendication 5; - reception of a binary stream comprising an encoded audio signal originating from an original multichannel signal and a coded set of corrections to be made to the decoded multichannel signal, the set of corrections having been coded according to a coding method according to claim 5;
- décodage du signal audio codé reçu et obtention d'un signal multicanal décodé; - decoding of the received coded audio signal and obtaining a decoded multichannel signal;
- décodage de l’ensemble codé de corrections ; - decoding of the coded set of corrections;
- correction du signal multicanal décodé par l’ensemble de corrections décodé selon les étapes suivantes : - correction of the multi-channel signal decoded by the set of decoded corrections according to the following steps:
. décodage acoustique du signal multicanal décodé sur l’ensemble de haut-parleurs virtuels ; . acoustic decoding of the decoded multichannel signal on the set of virtual loudspeakers;
. application de l’ensemble de gains obtenu aux signaux issuq du décodage acoustique ; . application of the set of gains obtained to the signals resulting from the acoustic decoding;
. codage acoustique des signaux issus du décodage acoustique et corrigés pour obtenir des composantes du signal multicanal ; . acoustic coding of the signals resulting from the acoustic decoding and corrected to obtain components of the multichannel signal;
. sommation des composantes du signal multicanal ainsi obtenues pour obtenir un signal multicanal corrigé. . summation of the components of the multichannel signal thus obtained to obtain a corrected multichannel signal.
12. Dispositif de décodage comportant un circuit de traitement pour la mise en œuvre du procédé de décodage selon l’une des revendications 3 ou 5 à 11. 12. Decoding device comprising a processing circuit for implementing the decoding method according to one of claims 3 or 5 to 11.
13. Dispositif de codage comportant un circuit de traitement pour la mise en œuvre du procédé de codage selon l’une des revendications 4, 5 ou 7. 13. Coding device comprising a processing circuit for implementing the coding method according to one of claims 4, 5 or 7.
14. Support de stockage, lisible par un processeur, mémorisant un programme informatique comportant des instructions pour l’exécution du procédé de décodage selon l’une des revendications 3 ou 5 à 11 ou du procédé de codage selon l’une des revendications 4,5 ou 7. 14. Storage medium, readable by a processor, storing a computer program comprising instructions for the execution of the decoding method according to one of claims 3 or 5 to 11 or of the encoding method according to one of claims 4, 5 or 7.
EP20792467.1A 2019-10-02 2020-09-24 Determining corrections to be applied to a multichannel audio signal, associated coding and decoding Active EP4042418B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1910907A FR3101741A1 (en) 2019-10-02 2019-10-02 Determination of corrections to be applied to a multichannel audio signal, associated encoding and decoding
PCT/FR2020/051668 WO2021064311A1 (en) 2019-10-02 2020-09-24 Determining corrections to be applied to a multichannel audio signal, associated coding and decoding

Publications (2)

Publication Number Publication Date
EP4042418A1 true EP4042418A1 (en) 2022-08-17
EP4042418B1 EP4042418B1 (en) 2023-09-06

Family

ID=69699960

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20792467.1A Active EP4042418B1 (en) 2019-10-02 2020-09-24 Determining corrections to be applied to a multichannel audio signal, associated coding and decoding

Country Status (10)

Country Link
US (1) US20220358937A1 (en)
EP (1) EP4042418B1 (en)
JP (1) JP2022550803A (en)
KR (1) KR20220076480A (en)
CN (1) CN114503195A (en)
BR (1) BR112022005783A2 (en)
ES (1) ES2965084T3 (en)
FR (1) FR3101741A1 (en)
WO (1) WO2021064311A1 (en)
ZA (1) ZA202203157B (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (en) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
WO2010000313A1 (en) * 2008-07-01 2010-01-07 Nokia Corporation Apparatus and method for adjusting spatial cue information of a multichannel audio signal
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN104282309A (en) * 2013-07-05 2015-01-14 杜比实验室特许公司 Packet loss shielding device and method and audio processing system
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
FR3048808A1 (en) * 2016-03-10 2017-09-15 Orange OPTIMIZED ENCODING AND DECODING OF SPATIALIZATION INFORMATION FOR PARAMETRIC CODING AND DECODING OF A MULTICANAL AUDIO SIGNAL

Also Published As

Publication number Publication date
EP4042418B1 (en) 2023-09-06
BR112022005783A2 (en) 2022-06-21
KR20220076480A (en) 2022-06-08
ES2965084T3 (en) 2024-04-10
WO2021064311A1 (en) 2021-04-08
CN114503195A (en) 2022-05-13
JP2022550803A (en) 2022-12-05
ZA202203157B (en) 2022-11-30
US20220358937A1 (en) 2022-11-10
FR3101741A1 (en) 2021-04-09

Similar Documents

Publication Publication Date Title
EP2374123B1 (en) Improved encoding of multichannel digital audio signals
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
EP1600042B1 (en) Method for the treatment of compressed sound data for spatialization
EP2002424B1 (en) Device and method for scalable encoding of a multichannel audio signal based on a principal component analysis
EP2143102B1 (en) Audio encoding and decoding method and associated audio encoder, audio decoder and computer programs
TWI657434B (en) Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
EP2145167A2 (en) Audio encoding and decoding method and associated audio encoder, audio decoder and computer programs
WO2018162803A1 (en) Method and arrangement for parametric analysis and processing of ambisonically encoded spatial sound scenes
EP4042418B1 (en) Determining corrections to be applied to a multichannel audio signal, associated coding and decoding
Mahé et al. First-order ambisonic coding with quaternion-based interpolation of PCA rotation matrices
EP4172986A1 (en) Optimised coding of an item of information representative of a spatial image of a multichannel audio signal
WO2023232823A1 (en) Title: spatialized audio encoding with configuration of a decorrelation processing operation
FR3118266A1 (en) Optimized coding of rotation matrices for the coding of a multichannel audio signal
WO2023285748A1 (en) Optimised spherical vector quantisation
WO2022200666A1 (en) Combining spatial audio streams
CN116940983A (en) Transforming spatial audio parameters

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220415

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20230512

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602020017369

Country of ref document: DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20230822

Year of fee payment: 4

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG9D

RAP4 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: ORANGE

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20230906

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231207

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20231020

Year of fee payment: 4

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231206

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20231207

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20230930

Year of fee payment: 4

Ref country code: FR

Payment date: 20231019

Year of fee payment: 4

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 1609638

Country of ref document: AT

Kind code of ref document: T

Effective date: 20230906

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240106

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2965084

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20240410

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240106

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20230906

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20240108

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL