EP3934282A1 - Procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et dispositif électronique associé - Google Patents

Procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et dispositif électronique associé Download PDF

Info

Publication number
EP3934282A1
EP3934282A1 EP21181285.4A EP21181285A EP3934282A1 EP 3934282 A1 EP3934282 A1 EP 3934282A1 EP 21181285 A EP21181285 A EP 21181285A EP 3934282 A1 EP3934282 A1 EP 3934282A1
Authority
EP
European Patent Office
Prior art keywords
frequency band
signals
temporal frequency
values
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21181285.4A
Other languages
German (de)
English (en)
Inventor
Nicolas Epain
François SALMON
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fondation B Com
Original Assignee
Fondation B Com
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fondation B Com filed Critical Fondation B Com
Publication of EP3934282A1 publication Critical patent/EP3934282A1/fr
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present invention relates to the technical field of processing signals representative of a sound field.
  • It relates in particular to a method of converting a first set of signals representative of a sound field into a second set of signals and an associated electronic device.
  • the signals of the first set sometimes have in this situation a format which is not directly usable by the reproduction system.
  • This is typically a scene-oriented format, such as an HOA (for "High-Order Ambisonics”) format.
  • this solution is based on the estimation of at least one dominant direction per frequency band by means of an analysis of the signals of the first set.
  • the electronic device stores for example, for each temporal frequency band, data associated with a number of particular directions in space equal to the number of signals in the first set of signals, which makes it possible to obtain optimal processing.
  • the input signals are converted into a representation in plane waves in the different directions associated with the frequency band concerned.
  • the particular directions associated with the data stored for a given temporal frequency band are for example distributed (possibly evenly) among all the directions in space.
  • the number of signals in the second set is for example strictly greater than the number of signals in the first set. In this case, the conversion allows an artificial increase in the spatial resolution of the sound scene represented.
  • the set of said particular directions can comprise at least 50 particular directions, for example between 50 and 5,000 particular directions.
  • the values respectively associated with said temporal frequency bands can be determined by time-frequency transformation on the basis of the signals of the first set.
  • Each signal of the second set can for its part be constructed by frequency-time transformation on the basis of the values associated with this signal of the second set and obtained respectively for the different temporal frequency bands.
  • the conversion step can be carried out in practice by matrix multiplication of a vector comprising the values associated with the relevant temporal frequency band and determined for the various signals of the first set.
  • the matrix used for this matrix multiplication with respect to a given temporal frequency band can comprise the data stored for this given temporal frequency band and associated with the different particular directions assigned to this given temporal frequency band.
  • the step of determining a plurality of values associated respectively with the different signals of the second set can be carried out by matrix multiplication of a vector comprising said at least one value representative of a source. sound virtual and obtained in the conversion step for the temporal frequency band concerned. It is thus possible to pass from a representation in plane waves (by means of the values representative of sound sources) to a representation corresponding to the signals of the second set (output signals).
  • the method can furthermore comprise preliminary steps of defining a plurality of directions of space by an optimization process, of attributing the directions of space of the plurality to said bands of temporal frequency, and of memorization, for each temporal frequency band, of said at least one datum associated with the direction of space attributed to the frequency band concerned.
  • the figure 1 represents an electronic device 2 for converting a first set of signals (or input signals) representative of a sound field in a space into a second set of signals (or output signals).
  • the space concerned is the space for the propagation of sound waves; this space is here three-dimensional. As a variant, however, this space could be two-dimensional (for example in the case of a two-dimensional representation of a three-dimensional system).
  • the figure 1 represents the electronic device 2 in the form of functional blocks (each forming a module or a unit such as (Ile) as described below).
  • each of these functional blocks can be achieved by the cooperation of software elements, such as computer program instructions executable by a processor of the electronic device, and hardware elements, for example this same processor and a memory of the electronic device 2.
  • This memory can moreover store the aforementioned computer program instructions.
  • the input signals are for example ambisonic signals of order L.
  • the first set in this case comprises (L + 1) 2 signals.
  • each vector b E (t) is therefore of dimension (L + 1) 2 , here of dimension 4.
  • the values taken by the different signals (and thus the different elements of the vectors b E (t)) are for example complex values; alternatively, these values could be actual values.
  • temporal frequency bands of the sound field
  • temporal frequency bands are disjoint two by two and cover (united) the spectrum of audible frequencies.
  • the plurality of temporal frequency bands comprises for example between 100 and 1000 temporal frequency bands, here 256 temporal frequency bands.
  • Each temporal frequency band has for example a width of between 10 Hz and 500 Hz.
  • the electronic device 2 comprises a storage unit 4 designed to store, for each temporal frequency band of this plurality of temporal frequency bands, at least one datum associated with a particular direction ⁇ j of space.
  • the storage unit 4 stores, for each temporal frequency band, data associated with a number of particular directions ⁇ j of space equal to the number of signals in the first set of signals (input signals), i.e. (L + 1) 2 in the case of ambisonic input signals of order L.
  • ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ ( L + 1 ) 2 (f) the directions thus associated with a given temporal frequency band.
  • the datum associated with a particular direction ⁇ j of space can be a datum defining this particular direction of space, for example by means of an azimuth angle and / or an elevation angle.
  • the datum associated with a particular direction ⁇ j of space can also be a datum making it possible to perform a calculation linked to this particular direction ⁇ j .
  • a particular direction ⁇ k (f) several coefficients D k, i (f) (forming a row of a matrix D (f)) allowing respectively to obtain the contribution of different input signals to a plane wave in the particular direction ⁇ k (f), as explained later.
  • Each particular direction ⁇ j is here defined by an azimuth angle ⁇ (on the abscissa on the figure 2 ) and an elevation angle ⁇ (on the y-axis on the figure 2 ).
  • the set of particular directions ⁇ j of space associated with a datum stored for at least one temporal frequency band forms a mesh of all of the directions of space.
  • the set of particular directions ⁇ j comprises for example more than 50 particular directions.
  • this mesh is not a regular mesh in the example described. As a variant, however, it could be a regular mesh (for example with a constant pitch in azimuth and a constant pitch in elevation).
  • the set of particular directions ⁇ j comprises at least 5 particular directions ⁇ j defined by an azimuth ⁇ included in this range of azimuth values and an elevation ⁇ included in this range of elevation values.
  • the set of directions particulars comprises at least one other particular direction ⁇ j ' defined by an elevation ⁇ ' included in this range of elevation values and by an azimuth ⁇ 'which differs by less than 30 ° from the given azimuth ⁇ .
  • the set of particular directions includes at least one other particular direction ⁇ j ' defined by an azimuth ⁇ ' included in this range of azimuth values and by an elevation ⁇ 'which differs from less than 30 ° of the given elevation ⁇ .
  • the electronic device 2 comprises a reception module 6 designed to receive data representative of the input signals (signals of the first set), here the vectors b E (t) respectively associated with the successive instants of the time interval considered.
  • This reception module 6 can be a communication module capable of receiving the data representative of the input signals coming from another electronic device.
  • the reception module 6 can be a module for reading data representative of the input signals in a memory (such as the already mentioned memory of the electronic device 2).
  • the electronic device 2 comprises a configuration module 8 designed to configure the other modules, in particular as a function of the input signals b E (t) (in particular as a function of the format of the input signals b E (t)).
  • the electronic device 2 can include a detection module 10 designed to analyze the input signals b E (t) and to communicate to the configuration module information I indicative of the format of the input signals b E (t ).
  • This information I is for example the number of signals making up the input signals b E (t).
  • the data representative of the input signals b E (t) (received by the reception module 6) can comprise metadata M indicative of the format of the input signals b E (t).
  • the module of reception 6 transmits these metadata M to the configuration module 8, as shown in dotted lines on the figure 1 .
  • the electronic device 2 furthermore comprises a transformation module 12 designed to determine, for each of the input signals (signals of the first set), values respectively associated with the different temporal frequency bands.
  • the transformation module 12 determines, on the basis of the values ⁇ i (t) relating to a given input signal (denoted by the index i), values ⁇ i (f) respectively associated with the different frequency bands and representative of this same input signal in the frequency domain.
  • the values ⁇ i (f) respectively associated with the different temporal frequency bands are for example determined by time-frequency transformation (such as a short-term Fourier transformation) on the basis of the ⁇ values i (t) taken over time (over the time interval considered) by this signal from the first set.
  • ⁇ (f) [ ⁇ 1 (f ), ⁇ 2 (f), ..., ⁇ ( L + 1 ) 2 (f)] T.
  • the electronic device 2 comprises a decoding module 14 designed to convert, for each temporal frequency band, the values ⁇ 1 (f), ⁇ 2 (f), ⁇ (L + 1) 2 (f) associated with the band of temporal frequency concerned and determined respectively for the different signals of the first set, in values ⁇ 1 (f), ⁇ 2 (f), ⁇ (L + 1) 2 (f) each representative of a virtual sound source oriented in l 'one of the directions ⁇ 1 (f), Q 2 (f), ..., ⁇ ( L + 1 ) 2 (f) of the space associated with the data stored for the temporal frequency band concerned.
  • the decoding module 14 performs for example, for each temporal frequency band, the aforementioned conversion by matrix multiplication of the vector ⁇ (f), which comprises, as already indicated, the values ⁇ 1 (f), ⁇ 2 (f), ⁇ ( L + 1) 2 (f) associated with the relevant temporal frequency band and determined respectively for the different signals of the first set.
  • the matrices D (f) are such that the values ⁇ 1 (f), ⁇ 2 (f), ⁇ (L + 1) 2 (f) on the one hand and the values ⁇ 1 (f), ⁇ 2 (f ), ..., ⁇ (L + 1) 2 (f) on the other hand represent the same sound field, but in two different representations, here an ambisonic representation for the values ⁇ 1 (f), ⁇ 2 (f) , ⁇ (L + 1) 2 (f) and a representation in plane waves oriented according to the particular directions of space associated with the frequency band concerned for the values ⁇ 1 (f), ⁇ 2 (f), .. ., ⁇ (L + 1) 2 (f).
  • each matrix D (f) allows, for a temporal frequency band, the passage from an ambisonic representation to a plane wave representation.
  • Each matrix D (f) is therefore formed of elements D k, i which each represent the coefficient to be assigned to a value ⁇ i (f) (obtained for an input signal ⁇ i (t)) to determine its contribution to the plane wave emitted by the virtual sound source oriented in the direction ⁇ k (f).
  • each matrix D (f) is a square matrix, of dimension equal to the number of signals in the first set, here (L + 1) 2 .
  • the decoding module 14 can in practice comprise a plurality of conversion units 16 each designed to carry out the aforementioned conversion for a given temporal frequency band, that is to say here to carry out the multiplication of a vector ⁇ (f) received from the transformation module 12 by the matrix D (f) associated with this frequency band.
  • the electronic device 2 comprises an encoding module 18 designed to determine, for each temporal frequency band, a plurality of values ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ N (f) respectively associated with the different signals of the second set (output signals), on the basis of the values ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ (L + 1) 2 (f) representative of the virtual sound sources and obtained by the aforementioned conversion for the relevant temporal frequency band.
  • N the number of signals in the second set.
  • the number N of signals in the second set is strictly greater than the number of signals (here equal to (L + 1) 2 ) in the first set. This is particularly the case when the processing carried out by the electronic device, described below with reference to the figure 3 , aims to artificially increase the spatial resolution of sound scenes (functionality which is sometimes referred to by the English term "upscaling").
  • the order L ′ of the output signals is strictly greater than the order L of the input signals.
  • the encoding module 18 determines, for each temporal frequency band, the plurality of values ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ N (f) associated respectively with the different signals of the second set by matrix multiplication (by means of a matrix E (f)) of the vector ⁇ (f) comprising the values ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ (L + 1 ) 2 (f) representative of the virtual sound sources and obtained in the conversion step for the relevant temporal frequency band.
  • Such a matrix E (f) therefore has here a number of columns equal to the number of signals in the first set (here (L + 1) 2 ) and a number of rows equal to the number N of signals in the second set.
  • the encoding module 18 can in practice comprise a plurality of processing units 20 each designed to perform the transformation which has just been described for a given temporal frequency band, that is to say here to perform the transformation. multiplication of a vector ⁇ (f) received from the decoding module 14 (precisely here: received from a conversion unit 16) by the matrix E (f) associated with this frequency band.
  • the electronic device 2 finally comprises a construction module 22 designed to construct each signal ⁇ i (t) of the second set on the basis of the values ⁇ i (f) associated with this signal ⁇ i (t) of the second set and obtained respectively for the values. different time frequency bands.
  • the construction module 22 constructs for example each signal ⁇ ⁇ (t) of the second set by frequency-time transformation (such as an inverse short-term Fourier transformation) on the basis of the values ⁇ i (f) associated with this signal of the second set and obtained respectively for the different temporal frequency bands.
  • frequency-time transformation such as an inverse short-term Fourier transformation
  • N output signals (signals of the second set), precisely here, for each output signal, a set of values ⁇ i (t) forming this output signal for the different instants t (successive) of the interval of time considered.
  • b s (t) [ ⁇ 1 (t), ⁇ 2 (t), ..., ⁇ N (t)] T.
  • the figure 3 represents in the form of a flowchart a conversion method in accordance with the invention. This method is for example implemented by the electronic device of the figure 2 , as described below.
  • step E2 of determining the format of the input signals b E (t), received here by the reception module 6.
  • This step E2 is for example implemented by the detection module 10.
  • this step E2 could be implemented by the configuration module 8 by reading metadata M indicative of the format of the input signals b E (t).
  • This step E2 here makes it possible to determine the number of signals present in the first set of signals.
  • the process of figure 3 then comprises a step E4 of configuring the decoding module 14 and / or the encoding module 18 as a function of the format determined in step E2.
  • This configuration step E4 is implemented here by the configuration module 8.
  • This step E2 can also comprise the configuration (here by the configuration module 8) of other elements of the electronic device 2, such as the transformation module 12 and / or the construction module 22.
  • the configuration module 8 configures the transformation module 12 and / or the construction module 22 according to the number of temporal frequency bands to be used (this number can be stored in a memory of the electronic device 2 and / or entered by a user via a user interface - not shown - of the electronic device 2).
  • the configuration module 8 determines (as a function of the format determined in step E2) the matrices D (f) to be used, and configures the conversion units 16 respectively by means of these matrices D (f).
  • the configuration module 8 determines for example the matrices D (f) to be used as a function of the number of signals present in the first set of signals.
  • the configuration module 8 reads a set of matrices D (f) stored (for example in the memory of the electronic device 2) in association with this number of signals in the first set of signals.
  • the configuration module 8 could send this number of signals in the first set of signals to a remote server and receive in response the associated set of matrices D (f).
  • the configuration module 8 performs a method such as that described below in figure 4 to define a plurality of directions ⁇ j of space, assign these directions ⁇ j of space to the temporal frequency bands, and construct, for each temporal frequency band, the matrix D (f) using the directions ⁇ 1 (f), Q 2 (f), ..., ⁇ (L + 1) 2 (f) of the space assigned to the relevant temporal frequency band (construction of the matrix D (f) using different directions ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ (L + 1) 2 (f) of the space being already presented above).
  • the matrices D (f) thus constructed can be stored (for example in the memory of the electronic device 2) for later use (in accordance with the first possibility indicated above).
  • the configuration module 8 can determine the matrices E (f) to be used (for example according to the format of the output signals, here the number of output signals, which can be stored and / or entered by a user by means of the user interface of the electronic device 2), and configures the processing units 20 respectively by means of these matrices E (f).
  • the configuration module 8 determines for example the matrices E (f) to be used as a function of the number of signals present in the second set of signals (output signals).
  • the configuration module 8 reads a set of matrices E (f) stored (for example in the memory of the electronic device 2) in association with this number of signals in the second set of signals.
  • the configuration module 8 could send this number of signals in the second set of signals to a remote server and receive in response the associated set of matrices E (f).
  • the configuration module 8 performs a process such as that described below on figure 4 to define a plurality of directions ⁇ j of space, assign these directions ⁇ j of space to the temporal frequency bands, and construct, for each temporal frequency band, the matrix E (f) using the directions ⁇ 1 (f), Q 2 (f), ..., ⁇ (L + 1) 2 (f) of the space assigned to the relevant temporal frequency band (construction of the matrix E (f) using different directions ⁇ 1 (f), Q 2 (f), ..., ⁇ (L + 1) 2 (f) of the space being already presented above).
  • the matrices E (f) thus constructed can be stored (for example in the memory of the electronic device 2) for later use (in accordance with the first possibility indicated above).
  • the process of figure 3 then provides, for each of the signals ⁇ i (t) of the first set (input signals), a step E6 of determining values ⁇ i (f) respectively associated with the different temporal frequency bands.
  • these different values ⁇ i (f) respectively associated with the different temporal frequency bands represent the signal ⁇ i (t) concerned in the frequency domain.
  • This determination step E6 is here carried out by the transformation module 12.
  • the values ⁇ i (f) respectively associated with said temporal frequency bands can be determined by time-frequency transformation on the basis of the signals ⁇ i (t) of the first set.
  • the process of figure 3 then comprises, for each temporal frequency band, a step E8 of converting the values ⁇ i (f) associated with the relevant temporal frequency band and determined for the various signals ⁇ 1 (t), ⁇ 2 (t), .. ., ⁇ (L + 1) 2 (t) of the first set, in values ⁇ 1 (f), ⁇ 2 (f), ⁇ (L + 1) 2 (f) representative of virtual sound sources oriented respectively in the different directions of space ⁇ 1 (f), Q 2 (f), ..., ⁇ (L + 1) 2 (f) associated (for example attributed) to the temporal frequency band concerned.
  • one of the conversion units 16 performs a matrix product D (f) ⁇ (f) to obtain a vector ⁇ (f) formed of the values ⁇ 1 (f), ⁇ 2 (f ), ⁇ (L + 1) 2 (f) representative of virtual sound sources oriented respectively in the different directions of space ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ (L + 1) 2 (f) for the relevant temporal frequency band.
  • the process of figure 3 then comprises a step E10 of determining, for each temporal frequency band, on the basis of the values ⁇ 1 (f), ⁇ 2 (f), ⁇ (L + 1) 2 (f) representative of the virtual sound sources and obtained at the step of converting E8 for the temporal frequency band concerned, of a plurality of values ⁇ 1 (f), ⁇ 2 (f), ..., ⁇ N (f) associated respectively with the signals of the second set (c 'that is to say to the N output signals).
  • one of the processing units 20 performs a matrix product E (f) ⁇ (f) to obtain a vector ⁇ (f) formed of values ⁇ 1 (f), ⁇ 2 (f ), ..., ⁇ N (f) respectively associated with the signals ⁇ 1 (t), ⁇ 2 (t), ..., ⁇ N (t) of the second set.
  • the different values ⁇ i (f) obtained for the different temporal frequency bands and associated with the same signal ⁇ i (t) of the second set form a representation of this signal ⁇ i (t) of the second set in the frequency domain.
  • the process of figure 3 then comprises a step E12 of construction of each signal ⁇ i (t) of the second set on the basis of the values ⁇ i (f) associated with this signal ⁇ ⁇ (t) of the second set and obtained respectively for the different time frequency bands.
  • Step E12 is implemented here by the construction module 22.
  • each signal ⁇ i (t) of the second set can be constructed by frequency-time transformation on the basis of the values ⁇ i (f) associated with this signal ⁇ i (t) of the second set and obtained respectively for the different bands of temporal frequency.
  • the figure 4 presents a method for defining and assigning particular directions ⁇ j of space to different temporal frequency bands.
  • This method begins with a step E20 of defining a plurality of directions in space by an optimization process, here an optimization process called a “Thomson problem”.
  • the plurality of directions in space thus obtained forms a mesh of all the directions in space, as already indicated.
  • each group the particular directions are distributed in space and therefore form in the example described here a tetrahedron (for example a regular tetrahedron).
  • Each of the 4F particular directions ⁇ j is modeled as a charged particle located on the surface of a sphere, and moving in solidarity with the other directions belonging to the same group, that is to say to the same tetrahedron. Two charged particles exert a repulsive force on each other similar to electrostatic interaction.
  • the process of figure 4 then comprises a step E22 of attribution of the particular directions of space obtained in step E20 to the F temporal frequency bands.
  • the tetrahedron assigned to the second temporal frequency band is that which corresponds to the smallest rotation with respect to the tetrahedron assigned to the first temporal frequency band.
  • the other tetrahedra are thus assigned successively to the different temporal frequency bands so that the angular distance between two successive groups of directions is as small as possible.
  • Two particular directions allocated to two adjacent frequency bands are thus neighboring within the mesh, which makes it possible to avoid jumps in the processing operations carried out for two neighboring frequency bands.
  • the process of figure 4 comprises a step E24 of construction and storage, for each temporal frequency band, of data associated with the particular directions ⁇ 1 (f), Q 2 (f), ..., ⁇ (L + 1) 2 (f) of space allocated to the frequency band concerned.
  • step E24 comprises the construction and storage of the matrix D (f) and / or of the matrix E (f) as indicated above, on the basis of particular directions ⁇ 1 (f), Q 2 (f), ..., ⁇ (L + 1) 2 (f) assigned to the frequency band concerned.
  • the invention which has just been described can be applied in various situations where it is desired to convert a first set of signals having a first format into a second set of signals having a second format.
  • loudspeakers for example by means of 10 loudspeakers or plus
  • L-order ambisonics signals to L-order ambisonics signals. strictly greater than L and to reproduce the converted signals on the loudspeakers in order to avoid the production of artifacts which are unpleasant to the ear.
  • ambisonic signals b E (t) of order L and ambisonic signals b '(t) of order L' strictly greater than L.
  • the ambisonic signals b '(t) represent (in detail) a sound in direct propagation between a sound source and the user, while the ambisonic signals b E (t) represent sounds arriving at the user after reflection and / or reverberation.
  • the use of ambisonic signals b E (t) of low order makes it possible to lighten the processing carried out on these signals (for example to produce these signals).
  • the various signals are considered as a scene-oriented format in which the base of space functions used consists of so-called “panning” functions.
  • a panning function expresses the gains applied to different speakers to give the impression to a listener that a sound source is in a given direction.
  • the VBAP method (for "Vector Base Amplitude Panning"), for example, makes it possible to calculate panning functions for a given set of loudspeakers. For example, we can refer to this subject in the article " Virtual Sound Source Positioning Using Vector Base Amplitude Panning ", by V. Pulkki, in Journal of the Audio Engineering Society, 45 (6), pp. 456-466, June 1997 .
  • the matrices D (f) and E ( f) mentioned above can in this case be constructed by concatenating the vectors made up of the panning gains for the different directions ⁇ j of plane waves.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

Un procédé de conversion comprend les étapes suivantes :- pour chacun des signaux (b<sub>E</sub>(t)) d'un premier ensemble, détermination de valeurs (α(f)) respectivement associées à des bandes de fréquence;- pour chaque bande de fréquence, conversion des valeurs (α(f)) associées à la bande de fréquence concernée, en au moins une valeur représentative d'une source sonore virtuelle orientée dans la direction de l'espace associée à une donnée mémorisée pour la bande de fréquence concernée ;- pour chaque bande de fréquence, détermination, sur la base d'une valeur représentative précitée, d'une pluralité de valeurs (λ(f)) associées respectivement aux différents signaux (b<sub>s</sub>(t)) du second ensemble ;- construction de chaque signal (b<sub>s</sub>(t)) d'un second ensemble sur la base des valeurs associées (λ(f)) à ce signal du second ensemble.

Description

  • La présente invention concerne le domaine technique du traitement des signaux représentatifs d'un champ sonore.
  • Elle concerne notamment un procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et un dispositif électronique associé.
  • Etat de la technique
  • Il a déjà été proposé de convertir un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux, par exemple pour permettre la restitution du champ sonore en appliquant les signaux du second ensemble à un système de reproduction (casque audio ou haut-parleurs).
  • Les signaux du premier ensemble ont parfois dans cette situation un format qui n'est pas directement utilisable par le système de reproduction. Il s'agit typiquement d'un format orienté-scène, tel qu'un format HOA (pour "High-Order Ambisonics").
  • Une solution de ce type est proposée dans l'article " COMPASS : Coding and Multidirectional Parametrization of Ambisonic Sound Scenes", de A. Politis, S. Tervo et V. Pulkki in Proceedings of the 2018 IEEE International Conférence on Acoustics, Speech and Signal Processing (ICASSP), avril 2018.
  • Comme d'autres solutions d'ailleurs mentionnées dans cet article, cette solution repose sur l'estimation d'au moins une direction dominante par bande de fréquence au moyen d'une analyse des signaux du premier ensemble.
  • Cette analyse a toutefois un coût calculatoire important et nécessite donc un temps de traitement non négligeable.
  • Présentation de l'invention
  • Dans ce contexte, la présente invention propose un procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore dans un espace en un second ensemble de signaux au moyen d'un dispositif électronique, caractérisé en ce que le dispositif électronique mémorise, pour chaque bande de fréquence temporelle d'une pluralité de bandes de fréquence temporelle du champ sonore, au moins une donnée associée à une direction particulière de l'espace, l'ensemble de ces directions particulières de l'espace associées à une donnée pour au moins une bande de fréquence temporelle formant un maillage de l'ensemble des directions de l'espace, et en ce que le procédé comprend les étapes suivantes :
    • pour chacun des signaux du premier ensemble, détermination de valeurs respectivement associées auxdites bandes de fréquence temporelle ;
    • pour chaque bande de fréquence temporelle, conversion des valeurs associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux du premier ensemble, en au moins une valeur représentative d'une source sonore virtuelle orientée dans la direction de l'espace associée à la donnée mémorisée pour la bande de fréquence temporelle concernée ;
    • pour chaque bande de fréquence temporelle, détermination, sur la base de ladite au moins une valeur représentative d'une source sonore virtuelle et obtenue à l'étape de conversion pour la bande de fréquence temporelle concernée, d'une pluralité de valeurs associées respectivement aux différents signaux du second ensemble ;
    • construction de chaque signal du second ensemble sur la base des valeurs associées à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • L'utilisation de directions prédéfinies, pour lesquelles des données associées sont mémorisées dans le dispositif électronique, évite les traitements d'analyse utilisés dans les solutions antérieures.
  • Ces directions forment toutefois un maillage de l'ensemble des directions possibles et des ondes présentes dans le champ sonore seront donc représentées dans les signaux construits (signaux du second ensemble), quelle que soit leur direction dominante.
  • Le dispositif électronique mémorise par exemple, pour chaque bande de fréquence temporelle, des données associées à un nombre de directions particulières de l'espace égal au nombre de signaux dans le premier ensemble de signaux, ce qui permet d'obtenir un traitement optimal.
  • On peut prévoir qu'à l'étape de conversion relative à une bande de fréquence temporelle donnée, les valeurs associées à la bande de fréquence temporelle donnée et déterminées pour les différents signaux du premier ensemble soient converties en une pluralité de valeurs représentatives de sources sonores virtuelles orientées respectivement dans les directions de l'espace associées aux données mémorisées pour la bande de fréquence temporelle donnée. Ainsi, pour chaque bande de fréquence temporelle, les signaux d'entrée sont convertis en une représentation en ondes planes selon les différentes directions associées à la bande de fréquence concernée.
  • Les directions particulières associées aux données mémorisées pour une bande de fréquence temporelle donnée sont par exemple réparties (éventuellement de manière régulière) parmi l'ensemble des directions de l'espace.
  • Le nombre de signaux dans le second ensemble est par exemple strictement supérieur au nombre de signaux dans le premier ensemble. La conversion permet dans ce cas une augmentation artificielle de la résolution spatiale de la scène sonore représentée.
  • On peut prévoir par ailleurs que deux directions associées à deux données mémorisées respectivement pour deux bandes de fréquences adjacentes soient voisines au sein du maillage. Cela évite d'effectuer des traitements très différents pour des bandes de fréquence voisines, ce qui pourrait créer des artefacts indésirables.
  • L'ensemble desdites directions particulières peut comprendre au moins 50 directions particulières, par exemple entre 50 et 5000 directions particulières.
  • Les valeurs respectivement associées auxdites bandes de fréquence temporelle peuvent être déterminées par transformation temps-fréquence sur la base des signaux du premier ensemble. Chaque signal du second ensemble peut quant à lui être construit par transformation fréquence-temps sur la base des valeurs associées à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • Comme décrit dans la suite, pour chaque bande de fréquence temporelle, l'étape de conversion peut être réalisée en pratique par multiplication matricielle d'un vecteur comprenant les valeurs associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux du premier ensemble. La matrice utilisée pour cette multiplication matricielle en ce qui concerne une bande de fréquence temporelle donnée peut comprendre les données mémorisées pour cette bande de fréquence temporelle donnée et associées aux différentes directions particulières attribuées à cette bande de fréquence temporelle donnée.
  • Par ailleurs, pour chaque bande de fréquence temporelle, l'étape de détermination d'une pluralité de valeurs associées respectivement aux différents signaux du second ensemble peut être réalisée par multiplication matricielle d'un vecteur comprenant ladite au moins une valeur représentative d'une source sonore virtuelle et obtenue à l'étape de conversion pour la bande de fréquence temporelle concernée. On peut ainsi passer d'une représentation en ondes planes (au moyen des valeurs représentatives de sources sonores) à une représentation correspondant aux signaux du second ensemble (signaux de sortie).
  • Le procédé peut comprendre par ailleurs des étapes préalables de définition d'une pluralité de directions de l'espace par un processus d'optimisation, d'attribution des directions de l'espace de la pluralité auxdites bandes de fréquence temporelle, et de mémorisation, pour chaque bande de fréquence temporelle, de ladite au moins une donnée associée à la direction de l'espace attribuée à la bande de fréquence concernée.
  • L'invention propose en outre un dispositif électronique de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore dans un espace en un second ensemble de signaux, caractérisé en ce que le dispositif électronique comprend :
    • une unité de mémorisation conçue pour mémoriser, pour chaque bande de fréquence temporelle d'une pluralité de bandes de fréquence temporelle du champ sonore, au moins une donnée associée à une direction particulière de l'espace, de sorte que l'ensemble de ces directions particulières de l'espace associées à une donnée pour au moins une bande de fréquence temporelle forme un maillage de l'ensemble des directions de l'espace ;
    • un module de transformation conçu pour déterminer, pour chacun des signaux du premier ensemble, des valeurs respectivement associées auxdites bandes de fréquence temporelle ;
    • un module de décodage conçu pour convertir, pour chaque bande de fréquence temporelle, les valeurs associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux du premier ensemble, en au moins une valeur représentative d'une source sonore virtuelle orientée dans la direction de l'espace associée à la donnée mémorisée pour la bande de fréquence temporelle concernée ;
    • un module d'encodage conçu pour déterminer, pour chaque bande de fréquence temporelle, une pluralité de valeurs associées respectivement aux différents signaux du second ensemble, sur la base de ladite au moins une valeur représentative d'une source sonore virtuelle et obtenue par le module de décodage pour la bande de fréquence temporelle concernée ;
    • un module de construction conçu pour construire chaque signal du second ensemble sur la base des valeurs associées à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • Bien entendu, les différentes caractéristiques, variantes et formes de réalisation de l'invention peuvent être associées les unes avec les autres selon diverses combinaisons dans la mesure où elles ne sont pas incompatibles ou exclusives les unes des autres.
  • Description détaillée de l'invention
  • De plus, diverses autres caractéristiques de l'invention ressortent de la description annexée effectuée en référence aux dessins qui illustrent des formes, non limitatives, de réalisation de l'invention et où :
    • la figure 1 est une représentation fonctionnelle d'un dispositif électronique de conversion conforme à l'invention ;
    • la figure 2 représente l'ensemble des directions de l'espace pour lesquelles une donnée est mémorisée au sein du dispositif électronique ;
    • la figure 3 est un logigramme montrant des étapes d'un procédé de conversion conforme à l'invention ;
    • la figure 4 est un logigramme montrant des étapes d'un procédé de définition et d'attribution de directions particulières de l'espace à différentes bandes de fréquence temporelle ; et
    • la figure 5 représente schématiquement une application possible de l'invention.
  • La figure 1 représente un dispositif électronique 2 de conversion d'un premier ensemble de signaux (ou signaux d'entrée) représentatifs d'un champ sonore dans un espace en un second ensemble de signaux (ou signaux de sortie). L'espace concerné est l'espace de propagation des ondes sonores ; cet espace est ici tridimensionnel. En variante toutefois, cet espace pourrait être bidimensionnel (par exemple dans le cas d'une représentation bidimensionnelle d'un système tridimensionnel).
  • La figure 1 représente le dispositif électronique 2 sous forme de blocs fonctionnels (formant chacun un module ou une unité tel(Ile) que décrit(e) ci-dessous). En pratique, chacun de ces blocs fonctionnels peut être réalisé par la coopération d'éléments logiciels, tels que des instructions de programme d'ordinateur exécutables par un processeur du dispositif électronique, et d'éléments matériels, par exemple ce même processeur et une mémoire du dispositif électronique 2. Cette mémoire peut d'ailleurs mémoriser les instructions de programme d'ordinateur susmentionnée.
  • Les signaux d'entrée (ou signaux du premier ensemble) sont par exemple des signaux ambisoniques d'ordre L. Le premier ensemble comprend dans ce cas (L+1)2 signaux. On décrit ici à titre illustratif le cas de signaux d'entrée ambisoniques d'ordre 1 (c'est-à-dire L = 1) ; le premier ensemble comprend alors 4 signaux.
  • On décrit dans la suite le traitement effectué par le dispositif électronique 2 sur un intervalle de temps donné, ce traitement pouvant être répété pour des intervalles de temps ultérieurs. Pour la suite des explications, on note bE (t) le vecteur formé des valeurs prises respectivement par les différents signaux du premier ensemble à différents instants t de l'intervalle de temps considéré. (Dans le cas de signaux d'entrée ambisoniques d'ordre L, chaque vecteur bE (t) est donc de dimension (L+1)2, ici de dimension 4.) Le nombre d'instants successifs t auxquels les signaux bE (t) sont considérés est par exemple compris entre 100 et 1000 pour chaque intervalle de temps. Les valeurs prises par les différents signaux (et ainsi les différents éléments des vecteurs bE (t)) sont par exemple des valeurs complexes ; en variante, ces valeurs pourraient être des valeurs réelles.
  • On considère par ailleurs dans la suite une pluralité de bandes de fréquence temporelle du champ sonore. (On utilise l'appellation "fréquence temporelle" dans la présente description pour bien préciser qu'il ne s'agit pas de fréquences spatiales, notion également utilisée dans le présent domaine technique.) Dans l'exemple décrit ici, ces bandes de fréquence temporelle sont disjointes deux à deux et couvrent (réunies) le spectre des fréquences audibles. La pluralité de bandes de fréquence temporelle comprend par exemple entre 100 et 1000 bandes de fréquence temporelle, ici 256 bandes de fréquence temporelle. Chaque bande de fréquence temporelle a par exemple une largeur comprise entre 10 Hz et 500 Hz.
  • Le dispositif électronique 2 comprend une unité de mémorisation 4 conçue pour mémoriser, pour chaque bande de fréquence temporelle de cette pluralité de bandes de fréquence temporelle, au moins une donnée associée à une direction particulière Ωj de l'espace.
  • Dans l'exemple décrit ici, l'unité de mémorisation 4 mémorise, pour chaque bande de fréquence temporelle, des données associées à un nombre de directions particulières Ωj de l'espace égal au nombre de signaux dans le premier ensemble de signaux (signaux d'entrée), soit (L+1)2 dans le cas de signaux d'entrée ambisoniques d'ordre L. On note dans la suite Ω1(f), Ω2(f), ..., Ω(L+1)2(f) les directions ainsi associées à une bande de fréquence temporelle donnée.
  • La donnée associée à une direction particulière Ωj de l'espace peut être une donnée définissant cette direction particulière de l'espace, par exemple au moyen d'un angle d'azimut et/ou d'un angle d'élévation.
  • La donnée associée à une direction particulière Ωj de l'espace peut également être une donnée permettant d'effectuer un calcul lié à cette direction particulière Ωj. Dans l'exemple décrit ici, on associe par exemple à une direction particulière Ωk(f) plusieurs coefficients Dk,i(f) (formant une ligne d'une matrice D(f)) permettant respectivement d'obtenir la contribution des différents signaux d'entrées à une onde plane dans la direction particulière Ωk(f), comme expliqué plus loin.
  • On a représenté sur la figure 2 l'ensemble des directions particulières Ωj de l'espace associées à une donnée mémorisée dans l'unité de mémorisation 4 dans l'exemple décrit ici.
  • Chaque direction particulière Ωj est ici définie par un angle d'azimut θ (en abscisse sur la figure 2) et un angle d'élévation ε (en ordonnée sur la figure 2).
  • L'ensemble des directions particulières Ωj de l'espace associées à une donnée mémorisée pour au moins une bande de fréquence temporelle forme un maillage de l'ensemble des directions de l'espace. L'ensemble des directions particulières Ωj comprend par exemple plus de 50 directions particulières.
  • Comme visible sur la figure 2, ce maillage n'est pas un maillage régulier dans l'exemple décrit. Il pourrait toutefois en variante s'agir d'un maillage régulier (par exemple avec un pas constant en azimut et un pas constant en élévation).
  • Selon une possibilité de mise en œuvre, pour toute plage de valeurs d'azimut de largeur 60° et pour toute plage de valeurs d'élévation de largeur 30°, l'ensemble des directions particulières Ωj comprend au moins 5 directions particulières Ωj définies par un azimut θ inclus dans cette plage de valeurs d'azimut et une élévation ε incluse dans cette plage de valeurs d'élévation.
  • Selon une autre possibilité de mise en œuvre (éventuellement compatible avec la précédente), pour toute plage de valeurs d'élévation de largeur 30° et pour toute direction particulière Ωj de l'ensemble définie par une élévation ε comprise dans cette plage de valeurs d'élévation et par un azimut θ donné, l'ensemble des directions particulières comprend au moins une autre direction particulière Ωj' définie par une élévation ε' incluse dans cette plage de valeurs d'élévation et par un azimut θ' qui diffère de moins de 30° de l'azimut θ donné.
  • Selon une autre possibilité de mise en œuvre (éventuellement compatible avec les précédentes), pour toute plage de valeurs d'azimut de largeur 60° et pour toute direction particulière Ωj de l'ensemble définie par un azimut θ compris dans cette plage de valeurs d'azimut et par une élévation ε donnée, l'ensemble des directions particulières comprend au moins une autre direction particulière Ωj' définie par un azimut θ' inclus dans cette plage de valeurs d'azimut et par une élévation ε' qui diffère de moins de 30° de l'élévation ε donnée.
  • On décrit plus loin en référence à la figure 4 un procédé de définition et d'attribution de ces directions particulières Ωj de l'espace aux différentes bandes de fréquence temporelle.
  • Le dispositif électronique 2 comprend un module de réception 6 conçu pour recevoir des données représentatives des signaux d'entrée (signaux du premier ensemble), ici les vecteurs b E(t) respectivement associés aux instants successifs de l'intervalle de temps considéré. Ce module de réception 6 peut être un module de communication apte à recevoir les données représentatives des signaux d'entrée en provenance d'un autre dispositif électronique. En variante, le module de réception 6 peut être un module de lecture des données représentatives des signaux d'entrée dans une mémoire (telle que la mémoire déjà mentionnée du dispositif électronique 2).
  • Le dispositif électronique 2 comprend un module de configuration 8 conçu pour configurer les autres modules, en fonction notamment des signaux d'entrée b E(t) (en particulier en fonction du format des signaux d'entrée bE (t)).
  • Pour ce faire, le dispositif électronique 2 peut comprendre un module de détection 10 conçu pour analyser les signaux d'entrée b E(t) et pour communiquer au module de configuration une information I indicative du format des signaux d'entrée b E(t). Cette information I est par exemple le nombre de signaux composant les signaux d'entrée bE (t).
  • En variante, les données représentatives des signaux d'entrée b E(t) (reçues par le module de réception 6) peuvent comprendre des métadonnées M indicatives du format des signaux d'entrée b E(t). On peut prévoir dans ce cas que le module de réception 6 transmette ces métadonnées M au module de configuration 8, comme représenté en pointillés sur la figure 1.
  • Le fonctionnement du module de configuration 8 est décrit en détail plus loin en référence à la figure 3.
  • Le dispositif électronique 2 comprend par ailleurs un module de transformation 12 conçu pour déterminer, pour chacun des signaux d'entrées (signaux du premier ensemble), des valeurs respectivement associées aux différentes bandes de fréquence temporelle.
  • En notant βi(t) les valeurs prises au cours du temps (sur l'intervalle considéré) par chaque signal d'entrée (de sorte que bE (t) = [β1(t), β2(t), ..., β(L+1) 2(t)]T), le module de transformation 12 détermine ainsi, sur la base des valeurs βi(t) relatives à un signal d'entrée donné (désigné par l'indice i), des valeurs αi(f) respectivement associées aux différentes bandes de fréquence et représentatives de ce même signal d'entrée dans le domaine fréquentiel.
  • Pour un signal donné du premier ensemble, les valeurs αi(f) respectivement associées aux différentes bandes de fréquence temporelle sont par exemple déterminées par transformation temps-fréquence (telle qu'une transformation de Fourier à court terme) sur la base des valeurs βi(t) prises au cours du temps (sur l'intervalle de temps considéré) par ce signal du premier ensemble.
  • Pour chaque bande de fréquence, on note dans la suite α(f) le vecteur formé des valeurs αi(f) respectivement associées aux différents signaux d'entrée pour la bande de fréquence concernée : α(f) = [α1(f), α2(f), ..., α(L+1)2(f)]T.
  • Le dispositif électronique 2 comprend un module de décodage 14 conçu pour convertir, pour chaque bande de fréquence temporelle, les valeurs α1(f), α2(f), α(L+1) 2(f) associées à la bande de fréquence temporelle concernée et déterminées respectivement pour les différents signaux du premier ensemble, en des valeurs δ1(f), δ2(f), δ(L+1) 2(f) représentatives chacune d'une source sonore virtuelle orientée dans l'une des directions Ω1(f), Q2(f), ..., Ω(L+1)2(f) de l'espace associées aux données mémorisées pour la bande de fréquence temporelle concernée.
  • On note dans la suite δ(f) le vecteur formé (pour une bande de fréquence temporelle) par ces valeurs δ1(f), δ2(f), δ(L+1) 2(f) représentatives des sources sonores virtuelles orientées dans les directions Ω1(f), Ω2(f), ..., Ω(L+1) 2(f) de l'espace : δ f = δ 1 f , δ 2 f , , δ L + 1 2 f T .
    Figure imgb0001
  • Le module de décodage 14 effectue par exemple, pour chaque bande de fréquence temporelle, la conversion précitée par multiplication matricielle du vecteur α(f), qui comprend comme déjà indiqué les valeurs α1(f), α2(f), α(L+1) 2(f) associées à la bande de fréquence temporelle concernée et déterminées respectivement pour les différents signaux du premier ensemble.
  • Pour ce faire, le module de décodage 14 utilise par exemple une pluralité de matrices D(f) respectivement associées aux différentes bandes de fréquence temporelle et, pour chaque bande de fréquence temporelle, multiplie le vecteur α(f) susmentionné par la matrice D(f) concernée afin d'obtenir les valeurs δ1(f), δ2(f), δ(L+1) 2(f) représentatives respectivement des sources sonores virtuelles orientées dans les directions de l'espace associées à la bande de fréquence temporelle concernée : δ f = D f α f .
    Figure imgb0002
  • Les matrices D(f) sont telles que les valeurs α1(f), α2(f), α(L+1) 2(f) d'une part et les valeurs δ1(f), δ2(f), ..., δ(L+1) 2(f) d'autre part représentent le même champ sonore, mais dans deux représentations différentes, ici une représentation ambisonique pour les valeurs α1(f), α2(f), α(L+1) 2(f) et une représentation en ondes planes orientées selon les directions particulières de l'espace associées à la bande de fréquence concernée pour les valeurs δ1(f), δ2(f), ..., δ(L+1) 2(f). En ce sens, on peut dire dans ce cas que chaque matrice D(f) permet, pour une bande de fréquence temporelle, le passage d'une représentation ambisonique à une représentation en ondes planes.
  • Chaque matrice D(f) est donc formée d'éléments Dk,i qui représentent chacun le coefficient à affecter à une valeur αi(f) (obtenu pour un signal d'entrée βi(t)) pour déterminer sa contribution à l'onde plane émise par la source sonore virtuelle orientée selon la direction Ωk(f). En effet, le produit matriciel ci-dessus signifie que l'on a : δ k f = i D k , i . α i f .
    Figure imgb0003
  • Dans l'exemple décrit ici où l'unité de mémorisation 4 mémorise, pour chaque bande de fréquence temporelle, des données associées à un nombre de directions particulières Ωj de l'espace égal au nombre de signaux dans le premier ensemble de signaux (signaux d'entrée), chaque matrice D(f) est une matrice carrée, de dimension égale au nombre de signaux dans le premier ensemble, ici (L+1)2.
  • Dans le cas où les signaux d'entrées sont ambisoniques, on note aE j) le vecteur dont les coefficients expriment la fonction de transfert entre une onde plane se propageant depuis la direction Ωj et les différents signaux ambisoniques d'ordre L : a E Ω i = Y 0 0 Ω j , Y 1 1 Ω j Y l m Ω j , , Y L L Ω j T ,
    Figure imgb0004
    où Yl m(.) est la fonction harmonique sphérique d'ordre I et de degré m.
  • Pour chaque bande de fréquence temporelle, la matrice D(f) peut alors être dans ce cas définie par : D f = pinv a E Ω 1 f , a E Ω 2 f , , a E Ω L + 1 2 f ,
    Figure imgb0005
    où pinv(.) représente la pseudo-inverse de Moore-Penrose.
  • Dans le cas où la matrice D(f) est carrée comme indiqué ci-dessus, on peut donc écrire : D f = a E Ω 1 f , a E Ω 2 f , , a E Ω L + 1 2 f 1 .
    Figure imgb0006
  • Comme visible sur la figure 1, le module de décodage 14 peut comprendre en pratique une pluralité d'unités de conversion 16 conçues chacune pour effectuer la conversion susmentionnée pour une bande de fréquence temporelle donnée, c'est-à-dire ici pour effectuer la multiplication d'un vecteur α(f) reçu du module de transformation 12 par la matrice D(f) associée à cette bande de fréquence.
  • Le dispositif électronique 2 comprend un module d'encodage 18 conçu pour déterminer, pour chaque bande de fréquence temporelle, une pluralité de valeurs λ1(f), λ2(f), ..., λN(f) associées respectivement aux différents signaux du second ensemble (signaux de sortie), sur la base des valeurs δ1(f), δ2(f), ..., δ(L+1) 2(f) représentatives des sources sonores virtuelles et obtenues par la conversion susmentionnée pour la bande de fréquence temporelle concernée.
  • Comme indiqué ci-dessus, on note N le nombre de signaux du second ensemble.
  • Par exemple, lorsque les signaux de sortie sont des signaux ambisoniques d'ordre L', on a : N = (L'+1)2.
  • Dans l'exemple décrit ici, le nombre N de signaux dans le second ensemble est strictement supérieur au nombre de signaux (ici égal à (L+1)2) dans le premier ensemble. C'est notamment le cas lorsque le traitement effectué par le dispositif électronique, décrit ci-dessous en référence à la figure 3, vise à augmenter artificiellement la résolution spatiale des scènes sonores (fonctionnalité à laquelle on se réfère parfois par le terme anglais "upscaling").
  • Par exemple, lorsque les signaux d'entrée et les signaux de sortie sont des signaux ambisoniques, l'ordre L' des signaux de sortie est strictement supérieur à l'ordre L des signaux d'entrée.
  • Dans l'exemple décrit ici, le module d'encodage 18 détermine, pour chaque bande de fréquence temporelle, la pluralité de valeurs λ1(f), λ2(f), ..., λN(f) associées respectivement aux différents signaux du second ensemble par multiplication matricielle (au moyen d'une matrice E(f)) du vecteur δ(f) comprenant les valeurs δ1(f), δ2(f), ..., δ(L+1) 2(f) représentative des sources sonores virtuelles et obtenues à l'étape de conversion pour la bande de fréquence temporelle concernée.
  • Une telle matrice E(f) a donc ici un nombre de colonnes égal au nombre de signaux dans le premier ensemble (ici (L+1)2) et un nombre de lignes égal au nombre N de signaux dans le second ensemble.
  • Dans le cas où les signaux de sortie sont des signaux ambisoniques, le module d'encodage 18 utilise, pour chaque bande de fréquence, une matrice E(f) permettant le passage d'une représentation en ondes planes à une représentation ambisonique, ici d'ordre L' : E f = a S Ω 1 f , a S Ω 2 f , , a S Ω L + 1 2 f
    Figure imgb0007
    • avec asj) = [Y0 0j), Y1 -1j)..., Yl mj), ... , YL' L'j)]T,
    • où comme déjà indiqué Yl m(.) est la fonction harmonique sphérique d'ordre I et de degré m.
  • En notant λ(f) = [λ1(f), λ2(f), ..., λN(f)]T, on a ainsi : λ(f) = E(f)δ(f).
  • Comme visible sur la figure 1, le module d'encodage 18 peut comprendre en pratique une pluralité d'unités de traitement 20 conçues chacune pour effectuer la transformation qui vient d'être décrite pour une bande de fréquence temporelle donnée, c'est-à-dire ici pour effectuer la multiplication d'un vecteur δ(f) reçu du module de décodage 14 (précisément ici : reçu d'une unité de conversion 16) par la matrice E(f) associée à cette bande de fréquence.
  • Le dispositif électronique 2 comprend enfin un module de construction 22 conçu pour construire chaque signal σi(t) du second ensemble sur la base des valeurs Ài(f) associées à ce signal σi(t) du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • Le module de construction 22 construit par exemple chaque signal σ¡(t) du second ensemble par transformation fréquence-temps (telle qu'une transformation de Fourier à court terme inverse) sur la base des valeurs Ài(f) associées à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • On obtient ainsi N signaux de sortie (signaux du second ensemble), précisément ici, pour chaque signal de sortie, un ensemble de valeurs σi(t) formant ce signal de sortie pour les différents instants t (successifs) de l'intervalle de temps considéré. On peut noter sous forme vectorielle les valeurs des différents signaux de sortie pour chaque instant t : bs (t) = [σ1(t), σ2(t), ..., σN(t)]T.
  • La figure 3 représente sous forme de logigramme un procédé de conversion conforme à l'invention. Ce procédé est par exemple mis en œuvre par le dispositif électronique de la figure 2, comme décrit dans la suite.
  • Le procédé de la figure 3 débute par une étape E2 de détermination du format des signaux d'entrée b E(t), reçus ici par le module de réception 6. Cette étape E2 est par exemple mise en œuvre par le module de détection 10. En variante, comme déjà indiqué, cette étape E2 pourrait être mise en œuvre par le module de configuration 8 par lecture de métadonnées M indicatives du format des signaux d'entrée b E(t).
  • Cette étape E2 permet ici de déterminer le nombre de signaux présents dans le premier ensemble de signaux.
  • Le procédé de la figure 3 comprend alors une étape E4 de configuration du module de décodage 14 et/ou du module d'encodage 18 en fonction du format déterminé à l'étape E2. Cette étape de configuration E4 est ici mise en œuvre par le module de configuration 8.
  • Cette étape E2 peut comprendre en outre la configuration (ici par le module de configuration 8) d'autres éléments du dispositif électronique 2, comme le module de transformation 12 et/ou le module de construction 22. Par exemple, le module de configuration 8 configure le module de transformation 12 et/ou le module de construction 22 en fonction du nombre de bandes de fréquence temporelle à utiliser (ce nombre pouvant être mémorisé dans une mémoire du dispositif électronique 2 et/ou entré par un utilisateur via une interface utilisateur - non représentée - du dispositif électronique 2).
  • Par exemple, au cours de l'étape de configuration E4, le module de configuration 8 détermine (en fonction du format déterminé à l'étape E2) les matrices D(f) à utiliser, et configure les unités de conversion 16 respectivement au moyen de ces matrices D(f).
  • Le module de configuration 8 détermine par exemple les matrices D(f) à utiliser en fonction du nombre de signaux présents dans le premier ensemble de signaux.
  • Selon une première possibilité, en fonction du nombre de signaux dans le premier ensemble de signaux (i.e. du nombre de signaux d'entrée), le module de configuration 8 lit un ensemble de matrices D(f) mémorisé (par exemple dans la mémoire du dispositif électronique 2) en association avec ce nombre de signaux dans le premier ensemble de signaux. En variante, le module de configuration 8 pourrait émettre ce nombre de signaux dans le premier ensemble de signaux à destination d'un serveur distant et recevoir en réponse l'ensemble de matrices D(f) associé.
  • Selon une autre possibilité (par exemple mise en œuvre la première fois où le nombre de signaux d'entrée déterminé à l'étape E2 est rencontré), le module de configuration 8 effectue un procédé tel que celui décrit ci-dessous à la figure 4 pour définir une pluralité de directions Ωj de l'espace, attribuer ces directions Ωj de l'espace aux bandes de fréquence temporelle, et construire, pour chaque bande de fréquence temporelle, la matrice D(f) en utilisant les directions Ω1(f), Q2(f), ..., Ω(L+1) 2(f) de l'espace attribuées à la bande de fréquence temporelle concernée (la construction de la matrice D(f) en utilisant différentes directions Ω1(f), Ω2(f), ..., Ω(L+1) 2(f) de l'espace étant déjà présentée plus haut). Les matrices D(f) ainsi construites peuvent être mémorisées (par exemple dans la mémoire du dispositif électronique 2) pour utilisation ultérieure (conformément à la première possibilité indiquée ci-dessus).
  • De même, au cours de l'étape de configuration E4, le module de configuration 8 peut déterminer les matrices E(f) à utiliser (par exemple en fonction du format des signaux de sortie, ici du nombre de signaux de sortie, qui peut être mémorisé et/ou entré par un utilisateur au moyen de l'interface utilisateur du dispositif électronique 2), et configure les unités de traitement 20 respectivement au moyen de ces matrices E(f).
  • Le module de configuration 8 détermine par exemple les matrices E(f) à utiliser en fonction du nombre de signaux présents dans le second ensemble de signaux (signaux de sortie).
  • Selon une première possibilité, en fonction du nombre de signaux dans le second ensemble de signaux (i.e. du nombre de signaux d'entrée), le module de configuration 8 lit un ensemble de matrices E(f) mémorisé (par exemple dans la mémoire du dispositif électronique 2) en association avec ce nombre de signaux dans le second ensemble de signaux. En variante, le module de configuration 8 pourrait émettre ce nombre de signaux dans le second ensemble de signaux à destination d'un serveur distant et recevoir en réponse l'ensemble de matrices E(f) associé.
  • Selon une autre possibilité (par exemple mise en œuvre la première fois où le nombre de signaux de sortie choisi est rencontré), le module de configuration 8 effectue un procédé tel que celui décrit ci-dessous à la figure 4 pour définir une pluralité de directions Ωj de l'espace, attribuer ces directions Ωj de l'espace aux bandes de fréquence temporelle, et construire, pour chaque bande de fréquence temporelle, la matrice E(f) en utilisant les directions Ω1(f), Q2(f), ..., Ω(L+1) 2(f) de l'espace attribuées à la bande de fréquence temporelle concernée (la construction de la matrice E(f) en utilisant différentes directions Ω1(f), Q2(f), ..., Ω(L+1) 2(f) de l'espace étant déjà présentée plus haut). Les matrices E(f) ainsi construites peuvent être mémorisées (par exemple dans la mémoire du dispositif électronique 2) pour utilisation ultérieure (conformément à la première possibilité indiquée ci-dessus).
  • Le procédé de la figure 3 prévoit alors, pour chacun des signaux βi(t) du premier ensemble (signaux d'entrée), une étape E6 de détermination de valeurs αi(f) respectivement associées aux différentes bandes de fréquence temporelle. Dans l'exemple décrit, ces différentes valeurs αi(f) respectivement associées aux différentes bandes de fréquence temporelle représente le signal βi(t) concerné dans le domaine fréquentiel.
  • Cette étape de détermination E6 est ici réalisée par le module de transformation 12.
  • Comme déjà indiqué, les valeurs αi(f) respectivement associées auxdites bandes de fréquence temporelle peuvent être déterminées par transformation temps-fréquence sur la base des signaux βi(t) du premier ensemble.
  • Le procédé de la figure 3 comprend ensuite, pour chaque bande de fréquence temporelle, une étape de conversion E8 des valeurs αi(f) associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux β1(t), β2(t), ..., β(L+1) 2(t) du premier ensemble, en des valeurs δ1(f), δ2(f), δ(L+1) 2(f) représentatives de sources sonores virtuelles orientées respectivement dans les différentes directions de l'espace Ω1(f), Q2(f), ..., Ω(L+1) 2(f) associées (par exemple attribuées) à la bande de fréquence temporelle concernée.
  • Cette étape de conversion E8 est ici mise en œuvre par le module de décodage 8, par exemple comme déjà indiqué en effectuant les produits matriciels D(f)α(f) pour obtenir les différents vecteurs δ(f) = [δ1(f), δ2(f), ..., δ(L+1) 2(f)]T.
  • Précisément, pour chaque bande de fréquence temporelle, l'une des unités de conversion 16 effectue un produits matriciel D(f)α(f) pour obtenir un vecteur δ(f) formées des valeurs δ1(f), δ2(f), δ(L+1) 2(f) représentatives de sources sonores virtuelles orientées respectivement dans les différentes directions de l'espace Ω1(f), Ω2(f), ..., Ω(L+1) 2(f) pour la bande de fréquence temporelle concernée.
  • Le procédé de la figure 3 comprend ensuite une étape E10 de détermination, pour chaque bande de fréquence temporelle, sur la base des valeurs δ1(f), δ2(f), δ(L+1) 2(f) représentatives des sources sonores virtuelles et obtenues à l'étape de conversion E8 pour la bande de fréquence temporelle concernée, d'une pluralité de valeurs λ1(f), λ2(f), ..., λN(f) associées respectivement aux signaux du second ensemble (c'est-à-dire aux N signaux de sortie).
  • L'étape E10 est ici mise en œuvre par le module d'encodage 18, par exemple comme déjà indiqué en effectuant les produits matriciels E(f)δ(f) pour obtenir les différents vecteurs λ(f) = [λ1(f), λ2(f), ..., λN(f)]T.
  • Précisément, pour chaque bande de fréquence temporelle, l'une des unités de traitement 20 effectue un produits matriciel E(f)δ(f) pour obtenir un vecteur λ(f) formé de valeurs λ1(f), λ2(f), ..., λN(f) respectivement associées aux signaux σ1(t), σ2(t), ..., σN(t) du second ensemble.
  • Dans l'exemple décrit ici, les différentes valeurs Ài(f) obtenues pour les différentes bandes de fréquence temporelle et associées à un même signal σi(t) du second ensemble forment une représentation de ce signal σi(t) du second ensemble dans le domaine fréquentiel.
  • Le procédé de la figure 3 comprend alors une étape E12 de construction de chaque signal σi(t) du second ensemble sur la base des valeurs Ài(f) associées à ce signal σ¡(t) du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • L'étape E12 est ici mise en œuvre par le module de construction 22.
  • Comme déjà indiqué, chaque signal σi(t) du second ensemble peut être construit par transformation fréquence-temps sur la base des valeurs Ài(f) associées à ce signal σi(t) du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  • La figure 4 présente un procédé de définition et d'attribution des directions particulières Ωj de l'espace à différentes bandes de fréquence temporelle.
  • Ce procédé débute par une étape E20 de définition d'une pluralité de directions de l'espace par un processus d'optimisation, ici un processus d'optimisation dit "problème de Thomson".
  • La pluralité des directions de l'espace ainsi obtenue forme un maillage de l'ensemble des directions de l'espace, comme déjà indiqué.
  • On décrit ce processus d'optimisation dans le cas de signaux d'entrée ambisoniques d'ordre 1 : on utilise dans ce cas comme déjà indiqué 4 directions particulières Ωj pour chaque bande de fréquence temporelle.
  • Si on note F le nombre de bandes de fréquence temporelle utilisé (comme déjà indiqué, F est par exemple compris entre 100 et 1000, ici F = 256), on prévoit ici F groupes de 4 directions particulières Ωj (le nombre de directions particulières par groupe étant égal au nombre de signaux d'entrée, ici 4 signaux d'entrée pour des signaux ambisonique d'ordre L=1 comme déjà indiqué).
  • Dans chaque groupe, les directions particulières sont réparties dans l'espace et forment donc dans l'exemple décrit ici un tétraèdre (par exemple un tétraèdre régulier).
  • On peut définir des rotations qui permettent chacune de passer d'un tétraèdre défini pour un groupe de directions particulières à un autre tétraèdre, défini pour un autre groupe de directions particulières.
  • On modélise chacune des 4F directions particulières Ωj comme une particule chargée localisée à la surface d'une sphère, et se déplaçant de façon solidaire aux autres directions appartenant au même groupe, c'est-à-dire au même tétraèdre. Deux particules chargées exercent l'une sur l'autre une force de répulsion semblable à l'interaction électrostatique.
  • On définit alors une fonction coût correspondant à l'énergie potentielle totale du système ainsi modélisé.
  • Par itérations successives, on modifie les rotations susmentionnées de manière à atteindre un minimum d'énergie potentielle (problème de Thomson). Puisque l'énergie potentielle est d'autant plus grande que les particules sont proches les unes des autres, cette optimisation conduit à une distribution optimale des directions sur la sphère.
  • On dispose ainsi de F tétraèdres disposés de manière à fournir un échantillonnage régulier (et donc un maillage) de l'ensemble des directions possibles de l'espace.
  • Le procédé de la figure 4 comprend alors une étape E22 d'attribution des directions particulières de l'espace obtenues à l'étape E20 aux F bandes de fréquence temporelle.
  • Pour ce faire, on peut attribuer aléatoirement un quelconque des tétraèdres (c'est-à-dire un des groupes de directions particulières) à la première bande de fréquence temporelle (les bandes de fréquence temporelle étant par exemple ordonnées par fréquence centrale croissante).
  • Le tétraèdre attribué à la seconde bande de fréquence temporelle est celui qui correspond à la plus petite rotation par rapport au tétraèdre attribué à la première bande de fréquence temporelle. Les autres tétraèdres sont ainsi attribués successivement aux différentes bandes de fréquence temporelle de façon à ce que la distance angulaire entre deux groupes de directions successifs soit aussi petite que possible.
  • Deux directions particulières attribuées à deux bandes de fréquences adjacentes sont ainsi voisines au sein du maillage, ce qui permet d'éviter des sauts dans les traitements effectués pour deux bandes de fréquence voisines.
  • Un groupe de directions particulières Ω1(f), Q2(f), ..., Ω(L+1) 2(f) (correspondant à un tétraèdre particulier dans l'exemple décrit ici) étant attribué à chaque bande de fréquence temporelle, le procédé de la figure 4 comprend une étape E24 de construction et de mémorisation, pour chaque bande de fréquence temporelle, de données associées aux directions particulières Ω1(f), Q2(f), ..., Ω(L+1) 2(f) de l'espace attribuées à la bande de fréquence concernée.
  • Dans l'exemple décrit ici, pour chaque bande de fréquence temporelle, l'étape E24 comprend la construction et la mémorisation de la matrice D(f) et/ou de la matrice E(f) comme indiqué plus haut, sur la base des directions particulières Ω1(f), Q2(f), ..., Ω(L+1) 2(f) attribuées à la bande de fréquence concernée.
  • L'invention qui vient d'être décrite peut être appliquée dans différentes situations où l'on souhaite convertir un premier ensemble de signaux ayant un premier format en un second ensemble de signaux ayant un second format.
  • Par exemple, lorsque l'on souhaite reproduire des signaux ambisoniques d'ordre L relativement faible (par exemple d'ordre L=1) au moyen d'un nombre important de haut-parleurs (par exemple au moyen de 10 haut-parleurs ou plus), il est souhaitable de convertir les signaux ambisoniques d'ordre L en signaux ambisoniques d'ordre L' strictement supérieur à L et de reproduire sur les haut-parleurs les signaux convertis afin d'éviter la production d'artefacts désagréables à l'oreille.
  • Selon un autre exemple représenté schématiquement sur la figure 5, on souhaite parfois combiner des signaux ambisoniques b E(t) d'ordre L et des signaux ambisoniques b'(t) d'ordre L' strictement supérieur à L. Ceci est notamment intéressant lorsque les signaux ambisoniques b'(t) représentent (de manière détaillée) un son en propagation directe entre une source sonore et l'utilisateur, tandis que les signaux ambisoniques bE (t) représentent des sons arrivant à l'utilisateur après réflexion et/ou réverbération. L'utilisation de signaux ambisoniques bE (t) d'ordre faible permet un allégement des traitements effectués sur ces signaux (par exemple pour produire ces signaux).
  • En vue par exemple de la reproduction des sons ainsi représentés, on peut dans ce cas convertir les signaux ambisoniques bE (t) d'ordre L en signaux ambisoniques bs (t) d'ordre L' grâce au dispositif électronique 2 et/ou au procédé de la figure 3, puis combiner les signaux ambisoniques bs (t) et les signaux ambisoniques b'(t) au moyen d'un dispositif de mixage 5 (ces deux signaux ambisoniques étant de même ordre L') afin d'obtenir un signal combiné b"(t) (également ambisonique d'ordre L').
  • Par ailleurs, bien que les exemples présentés ci-dessus utilisent des signaux d'entrée et des signaux de sortie ambisoniques, il est possible en variante d'utiliser des signaux d'entrée ou des signaux de sortie d'un autre type, par exemple des signaux multicanaux.
  • On considère dans ce cas les différents signaux, correspondant chacun à une position de haut-parleur donnée, comme un format orienté-scène dans lequel la base de fonctions de l'espace utilisée est constituée de fonctions dites de « panning ». Une fonction de panning exprime les gains appliqués aux différents haut-parleurs pour donner l'impression à un auditeur qu'une source sonore se trouve une direction donnée. La méthode VBAP (pour "Vector Base Amplitude Panning"), par exemple, permet de calculer des fonctions de panning pour un ensemble de haut-parleurs donné. On pourra par exemple se référer à ce sujet à l'article " Virtual Sound Source Positioning Using Vector Base Amplitude Panning", de V. Pulkki, in Journal of the Audio Engineering Society, 45(6), pp. 456-466, juin 1997.
  • Les matrices D(f) et E(f) mentionnées plus haut peuvent dans ce cas être construites en concaténant les vecteurs constitués des gains de panning pour les différentes directions Ωj d'ondes planes.

Claims (13)

  1. Procédé de conversion d'un premier ensemble de signaux (bE (t)) représentatifs d'un champ sonore dans un espace en un second ensemble de signaux (bs (t)) au moyen d'un dispositif électronique (2),
    caractérisé en ce que le dispositif électronique (2) mémorise, pour chaque bande de fréquence temporelle d'une pluralité de bandes de fréquence temporelle du champ sonore, au moins une donnée associée à une direction particulière (Ωj) de l'espace, l'ensemble de ces directions particulières (Ωj) de l'espace associées à une donnée pour au moins une bande de fréquence temporelle formant un maillage de l'ensemble des directions de l'espace, et en ce que le procédé comprend les étapes suivantes :
    - pour chacun des signaux (bE (t)) du premier ensemble, détermination (E6) de valeurs (α(f)) respectivement associées auxdites bandes de fréquence temporelle ;
    - pour chaque bande de fréquence temporelle, conversion (E8) des valeurs (α(f)) associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux du premier ensemble, en au moins une valeur représentative d'une source sonore virtuelle orientée dans la direction (Ωj) de l'espace associée à la donnée mémorisée pour la bande de fréquence temporelle concernée ;
    - pour chaque bande de fréquence temporelle, détermination (E10), sur la base de ladite au moins une valeur représentative d'une source sonore virtuelle et obtenue à l'étape de conversion (E8) pour la bande de fréquence temporelle concernée, d'une pluralité de valeurs (λ(f)) associées respectivement aux différents signaux (bs (t)) du second ensemble ;
    - construction de chaque signal (bs (t)) du second ensemble sur la base des valeurs associées (λ(f)) à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  2. Procédé de conversion selon la revendication 1, dans lequel le dispositif électronique mémorise, pour chaque bande de fréquence temporelle, des données associées à un nombre de directions particulières de l'espace égal au nombre de signaux (bE (t)) dans le premier ensemble de signaux.
  3. Procédé selon la revendication 2, dans lequel, à l'étape de conversion (E8) relative à une bande de fréquence temporelle donnée, les valeurs (α(f)) associées à la bande de fréquence temporelle donnée et déterminées pour les différents signaux du premier ensemble sont converties en une pluralité de valeurs (δ(f)) représentatives de sources sonores virtuelles orientées respectivement dans les directions (Ωj) de l'espace associées aux données mémorisées pour la bande de fréquence temporelle donnée.
  4. Procédé selon la revendication 2 ou 3, dans lequel les directions particulières associées aux données mémorisées pour une bande de fréquence temporelle donnée sont réparties parmi l'ensemble des directions de l'espace.
  5. Procédé selon l'une des revendications 1 à 4, dans lequel le nombre de signaux dans le second ensemble est strictement supérieur au nombre de signaux dans le premier ensemble.
  6. Procédé selon l'une des revendications 1 à 5, dans lequel deux directions associées à deux données mémorisées respectivement pour deux bandes de fréquences adjacentes sont voisines au sein du maillage.
  7. Procédé selon l'une des revendications 1 à 6, dans lequel l'ensemble desdites directions particulières comprend au moins 50 directions particulières.
  8. Procédé selon l'une des revendications 1 à 7, dans lequel les valeurs (α(f)) respectivement associées auxdites bandes de fréquence temporelle sont déterminées par transformation temps-fréquence sur la base des signaux (bE (t)) du premier ensemble.
  9. Procédé selon l'une des revendications 1 à 8, dans lequel chaque signal (bs (t)) du second ensemble est construit par transformation fréquence-temps sur la base des valeurs (λ(f)) associées à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
  10. Procédé selon l'une des revendications 1 à 9, dans lequel, pour chaque bande de fréquence temporelle, l'étape de conversion (E8) est réalisée par multiplication matricielle d'un vecteur (α(f)) comprenant les valeurs associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux (bE (t)) du premier ensemble.
  11. Procédé selon l'une des revendications 1 à 10, dans lequel, pour chaque bande de fréquence temporelle, l'étape de détermination (E10) d'une pluralité de valeurs (λ(f)) associées respectivement aux différents signaux (bs (t)) du second ensemble est réalisée par multiplication matricielle d'un vecteur (δ(f)) comprenant ladite au moins une valeur représentative d'une source sonore virtuelle et obtenue à l'étape de conversion (E8) pour la bande de fréquence temporelle concernée.
  12. Procédé selon l'une des revendications 1 à 11, comprenant des étapes préalables de définition (E20) d'une pluralité de directions de l'espace par un processus d'optimisation, d'attribution (E22) des directions de l'espace de la pluralité auxdites bandes de fréquence temporelle, et de mémorisation (E24), pour chaque bande de fréquence temporelle, de ladite au moins une donnée associée à la direction de l'espace attribuée à la bande de fréquence concernée.
  13. Dispositif électronique (2) de conversion d'un premier ensemble de signaux (bE (t)) représentatifs d'un champ sonore dans un espace en un second ensemble de signaux (bs (t)),
    caractérisé en ce que le dispositif électronique comprend :
    - une unité de mémorisation (4) conçue pour mémoriser, pour chaque bande de fréquence temporelle d'une pluralité de bandes de fréquence temporelle du champ sonore, au moins une donnée associée à une direction particulière (Ωj) de l'espace, de sorte que l'ensemble de ces directions particulières (Ωj) de l'espace associées à une donnée pour au moins une bande de fréquence temporelle forme un maillage de l'ensemble des directions de l'espace ;
    - un module de transformation (12) conçu pour déterminer, pour chacun des signaux (bE (t)) du premier ensemble, des valeurs (α(f)) respectivement associées auxdites bandes de fréquence temporelle ;
    - un module de décodage (14) conçu pour convertir, pour chaque bande de fréquence temporelle, les valeurs (α(f)) associées à la bande de fréquence temporelle concernée et déterminées pour les différents signaux (bE (t)) du premier ensemble, en au moins une valeur représentative d'une source sonore virtuelle orientée dans la direction de l'espace associée à la donnée mémorisée pour la bande de fréquence temporelle concernée ;
    - un module d'encodage (18) conçu pour déterminer, pour chaque bande de fréquence temporelle, une pluralité de valeurs (λ(f)) associées respectivement aux différents signaux (bs (t)) du second ensemble, sur la base de ladite au moins une valeur représentative d'une source sonore virtuelle et obtenue par le module de décodage pour la bande de fréquence temporelle concernée ;
    - un module de construction (20) conçu pour construire chaque signal (bs (t)) du second ensemble sur la base des valeurs associées (λ(f)) à ce signal du second ensemble et obtenues respectivement pour les différentes bandes de fréquence temporelle.
EP21181285.4A 2020-06-30 2021-06-23 Procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et dispositif électronique associé Pending EP3934282A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR2006878A FR3112016B1 (fr) 2020-06-30 2020-06-30 Procédé de conversion d’un premier ensemble de signaux représentatifs d’un champ sonore en un second ensemble de signaux et dispositif électronique associé

Publications (1)

Publication Number Publication Date
EP3934282A1 true EP3934282A1 (fr) 2022-01-05

Family

ID=73038106

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21181285.4A Pending EP3934282A1 (fr) 2020-06-30 2021-06-23 Procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et dispositif électronique associé

Country Status (3)

Country Link
US (1) US20210407524A1 (fr)
EP (1) EP3934282A1 (fr)
FR (1) FR3112016B1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992012607A1 (fr) * 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Codeur/decodeur pour champs sonores a dimensions multiples
EP2824662A1 (fr) * 2013-06-14 2015-01-14 Nokia Corporation Traitement audio
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
US20180182402A1 (en) * 2014-07-02 2018-06-28 Dolby International Ab Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020196004A1 (fr) * 2019-03-28 2020-10-01 ソニー株式会社 Dispositif et procédé de traitement de signal, et programme

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992012607A1 (fr) * 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Codeur/decodeur pour champs sonores a dimensions multiples
EP2824662A1 (fr) * 2013-06-14 2015-01-14 Nokia Corporation Traitement audio
US20180182402A1 (en) * 2014-07-02 2018-06-28 Dolby International Ab Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. POLITISS. TERVOV. PULKKI: "COMPASS : Coding and Multidirectional Parametrization of Ambisonic Sound Scenes", PROCEEDINGS OF THE 2018 IEEE INTERNATIONAL CONFÉRENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01)
V. PULKKI: "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, vol. 45, no. 6, June 1997 (1997-06-01), pages 456 - 466, XP002719359

Also Published As

Publication number Publication date
FR3112016A1 (fr) 2021-12-31
FR3112016B1 (fr) 2023-04-14
US20210407524A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP1836876B1 (fr) Procédé et dispositif d&#39;individualisation de hrtfs par modélisation
EP1992198B1 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP1946612B1 (fr) Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
EP3807669B1 (fr) Localisation de sources sonores dans un environnement acoustique donné
EP2901718B1 (fr) Procede et systeme de restitution d&#39;un signal audio
EP1586220B1 (fr) Procede et dispositif de pilotage d&#39;un ensemble de restitution a partir d&#39;un signal multicanal
FR2844894A1 (fr) Procede et systeme de traitement d&#39;une representation d&#39;un champ acoustique
EP3040989B1 (fr) Procédé de séparation amélioré et produit programme d&#39;ordinateur
EP1479266A2 (fr) Procede et dispositif de pilotage d&#39;un ensemble de restitution d&#39;un champ acoustique
EP1502475B1 (fr) Procede et systeme de representation d un champ acoustique
FR2858403A1 (fr) Systeme et procede de determination d&#39;une representation d&#39;un champ acoustique
EP3400599B1 (fr) Encodeur ambisonique ameliore d&#39;une source sonore a pluralite de reflexions
EP3934282A1 (fr) Procédé de conversion d&#39;un premier ensemble de signaux représentatifs d&#39;un champ sonore en un second ensemble de signaux et dispositif électronique associé
FR3009158A1 (fr) Spatialisation sonore avec effet de salle
EP1994526B1 (fr) Synthese et spatialisation sonores conjointes
WO2022106765A1 (fr) Localisation perfectionnée d&#39;une source acoustique
WO2021130132A1 (fr) Procédé et système d&#39;estimation d&#39;une grandeur représentative de l&#39;énergie sonore
EP3384688B1 (fr) Décompositions successives de filtres audio
EP4365683A1 (fr) Procédé et dispositif d&#39;estimation d&#39;une carte de profondeur associée à un hologramme numérique représentant une scène et programme d&#39;ordinateur associé
WO2023110549A1 (fr) Procédé d&#39;estimation d&#39;une pluralité de signaux représentatifs du champ sonore en un point, dispositif électronique et programme d&#39;ordinateur associés
WO2010076412A2 (fr) Procede et un dispositif d&#39;estimation de signaux de source issus d&#39;un signal de melange
FR2871593A1 (fr) Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d&#39;un signal issu du melange de ces signaux

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

B565 Issuance of search results under rule 164(2) epc

Effective date: 20211109

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220616

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20231107