EP3400599B1 - Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions - Google Patents

Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions Download PDF

Info

Publication number
EP3400599B1
EP3400599B1 EP16808645.2A EP16808645A EP3400599B1 EP 3400599 B1 EP3400599 B1 EP 3400599B1 EP 16808645 A EP16808645 A EP 16808645A EP 3400599 B1 EP3400599 B1 EP 3400599B1
Authority
EP
European Patent Office
Prior art keywords
reflections
sound
sound wave
ambisonic
logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP16808645.2A
Other languages
German (de)
English (en)
Other versions
EP3400599A1 (fr
Inventor
Pierre Berthet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mimi Hearing Technologies GmbH
Original Assignee
Mimi Hearing Technologies GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mimi Hearing Technologies GmbH filed Critical Mimi Hearing Technologies GmbH
Publication of EP3400599A1 publication Critical patent/EP3400599A1/fr
Application granted granted Critical
Publication of EP3400599B1 publication Critical patent/EP3400599B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present invention relates to the ambisonic encoding of sound sources. It relates more specifically to improving the efficiency of this coding, in the case where a sound source is affected by reflections in a sound scene.
  • Spatialized representations of sound bring together techniques for synthesizing and reproducing a sound environment, allowing the listener to be much more immersed in a sound environment. They allow a user in particular to discern a number of sound sources greater than the number of loudspeakers at his disposal, and to locate these sound sources precisely in 3D, even when their direction is not that of a loudspeaker.
  • the applications of spatialized representations of sound are numerous, and include the precise localization of sound sources in 3 dimensions by a user from sound from a stereo headset, or the localization of sound sources in 3 dimensions by users in a room, the sound being produced by speakers, for example 5.1 speakers.
  • the spatialized representations of sound allow the creation of new sound effects. For example, they allow the rotation of a sound scene or the application of reflection of a sound source to simulate the rendering of a given sound environment, for example a cinema hall or a concert hall.
  • ambisonic encoding Spatialized representations are carried out in two main stages: ambisonic encoding, and ambisonic decoding.
  • real-time ambisonic decoding is always necessary.
  • Real-time sound production or processing may also involve real-time ambisonic encoding thereof.
  • Ambisonic encoding being a complex task, real-time ambisonic encoding capabilities may be limited. For example, a given computation capacity will only be able to encode in real time a limited number of sound sources.
  • j m represents the spherical Bessel function of order m.
  • Y mn ( ⁇ , ⁇ ) represents the spherical harmonic of order mn in the directions ( ⁇ , ⁇ ) . defined by management r .
  • the symbol B mn ( t ) defines the ambisonic coefficients corresponding to the various spherical harmonics, at an instant t.
  • the ambisonic coefficients therefore define, at each instant, the entire sound field surrounding a point.
  • the processing of sound fields in the ambisonic domain has particularly interesting properties. In particular, it is very easy to rotate the entire sound field.
  • HRTF Head-Related Transfer Functions
  • HOA decomposition from the English acronym Higher Order Ambisonics, or Higher Order Ambisonia
  • the ambisonic coefficients describing the sound scene are calculated as the sum of the ambisonic coefficients of each of the sources, each source i having an orientation ( ⁇ si , ⁇ si ):
  • This problem is even stronger when reflections are calculated in a sound scene.
  • Tsingos makes it possible to reduce the number of sound sources, and therefore the complexity of the overall processing when reverbs are used.
  • this technique has several drawbacks. It does not improve the complexity of processing the reverbs themselves. The problem encountered would therefore arise again if, with a reduced number of sources, one wishes to increase the number of reverberations.
  • the processing for determining the sound power of each source, and merging the sources by clusters themselves have a significant computational load.
  • the experiments described are limited to cases where the sound sources are known in advance, and their respective powers are pre-calculated. In the case of sound scenes for which several sources of variable intensities are present, and whose powers must be recalculated, the associated calculation load would, at least partially, cancel out the calculation gain obtained by limiting the number of sources.
  • the document US 6021206 discloses filtering of virtual sound sources corresponding to reflections including delay and attenuation.
  • the document US 2011/305344 discloses a method of transforming sound tracks before binaural encoding, in order to minimize the need for a “sweet spot”, in particular by converting certain tracks into mono.
  • the invention relates to an ambisonic encoder for a sound wave with a plurality of reflections, comprising: a logic for frequency transformation of the sound wave; logic for calculating spherical harmonics of the sound wave and the plurality of reflections from a position of a source of the sound wave and positions of obstacles to propagation of the sound wave; a plurality of filtering logics in the frequency domain receiving as input spherical harmonics of the plurality of reflections, each filtering logic consisting of an attenuation and a delay of a reflection, and being parameterized by an acoustic coefficient and a delay of said reflection; a logic of adding spherical harmonics of the sound wave and of the outputs of the filtering logics, into a set of spherical harmonics representative both of the sound wave and of the plurality of reflections in the frequency domain; a logic for multiplying said set of spherical harmonics representative both of the sound wave and of the plurality of reflections in the frequency domain
  • the logic for calculating spherical harmonics of the sound wave is configured to calculate the spherical harmonics of the sound wave and of the plurality of reflections from a fixed position of the source of the sound wave.
  • the logic for calculating spherical harmonics of the sound wave is configured to iteratively calculate the spherical harmonics of the sound wave and of the plurality of reflections from successive positions of the source of the sound wave.
  • each reflection is characterized by a single acoustic coefficient.
  • each reflection is characterized by an acoustic coefficient for each frequency of said frequency sampling.
  • the reflections are represented by virtual sound sources.
  • the ambisonic encoder further comprises a logic for calculating the acoustic coefficients, the delays and the position of the virtual sound sources of the reflections, said calculation logic being configured to calculate the acoustic coefficients and the delays of the reflections as a function of '' estimates of a difference in the distance traveled by sound between the position of the source of the sound wave and an estimated position of a user on the one hand, and of a distance traveled by the sound between the positions of the virtual sound sources of the reflections and the estimated position of the user on the other hand.
  • the logic for calculating the acoustic coefficients, the delays and the positions of the virtual sound sources of the reflections is further configured to calculate the acoustic coefficients of the reflections as a function of at least one acoustic coefficient of at least one obstacle to propagation. of sound waves, on which the sound is reflected.
  • the logic for calculating the acoustic coefficients, the delays and the positions of the virtual sound sources of the reflections is further configured to calculate the acoustic coefficients of the reflections as a function of an acoustic coefficient of at least one obstacle to the propagation of sound waves, on which sound is reflected.
  • the logic for calculating spherical harmonics of the sound wave and of the plurality of reflections is further configured to calculate spherical harmonics of the sound wave and of the plurality of reflections at each output frequency of the transformation circuit.
  • said ambisonic encoder further comprising a logic for calculating binaural coefficients of the sound wave, configured to calculate binaural coefficients of the sound wave by multiplying at each output frequency of the frequency transformation circuit of the sound wave the signal of the sound wave by the spherical harmonics of the sound wave and the plurality of reflections at this frequency.
  • the logic for calculating the acoustic coefficients, the delays and the positions of the virtual sound sources of the reflections is configured to calculate the acoustic coefficients and the delays of a plurality of late reflections.
  • the invention also relates to a method of ambisonically encoding a sound wave with a plurality of reflections, as defined by claim 12.
  • the invention also relates to a computer program for ambisonic encoding of a plurality of reflections sound wave, as defined by claim 13.
  • the ambisonic encoder according to the invention makes it possible to improve the feeling of immersion in a 3D audio scene.
  • the complexity of encoding the reflections of sound sources from an ambisonic encoder according to the invention is less than the complexity of encoding the reflections of sound sources from an ambisonic encoder according to the state of the art.
  • the ambisonic encoder according to the invention makes it possible to encode a greater number of reflections from a sound source in real time.
  • the ambisonic encoder according to the invention makes it possible to reduce the power consumption associated with ambisonic encoding, and to increase the life of a battery of a mobile device used for this application.
  • the figures 1a and 1b show two examples of sound wave listening systems, according to two embodiments of the invention.
  • the figure 1a represents an example of a sound wave listening system, according to one embodiment of the invention.
  • the system 100a comprises a touch pad 110a, a headset 120a to allow a user 130a to listen to a sound wave.
  • the system 100a comprises, by way of example only, a touchscreen tablet. However, this example is also applicable to a smartphone, or to any other mobile device having display and sound broadcasting capabilities.
  • the sound wave can for example come from playing a movie or a game.
  • the system 100a can be configured to listen to several sound waves. For example, when the system 100a is configured for playing a movie comprising a 5.1 multichannel sound track, 6 sound waves are listened to simultaneously. Likewise, when system 100a is configured to play a game, many sound waves can be heard simultaneously. For example, in the case of a game involving several characters, a sound wave can be created for each character.
  • Each of the sound waves is associated with a sound source, the position of which is known.
  • the touchscreen tablet 110a comprises an ambisonic encoder 111a according to the invention, a transformation circuit 112a, and an ambisonic decoder 113a.
  • the ambisonic encoder 111a, the transformation circuit 112a and the ambisonic decoder 113a consist of computer code instructions executed on a processor of the touch pad. They may for example have been obtained by installing a specific application or software on the tablet.
  • at least one of the ambisonic encoder 111a, the transformation circuit 112a and the ambisonic decoder 113a is a specialized integrated circuit, for example an ASIC (acronym for English “Application-Specific Integrated Circuit, literally“ application-specific integrated circuit ”), an FPGA (acronym for English Field-Programmable Gate Array).
  • the ambisonic encoder 111a is configured to calculate, in the frequency domain, a set of ambisonic coefficients representative of the whole of a sound scene, from at least one sound wave. It is further configured to apply reflections to at least one sound wave, in order to simulate a listening environment, for example a movie theater of a certain size, or a concert hall.
  • the transformation circuit 112a is configured to perform rotations of the soundstage by modifying the ambisonic coefficients, in order to simulate the rotation of the user's head, so that, whatever the orientation of his face, the different sound waves seem to come from the same position. For example, if the user turns his head to the left by an angle ⁇ , a rotation of the sound stage to the right by the same angle ⁇ makes it possible to continue sending the sound to him always from the same direction.
  • the helmet 120a is equipped with at least one movement sensor 121a, for example a gyrometer, making it possible to obtain an angle or a derivative of an angle of rotation of the head. user 130a.
  • a signal representative of an angle of rotation, or of a derivative of an angle of rotation is then sent by the headphones 121a to the tablet 120a, so that the transformation circuit 112a performs the rotation of the corresponding sound scene.
  • the ambisonic decoder 113a is configured to reproduce the sound scene on the two stereo channels of the headphones 120a, by converting the transformed ambisonic coefficients into two stereo signals, one for the left channel and the other for the right channel.
  • the ambisonic decoding is carried out using functions called HRTF (acronym for the English “Head Related Transfer Functions”, literally Head Related Transfer Functions) making it possible to reproduce the directions of the different sound sources on two stereo channels.
  • HRTF acronym for the English “Head Related Transfer Functions”, literally Head Related Transfer Functions
  • the system 100a thus allows its user to benefit from a particularly immersive experience: during a game or a multimedia content reading, in addition to the image, this system allows him to benefit from an impression. immersion in a sound scene. This impression is amplified both by following the orientations of the different sound sources when the user turns his head, and by the application of reflections giving an impression of immersion in a particular listening environment.
  • This system makes it possible, for example, to watch a film or a concert with an audio headset, while having an impression of immersion in a cinema hall or a concert hall. All of these operations are carried out in real time, which makes it possible to constantly adapt the sound perceived by the user to the orientation of his head.
  • the ambisonic encoder 111a makes it possible to encode a greater number of reflections from sound sources, with less complexity compared to an ambisonic encoder of the prior art. It therefore makes it possible to perform all the ambisonic calculations in real time, while increasing the number of reflections from sound sources. This increase in the number of reflections makes it possible to model more precisely the simulated listening environment (concert hall, cinema, etc.) and therefore improve the feeling of immersion in the sound scene.
  • the reduction in the complexity of the ambisonic encoding also makes it possible, by considering an identical number of sound sources, to reduce the electrical consumption of the encoder compared to an encoder of the state of the art, and therefore to increase the battery discharge time of the touch pad 110a. This therefore allows the user to enjoy multimedia content for a longer period of time.
  • the figure 1b represents a second example of a sound wave listening system, according to one embodiment of the invention.
  • the system 100b includes a central unit 110b connected to a screen 114b, a mouse 115b and a keyboard 116b and a headset 120b and is used by a user 130b.
  • the central unit comprises an ambisonic encoder 111b according to the invention, a transformation circuit 112b, and an ambisonic decoder 113b, respectively similar to the ambisonic encoder 111a, transformation circuit 112a, and ambisonic decoder 113a of the system 100a.
  • the ambisonic encoder 111b is configured to encode at least one wave representative of a sound scene by adding reflections thereto
  • the headphones 120a include at least one movement sensor 120b
  • the transformation circuit 120b is configured to perform soundstage rotations to follow the orientation of the user's head
  • the ambisonic decoder 113b is configured to output sound on the two stereo channels of the headphones 120b, so that the user 130b has an impression of immersion in a sound scene.
  • the 100b system is suitable for viewing multimedia content, but also for video games. Indeed, in a video game, very many sound waves, coming from different sources, can occur. This is for example the case in a strategy or war game, in which many characters can emit different sounds (noises of footsteps, running, shots, etc.) for various sound sources.
  • a 111b ambisonic encoder can encode all these sources, while adding many reflections to them making the scene more realistic and immersive, in real time.
  • the system 100b comprising an ambisonic encoder 111b according to the invention allows an immersive experience in a video game, with a large number of sound sources and reflections.
  • the figure 2 represents an example of a binauralization system comprising a binauralization engine by sound source of an audio scene according to the state of the art.
  • the binauralization system 200 is configured to transform a set 210 of sound sources of a soundstage into a left channel 240 and a right channel 241 of a stereo listening system, and includes a set of binaural motors 220, including a binaural motor by sound source.
  • the sources can be from any type of sound source (mono, stereo, 5.1, multiple sound sources in the case of a video game for example).
  • Each sound source is associated with an orientation in space, for example defined by angles ( ⁇ , ⁇ ) in a frame of reference, and by a sound wave, itself represented by a set of temporal samples.
  • the possible output channels correspond to the different listening channels, for example we can have two output channels in a stereo listening system, 6 output channels in a 5.1 listening system, etc ...
  • Each binauralization motor produces two outputs (one left and one right output), and the system 200 includes an addition circuit 230 of all the left outputs and an addition circuit 231 of all the right outputs of the set 220. binauralization engines.
  • the outputs of the addition logic 230 and 231 are respectively the sound wave of the left channel 240 and the sound wave of the right channel 241 of a stereo listening system.
  • the system 200 makes it possible to transform the set of sound sources 210 into two stereo channels, while being able to apply all the transformations allowed by the ambisonia, such as rotations.
  • the system 200 has a major drawback in terms of calculation time: it requires calculations to calculate the ambisonic coefficients of each sound source, calculations for the transformations of each sound source, and calculations for the outputs associated with each source. sound.
  • the computational load for the processing of a sound source by the system 200 is therefore proportional to the number of sound sources, and can, for a large number of sound sources, become prohibitive.
  • the figures 3a and 3b represent two examples of engines for binauralization of a 3D scene, respectively in the time domain and the frequency domain according to the state of the art.
  • the figure 3a represents an example of a binauralization engine of a 3D scene, in the time domain according to the state of the art.
  • the binauralization engine 300a comprises a single HOA encoding engine 320a for all of the sources 310 of the sound scene.
  • This encoding engine 320a is configured to calculate, at each time step, the binaural coefficients of each sound source as a function of the intensity and the position of the sound source at said time step, then to sum the binaural coefficients of the different sound sources. This makes it possible to obtain a single set 321a of binaural coefficients representative of the whole of the sound scene.
  • the binauralization engine 320a then comprises a coefficient transformation circuit 330a, configured to transform the set of coefficients 321a representative of the sound scene into a set of transformed coefficients 331a representative of the whole of the sound scene. This makes it possible for example to perform a rotation of the whole of the sound scene.
  • the binauralization engine 300a finally comprises a binaural decoder 340a, configured to restore the transformed coefficients 331a into a set of output channels, for example a left channel 341a and a right channel 342a of a stereo system.
  • the binauralization engine 300a therefore makes it possible to reduce the computational complexity necessary for the binaural processing of a sound scene compared to the system 200, by applying the transformation and decoding steps to the whole of the sound scene, rather than to each sound source taken individually.
  • figure 3b represents an example of a binauralization engine of a 3D scene, in the frequency domain according to the state of the art.
  • the 300b binauralization engine is quite similar to the 300a binauralization engine. It comprises a set 311b of frequency transformation logics, the set 311b comprising a frequency transformation logic for each sound source.
  • the frequency transformation logics can for example be configured to apply a fast Fourier transform (or FFT, from the acronym Fast Fourier Transform), in order to obtain a set 312b of sources in the frequency domain.
  • FFT fast Fourier transform
  • the application of frequency transforms is well known to those skilled in the art, and is for example described by A. Mertins, Signal Analysis: Wavelets, Filter banks, Time-Frequency Transforms and Applications, English (revised edition). ISBN: 9780470841839 .
  • the inverse operation or inverse frequency transformation (known as FFT -1 or inverse fast Fourier transformation in the case of a fast Fourier transform) makes it possible to restore, from a sampling of frequencies, the intensities of sound samples .
  • the binauralization engine 300b then includes an HOA encoder 320b in the frequency domain.
  • the encoder 320b is configured to calculate, for each source and at each frequency of the frequency sampling, the corresponding ambisonic coefficients, then to add the ambisonic coefficients of the different sources, in order to obtain a set 321b of ambisonic samples representative of the whole soundstage, at different frequencies.
  • the binauralization engine 300b then comprises a transformation circuit 330b, similar to the transformation circuit 330a, making it possible to obtain a set 331b of transformed ambisonic coefficients representative of the whole of the sound scene, and a binaural decoder 340b, configured to restore two stereo channels 341b and 342b.
  • the binaural decoder 340b comprises an inverse frequency transformation circuit, in order to restore the stereo channels in the time domain.
  • the properties of the binauralization engine 300b are quite similar to those of the binauralization engine 300a. It also makes it possible to perform binaural processing of a sound scene, with reduced complexity compared to the system 200.
  • the complexity of the binaural processing of the binauralization engines 300a and 300b is mainly due to the calculation of the HOA coefficients by the encoders 320a and 320b. Indeed, the number of coefficients to be calculated is proportional to the number of sources.
  • the transformation circuits 330a and 330b, as well as the binaural decoders 340a and 340b process sets of binaural coefficients representative of the whole of the sound scene, the number of which does not vary according to the number of sources.
  • the complexity of binaural encoders 320a and 320b can increase significantly. Indeed, the state of the art solution for processing reflections consists of adding a virtual sound source for each reflection. The complexity of the HOA encoding of these encoders according to the state of the art therefore increases proportionally as a function of the number of reflections per source, and can become problematic when the number of reflections becomes too large.
  • the figure 4 represents an example of an ambisonic encoder of a sound wave with a plurality of reflections, in a set of embodiments of the invention.
  • the ambisonic encoder 400 is configured to encode a sound wave 410 with a plurality of reflections, into a set of one-order ambisonic coefficients. To do this, the ambisonic encoder is configured to calculate a set 460 of representative spherical harmonics. the sound wave and the plurality of reflections.
  • the ambisonic encoder 400 will be described, by way of example, for the encoding of a single sound wave. However, an ambisonic encoder 400 according to the invention can also encode a plurality of sound waves, the elements of the ambisonic encoder being used in the same way for each additional sound wave.
  • the sound wave 410 can correspond for example to a channel of an audio track, or to a dynamically created sound wave, for example a sound wave corresponding to an object of a video game.
  • the sound waves are defined by successive sound intensity samples.
  • the sound waves can for example be sampled at a frequency of 22500Hz, 12000Hz, 44100 Hz, 48000 Hz, 88200 Hz, or 96000 Hz, and each of the intensity samples coded to 8, 12, 16, 24 or 32 bits. In the event of a plurality of sound waves, these can be sampled at different frequencies, and the samples can be encoded on different numbers of bits.
  • the ambisonic encoder 400 includes logic 420 for frequency transformation of the sound wave. This is similar to the logic 311b of frequency transformation of the sound waves of the binauralization system 300b according to the state of the art.
  • the encoder 400 includes frequency transformation logic for each sound wave.
  • a sound wave is defined 421, for a time window, by a set of intensities at different frequencies of a frequency sampling.
  • the frequency transformation logic 420 is an application logic of an FFT.
  • the encoder 400a also includes logic 430 for calculating spherical harmonics of the sound wave and the plurality of reflections from a position of a source of the sound wave and from positions of obstacles to propagation. of the sound wave.
  • the position of the source of the sound wave is defined by angles ( ⁇ s i , ⁇ s i ) and a distance from a listening position of the user.
  • the calculation of spherical harmonics Y 00 ( ⁇ s i , ⁇ s i ), Y 1-1 ( ⁇ s i , ⁇ s i ) Y 10 ( ⁇ s i , ⁇ s i ), Y 11 ( ⁇ s i , ⁇ s i ), ..., Y MM ( ⁇ s i , ⁇ s i ), the sound wave at the order M can be carried out according to the methods known in the state of the art, from the angles ( ⁇ s i , ⁇ s i ) defining the orientation of the source of the sound wave.
  • Logic 430 is also configured to calculate, from the position of the source of the sound wave, a set of spherical harmonics of the plurality of reflections.
  • logic 430 is configured to calculate, from the position of the source of the sound wave, and positions of obstacles to the propagation of the sound wave, a orientation of a virtual source of a reflection, defined by angles ( ⁇ s, r , ⁇ s, r ) then, from these angles, spherical harmonics Y 00 ( ⁇ s, r , ⁇ s, r ) , Y 1-1 ( ⁇ s, r , ⁇ s, r ), Y 10 ( ⁇ s, r , ⁇ s, r ), Y 11 ( ⁇ s, r , ⁇ s, r ), ..., Y MM ( ⁇ s, r , ⁇ s, r ) of the sound wave reflection.
  • the ambisonic encoder 400 also includes a plurality 440 of filter logic in the frequency domain receiving as input spherical harmonics of the plurality of reflections, each filter logic being parameterized by acoustic and delay coefficients of the reflections.
  • ⁇ r will be called an acoustic coefficient of a reflection and ⁇ r a delay of a reflection.
  • the acoustic coefficient can be a coefficient of ⁇ r reverberation, representative of a ratio of the intensities of a reflection to the intensities of the sound source and defined between 0 and 1.
  • a filter logic 440 is configured to filter the spherical harmonics by applying: ⁇ r e - j 2 ⁇ r Y ij ( ⁇ s, r , ⁇ s, r ).
  • the coefficient ⁇ r is treated as a reverberation coefficient.
  • a coefficient ⁇ a can be treated as an attenuation coefficient, and the filtering of spherical harmonics can for example be performed by applying: ( 1 - ⁇ a ) e -j 2 ⁇ f ⁇ r Y ij ( ⁇ s, r , ⁇ s, r ).
  • the coefficient ⁇ r will be considered as a reverberation coefficient.
  • a person skilled in the art could however easily implement the various embodiments of the invention with an attenuation coefficient rather than a reverberation coefficient.
  • the ambisonic encoder 400 also includes logic 450 for adding the spherical harmonics of the sound wave and the outputs of the filtering logic.
  • This logic makes it possible to obtain a set Y '00 , Y' 1-1 , Y '10 , Y' 11 , ... Y ' MM of spherical harmonics at order M, representative of both the wave sound, and reflections of the sound wave, in the frequency domain.
  • the number N r of reflections can be predefined.
  • the reflections of the sound wave are preserved according to their acoustic coefficient, the number Nr of reflections then depending on the position of the sound source, on the position of the user, and obstacles to the propagation of sound.
  • the acoustic coefficient is defined as a ratio of the intensity of the reflection to the intensity of the sound source, or a reverberation coefficient.
  • the reflections of the sound wave having an acoustic coefficient greater than or equal to a predefined threshold are preserved.
  • the acoustic coefficient is defined as an attenuation coefficient, i.e. a ratio between the sound intensity absorbed by the obstacles to the propagation of sound waves and the air path and intensity. sound source.
  • the reflections of the sound wave having an acoustic coefficient less than or equal to a predefined threshold are preserved
  • the ambisonic encoder 400 makes it possible to calculate a set of spherical harmonics Y ' ij representative both of the sound wave and of its reflections.
  • the encoder can include a logic of multiplying the spherical harmonics by the sound intensity values of the source at the different frequencies, in order to obtain ambisonic coefficients representative of both the sound wave and reflections.
  • the encoder 400 includes logic for adding the ambisonic coefficients of the different sound sources and their reflections, making it possible to obtain at the output ambisonic coefficients representative of the entire sound scene. .
  • the sound wave spherical harmonics calculation logic 430 is configured to calculate the spherical harmonics of the sound wave and the plurality of reflections from a position fixed source of the sound wave.
  • the orientations ( ⁇ si , ⁇ si ) of the sound source, and the orientations ( ⁇ s, r , ⁇ s, r ) of each of the harmonics are constant.
  • the spherical harmonics of the sound wave and of the plurality of reflections then also have a constant value, and can be calculated only once for the sound wave.
  • the sound wave spherical harmonics calculation logic 430 is configured to iteratively calculate the spherical harmonics of the sound wave and the plurality of reflections from successive positions of the source of the sound wave. According to different embodiments of the invention, different possibilities exist for defining the iterations of calculation. In one embodiment of the invention, logic 430 is configured to recalculate the values of the spherical harmonics of the sound wave and of the plurality of reflections each time a change in the position of the source of the wave. sound or user's position is detected.
  • logic 430 is configured to recalculate the values of the spherical harmonics of the sound wave and of the plurality of reflections at regular intervals, for example every 10 ms. In another embodiment of the invention, logic 430 is configured to recalculate the values of the spherical harmonics of the sound wave and of the plurality of reflections at each of the time windows used by the frequency transformation logic 420 of the sound wave. sound wave to convert the temporal samples of the sound wave into frequency samples.
  • each reflection is characterized by a single acoustic coefficient ⁇ r .
  • each reflection is characterized by an acoustic coefficient for each frequency of said frequency sampling.
  • a reflection at a frequency can be considered as zero, as a function of a comparison between the acoustic coefficient ⁇ r for this frequency and a predefined threshold.
  • a predefined threshold For example, if the coefficient ⁇ r represents a reverberation coefficient, the frequency is considered to be zero if it is less than a predefined threshold. On the contrary, if it is an attenuation coefficient, the frequency is considered zero if it is greater than or equal to a predefined threshold. This makes it possible to further limit the number of multiplications, and therefore the complexity of the ambisonic encoding, while having a minimal impact on the binaural rendering.
  • the ambisonic encoder 400 includes logic for calculating the acoustic coefficients and the delays, and the position of the virtual sound source of the reflections.
  • This calculation logic can for example be configured to calculate the acoustic coefficients and the delays of the reflections as a function of estimates of a difference in distance traveled by the sound between the position of the source of the sound wave and an estimated position d 'a user on the one hand, and the distance traveled by the sound between the positions of the virtual sound sources of the reflections and the estimated position of the user on the other hand.
  • the logic for calculating the acoustic coefficients and the delays, and the position of the virtual sound source of the reflections can therefore be configured to calculate an acoustic coefficient of a reflection of the sound wave as a function of the difference in distance traveled between the sound from the sound source in a straight line on the one hand, and sound having been affected by reflection on the other hand.
  • the logic for calculating the acoustic coefficients and delays, and the position of the virtual sound source of the reflections is also configured to calculate the acoustic coefficients of the reflections as a function of a coefficient acoustics of at least one obstacle to the propagation of sound waves, on which the sound is reflected.
  • the acoustic coefficient of the obstacle can be a reverberation coefficient or an attenuation coefficient.
  • the figure 5 represents an example of calculation of a secondary sound source, in one embodiment of the invention.
  • a source of the sound wave has a position 520 in a room 510, and the user has a position 540.
  • the room 510 consists of 4 walls 511, 512, 513 and 514.
  • the logic for calculating the acoustic coefficients and the delays, and the position of the virtual sound source of the reflections is configured to calculate the position, delay and attenuation of the virtual sound sources.
  • reflections as follows: for each of the walls 511, 512, 513, 514, the logic is configured to calculate a position of a virtual sound source of a reflection as the symmetrical of the position of the sound source with respect to a wall.
  • the calculation logic is thus configured to calculate the positions 521, 522, 523 and 524 of four virtual sound sources of the reflections, respectively with respect to the walls 511, 512, 513 and 514.
  • the calculation logic is configured to calculate a path of travel of the sound wave, and to deduce therefrom the corresponding acoustic coefficient and the corresponding delay.
  • the sound wave follows the path 530 to point 531 of the wall 512, then the path 532 to the position of the user 540.
  • the distance traveled by the user. sound along the path 530, 532 makes it possible to calculate an acoustic coefficient and a delay of the reflection.
  • the calculation logic is also configured to apply an acoustic coefficient corresponding to the absorption of the wall 512 at point 531. In a set of embodiments of the invention, this coefficient depends different frequencies, and can for example be determined, for each frequency, as a function of the material and / or the thickness of the wall 512.
  • the virtual sound sources 521, 522, 523, 524 are used to calculate secondary virtual sound sources, corresponding to multiple reflections.
  • a secondary virtual source 533 can be calculated as the symmetrical of the virtual source 521 with respect to the wall 514.
  • the corresponding sound wave path then comprises the segments 530 up to point 531; 534 between points 531 and 535; 536 between point 535 and position 540 of the user.
  • the acoustic coefficients and the delays can then be calculated from the distance traveled by the sound on segments 531, 535 and 536, and the absorption of the walls at points 531 and 535.
  • virtual sound sources corresponding to reflections can be calculated up to a predefined order n. Different embodiments are possible to determine which reflections to keep.
  • the calculation logic is configured to calculate, for each virtual sound source, a higher order virtual sound source for each of the walls, up to a predefined order n.
  • the ambisonic encoder is configured to process a predefined number Nr of reflections per sound source, and keeps the Nr reflections having the lowest attenuation.
  • the virtual sound sources are kept on the basis of a comparison of an acoustic coefficient with a predefined threshold.
  • the figure 6 represents an example of calculation of early reflections and late reflections, in one embodiment of the invention.
  • Diagram 600 represents the intensity of several reflections of the sound wave, versus time.
  • the axis 601 represents the intensity of a reflection
  • the axis 602 the delay between the emission of the sound wave by the source of the sound wave, and the perception of a reflection by the user.
  • reflections occurring before a predefined delay 603 are considered early reflections 610, and reflections occurring after delay 603 as late reflections 620.
  • early reflections are calculated at using a virtual sound source, for example according to the principle described with reference to the figure 5 .
  • the late reflections are calculated as follows: a set of Nt secondary sound sources is calculated, for example according to the principle described in figure 5 .
  • the logic for calculating acoustic coefficients and delays, and the position of the virtual sound source of the reflections is configured to keep a number Nr of reflections less than Nt, according to various embodiments described above.
  • it is further configured to build a list of (Nt - Nr) late reflections, including all non-conserved reflections. This list includes only, for each late reflection, an acoustic coefficient and a delay of the late reflection, but no position of a virtual source.
  • this list is transmitted by the ambisonic encoder to an ambisonic decoder.
  • the ambisonic decoder is then configured to filter its outputs, for example its output stereo channels, with the acoustic coefficients and the delays of the late reflections, then to add these filtered signals to the output signals. This makes it possible to improve the feeling of immersion in a room or a listening environment, while further limiting the computational complexity of the encoder.
  • the ambisonic encoder is configured to filter the sound wave with the acoustic coefficients and the delays of the late reflections, and to add the signals obtained uniformly to the set of ambisonic coefficients.
  • the late reflections have a low intensity and have no direction information from a sound source. They will therefore be perceived by a user as an “echo” of the sound wave, distributed homogeneously in the sound scene, and representative of a listening environment.
  • this calculation is carried out only once, for example on initialization of the sound scene, and the acoustic coefficients and the delays of the late reflections are reused without modification by the ambisonic encoder. This makes it possible to obtain late reflections representative of the listening environment at a lower cost. According to others embodiments of the invention, this calculation is performed iteratively. For example, these acoustic coefficients and delays of the late reflections can be calculated at predefined time intervals, for example every 5 seconds. This makes it possible to permanently conserve acoustic coefficients and delays of late reflections representative of the sound scene, and the relative positions of a source of the sound wave and of the user, while limiting the complexity of calculation linked to the determination. late reflections.
  • the acoustic coefficients and delays of the late reflections are calculated when the position of a source of the sound wave or of the user varies significantly, for example when the difference between the position of the user and a previous position of the user during a calculation of the acoustic coefficients and delays of the late reflections representative of the sound scene is greater than a predefined threshold. This makes it possible to calculate the acoustic coefficients and delays of the late reflections representative of the sound scene only when the position of a source of the sound wave or of the user has varied sufficiently to perceptibly modify the late reflections.
  • the figure 7 represents a method of encoding a sound wave at a plurality of reflections in a set of embodiments of the invention.
  • the method 700 comprises a step 710 of frequency transformation of the sound wave.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Description

    DOMAINE DE L'INVENTION
  • La présente invention concerne l'encodage ambisonique de sources sonores. Il concerne plus spécifiquement l'amélioration de l'efficacité de ce codage, dans le cas où une source sonore est affectée de réflexions dans une scène sonore.
  • ETAT DE L'ART PRECEDENT
  • Les représentations spatialisées du son regroupent des techniques de capture de synthèse et de reproduction d'environnement sonore permettant une immersion de l'auditeur beaucoup plus importante dans un environnement sonore. Elles permettent notamment à un utilisateur de discerner un nombre de sources sonores supérieures au nombre de haut-parleurs dont il dispose, et localiser précisément en 3D ces sources sonores, même lorsque leur direction n'est pas celle d'un haut-parleur. Les applications des représentations spatialisées du son sont nombreuses, et incluent la localisation précise de source sonores en 3 dimensions par un utilisateur à partir d'un son issu d'un casque stéréo, ou la localisation de sources sonores en 3 dimensions par des utilisateurs dans une pièce, le son étant émis par des enceintes, par exemple des enceintes 5.1. De plus, les représentations spatialisées du son permettent la réalisation d'effets sonores nouveaux. Par exemple, elles permettent la rotation d'une scène sonore ou l'application de réflexion d'une source sonore pour simuler le rendu d'un environnement sonore donné, par exemple une salle de cinéma ou une salle de concert.
  • Les représentations spatialisées s'effectuent en deux étapes principales: un encodage ambisonique, et un décodage ambisonique. Pour bénéficier d'une représentation spatialisée du son, un décodage ambisonique en temps réel est toujours nécessaire. Une production ou traitement du son en temps-réel peut impliquer en plus un encodage ambisonique en temps réel de celui-ci. L'encodage ambisonique étant une tâche complexe, les capacités d'encodage ambisonique en temps réel peuvent être limitées. Par exemple, une capacité de calcul donnée ne pourra être capable d'encoder en temps réel qu'un nombre de sources sonores limitées.
  • Les techniques de représentation spatialisées du son sont notamment décrites par J. Daniel, Représentations de champs acoustiques, application à la transmission et à la reproduction de scènes sonores dans un contexte multimédia, INIST-CNRS, Cote INIST : T 139957. L'encodage ambisonique d'un champ sonore consiste en la décomposition du champ de pression sonore en un point, correspondant par exemple à la position d'un utilisateur, sous forme de coordonnées sphériques, exprimées sous la forme suivante : p r t = m = 0 j m j m kr n = m + m B mn t Y mn θ φ
    Figure imgb0001
    Dans laquelle p ( r , t ) représente la pression sonore, à un instant t, dans la direction r par rapport au point auquel le champ sonore est calculé. jm représente la fonction sphérique de Bessel d'ordre m.
  • Ymn ( θ,ϕ ) représente l'harmonique sphérique d'ordre mn dans les directions ( θ,ϕ ). définies par la direction r . Le symbole Bmn ( t ) définit les coefficients ambisoniques correspondant aux différentes harmoniques sphériques, à un instant t.
  • Les coefficients ambisoniques définissent donc, à chaque instant, l'ensemble du champ sonore entourant un point. Le traitement des champs sonores dans le domaine ambisonique possède des propriétés particulièrement intéressantes. En particulier, il est très aisé de procéder à des rotations de l'ensemble du champ sonore. Il est de plus possible de diffuser sur des haut-parleurs, à partir d'un ensemble de coefficients ambisoniques, du son comportant des informations de direction. Il est par exemple possible de diffuser du son sur des enceintes de types 5.1. Il est également possible de restituer, dans un casque ne disposant que d'un haut-parleur gauche et d'un haut-parleur droit, du son comportant des informations de directions, en utilisant des fonctions de transfert connues sous le nom de HRTF (Head-Related Transfer Functions, ou Fonctions de Transfert Relatives à la Tête). Ces fonctions permettent de restituer un signal directionnel sur deux haut-parleurs, en ajoutant à au moins un canal d'un signal stéréo un délai et/ou une atténuation, qui seront interprétés par le cerveau comme définissant la direction de la source sonore.
  • La décomposition dite HOA (de l'acronyme anglais Higher Order Ambisonics, ou Ambisonie de Plus Haut Ordre) consiste à tronquer cette somme infinie à un ordre M, supérieur ou égal à 1 : p r t = m = 0 M j m j m kr n = m + m B mn t Y mn θ φ
    Figure imgb0002
  • D'une manière générale, une source suffisamment distante est considérée comme propageant une onde sonore de manière sphérique. Il est alors possible de considérer que la valeur à un instant t d'un coefficient ambisonique Bmn ( t ) lié à cette source dépend, d'une part, de la pression sonore S ( t ) de la source à cet instant t, et d'autre part de l'harmonique sphérique liée à l'orientation ( θs , ϕs ) de cette source sonore. On peut donc écrire, pour une source sonore unique : B mn t = S t Y mn θ s φ s
    Figure imgb0003
  • Dans le cas d'un ensemble de Ns sources sonores lointaines, les coefficients ambisoniques décrivant la scène sonore sont calculés comme la somme des coefficients ambisoniques de chacune des sources, chaque source i ayant une orientation ( θsi , ϕsi ): B mn t = i = 0 N s 1 S i t Y mn θ s i φ s i
    Figure imgb0004
  • On peut également représenter ce calcul sous forme de vecteur : B 00 t B 1 1 t B 10 t B 11 t B MM t = i = 0 N s 1 S i t Y 00 θ s i φ s i Y 1 1 θ s i φ s i Y 10 θ s i φ s i Y 11 θ s i φ s i Y MM θ s i φ s i
    Figure imgb0005
    Les coefficients ambisoniques gardant la forme Bmn , avec, à l'ordre M, m allant de 0 à M, et n allant de -m à m.
  • Un appareil comprenant un encodage ambisonique d'au moins une source peut donc définir un champ sonore complet, en calculant les coefficients ambisoniques à un ordre M. En fonction de l'ordre M, et du nombre de sources, ce calcul peut être long et gourmand en ressource. En effet, à un ordre M, (M + 1)2 coefficients ambisoniques sont calculés à chaque instant t. Pour chaque coefficient, la contribution Bmn ( t ) = S ( t ) Ymn ( θs ,ϕs ) de chacune des Ns sources doit être calculée. Si une source S est fixe, l'harmonique sphérique Ymn ( θs , ϕs ) peut être pré-calculée. Dans le cas contraire, elle doit être recalculée à chaque instant.
  • Une augmentation de l'ordre du coefficient ambisonique permet une meilleure qualité du rendu auditif. Il peut donc être difficile d'obtenir une bonne qualité sonore, tout en préservant une charge, un temps de calcul raisonnable, une consommation électrique et un usage de batterie raisonnables. Ceci est d'autant plus vrai que les calculs de coefficients ambisoniques s'effectuent souvent en temps-réel sur des dispositifs mobiles. C'est par exemple le cas d'un smartphone, pour écouter de la musique en temps réel, avec des informations directionnelles calculées à l'aide de coefficients ambisoniques.
  • Cette problématique est encore plus forte lorsque des réflexions sont calculées dans une scène sonore.
  • Le calcul de réflexions permet de simuler une scène sonore dans une pièce, par exemple une salle de cinéma ou de concert. Dans ces conditions, le son se réfléchit sur les murs de la salle, donnant une « ambiance » caractéristique, les réflexions étant définies par les positions respectives des sources sonores, de l'auditeur, mais aussi par les matériaux sur lesquels les ondes sonores se diffusent, par exemple le matériau des murs. La création d'effets de salle à l'aide d'un codage audio ambisonique est notamment décrite par J. Daniel, Représentations de champs acoustiques, application à la transmission et à la reproduction de scènes sonores dans un contexte multimédia, INIST-CNRS, Cote INIST : T 139957, pp. 283-287.
  • Il est possible de simuler l'effet des réflexions et de donner une « ambiance » en ambisonie, en ajoutant, pour chaque source sonore, un ensemble de sources sonores secondaires, dont l'intensité et la direction sont calculées à partir des réflexions des sources sonores sur les murs et obstacles d'une scène sonore. Quelques sources sonores sont nécessaires, pour chaque source sonore initiale, afin de simuler de manière satisfaisante une scène sonore. Cependant, ceci rend le problème de capacité de calcul et de batterie précité encore plus critique, puisque la complexité de calcul des coefficients ambisoniques est encore multipliée par le nombre de sources sonores secondaires. La complexité du calcul des coefficients ambisoniques pour un rendu sonore satisfaisant peut alors rendre cette solution impraticable, par exemple parce qu'il devient impossible de calculer les coefficients ambisoniques en temps réel, parce que la charge de calcul des coefficients ambisoniques devient trop importante, ou parce la consommation électrique et/ou de batterie sur un appareil mobile devient rédhibitoire.
  • N. Tsingos et al. Perceptual Audio Rendering of Complex Virtual Environment, ACM Transactions on Graphics (TOG) - Proceedings of ACM SIGGRAPH 2004, Volume 23 Issue 3, August 200, pp. 249-258 divulgue une méthode de traitement binaural pour pallier ce problème. La solution proposée par Tsingos consiste à réduire le nombre de sources sonores en:
    • Evaluant la puissance de chaque source sonore ;
    • Classant les sources sonores, de la plus à la moins puissante ;
    • Supprimant les sources sonores les moins puissantes ;
    • Groupant les sources sonores restantes par grappes de sources sonores proches les unes des autres, et les fusionnant pour obtenir, pour chaque grappe, une unique source sonore virtuelle.
  • La méthode divulguée par Tsingos permet de réduire le nombre de sources sonores, et donc la complexité du traitement global lorsque des réverbérations sont utilisées. Cependant, cette technique présente plusieurs inconvénients. Elle n'améliore pas la complexité du traitement des réverbérations elles-mêmes. Le problème rencontré se poserait donc à nouveau, si, avec un nombre réduit de sources, on souhaite augmenter le nombre de réverbérations. De plus, les traitements pour déterminer la puissance sonore de chaque source, et fusionner les sources par grappes présentent eux-mêmes une charge de calcul importante. Les expériences décrites se limitent à des cas ou les sources sonores sont connues à l'avance, et leurs puissances respectives pré-calculées. Dans des cas de scènes sonores pour lesquelles plusieurs sources d'intensités variables sont présentes, et dont les puissances doivent être recalculées, la charge de calcul associée viendrait, au moins partiellement, annuler le gain de calcul obtenu en limitant le nombre de sources.
  • Enfin, les tests conduits par Tsingos donnent des résultats satisfaisants lorsque les sources sonores sont assimilables à du bruit, par exemple dans le cas d'une foule dans le métro. Sur d'autres types de sources sonores, une telle méthode pourrait s'avérer dommageable. Par exemple, lors de l'enregistrement d'un concert donné par un orchestre symphonique, il est fréquent que plusieurs instruments, bien qu'ayant une puissance sonore faible, contribuent de manière importante à l'harmonie d'ensemble. Supprimer purement et simplement les sources sonores associées, car elles sont relativement peu puissantes, nuirait alors gravement à la qualité de l'enregistrement.
  • Le document US 6021206 divulgue un filtrage de sources sonores virtuelles correspondant aux réflexions comprenant un délai et une atténuation.
  • Le document Markus Noistering et al. « A 3D AMBISONIC BASED BINAURAL SOUND REPRODUCTION SYSTEM » divulgue la création de sources sonores virtuelles correspondant aux réflexions et l'application d'un gain et d'un délai à chacune de ces sources
  • Le document US 2007/160216 divulgue, de manière générale, le calcul de gains en fonction de la position d'une source sonore pour la binauralisation.
  • Le document US 2005/069143 divulgue l'application de fonctions HRTF au son dans le domaine fréquentiel.
  • Le document US 2011/305344 divulgue méthode de transformations des pistes sonores avant encodage binaural, afin de minimiser le besoin de « sweet spot », notamment en convertissant certaines pistes en mono.
  • Il y a donc besoin d'un appareil et d'une méthode pour le calcul des coefficients ambisoniques, qui permette de calculer en temps réel un ensemble de coefficients ambisoniques représentatifs d'au moins une source sonore et une ou plusieurs réflexions de celle-ci dans une scène sonore, tout en limitant la complexité de calcul additionnelle liée à la ou aux réflexions de la source sonore, sans réduire à priori le nombre de sources sonores.
  • RESUME DE L'INVENTION
  • A cet effet, l'invention concerne un encodeur ambisonique d'onde sonore à pluralité de réflexions, comprenant : une logique de transformation fréquentielle de l'onde sonore ; une logique de calcul d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position d'une source de l'onde sonore et de positions d'obstacles à une propagation de l'onde sonore ; une pluralité de logiques de filtrage dans le domaine fréquentiel recevant en entrée des harmoniques sphériques de la pluralité de réflexions, chaque logique de filtrage consistant en une atténuation et un délai d'une réflexion, et étant paramétrée par un coefficient acoustique et un délai de ladite réflexion ; une logique d'addition d'harmoniques sphériques de l'onde sonore et des sorties des logiques de filtrage, en un ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel ; une logique de multiplication dudit ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel par des valeurs d'intensité sonores de l'onde en sortie de la transformation fréquentielle, afin d'obtenir un ensemble de coefficients ambisoniques représentatifs à la fois de l'onde sonore et de la pluralité de réflexions.
  • Avantageusement, la logique de calcul d'harmoniques sphériques de l'onde sonore est configurée pour calculer les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position fixe de la source de l'onde sonore.
  • Avantageusement, la logique de calcul d'harmoniques sphériques de l'onde sonore est configurée pour calculer de manière itérative les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir de positions successives de la source de l'onde sonore.
  • Avantageusement, chaque réflexion est caractérisée par un unique coefficient acoustique.
  • Avantageusement, chaque réflexion est caractérisée par un coefficient acoustique pour chaque fréquence dudit échantillonnage fréquentiel.
  • Avantageusement, les réflexions sont représentées par des sources sonores virtuelles.
  • Avantageusement, l'encodeur ambisonique comprend en outre une logique de calcul des coefficients acoustiques, des délais et de la position de des sources sonores virtuelles des réflexions, ladite logique de calcul étant configurée pour calculer les coefficients acoustiques et les délais des réflexions en fonction d'estimations d'une différence de distance parcourue par le son entre la position de la source de l'onde sonore et une position estimée d'un utilisateur d'une part, et d'une distance parcourue par le son entre les positions des sources sonores virtuelles des réflexions et la position estimée de l'utilisateur d'autre part.
  • Avantageusement, la logique de calcul des coefficients acoustiques, des délais et des positions des sources sonores virtuelles des réflexions est en outre configurée pour calculer les coefficients acoustiques des réflexions en fonction d'au moins un coefficient acoustique d'au moins un obstacle à la propagation d'ondes sonores, sur lequel le son est réfléchi.
  • Avantageusement, la logique de calcul des coefficients acoustiques, des délais et des positions des sources sonores virtuelles des réflexions est en outre configurée pour calculer les coefficients acoustiques des réflexions en fonction d'un coefficient acoustique d'au moins un obstacle à la propagation d'ondes sonores, sur lequel le son est réfléchi.
  • Avantageusement, la logique de calcul d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions est en outre configurée pour calculer des harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à chaque fréquence de sortie du circuit de transformation fréquentielle, ledit encodeur ambisonique comprenant en outre une logique de calcul de coefficients binauraux de l'onde sonore, configurée pour calculer des coefficient binauraux de l'onde sonore en multipliant à chaque fréquence de sortie du circuit de transformation fréquentielle de l'onde sonore le signal de l'onde sonore par les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à cette fréquence.
  • Avantageusement, la logique de calcul des coefficients acoustiques, des délais et des positions des sources sonores virtuelles des réflexions est configurée pour calculer des coefficients acoustiques et des délais d'une pluralité de réflexions tardives.
  • L'invention concerne également une méthode d'encodage ambisonique d'onde sonore à pluralité de réflexions, comme définie par la revendication 12.
  • L'invention concerne également un programme d'ordinateur pour l'encodage ambisonique d'onde sonore à pluralité de réflexions, comme définie par la revendication 13.
  • L'encodeur ambisonique selon l'invention permet d'améliorer la sensation d'immersion dans une scène audio 3D.
  • La complexité d'encodage des réflexions de sources sonores d'un encodeur ambisonique selon l'invention est moindre que la complexité d'encodage des réflexions de sources sonores d'un encodeur ambisonique selon l'état de l'art.
  • L'encodeur ambisonique selon l'invention permet d'encoder un plus grand nombre de réflexions d'une source sonore en temps réel.
  • L'encodeur ambisonique selon l'invention permet de diminuer la consommation électrique liée à l'encodage ambisonique, et d'augmenter la durée de vie d'une batterie d'un appareil mobile utilisé pour cette application.
  • LISTE DES FIGURES
  • D'autres caractéristiques apparaîtront à la lecture de la description détaillée donnée à titre d'exemple et non limitative qui suit faite au regard de dessins annexés qui représentent:
    • les figures 1a et 1b, deux exemples de systèmes d'écoute d'onde sonore, selon deux modes de réalisation de l'invention
    • la figure 2, un exemple d'un système de binauralisation comprenant un moteur de binauralisation par source sonore d'une scène audio selon l'état de l'art ;
    • les figures 3a et 3b, deux exemples de moteurs de binauralisation d'une scène 3D, respectivement dans le domaine temporel et le domaine fréquentiel selon l'état de l'art
    • la figure 4, un exemple d'encodeur ambisonique d'une onde sonore à une pluralité de réflexions, dans un ensemble de modes de mise en œuvre de l'invention ;
    • la figure 5, un exemple de calcul d'une source sonore secondaire, dans un mode de mise en œuvre de l'invention ;
    • la figure 6, un exemple de calcul de réflexions précoces et de réflexions tardives, dans un mode de réalisation de l'invention ;
    • la figure 7, une méthode d'encodage d'une onde sonore à une pluralité de réflexions dans un ensemble de modes de mise en œuvre de l'invention.
    DESCRIPTION DETAILLEE
  • Les figures 1a et 1b représentent deux exemples de systèmes d'écoute d'onde sonore, selon deux modes de réalisation de l'invention.
  • La figure 1a représente un exemple de système d'écoute d'onde sonore, selon un mode de réalisation de l'invention.
  • Le système 100a comprend une tablette tactile 110a, un casque 120a pour permettre à un utilisateur 130a d'écouter une onde sonore. Le système 100a, comprend, à titre d'exemple uniquement, une tablette tactile. Cependant, cet exemple est également applicable à un smartphone, ou à tout autre appareil mobile possédant des capacités d'affichage et de diffusion sonore. L'onde sonore peut par exemple être issue de la lecture d'un film ou d'un jeu. Selon plusieurs modes de réalisation de l'invention, le système 100a peut être configuré pour écouter plusieurs ondes sonores. Par exemple, lorsque le système 100a est configuré pour la lecture d'un film comprenant une piste sonore multicanal 5.1, 6 ondes sonores sont écoutées simultanément. De la même manière, lorsque le système 100a est configuré pour jouer à un jeu, de nombreuses ondes sonores peuvent être écoutées simultanément. Par exemple, dans le cas d'un jeu faisant intervenir plusieurs personnages, une onde sonore peut être créée pour chaque personnage.
  • Chacune des ondes sonores est associée à une source sonore, dont la position est connue.
  • La tablette tactile 110a comprend un encodeur ambisonique 111a selon l'invention, un circuit de transformation 112a, et un décodeur ambisonique 113a.
  • Selon un ensemble de modes de réalisation de l'invention, l'encodeur ambisonique 111a, le circuit de transformation 112a et le décodeur ambisonique 113a sont constitués d'instructions de code d'ordinateur exécutées sur un processeur de la tablette tactile. Ils peuvent par exemple avoir été obtenus en installant une application ou un logiciel spécifique sur la tablette. Dans d'autres modes de réalisation de l'invention, l'un au moins parmi l'encodeur ambisonique 111a, le circuit de transformation 112a et le décodeur ambisonique 113a est un circuit intégré spécialisé, par exemple un ASIC (acronyme de l'anglais « Application-Specific Integrated Circuit, littéralement « circuit intégré propre à une application »), un FPGA (acronyme de l'anglais Field-Programmable Gate Array, Réseau de portes programmable).
  • L'encodeur ambisonique 111a est configuré pour calculer, dans le domaine fréquentiel, un ensemble de coefficients ambisoniques représentatifs de l'ensemble d'une scène sonore, à partir d'au moins une onde sonore. Il est de plus configuré pour appliquer des réflexions à au moins une onde sonore, afin de simuler un environnement d'écoute, par exemple une salle de cinéma d'une certaine taille, ou une salle de concert.
  • Le circuit de transformation 112a est configuré pour effectuer des rotations de la scène sonore en modifiant les coefficients ambisoniques, afin de simuler la rotation de la tête de l'utilisateur, de sorte que, quelle que soit l'orientation de son visage, les différentes ondes sonores lui paraissent parvenir d'une même position. Par exemple, si l'utilisateur tourne la tête vers la gauche d'un angle a, une rotation de la scène sonore vers la droite d'un même angle α permet de continuer à lui faire parvenir le son toujours de la même direction. Selon un ensemble de modes de réalisation de l'invention, le casque 120a est équipé d'au moins un capteur de mouvement 121a, par exemple un gyromètre, permettant d'obtenir un angle ou une dérivée d'un angle de rotation de la tête de l'utilisateur 130a. Un signal représentatif d'un angle de rotation, ou d'une dérivée d'un angle de rotation, est alors envoyé par le casque 121a à la tablette 120a, afin que le circuit de transformation 112a effectue la rotation de la scène sonore correspondante.
  • Le décodeur ambisonique 113a est configuré pour restituer la scène sonore sur les deux canaux stéréo du casque 120a, en convertissant les coefficients ambisoniques transformés en deux signaux stéréo, l'un pour le canal gauche et l'autre pour le canal droit. Dans un ensemble de modes de réalisation de l'invention, le décodage ambisonique s'effectue à l'aide de fonctions dites HRTF (acronyme de l'anglais « Head Related Transfer Functions », littéralement Fonctions de Transfer Liées à la Tête) permettant de restituer, sur deux canaux stéréo les directions des différentes sources sonores. La demande de brevet français n° 1558279 , déposée par le demandeur, décrit une méthode pour créer des fonctions HRTF optimisées pour un utilisateur en fonction d'une banque de fonctions HRTF, et des caractéristiques du visage dudit utilisateur.
  • Le système 100a permet ainsi à son utilisateur de bénéficier d'une expérience particulièrement immersive : lors d'un jeu ou d'une lecture d'un contenu multimédia, en plus de l'image, ce système lui permet de bénéficier d'une impression d'immersion dans une scène sonore. Cette impression est amplifiée à la fois par le suivi des orientations des différentes sources sonores lorsque l'utilisateur tourne la tête, et par l'application de réflexions donnant une impression d'immersion dans un environnement d'écoute particulier. Ce système permet par exemple de regarder un film ou un concert avec un casque audio, en ayant une impression d'immersion dans une salle de cinéma ou une salle de concert. L'ensemble de ces opérations est effectué en temps réel, ce qui permet d'adapter en permanence le son perçu par l'utilisateur à l'orientation de sa tête.
  • L'encodeur ambisonique 111a selon l'invention permet d'encoder un plus grand nombre de réflexions des sources sonores, avec une complexité moindre par rapport à un encodeur ambisonique de l'art antérieur. Il permet donc d'effectuer tous les calculs ambisoniques en temps réel, tout en augmentant le nombre de réflexions des sources sonores. Cette augmentation du nombre de réflexions permet de modéliser de manière plus fine l'environnement d'écoute simulé (salle de concert, de cinéma...) et donc d'améliorer la sensation d'immersion dans la scène sonore. La réduction de la complexité de l'encodage ambisonique permet également, en considérant un nombre identique de source sonores, de réduire la consommation électrique de l'encodeur par rapport à un encodeur de l'état de l'art, et donc d'augmenter la durée de déchargement de la batterie de la tablette tactile 110a. Cela permet donc à l'utilisateur de profiter d'un contenu multimédia pendant une durée plus longue.
  • La figure 1b représente un second exemple de système d'écoute d'onde sonore, selon un mode de réalisation de l'invention.
  • Le système 100b comprend une unité centrale 110b connectée à un écran 114b, une souris 115b et un clavier 116b et un casque 120b et est utilisé par un utilisateur 130b. L'unité centrale comprend un encodeur ambisonique 111b selon l'invention, un circuit de transformation 112b, et un décodeur ambisonique 113b, respectivement semblables à l'encodeur ambisonique 111a, circuit de transformation 112a, et décodeur ambisonique 113a du système 100a. De manière similaire au système 100a, l'encodeur ambisonique 111b est configuré pour encoder au moins une onde représentative d'une scène sonore en y ajoutant des réflexions, le casque 120a comprend au moins un capteur de mouvement 120b, le circuit de transformation 120b est configuré pour effectuer des rotations de la scène sonore afin de suivre l'orientation de la tête de l'utilisateur, et le décodeur ambisonique 113b est configuré pour restituer le son sur les deux canaux stéréo du casque 120b, de manière à ce que l'utilisateur 130b ait une impression d'immersion dans une scène sonore.
  • Le système 100b est adapté pour la visualisation de contenu multimédia, mais également pour le jeu vidéo. En effet, dans un jeu vidéo, de très nombreuses ondes sonores, issues de différentes sources, peuvent survenir. C'est par exemple le cas dans un jeu de stratégie ou de guerre, dans lequel de nombreux personnages peuvent émettre des sons différents (bruits de pas, de course, tirs...) pour diverses sources sonores. Un encodeur ambisonique 111b permet d'encoder toutes ces sources, tout en leur ajoutant de nombreuses réflexions rendant la scène plus réaliste et immersive, en temps réel. Ainsi, le système 100b comprenant un encodeur ambisonique 111b selon l'invention permet une expérience immersive dans un jeu vidéo, avec un grand nombre de sources sonores et de réflexions.
  • La figure 2 représente un exemple d'un système de binauralisation comprenant un moteur de binauralisation par source sonore d'une scène audio selon l'état de l'art.
  • Le système de binauralisation 200 est configuré pour transformer un ensemble 210 de sources sonores d'une scène sonore en un canal gauche 240 et un canal droit 241 d'un système d'écoute stéréo, et comprend un ensemble de moteurs binauraux 220, comprenant un moteur binaural par source sonore.
  • Les sources peuvent être de tout type de sources sonores (mono, stéréo, 5.1, sources sonores multiples dans le cas d'un jeu vidéo par exemple). Chaque source sonore est associée à une orientation dans l'espace par exemple définie par des angles ( θ,ϕ ) dans un référentiel, et par une onde sonore, elle-même représentée par un ensemble d'échantillons temporels.
  • Chacun des moteurs de binauralisation de l'ensemble 220 est configuré pour, pour une source sonore et à chaque instant t correspondant à un échantillon de la source sonore :
    • effectuer un encodage HOA de la source sonore à un ordre M ;
    • effectuer une transformation sur les coefficients binauraux, par exemple une rotation ;
    • calculer une intensité sonore p( r ,t) à des instants t pour un ensemble de canaux de sortie, dans laquelle r représente l'orientation du canal de sortie.
  • Les canaux de sortie possibles correspondent aux différents canaux d'écoute, on peut par exemple avoir deux canaux de sortie dans un système d'écoute stéréo, 6 canaux de sortie dans un système d'écoute 5.1, etc...
  • Chaque moteur de binauralisation produit deux sorties (une sortie gauche et une sortie droite), et le système 200 comprend un circuit d'addition 230 de toutes les sorties gauches et un circuit d'addition 231 de toutes les sorties droites de l'ensemble 220 de moteurs de binauralisation. Les sorties des logiques d'addition 230 et 231 sont respectivement l'onde sonore du canal gauche 240 et l'onde sonore du canal droit 241 d'un système d'écoute stéréo.
  • Le système 200 permet de transformer l'ensemble de sources sonores 210 en deux canaux stéréo, tout en pouvant appliquer toutes les transformations permises par l'ambisonie, telles que des rotations.
  • Cependant, le système 200 présente un inconvénient majeur en termes de temps de calcul : il nécessite des calculs pour calculer les coefficients ambisoniques de chaque source sonore, des calculs pour les transformations de chaque source sonore, et des calculs pour les sorties associées à chaque source sonore. La charge de calcul pour le traitement d'une source sonore par le système 200 est donc proportionnelle au nombre de sources sonores, et peut, pour un grand nombre de sources sonores, devenir prohibitive.
  • Les figures 3a et 3b représentent deux exemples de moteurs de binauralisation d'une scène 3D, respectivement dans le domaine temporel et le domaine fréquentiel selon l'état de l'art.
  • La figure 3a représente un exemple de moteur de binauralisation d'une scène 3D, dans le domaine temporel selon l'état de l'art.
  • Afin de limiter la complexité du traitement binaural dans le cas d'un grand nombre de sources, le moteur de binauralisation 300a comprend un unique moteur d'encodage HOA 320a pour l'ensemble des sources 310 de la scène sonore. Ce moteur d'encodage 320a est configuré pour calculer, à chaque pas de temps, les coefficients binauraux de chaque source sonore en fonction de l'intensité et de la position de la source sonore audit pas de temps, puis à sommer les coefficients binauraux des différentes sources sonores. Ceci permet d'obtenir un unique ensemble 321a de coefficients binauraux représentatifs de l'ensemble de la scène sonore.
  • Le moteur de binauralisation 320a comprend ensuite un circuit de transformation 330a des coefficients, configuré pour transformer l'ensemble de coefficients 321a représentatifs de la scène sonore en un ensemble de coefficients transformés 331a représentatifs de l'ensemble de la scène sonore. Ceci permet par exemple d'effectuer une rotation de l'ensemble de la scène sonore.
  • Le moteur de binauralisation 300a comprend enfin un décodeur binaural 340a, configuré pour restituer les coefficients transformés 331a en un ensemble de canaux de sortie, par exemple un canal gauche 341a et un canal droit 342a d'un système stéréo.
  • Le moteur de binauralisation 300a permet donc de réduire la complexité de calcul nécessaire au traitement binaural d'une scène sonore par rapport au système 200, en appliquant les étapes de transformation et décodage à l'ensemble de la scène sonore, plutôt qu'à chaque source sonore prise individuellement.
  • figure 3b représente un exemple de moteur de binauralisation d'une scène 3D, dans le domaine fréquentiel selon l'état de l'art.
  • Le moteur de binauralisation 300b est assez semblable au moteur de binauralisation 300a. Il comprend un ensemble 311b de logiques de transformation fréquentielle, l'ensemble 311b comprenant une logique de transformation fréquentielle pour chaque source sonore. Les logiques de transformation fréquentielle peuvent par exemple être configurées pour appliquer une transformée de Fourier rapide (ou FFT, de l'acronyme anglais Fast Fourier Transform), afin d'obtenir un ensemble 312b de sources dans le domaine fréquentiel. L'application de transformées fréquentielles est bien connue de l'homme de l'art, et est par exemple décrite par A. Mertins, Signal Analysis : Wavelets, Filter banks, Time-Frequency Transforms and Applications, English (revised edition). ISBN : 9780470841839. Elle consiste par exemple à transformer, par fenêtres temporelles, les échantillons sonores en intensité fréquentielles, selon un échantillonnage fréquentiel. L'opération inverse, ou transformation fréquentielle inverse (dite FFT-1 ou transformation de Fourier rapide inverse dans le cas d'une transformée de Fourier rapide) permet de restituer, à partir d'un échantillonnage de fréquences, des intensités d'échantillons sonores.
  • Le moteur de binauralisation 300b comprend ensuite un encodeur HOA 320b dans le domaine fréquentiel. L'encodeur 320b est configuré pour calculer, pour chaque source et à chaque fréquence de l'échantillonnage fréquentiel, les coefficients ambisoniques correspondants, puis à additionner les coefficients ambisoniques des différentes sources, afin d'obtenir un ensemble 321b d'échantillons ambisoniques représentatifs de l'ensemble de la scène sonore, aux différentes fréquences. Un coefficient ambisonique à une fréquence f de l'échantillonnage en fréquence s'obtient, de manière similaire à un coefficient ambisonique à l'instant t, par la formule: Bmn ( f ) = S ( f ) Ymn ( θs , ϕs ).
  • Le moteur de binauralisation 300b comprend ensuite un circuit de transformation 330b, similaire au circuit de transformation 330a, permettant d'obtenir un ensemble 331b de coefficients ambisoniques transformés représentatifs de l'ensemble de la scène sonore, et un décodeur binaural 340b, configuré pour restituer deux canaux stéréo 341b et 342b. Le décodeur binaural 340b comprend un circuit de transformation fréquentielle inverse, afin de restituer les canaux stéréo dans le domaine temporel.
  • Les propriétés du moteur de binauralisation 300b sont assez semblables à celles du moteur de binauralisation 300a. Il permet également d'effectuer un traitement binaural d'une scène sonore, avec une complexité réduite par rapport au système 200.
  • En cas d'augmentation importante du nombre de sources, la complexité du traitement binaural des moteurs de binauralisation 300a et 300b est principalement due au calcul des coefficients HOA par les encodeurs 320a et 320b. En effet, le nombre de coefficients à calculer est proportionnel au nombre de sources. Au contraire, les circuits de transformation 330a et 330b, ainsi que les décodeurs binauraux 340a et 340b traitent des ensembles de coefficients binauraux représentatifs de l'ensemble de la scène sonore, dont le nombre ne varie pas en fonction du nombre de sources.
  • Pour le traitement des réflexions, la complexité des encodeurs binauraux 320a et 320b peut augmenter de manière importante. En effet, la solution de l'état de l'art pour traiter les réflexions consiste à ajouter une source sonore virtuelle pour chaque réflexion. La complexité de l'encodage HOA de ces encodeurs selon l'état de l'art augmente donc proportionnellement en fonction du nombre de réflexions par source, et peut devenir problématique lorsque le nombre de réflexions devient trop important.
  • La figure 4 représente un exemple d'encodeur ambisonique d'une onde sonore à une pluralité de réflexions, dans un ensemble de modes de mise en œuvre de l'invention.
  • L'encodeur ambisonique 400 est configuré pour encoder une onde sonore 410 avec une pluralité de réflexions, en un ensemble de coefficients ambisoniques à un ordre M. Pour ce faire, l'encodeur ambisonique est configuré pour calculer une ensemble 460 d'harmoniques sphériques représentatives de l'onde sonore et de la pluralité de réflexions. L'encodeur ambisonique 400 sera décrit, à titre d'exemple, pour l'encodage d'une onde sonore unique. Cependant un encodeur ambisonique 400 selon l'invention peut également encoder une pluralité d'ondes sonores, les éléments de l'encodeur ambisonique étant utilisé de la même manière pour chaque onde sonore additionnelle. L'onde sonore 410 peut correspondre par exemple à un canal d'une piste audio, ou à une onde sonore créée dynamiquement, par exemple une onde sonore correspondant à un objet d'un jeu vidéo. Dans un ensemble de modes de réalisation de l'invention, les ondes sonores sont définies par des échantillons successifs d'intensité sonore. Selon différents modes de réalisation de l'invention, les ondes sonores peuvent par exemple être échantillonnées à une fréquence de 22500Hz, 12000Hz, 44100 Hz, 48000 Hz, 88200 Hz, ou 96000 Hz, et chacun des échantillons d'intensité codé sur 8, 12, 16, 24 ou 32 bits. En cas de pluralité d'onde sonores, celles-ci peuvent être échantillonnées à des fréquences différentes, et les échantillons peuvent être codés sur des nombres de bits différents.
  • L'encodeur ambisonique 400 comprend une logique 420 de transformation fréquentielle de l'onde sonore. Celle-ci est similaire aux logiques 311b de transformation fréquentielle des ondes sonores du système de binauralisation 300b selon l'état de l'art. Dans des modes de réalisation à une pluralité d'ondes sonores, l'encodeur 400 comprend une logique de transformation fréquentielle pour chaque onde sonore. En sortie de la logique de transformation fréquentielle, une onde sonore est définie 421, pour une fenêtre temporelle, par un ensemble d'intensités à différentes fréquences d'un échantillonnage en fréquence. Dans un ensemble de modes de réalisation de l'invention, la logique 420 de transformation fréquentielle est une logique d'application d'une FFT.
  • L'encodeur 400a comprend également une logique 430 de calcul d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position d'une source de l'onde sonore et de positions d'obstacles à la propagation de l'onde sonore. Dans un ensemble de modes de réalisation de l'invention, la position de la source de l'onde sonore est définie par des angles ( θsi ,ϕsi ) et une distance par rapport à une position d'écoute de l'utilisateur. Le calcul des harmoniques sphériques Y 00 ( θsi si ), Y 1-1 ( θsi , ϕsi ) Y 10 ( θsi , ϕsi ), Y 11 ( θsi , ϕsi ), ..., YMM ( θsi , ϕsi ), de l'onde sonore à l'ordre M peut s'effectuer selon les méthodes connues de l'état de l'art, à partir des angles ( θsi , ϕsi ) définissant l'orientation de la source de l'onde sonore.
  • La logique 430 est également configurée pour calculer, à partir de la position de la source de l'onde sonore, un ensemble d'harmoniques sphériques de la pluralité de réflexions. Dans un ensemble de modes de réalisation de l'invention, la logique 430 est configurée pour calculer, à partir de la position de la source de l'onde sonore, et de positions d'obstacles à la propagation de l'onde sonore, une orientation d'une source virtuelle d'une réflexion, définie par des angles (θs,r , ϕs,r ) puis, à partir de ces angles, des harmoniques sphériques Y 00 ( θs,r , ϕs,r ), Y 1-1 ( θs,r , ϕs,r ), Y 10 ( θs,r , ϕs,r ), Y 11 ( θs,r , ϕs,r ), ..., YMM ( θs,r , ϕs,r ) de la réflexion de l'onde sonore. Ceci permet d'obtenir, pour chaque réflexion, les harmoniques sphériques correspondant à la direction de l'onde réfléchie sur les obstacles à la propagation de l'onde sonore.
  • L'encodeur ambisonique 400 comprend également une pluralité 440 de logiques de filtrage dans le domaine fréquentiel recevant en entrée des harmoniques sphériques de la pluralité de réflexions, chaque logique de filtrage étant paramétrée par des coefficients acoustiques et de délai des réflexions. Dans la suite de la description, on appellera αr un coefficient acoustique d'une réflexion et δr un délai d'une réflexion. Selon différents modes de réalisation de l'invention, le coefficient acoustique peut être un coefficient de αr réverbération, représentatif d'un rapport des intensités d'une réflexion sur des intensités de la source sonore et défini entre 0 et 1. Selon d'autres modes de réalisation de l'invention, le coefficient acoustique est un coefficient αa dit d'atténuation ou d'absorption, soit un coefficient défini entre 0 et 1 tel que αa = αr - 1. Ces logiques de filtrage permettent d'appliquer aux coefficients ambisoniques d'une réflexion un délai et une atténuation. Ainsi, la combinaison de l'orientation de la source virtuelle de la réflexion, du délai et de l'atténuation de la réflexion permet de modéliser chaque réflexion comme une réplique de la source sonore, venant d'une direction différente, affectée d'un délai et atténuée, suite au parcours et aux réflexions de l'onde sonore. Cette modélisation permet, avec plusieurs réflexions de simuler la propagation d'une onde sonore dans une scène de manière simple et efficace.
  • De manière générale, le filtrage, à une fréquence f, d'une harmonique sphérique d'une réflexion peut s'écrire : Hr(f) Yij ( θs,r , ϕs,r ). Dans un mode de réalisation de l'invention une logique de filtrage 440 est configurée pour filtrer les harmoniques sphériques en appliquant: αre -j2 πδr Yij ( θs,r , ϕs,r ). Dans ce mode de réalisation, le coefficient αr est traité comme un coefficient de réverbération. Dans d'autres modes de réalisation, un coefficient αa peut être traité comme un coefficient d'atténuation, et le filtrage des harmoniques sphériques peut par exemple s'effectuer en appliquant: ( 1 - αa ) e -j2 πfδr Yij ( θs,r , ϕs,r ). Dans la suite de la description, on considèrera sauf mention contraire le coefficient αr comme un coefficient de réverbération. Un homme de l'art pourra cependant aisément mettre en œuvre les différents modes de réalisation de l'invention avec un coefficient d'atténuation plutôt qu'un coefficient de réverbération.
  • L'encodeur ambisonique 400 comprend également une logique 450 d'addition des harmoniques sphériques de l'onde sonore et des sorties des logiques de filtrage. Cette logique permet d'obtenir un ensemble Y'00 , Y'1-1 , Y'10, Y'11, ... Y'MM d'harmoniques sphériques à l'ordre M, représentatives à la fois de l'onde sonore, et des réflexions de l'onde sonore, dans le domaine fréquentiel. Un harmonique sphérique Y'ij (avec 0 ≤ i ≤ M, et -i ≤ j ≤ i) représentative à la fois de l'onde sonore, et des réflexions de l'onde sonore, est donc égale, en sortie de la logique d'addition 450, à la valeur Y ij =
    Figure imgb0006
    Y ij θ s i φ s i + r = 0 N r H r f Y ij θ s , r φ s , r ,
    Figure imgb0007
    dans laquelle Yij ( θsi , ϕsi ) est une harmonique sphérique de la source de l'onde sonore, Nr est le nombre de réflexions de l'onde sonore, Yij ( θs,r , ϕs,r ) sont les harmoniques sphériques des positions des sources sonores virtuelles des réflexions, et les termes Hr(f) sont les logiques de filtrage des harmoniques sphériques pour la réflexion r à une fréquence f. Dans un ensemble de modes de réalisation de l'invention, les logiques de filtrage Hr(f) sont telles que Hr(f) = αre -j2πfδr , et les harmoniques sphériques Yij à l'ordre M, représentatives à la fois de l'onde sonore, et des réflexions de l'onde sonore sont égales, en sortie de la logique 450 d'addition, à: Y ij = Y ij θ s i φ s i + r = 0 N r α r e j 2 π f δ r Y ij θ s , r φ s , r .
    Figure imgb0008
  • Selon différents modes de réalisation de l'invention, le nombre Nr de réflexions peut être prédéfini. Selon d'autres modes de réalisation de l'invention, les réflexions de l'onde sonore sont conservées selon leur coefficient acoustique, le nombre Nr de réflexions dépendant alors de la position de la source sonore, de la position de l'utilisateur, et des obstacles à la propagation du son. Dans l'exemple ci-dessus, le coefficient acoustique est défini comme un ratio de l'intensité de la réflexion sur l'intensité de la source sonore, soit un coefficient de réverbération. Dans un mode de réalisation de l'invention, les réflexions de l'onde sonore ayant un coefficient acoustique supérieur ou égal à un seuil prédéfini sont conservées. Dans d'autres modes de réalisation, le coefficient acoustique est défini comme un coefficient d'atténuation, soit un ratio entre l'intensité sonore absorbée par les obstacles à la propagation d'ondes sonores et le trajet dans l'air et l'intensité de la source sonore. Dans ce mode de réalisation, les réflexions de l'onde sonore ayant un coefficient acoustique inférieur ou égal à un seuil prédéfini sont conservées
  • Ainsi, l'encodeur ambisonique 400 permet de calculer un ensemble d'harmoniques sphériques Y'ij représentatives à la fois de l'onde sonore et de ses réflexions. Une fois ces harmoniques sphériques calculées, l'encodeur peut comprendre une logique de multiplication des harmoniques sphériques par les valeurs d'intensités sonores de la source aux différentes fréquences, afin d'obtenir des coefficients ambisoniques représentatifs à la fois de l'onde sonore et des réflexions. Dans des modes de réalisation à plusieurs sources sonores, l'encodeur 400 comprend une logique d'addition des coefficients ambisoniques des différentes sources sonores et de leurs réflexions, permettant d'obtenir en sortie des coefficients ambisoniques représentatifs de l'ensemble de la scène sonore.
  • Dans un ensemble de modes de réalisation de l'invention, les coefficients ambisoniques à l'ordre M représentatifs de la scène sonore sont alors égaux, en sortie de la logique d'addition des coefficients ambisoniques des différentes sources sonores et de leurs réflexions, pour Ns sources sonores et pour une fréquence f, à : B 00 f B 1 1 f B 10 f B 11 f B MM f = i = 0 N s 1 S i f Y 00 θ s i φ s i + r = 0 N r H r f Y 00 θ s , r φ s , r Y 1 1 θ s i φ s i + r = 0 N r H r f Y 1 1 θ s , r φ s , r Y 10 θ s i φ s i + r = 0 N r H r f Y 10 θ s , r φ s , r Y 11 θ s i φ s i + r = 0 N r H r f Y 11 θ s , r φ s , r Y MM θ s i φ s i + r = 0 N r H r f Y MM θ s , r φ s , r
    Figure imgb0009
  • L'utilisation d'un unique coefficient ambisonique Y'ij représentatif à la fois de l'onde sonore et de ses réflexions permet de réduire de manière importante les opérations de calcul permettant d'obtenir les coefficients ambisoniques, surtout lorsque le nombre de réflexions est élevé. En effet, ceci permet de réduire le nombre de multiplications, puisqu'il n'est plus nécessaire de multiplier chacune des intensités Si ( f ) d'une source pour chaque fréquence par chacune des harmoniques sphériques Yij ( θs,r ,ϕs,r ), pour chaque valeur de i telle que 0 ≤ i ≤ M, chaque valeur de j telle que -i ≤ j ≤ i, et chaque réflexion. Cette réduction du nombre de multiplications permet une réduction importante de la complexité de calcul, particulièrement dans le cas d'un nombre de réflexions élevé.
  • Dans un ensemble de modes de réalisation de l'invention, la logique 430 de calcul d'harmoniques sphériques de l'onde sonore est configurée pour calculer les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position fixe de la source de l'onde sonore. Dans ce cas, les orientations ( θsi ,ϕsi ) de la source sonore, et les orientations ( θs,r ,ϕs,r ) de chacune des harmoniques sont constantes. Les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions ont alors également une valeur constante, et peuvent être calculées une unique fois pour l'onde sonore.
  • Dans d'autres modes de réalisation de l'invention, la logique 430 de calcul d'harmoniques sphériques de l'onde sonore est configurée pour calculer de manière itérative les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir de positions successives de la source de l'onde sonore. Selon différents modes de réalisation de l'invention, différentes possibilités existent pour définir les itérations de calcul. Dans un mode de réalisation de l'invention, la logique 430 est configurée pour recalculer les valeurs des harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à chaque fois qu'un changement de la position de la source de l'onde sonore ou de la position de l'utilisateur est détecté. Dans un autre mode de réalisation de l'invention, la logique 430 est configurée pour recalculer les valeurs des harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à intervalles réguliers, par exemple toutes les 10 ms. Dans un autre mode de réalisation de l'invention, la logique 430 est configurée pour recalculer les valeurs des harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à chacune des fenêtres temporelles utilisées par la logique 420 de transformation fréquentielle de l'onde sonore pour convertir les échantillons temporels de l'onde sonore en échantillons fréquentiels.
  • Dans un ensemble de modes de réalisation de l'invention, chaque réflexion est caractérisée par un unique coefficient acoustique αr .
  • Dans d'autres modes de réalisation de l'invention, chaque réflexion est caractérisée par un coefficient acoustique pour chaque fréquence dudit échantillonnage fréquentiel. Ceci permet d'obtenir des coefficients acoustiques différents pour les différentes fréquences, et d'améliorer le rendu de certains effets. Par exemple, il est connu que les matériaux épais absorbent de manière plus importante les basses fréquences. De même certains types de matériaux absorbent et réfléchissent de manière différente les hautes fréquences. Ainsi, la définition de coefficients acoustiques différents pour une même réflexion et différentes fréquences permet de caractériser les matériaux rencontrés par les réflexions, permettant un meilleur rendu de différents types de salle, en fonction des matériaux des murs de celle-ci.
  • Dans un ensemble de modes de réalisation de l'invention, une réflexion à une fréquence peut être considérée comme nulle, en fonction d'une comparaison entre le coefficient acoustique αr pour cette fréquence et un seuil prédéfini. Par exemple, si le coefficient αr représente un coefficient de réverbération, la fréquence est considérée comme nulle s'il est inférieur à un seuil prédéfini. Au contraire, s'il s'agit d'un coefficient d'atténuation, la fréquence est considérée comme nulle s'il est supérieur ou égal à un seuil prédéfini. Ceci permet de limiter encore le nombre de multiplications, et donc la complexité de l'encodage ambisonique, tout en ayant un impact minime sur le rendu binaural.
  • Dans un ensemble de modes de réalisation de l'invention, l'encodeur ambisonique 400 comprend une logique de calcul des coefficients acoustiques et des délais, et de la position de la source sonore virtuelle des réflexions. Cette logique de calcul peut par exemple être configurée pour calculer les coefficients acoustiques et les délais des réflexions en fonction d'estimations d'une différence de distance parcourue par le son entre la position de la source de l'onde sonore et une position estimée d'un utilisateur d'une part, et la distance parcourue par le son entre les positions des sources sonores virtuelles des réflexions et la position estimée de l'utilisateur d'autre part. Il est en effet aisé, connaissant la différence de distance parcourue par le l'onde sonore par parvenir à l'utilisateur, en ligne droite depuis la source sonore d'une part, et par le biais d'une réflexion d'autre part, et connaissant la célérité du son, de déduire le délai ressenti par l'utilisateur entre le son issu de la source sonore en ligne droite d'une part, et le son ayant été affecté par la réflexion d'autre part.
  • De la même manière, il est connu que l'intensité d'une onde sonore diminue au fur et à mesure de son parcours dans l'air. La logique de calcul des coefficients acoustiques et des délais, et de la position de la source sonore virtuelle des réflexions peut donc être configurée pour calculer un coefficient acoustique d'une réflexion de l'onde sonore en fonction de la différence de distance parcourue entre le son issu de la source sonore en ligne droite d'une part, et le son ayant été affecté par la réflexion d'autre part.
  • Dans d'autres modes de réalisation de l'invention, la logique de calcul des coefficients acoustiques et des délais, et de la position de la source sonore virtuelle des réflexions est également configurée pour calculer les coefficients acoustiques des réflexions en fonction d'un coefficient acoustique d'au moins un obstacle à la propagation d'ondes sonores, sur lequel le son est réfléchi. Ceci permet de mieux modéliser l'absorption par les matériaux d'une salle, et le coefficient acoustique de l'obstacle peut être variable selon les différentes fréquences. Le coefficient acoustique de l'obstacle peut être un coefficient de réverbération ou un coefficient d'atténuation.
  • La figure 5 représente un exemple de calcul d'une source sonore secondaire, dans un mode de mise en œuvre de l'invention.
  • Dans cet exemple une source de l'onde sonore a une position 520 dans une pièce 510, et l'utilisateur a une position 540. La pièce 510 est constituée de 4 murs 511, 512, 513 et 514.
  • Dans un ensemble de modes de mise en œuvre de l'invention, la logique de calcul des coefficients acoustiques et des délais, et de la position de la source sonore virtuelle des réflexions est configurée pour calculer les position, délai et atténuation des sources sonores virtuelles des réflexions de la manière suivante : pour chacun des murs 511, 512, 513, 514, la logique est configurée pour calculer une position d'une source sonore virtuelle d'une réflexion comme le symétrique de la position de la source sonore par rapport à un mur. La logique de calcul est ainsi configurée pour calculer les positions 521, 522, 523 et 524 de quatre sources sonores virtuelles des réflexions, respectivement par rapport aux murs 511, 512, 513 et 514.
  • Pour chacune de ces sources sonores virtuelles, la logique de calcul est configurée pour calculer un chemin de parcours de l'onde sonore, et en déduire le coefficient acoustique et le délai correspondants. Par exemple, dans le cas de la source sonore virtuelle 511, l'onde sonore suit le trajet 530 jusqu'au point 531 du mur 512, puis le chemin 532 jusqu'à la position de l'utilisateur 540. La distance parcourue par le son selon le chemin 530, 532 permet de calculer un coefficient acoustique et un délai de la réflexion. Dans un ensemble de modes de réalisation de l'invention la logique de calcul est également configurée pour appliquer un coefficient acoustique correspondant à l'absorption du mur 512 au point 531. Dans un ensemble de modes de réalisation de l'invention, ce coefficient dépend des différentes fréquences, et peut par exemple être déterminé, pour chaque fréquence, en fonction du matériau et/ou de l'épaisseur du mur 512.
  • Dans un ensemble de modes de réalisation de l'invention, les sources sonores virtuelles 521, 522, 523, 524 sont utilisées pour calculer des sources sonores virtuelles secondaires, correspondant à des réflexions multiples. Par exemple, une source virtuelle secondaire 533 peut être calculée comme le symétrique de la source virtuelle 521 par rapport au mur 514. Le chemin de l'onde sonore correspondant comprend alors les segments 530 jusqu'au point 531 ; 534 entre les points 531 et 535 ; 536 entre le point 535 et la position 540 de l'utilisateur. Les coefficients acoustiques et les délais peuvent alors être calculés à partir de la distance parcourue par le son sur les segments 531, 535 et 536, et de l'absorption des murs aux points 531 et 535.
  • Selon différents modes de réalisation de l'invention, des sources sonores virtuelles correspondant à des réflexions peuvent être calculées jusqu'à un ordre n prédéfini. Différents modes de réalisation sont possibles pour déterminer les réflexions à conserver. Dans un mode de réalisation de l'invention, la logique de calcul est configurée pour calculer, pour chaque source sonore virtuelle, une source sonore virtuelle d'ordre supérieur pour chacun des murs, jusqu'à un ordre prédéfini n. Dans un mode de réalisation, l'encodeur ambisonique est configuré pour traiter un nombre Nr prédéfini de réflexions par source sonore, et conserve les Nr réflexions ayant l'atténuation la plus faible. Dans un autre mode de réalisation de l'invention, les sources sonores virtuelles sont conservées sur la base d'une comparaison d'un coefficient acoustique avec un seuil prédéfini.
  • La figure 6 représente un exemple de calcul de réflexions précoces et de réflexions tardives, dans un mode de réalisation de l'invention.
  • Le diagramme 600 représente l'intensité de plusieurs réflexions de l'onde sonore, par rapport au temps. L'axe 601 représente l'intensité d'une réflexion, et l'axe 602 le délai entre l'émission de l'onde sonore par la source de l'onde sonore, et la perception d'une réflexion par l'utilisateur. Dans cet exemple, les réflexions survenant avant un délai prédéfini 603 sont considérées comme des réflexions précoces 610, et les réflexions survenant après le délai 603 comme des réflexions tardives 620. Dans un mode de réalisation de l'invention, les réflexions précoces sont calculées à l'aide d'une source sonore virtuelle, par exemple selon le principe décrit en référence à la figure 5.
  • Selon différents modes de réalisation de l'invention, les réflexions tardives sont calculées de la manière suivante: un ensemble de Nt sources sonores secondaires est calculée, par exemple selon le principe décrit en figure 5. La logique de calcul des coefficients acoustiques et des délais, et de la position de la source sonore virtuelle des réflexions est configurée pour conserver un nombre Nr de réflexions inférieur à Nt, selon différents modes de réalisation décrits ci-dessus. Dans un ensemble de modes de réalisation de l'invention, elle est de plus configurée pour construire une liste de (Nt - Nr) réflexions tardives, comprenant toutes les réflexions non conservées. Cette liste comprend uniquement, pour chaque réflexion tardive, un coefficient acoustique et un délai de la réflexion tardive, mais pas de position d'une source virtuelle.
  • Selon un mode de réalisation de l'invention, cette liste est transmise par l'encodeur ambisonique à un décodeur ambisonique. Le décodeur ambisonique est alors configuré pour filtrer ses sorties, par exemple ses canaux stéréo de sortie, avec les coefficients acoustiques et les délais des réflexions tardives, puis à ajouter ces signaux filtrés aux signaux de sortie. Ceci permet d'améliorer la sensation d'immersion dans une salle ou un environnement d'écoute, tout en limitant encore la complexité de calcul de l'encodeur.
  • Selon un autre mode de réalisation de l'invention, l'encodeur ambisonique est configuré pour filtrer l'onde sonore avec les coefficients acoustiques et les délais des réflexions tardives, et ajouter les signaux obtenus de manière uniforme à l'ensemble des coefficients ambisoniques. Ceci permet d'obtenir, avec une complexité de calcul limitée, un effet représentatif de multiples réflexions dans un environnement sonore. Dans ce mode de réalisation de l'invention, comme dans le précédent, les réflexions tardives ont une intensité faible et n'ont pas d'information de direction d'une source sonore. Elles seront donc perçues par un utilisateur comme un « écho » de l'onde sonore, réparti de manière homogène dans la scène sonore, et représentatif d'un environnement d'écoute.
  • Le calcul des coefficients acoustiques et délais des réflexions tardives induit le calcul de nombreuses réflexions. Il s'agit donc d'une opération relativement coûteuse en termes de complexité de calcul. Selon un mode de réalisation de l'invention, ce calcul est effectué une seule fois, par exemple à l'initialisation de la scène sonore, et les coefficients acoustiques et les délais des réflexions tardives sont réutilisés sans modification par l'encodeur ambisonique. Ceci permet d'obtenir des réflexions tardives représentatives de l'environnement d'écoute à moindre coût. Selon d'autres modes de réalisation de l'invention, ce calcul est effectué de manière itérative. Par exemple, ces coefficients acoustiques et délais des réflexions tardives peuvent être calculés à des intervalles de temps prédéfinis, par exemple toutes les 5 secondes. Ceci permet de conserver en permanence des coefficients acoustiques et délais des réflexions tardives représentatifs de la scène sonore, et des positions relatives d'une source de l'onde sonore et de l'utilisateur, tout en limitant la complexité de calcul liée à la détermination des réflexions tardives.
  • Dans d'autres modes de réalisation de l'invention, les coefficients acoustiques et délais des réflexions tardives sont calculés lorsque la position d'une source de l'onde sonore ou de l'utilisateur varie de manière significative, par exemple lorsque la différence entre la position de l'utilisateur et une position précédente de l'utilisateur lors d'un calcul des coefficients acoustiques et délais des réflexions tardives représentatifs de la scène sonore est supérieure à un seuil prédéfini. Ceci permet de ne calculer les coefficients acoustiques et délais des réflexions tardives représentatifs de la scène sonore que lorsque la position d'une source de l'onde sonore ou de l'utilisateur a suffisamment varié pour modifier de manière perceptible les réflexions tardives.
  • La figure 7 représente une méthode d'encodage d'une onde sonore à une pluralité de réflexions dans un ensemble de modes de mise en œuvre de l'invention.
  • La méthode 700 comprend une étape 710 de transformation fréquentielle de l'onde sonore.
  • Elle comprend ensuite une étape 720 de calcul d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position d'une source de l'onde sonore et de positions d'obstacles à la propagation d'ondes sonores.
  • Elle comprend ensuite une étape 730 de filtrage, par une pluralité de logiques de filtrage dans le domaine fréquentiel, des harmoniques sphériques de la pluralité de réflexions, chaque logique de filtrage étant paramétrée par des coefficients acoustiques et des délais des réflexions.
  • Elle comprend ensuite une étape 740 d'addition d'harmoniques sphériques de l'onde sonore et des sorties des logiques de filtrage.
  • Les exemples ci-dessus démontrent la capacité d'un encodeur ambisonique selon l'invention à calculer des coefficients ambisoniques d'une onde sonore à une pluralité de réflexions. Ils ne sont cependant donnés qu'à titre d'exemple et ne limitent en aucun cas la portée de l'invention, définie dans les revendications ci-dessous.

Claims (13)

  1. Encodeur ambisonique (400) d'onde sonore (410) à pluralité de réflexions, comprenant :
    - Une logique (420) de transformation fréquentielle de l'onde sonore ;
    - Une logique (430) de calcul d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position d'une source de l'onde sonore et de positions d'obstacles à une propagation de l'onde sonore ;
    - une pluralité (440) de logiques de filtrage dans le domaine fréquentiel recevant en entrée des harmoniques sphériques de la pluralité de réflexions, chaque logique de filtrage consistant en une atténuation et un délai d'une réflexion, et étant paramétrée par un coefficient acoustique et un délai de ladite réflexion ;
    - Une logique (450) d'addition d'harmoniques sphériques de l'onde sonore et des sorties des logiques de filtrage, en un ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel ;
    - Une logique de multiplication dudit ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel par des valeurs d'intensité sonores de l'onde en sortie de la transformation fréquentielle, afin d'obtenir un ensemble de coefficients ambisoniques (B 00,B 1-1,B 10,B 11,...,BMM ) représentatifs à la fois de l'onde sonore et de la pluralité de réflexions.
  2. Encodeur ambisonique selon la revendication 1, dans lequel la logique de calcul d'harmoniques sphériques de l'onde sonore est configurée pour calculer les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position fixe de la source de l'onde sonore.
  3. Encodeur ambisonique selon la revendication 1, dans lequel la logique de calcul d'harmoniques sphériques de l'onde sonore est configurée pour calculer de manière itérative les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir de positions successives de la source de l'onde sonore.
  4. Encodeur ambisonique selon l'une des revendications 1 à 3, dans lequel chaque réflexion est caractérisée par un unique coefficient acoustique.
  5. Encodeur ambisonique selon l'une des revendications 1 à 3, dans lequel chaque réflexion est caractérisée par un coefficient acoustique pour chaque fréquence dudit échantillonnage fréquentiel.
  6. Encodeur ambisonique selon l'une des revendications 1 à 5, dans lequel les réflexions sont représentées par des sources sonores virtuelles.
  7. Encodeur ambisonique selon l'une des revendications 1 à 5, comprenant en outre une logique de calcul des coefficients acoustiques, des délais et de la position de des sources sonores virtuelles des réflexions, ladite logique de calcul étant configurée pour calculer les coefficients acoustiques et les délais des réflexions en fonction d'estimations d'une différence de distance parcourue par le son entre la position de la source de l'onde sonore et une position estimée d'un utilisateur d'une part, et d'une distance parcourue par le son entre les positions des sources sonores virtuelles des réflexions et la position estimée de l'utilisateur d'autre part.
  8. Encodeur ambisonique selon la revendication 7, dans lequel la logique de calcul des coefficients acoustiques, des délais et des positions des sources sonores virtuelles des réflexions, est en outre configurée pour calculer les coefficients acoustiques des réflexions en fonction d'au moins un coefficient acoustique d'au moins un obstacle à la propagation d'ondes sonores, sur lequel le son est réfléchi.
  9. Encodeur ambisonique selon l'une des revendications 7 à 8, dans lequel la logique de calcul des coefficients acoustiques, des délais et des positions des sources sonores virtuelles des réflexions est configurée pour calculer des positions de sources sonores virtuelles des réflexions comme des symétriques de la position de la source de l'onde sonore par rapport à un plan tangent à un obstacle à la propagation d'ondes sonores.
  10. Encodeur ambisonique selon l'une des revendications 1 à 9, dans lequel la logique de calcul d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions est en outre configurée pour calculer des harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à chaque fréquence de sortie du circuit de transformation fréquentielle, ledit encodeur ambisonique comprenant en outre une logique de calcul de coefficients binauraux de l'onde sonore, configurée pour calculer des coefficient binauraux de l'onde sonore en multipliant à chaque fréquence de sortie du circuit de transformation fréquentielle de l'onde sonore le signal de l'onde sonore par les harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à cette fréquence.
  11. Encodeur ambisonique selon l'une des revendications 7 à 9, dans lequel la logique de calcul des coefficients acoustiques, des délais et des positions des sources sonores virtuelles des réflexions est configurée pour calculer des coefficients acoustiques et des délais d'une pluralité de réflexions tardives.
  12. Méthode d'encodage ambisonique d'onde sonore à pluralité de réflexions, comprenant :
    - une transformation fréquentielle (710) de l'onde sonore ;
    - un calcul (720) d'harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position d'une source de l'onde sonore et de positions d'obstacles à une propagation d'ondes sonores ;
    - un filtrage (730), par une pluralité de logiques de filtrage dans le domaine fréquentiel, des harmoniques sphériques de la pluralité de réflexions, chaque logique de filtrage consistant en une atténuation et un délai d'une réflexion, et étant paramétrée par un coefficient acoustique et un délai d'une réflexion;
    - une addition (740) d'harmoniques sphériques de l'onde sonore et des sorties des logiques de filtrage, en un ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel
    - une multiplication dudit ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel par des valeurs d'intensité sonores de l'onde en sortie de la transformation fréquentielle, afin d'obtenir un ensemble de coefficients ambisoniques (B 00,B 1-1,B 10,B 11,...,BMM ) représentatifs à la fois de l'onde sonore et de la pluralité de réflexions.
  13. Produit programme d'ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur pour l'encodage ambisonique d'onde sonore à pluralité de réflexions, lesdites instructions de code de programme étant configurées pour :
    - effectuer une transformation fréquentielle de l'onde sonore ;
    - calculer des harmoniques sphériques de l'onde sonore et de la pluralité de réflexions à partir d'une position d'une source de l'onde sonore et de positions d'obstacles à une propagation de l'onde sonore ;
    - paramétrer une pluralité de logiques de filtrage dans le domaine fréquentiel recevant en entrée des harmoniques sphériques de la pluralité de réflexions, chaque logique de filtrage consistant en une atténuation et un délai d'une réflexion, et étant paramétrée par un coefficient acoustique et un délai de ladite réflexion ;
    - additionner des harmoniques sphériques de l'onde sonore et des sorties des logiques de filtrage, en un ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel ;
    - multiplier ledit ensemble d'harmoniques sphériques représentatives à la fois de l'onde sonore et de la pluralité de réflexions dans le domaine fréquentiel par des valeurs d'intensité sonores de l'onde en sortie de la transformation fréquentielle, afin d'obtenir un ensemble de coefficients ambisoniques (B 00,B 1-1,B 10,B 11,...,BMM ) représentatifs à la fois de l'onde sonore et de la pluralité de réflexions ;
    lorsque ledit programme fonctionne sur un ordinateur.
EP16808645.2A 2016-01-05 2016-12-08 Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions Active EP3400599B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1650062A FR3046489B1 (fr) 2016-01-05 2016-01-05 Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions
PCT/EP2016/080216 WO2017118519A1 (fr) 2016-01-05 2016-12-08 Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions

Publications (2)

Publication Number Publication Date
EP3400599A1 EP3400599A1 (fr) 2018-11-14
EP3400599B1 true EP3400599B1 (fr) 2021-06-16

Family

ID=55953194

Family Applications (1)

Application Number Title Priority Date Filing Date
EP16808645.2A Active EP3400599B1 (fr) 2016-01-05 2016-12-08 Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions

Country Status (5)

Country Link
US (2) US10475458B2 (fr)
EP (1) EP3400599B1 (fr)
CN (1) CN108701461B (fr)
FR (1) FR3046489B1 (fr)
WO (1) WO2017118519A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747301B2 (en) * 2017-03-28 2020-08-18 Magic Leap, Inc. Augmented reality system with spatialized audio tied to user manipulated virtual object
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
KR102122600B1 (ko) 2018-03-07 2020-06-12 매직 립, 인코포레이티드 주변 디바이스들의 시각적 추적
CN109327795B (zh) * 2018-11-13 2021-09-14 Oppo广东移动通信有限公司 音效处理方法及相关产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021206A (en) * 1996-10-02 2000-02-01 Lake Dsp Pty Ltd Methods and apparatus for processing spatialised audio
US20050069143A1 (en) * 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
AU2003301502A1 (en) * 2003-12-15 2005-08-03 France Telecom Method for synthesizing acoustic spatialization
EP2205007B1 (fr) * 2008-12-30 2019-01-09 Dolby International AB Procédé et appareil pour le codage tridimensionnel de champ acoustique et la reconstruction optimale
FR3040807B1 (fr) 2015-09-07 2022-10-14 3D Sound Labs Procede et systeme d'elaboration d'une fonction de transfert relative a la tete adaptee a un individu

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None *

Also Published As

Publication number Publication date
US20190019520A1 (en) 2019-01-17
WO2017118519A1 (fr) 2017-07-13
CN108701461B (zh) 2023-10-27
FR3046489A1 (fr) 2017-07-07
US10475458B2 (en) 2019-11-12
US20200058312A1 (en) 2020-02-20
CN108701461A (zh) 2018-10-23
US11062714B2 (en) 2021-07-13
EP3400599A1 (fr) 2018-11-14
FR3046489B1 (fr) 2018-01-12

Similar Documents

Publication Publication Date Title
EP1563485B1 (fr) Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP3400599B1 (fr) Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions
EP2898707B1 (fr) Calibration optimisee d'un systeme de restitution sonore multi haut-parleurs
EP1992198B1 (fr) Optimisation d'une spatialisation sonore binaurale a partir d'un encodage multicanal
EP3475943B1 (fr) Procede de conversion et d'encodage stereophonique d'un signal audio tridimensionnel
FR2862799A1 (fr) Dispositif et methode perfectionnes de spatialisation du son
WO2007104882A1 (fr) Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
FR2899424A1 (fr) Procede de synthese binaurale prenant en compte un effet de salle
WO2004086818A1 (fr) Procede pour traiter un signal electrique de son
WO2003073791A2 (fr) Procédé et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique
WO2005069272A1 (fr) Procede de synthese et de spatialisation sonores
EP3025514B1 (fr) Spatialisation sonore avec effet de salle
EP1994526B1 (fr) Synthese et spatialisation sonores conjointes
EP4184505B1 (fr) Spatialisation sonore avec effet de salle, optimisee en complexite
FR2866974A1 (fr) Procede de traitement sonores, en particulier en contexte ambiophonique
FR2943867A1 (fr) Traitement d'egalisation de composantes spatiales d'un signal audio 3d
FR3018026A1 (fr) Procede et dispositif de restitution d'un signal audio multicanal dans une zone d'ecoute
WO2006097633A1 (fr) Procede et systeme de spatialisation d'un signal sonore en fonction des qualites intrinseques de ce dernier

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20180627

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20190701

19U Interruption of proceedings before grant

Effective date: 20190116

19W Proceedings resumed before grant after interruption of proceedings

Effective date: 20200302

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: MIMI HEARING TECHNOLOGIES GMBH

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20210209

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602016059445

Country of ref document: DE

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 1402987

Country of ref document: AT

Kind code of ref document: T

Effective date: 20210715

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG9D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210916

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 1402987

Country of ref document: AT

Kind code of ref document: T

Effective date: 20210616

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20210616

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210916

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210917

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20211018

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602016059445

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

26N No opposition filed

Effective date: 20220317

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20211231

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20211208

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20211208

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20211231

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20211231

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20211231

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20161208

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20231130

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20231212

Year of fee payment: 8

Ref country code: DE

Payment date: 20231205

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20210616