EP1695335A1 - Method for synthesizing acoustic spatialization - Google Patents

Method for synthesizing acoustic spatialization

Info

Publication number
EP1695335A1
EP1695335A1 EP03819273A EP03819273A EP1695335A1 EP 1695335 A1 EP1695335 A1 EP 1695335A1 EP 03819273 A EP03819273 A EP 03819273A EP 03819273 A EP03819273 A EP 03819273A EP 1695335 A1 EP1695335 A1 EP 1695335A1
Authority
EP
European Patent Office
Prior art keywords
sound
spatialization
synthesis
source
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP03819273A
Other languages
German (de)
French (fr)
Inventor
Rozenn Nicol
David Virette
Marc Emerit
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1695335A1 publication Critical patent/EP1695335A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
    • G10H2250/111Impulse response, i.e. filters defined or specifed by their temporal impulse response features, e.g. for echo or reverberation applications

Definitions

  • the present invention relates to the synthesis of audio signals, in particular in music editing applications, video games, or even ringtones for mobile phones.
  • the invention relates to both sound synthesis techniques and three-dimensional (or "3D") sound techniques.
  • a first family of criteria concerns the use of the following parameters: 1 intuitiveness, - perceptibility, physical sense and behavior.
  • the quality and diversity of the sounds that are produced determine the second family of criteria, according to the following parameters: robustness of the identity of the sound, extent of the sound palette, and with a preliminary analysis phase, if necessary.
  • the third family of criteria deals with implementation solutions, with parameters such as: the cost of calculations, the memory required, - control, latency and multitasking.
  • the principle of wave table synthesis consists of taking one or more signal periods (corresponding to a recording or a synthetic signal), then applying treatments to it (with looping, modification of the fundamental frequency, ete ) and finally to apply the above-mentioned ADSR envelope to it.
  • This very simple synthesis method makes it possible to obtain satisfactory results.
  • a technique similar to the synthesis by wave table is that called "sampling" which differs from it however by the fact that it uses natural signal recordings instead of synthetic signals.
  • FM synthesis Another example of simple synthesis is synthesis by frequency modulation, better known under the name of "FM synthesis".
  • a frequency modulation is carried out for which the frequency of the modulant and the modulated (f m and f c ) is in the audible range (20 to 20,000 Hz). It is also indicated that the respective amplitudes of the harmonics with respect to the fundamental mode can be chosen to define a timbre of the sound.
  • the present invention relates to the combination of sound synthesis with the spatialization of the sounds resulting from this synthesis. We recall below some known sound spatialization techniques.
  • the methods based on a physical approach generally consist in reproducing the sound field 1 identical to the original sound field within an area of finite dimensions. These processes do not take into account a priori the perceptual properties of the auditory system, in particular in terms of auditory localization. With such systems, the listener is thus immersed in a field identical in every way to that which he would have perceived in the presence of real sources and he is therefore able to locate the sound sources as in a real listening situation.
  • the methods based on a psycho-acoustic approach rather seek to take advantage of the 3D sound perception mechanisms in order to simplify the process of sound reproduction. For example, instead of reproducing the sound field over an entire area, one can be content to reproduce it only at the level of the two ears of the listener. Similarly, one can impose a faithful reproduction of the sound field on only a fraction of the spectrum, in order to relax the constraint on the rest of the spectrum.
  • the objective is to take into account the perception mechanisms of the auditory system in order to identify the minimum amount of information to reproduce, to obtain a psycho-acoustically identical field to the original field, ie such as the ear, due to the limitation of its performance, is unable to distinguish them from each other.
  • holophony is typically a technique of physical reconstruction of a sound field, since it constitutes the acoustic equivalent of holography. It consists of reproducing a sound field from a recording on a surface (hollow sphere, or other). Further details are given in: “spatial sound removal over a large area: Application to telepresence", R. Nicol; Thesis from the University of Maine, 1999; the surround technique (from English “ambisonic”), which is another example of physical reconstruction of the acoustic field, using a decomposition of the sound field on the basis of proper functions, called “spherical harmonixju.es”.
  • stereophony which exploits differences in time or intensity to position the sound sources between two speakers, based on the interaural differences in time and intensity which define the criteria auditory of hearing localization in a horizontal plane
  • - binaural techniques which aim to reconstruct the sound field only at the level of the listener's ears, so that their eardrums perceive a sound field identical to that which the real sources would have induced.
  • Each technique is characterized by a specific method of encoding and decoding spatialization information in an adequate format of audio signals.
  • the different sound spatialization techniques are also distinguished by the extent of spatialization that they provide.
  • 3D spatialization such as surround encoding, holophony, binaural or transaural synthesis (which is a transposition of the binaural technique on two distant speakers) includes all directions of space.
  • two-dimensional (“2D”) spatialization such as stereophony, or a 2D restriction of holophony or ambisonic technique, is limited to the horizontal plane.
  • the different techniques are distinguished by their possible broadcasting systems, for example: - broadcasting on headphones for binaural techniques, or stereophony, - broadcasting on two speakers, in particular for stereophony or for a transaural system, - or a broadcast on a network with more than two speakers, for an extended listening area (in particular for multi-listener applications), in holophony, or in surround sound reproduction.
  • a wide range of current devices offers possibilities for sound synthesis. These devices range from musical instruments (such as a keyboard, a rhythm machine, or the like), mobile terminals, for example of the PDA type (for "Personal Digital Assistant"), or even computers on which are installed music editing software, or effects pedals with a MIDI interface.
  • musical instruments such as a keyboard, a rhythm machine, or the like
  • mobile terminals for example of the PDA type (for "Personal Digital Assistant")
  • computers on which are installed music editing software, or effects pedals with a MIDI interface or even computers on which are installed music editing software, or effects pedals with a MIDI interface.
  • Sound reproduction systems headphones, stereo speakers or multi-speaker systems
  • the quality of sound synthesis systems are very varied, in particular according to the more or less limited computing capacities and according to the environments of use of such systems.
  • Systems are currently known capable of spatializing previously synthesized sounds, in particular by cascading a sound synthesis engine and a spatialization engine. Spatialization is then applied to the synthesizer output signal (on a mono channel or two stereo channels) after mixing the different sources. We thus know of implementations of this solution so as to spatialize the sounds coming from a synthesizer.
  • 3D rendering engines which can be applied to any type of digital audio signals, whether synthetic or not.
  • the different musical instruments of a MIDI score classic sound synthesis format
  • One of the aims of the present invention is a sound synthesis method offering the possibility of directly spatializing synthetic sounds.
  • an object of the present invention is to associate with sound synthesis spatialization tools of satisfactory quality.
  • this association combines the complexity due to sound synthesis with that of spatialization, which makes it difficult to implement spatialized sound synthesis on terminals with high constraints (that is to say computing power and with relatively limited memory size).
  • Another object of the present invention aims to optimize the complexity of the spatialization of synthetic sounds according to the capabilities of the terminal.
  • the present invention firstly proposes a method of sound synthesis and spatialization, in which a synthetic sound to be generated is characterized by the nature of a virtual sound source and by its position relative to a chosen origin.
  • the method within the meaning of the invention comprises a joint step consisting in determining parameters including at least one gain, in order to define at the same time:
  • the present invention makes it possible to integrate a sound spatialization technique with a sound synthesis technique, so as to obtain a global processing using common parameters for the implementation of the two techniques.
  • the spatialization of the virtual source takes place in a surround context.
  • the method then includes a step of calculating gains associated with surround components in a base of spherical harmonics.
  • the synthetic sound is intended to be reproduced in a holophonic, or binaural, or transaural context, on a plurality of reproduction channels.
  • this "plurality of restitution channels" can as well relate to two restitution tracks, in binaural or transaural context, or even more than two restitution tracks, for example in holophonic context.
  • a delay between restitution channels is also determined, to define at the same time:
  • the nature of the virtual source is configured at least by a temporal variation of sound intensity, over a chosen duration and including an instant of triggering of the sound.
  • this time variation can advantageously be represented by an ADSR envelope as described above.
  • this variation comprises at least: - an instrumental attack phase
  • the spatialization of the virtual source is preferably carried out by a binaural synthesis based on a linear decomposition of transfer functions, these transfer functions being expressed by a linear combination of terms depending on the frequency of the sound and weighted by terms depending on sound direction. This measurement proves to be advantageous in particular when the position of the virtual source is liable to change over time and / or when several virtual sources are to be spatialized.
  • the direction is defined by at least one azimuthal angle (for spatialization in a single plane) and, preferably, by an azimuthal angle and an elevation angle (for three-dimensional spatialization).
  • the position of the virtual source is advantageously configured at least by: several filterings, functions of the sound frequency, several weighting gains each associated with a filtering, and - a delay by "left" and "right” channel.
  • the nature of the virtual source is parameterized at least by a sound timbre, by associating selected relative sound intensities with harmonics of a frequency corresponding to a pitch of the sound.
  • this modeling is advantageously carried out by an FM synthesis, described above.
  • a sound synthesis engine capable of generating spatialized sounds, with respect to a predetermined origin.
  • the synthesis engine is implemented in the context of musical editing, and a man / machine interface is also provided for placing the virtual source at a chosen position relative to the predetermined origin.
  • each source is assigned to a respective position, preferably using a linear decomposition of the transfer functions in binaural context, as indicated above.
  • the present invention also relates to a module for generating synthetic sounds, comprising in particular a processor, and comprising in particular a working memory capable of storing instructions for the implementation of the above method, so as to simultaneously process a synthesis and a spatialization of the sound, according to one of the advantages which the present invention provides.
  • the present invention also relates to a computer program product, stored in a memory of a central unit or of a terminal, in particular mobile, or on a removable medium suitable for cooperating with a reader of said central unit, and comprising instructions for implementing the above process.
  • FIG. 1 schematically illustrates positions of sound sources i and positions of microphones j in three-dimensional space
  • FIG. 2 schematically represents a simultaneous spatialization and sound synthesis processing, within the meaning of the invention
  • FIG. 3 schematically represents the application of HRTFs transfer functions to Si signals for spatialization in binaural or transaural synthesis
  • Figure 4 schematically represents the application of a pair of delays (a delay by left or right channel) and several gains (one gain per directional filter) in binaural or transaural synthesis, using the linear decomposition of HRTFs
  • - Figure 5 schematically represents the integration of spatialization processing, within a plurality of synthetic sound generators, for spatialization and sound synthesis in a single step
  • - Figure 6 represents an ADSR envelope model in sound synthesis
  • FIG. 7 shows schematically a sound generator in FM synthesis.
  • the present invention proposes to integrate a technique of spatialization of sound with a technique of sound synthesis so as to obtain a global, optimized processing, of spatialized sound synthesis.
  • the pooling of certain sound synthesis operations, on the one hand, and sound spatialization, on the other hand, is particularly interesting.
  • a sound synthesis engine (typically a “synthesizer”) has the role of generating one or more synthetic signals, on the basis of a sound synthesis model, a model which is controlled from a set of parameters, hereinafter called "synthesis parameters".
  • the synthetic signals generated by the synthesis engine can correspond to distinct sound sources (which are, for example, the different instruments of a score) or can be associated with the same source, for example in the case of different notes of the same instrument.
  • the terms "tone generator” designate a module for producing a musical note.
  • a synthesizer is composed of a set of tone generators.
  • a sound spatialization tool is a tool which admits a given number of audio signals as input, these signals being representative of sound sources and, in principle, free of spatialization processing. It is in fact indicated that, if these signals have already undergone spatial processing, this prior processing is not taken into account here.
  • the role of the spatialization tool is to process the input signals, according to a diagram which is specific to the spatialization technique chosen, to generate a given number of output signals which define the spatialized signals representative of the sound scene in format of spatialization chosen.
  • the nature and the complexity of the spatialization processing obviously depend on the technique chosen, depending on whether one considers a rendering in stereophonic, binaural, holophonic or ambiophonic format.
  • the encoding corresponds to the sound recording of the sound field generated by the different sources at a given time.
  • This "virtual" sound recording system can be more or less complex depending on the sound spatialization technique used. So, we simulate a sound recording by a number more or less important microphones with different positions and directivities.
  • the encoding is reduced, to calculate the contribution of a sound source, at least to the application of gains and, more often than not, delays (typically in holophony or in binaural or transaural synthesis) to different copies of the signal from the source. There is one gain (and, if necessary, a delay) per source for each virtual microphone. This gain (and delay) depends on the position of the source relative to the microphone. If a virtual sound pickup system provided with K microphones is provided, there are K signals output from the encoding system.
  • the signal Ej represents the sum of the contributions of all the sound sources on the microphone j.
  • the sound emitted by the source i, - Ej the signal encoded at the output of the microphone j
  • Gji the attenuation of the sound Si due to the distance between the source i and the microphone j, to the directivity of the source, at the obstacles between the source i and the microphone j, and finally at the very directivity of the microphone j
  • tji the delay of the sound Si due to the propagation from the source i towards the microphone j
  • - x, y, z the Cartesian coordinates of the position of the source, assumed to be variable over time.
  • the gains and the delays depend on the position of the source i relative to the microphone j at the instant t.
  • the encoding is therefore a representation of the sound field generated by the sound sources at this instant t. It is simply recalled here that in a surround context (consisting of a decomposition of the field in a base of spherical harmonics), the delay does not really intervene in the spatialization processing.
  • the image sources In the case where the sound sources are in a room, the image sources must be added. These are the images of the sound sources reflected by the walls of the room. Image sources, in turn reflecting on the walls, generate image sources of higher order.
  • L therefore no longer represents the number of sources, but the number of sources to which the number of image sources is added.
  • the number of image sources is infinite, which is why, in practice, we keep only audible image sources and whose direction we perceive. Image sources that are audible but whose direction is no longer perceived are grouped together and their contribution is synthesized using an artificial reverberator.
  • the decoding step aims to restore the signals E j encoded on a given device, comprising a predetermined number T of sound transducers (headphones, loudspeaker, 5/069272
  • This step consists in applying a TxK matrix of filters to the encoded signals.
  • This matrix depends only on the rendering device, and not on the sound sources. Depending on the encoding and decoding technique chosen, this matrix can be very simple (for example identity) or very complex.
  • a first step ST constitutes a start-up step during which a user defines sound commands Ci, C 2 , ..., C N to be synthesized and spatialized (for example by providing a man / machine interface to define a musical note , an instrument to play this note and a position of this instrument playing this note in space).
  • the spatialization information can be transmitted in a stream parallel to the synthetic audio stream, or even directly in the synthetic audio stream.
  • a sound can be defined at least by: the frequency of its fundamental mode, characterizing the pitch, its duration, and its intensity. So, in the example of a sensitive keyboard synthesizer, if the user plays a loud note,
  • the intensity associated with the Ci command will be greater than the intensity associated with a piano note. More particularly, it is indicated that the intensity parameter can, in general, take into account the spatialization gain gi in a context of spatialization processing, as will be seen below, according to one of the major advantages which it provides. the present invention.
  • a sound is, of course, also defined by its triggering instant.
  • the spatialization technique chosen is not a surround treatment, but rather binaural or transaural synthesis, holophony, or the like, the spatialization delay ⁇ ⁇ (which will be described in detail below) can make it possible to control in addition the instant of triggering of the sound.
  • a sound synthesis and spatialization device Dl comprises: - a synthesis module proper Ml, capable of defining, as a function of a command Ci, at least the frequency fi and the duration Di of the sound i associated with this command Ci, and a spatialization module M2, capable of defining at least the gain gi (in surround context in particular) and, moreover, the spatialization delay Ti, in holophony or binaural or transaural synthesis.
  • these last two parameters g ⁇ and Xi can be used jointly for the spatialization, but also for the synthesis of the sound itself, when a sound intensity (or a pan in stereophony) and a triggering moment are defined. sound.
  • the two modules M1 and M2 are grouped together in the same module making it possible to define in a single step all the parameters of the signal if to be synthesized and spatialized: its frequency, its duration, its gain in spatialization, its delay in spatialization, in particular.
  • this module M3 performs a linear combination on the signals si which in particular involves the spatialization gains, as will be seen below.
  • This encoding module M3 can also apply compression encoding to the signals Si to prepare a transmission of the encoded data to a restitution device D2.
  • this encoding module M3 is, in a preferred embodiment, directly integrated into the modules Ml and M2 above, so as to create directly, within a single module Dl which would simply consist of a motor sound synthesis and spatialization, the signals Ej as if they were delivered by microphones j, as explained above.
  • the sound synthesis and spatialization engine Dl produces, at the output, K sound signals Ej representing the encoding of the virtual sound field that the different synthetic sources would have created if they had been real.
  • K sound signals Ej representing the encoding of the virtual sound field that the different synthetic sources would have created if they had been real.
  • this rendering device may also be made to add (or "mix") to this sound scene other scenes coming from an actual sound recording or from the output of other sound processing modules, provided that they are in the same spatialization format.
  • the mixing of these different scenes then passes through a single and unique decoding system M '3, provided at the input of a reproduction device D2.
  • this rendering device In the example shown in Figure 2, this rendering device
  • D2 includes two channels, here for a binaural reproduction (reproduction on stereo headphones) or transaural (reproduction on two speakers) on two channels L and R.
  • a preferred embodiment of the invention is described below, here applied to a mobile terminal and in the context of sound spatialization by binaural synthesis.
  • the preferred sound source positioning technique is then synthesis binaural. It consists, for each sound source, in filtering the monophonic signal by acoustic transfer functions called HRTFs (for "Head Related Transfer Functions"), which model the transformations generated by the torso, the head and the flag of the listener to the signal from a sound source. For each position in space, we can measure a pair of these functions (a function for the right ear, a function for the left ear). The HRTFs are therefore functions of the position [ ⁇ , ⁇ ] (where ⁇ represents the azimuth and ⁇ the elevation) and the sound frequency f.
  • HRTFs for "Head Related Transfer Functions”
  • Another binaural synthesis corresponds to an implementation which proves to be more effective in particular when several sound sources are spatialized, or in the case where the sound sources change position over time. In this case, we speak of "dynamic binaural synthesis”.
  • the positions of the sound sources are not expected to change over time.
  • these filters being in the form of filters, either with finite impulse response (FIR), or with infinite impulse response (IIR), problems of discontinuities of the left and right output signals appear, causing audible "clicks" .
  • FIR finite impulse response
  • IIR infinite impulse response
  • the technical solution used to overcome this problem is to make, rotate two sets of binaural filters in parallel. The first game simulates the first position [ ⁇ l, ⁇ l] at an instant tl, the second the second position [ ⁇ 2, ⁇ 2] at an instant t2.
  • the signal giving the illusion of a displacement between the first and second positions is then obtained by a crossfade of the left and right resulting from the first and second filtering process.
  • the complexity of the sound source positioning system is then multiplied by two compared to the static case.
  • the number of filters to be implemented is proportional to the numbers of sources to be spatialized.
  • N sound sources are considered, the number of filters required is then 2. N for a static binaural synthesis and 4 .N for a dynamic binaural synthesis.
  • the linear decomposition of HRTFs aims to separate the spatial and frequency dependencies of the transfer functions. Beforehand, the excess phase of the HRTFs is extracted, then modeled in the form of a pure delay ⁇ . The linear decomposition then applies to the minimum phase component of the HRTFs.
  • the implementation scheme of binaural synthesis based on a linear decomposition of HRTFs is illustrated in Figure 4.
  • the signal from each source is then decomposed into P channels corresponding to the P basic vectors of the linear decomposition.
  • To each of these channels are then applied the directional coefficients Cj ( ⁇ ⁇ , ⁇ i) (denoted C) resulting from the linear decomposition of HRTFs
  • the signals from the N sources are then added (step 43) then filtered (step 44) by the filter Lj (f) corresponding to the j x th base vector.
  • steps 41, 42 and 43 may correspond to the spatial encoding proper, for binaural synthesis, while steps 44 and 45 may correspond to a spatial decoding before restitution, which the module M '3 of Figure 2, as described above.
  • the signals coming from the summers after step 43 of FIG. 4 can be conveyed via a communication network, for spatial decoding and restitution with a mobile terminal, in steps 44 and 45 described above.
  • the delays ⁇ and the gains C and D which constitute the spatialization parameters and are specific to each sound source as a function of its position, can therefore be dissociated from the directional filters L (f) in setting work of binaural synthesis based on a linear decomposition of HRTFs. Consequently, the directional filters are common to the N sources, regardless of their position, their number or their possible displacement.
  • the application of the spatialization parameters then represents the spatial encoding, properly speaking, of the signals relating to the sources themselves, while the directional filters carry out the effective processing of spatial decoding, with a view to restitution, which no longer depends on the position of the sources, but of the sound frequency.
  • this dissociation between the spatialization parameters and the directional filters is advantageously exploited by integrating the application of the spatialization delay and gain in the sound synthesizer.
  • Sound synthesis and spatial encoding (delays and gains) controlled by the azimuth and the elevation are thus carried out simultaneously within the same module such as a sound generator, for each sound signal (or note, in musical edition) to be generated (step 51).
  • the spatial decoding is then taken care of by the directional filters Li (f), as indicated above (step 52).
  • FIG. 6 represents the main parameters of an ADSR envelope of the aforementioned type, commonly used in different sound synthesis techniques.
  • FIG. 6 represents the temporal variation of the envelope of a synthesized sound signal, for example a note played on a piano, with: an attack parameter, modeled by an ascending ramp 61, corresponding for example to the duration of a hammer hammering against a piano string, - a decline parameter, modeled by a descending ramp 62, with strong decay, corresponding for example to the duration of a hammer release from a string piano, - a support parameter (free vibration), modeled by a slightly descending ramp 63, due to natural acoustic damping, corresponding for example to the duration of a sound of a pressed piano key, and a parameter release, modeled by a descending ramp 64, corresponding for example to the rapid acoustic damping produced by
  • the parameters of the ADSR envelope are defined before performing the filters provided for the spatialization processing, due to the time variables involved.
  • the maximum of the sound amplitude (in arbitrary units in FIG. 6) can be defined by the spatialization processing, in correspondence then to the gains dj and Dij mentioned above, for each left and right channel.
  • the instant of triggering of the sound (start of the ramp 61) can be defined through the delays ⁇ L i and ⁇ R i.
  • FM synthesis a simple operator of sound synthesis by frequency modulation
  • a carrier frequency f c typically the frequency of the fundamental mode
  • OSCl uses one or more oscillators OSCl to define one or more harmonics f m (corresponding in principle to frequencies multiple of the carrier frequency f c ), with which are associated relative intensities I m .
  • the intensities I m compared to the intensity of the fundamental mode, are higher for a metallic sound (such as that of a new guitar string).
  • FM synthesis makes it possible to define the timbre of a synthesized sound.
  • the signals (sinusoids) coming from the oscillator (s) OSCl are added to the signal drawn from the carrier frequency f c by the module AD, which delivers a signal to an output oscillator OSC2 which receives the amplitude A c of the sound with reference. at the carrier frequency f c .
  • this setpoint A c can be directly defined by the spatialization processing, through the gains C and D (in binaural synthesis), as we have seen above.
  • the oscillator OSC2 delivers a signal S'i, to which an ADSR envelope of the type shown in FIG.
  • the present invention makes it possible to directly implement both the spatialization steps and sound synthesis. It will be understood in particular that any sound synthesis processing, requiring the definition of an intensity (and, where appropriate, an instant of triggering of the sound), can be carried out in conjunction with a spatialization processing, proposing a gain (and, the delay, if applicable) by return.
  • a sound synthesizer works by reading a score which gathers information on the instruments to be synthesized, the moments when the sounds should be played, the pitch of these sounds, their strength, etc.
  • a sound generator is associated with each sound, as indicated above with reference to FIG. 5.
  • the same source plays several notes simultaneously. These notes, which come from the same source, are spatialized at the same position and therefore with the same parameters. It is therefore preferred to group the spatialization processing for the sound generators associated with the same source. Under these conditions, the signals associated with the notes from the same source are preferably summed beforehand so as to apply the spatialization processing globally to the resulting signal, which, on the one hand, advantageously reduces the cost of implementation. and, on the other hand, advantageously guarantees the coherence of the sound scene.
  • gains and delays can be applied by taking advantage of the synthesizer structure.
  • the delays (left channel and right channel) of spatialization are implemented in the form of delay lines.
  • the delays are managed by the instants of triggering of the sound generators in agreement with the partition.
  • the two previous approaches delay line and control of the triggering instant
  • the two previous approaches are combined in order to optimize the processing.
  • the balance (or "pan") parameter which is typically associated with the stereophonic system, no longer needs to be. It is therefore possible to delete the gains associated with the balance.
  • the sound generator volume parameter can be applied at the level of the different gains corresponding to the spatial encoding, as described above.
  • the present invention makes it possible to apply sound spatialization, source by source, the fact that the spatialization tool is integrated into the heart of the sound synthesis engine. This is not the case if we proceed on the contrary by simply cascading the synthesis engine and the spatialization tool. In this case, in fact, it is recalled that the spatialization can only be applied globally to the entire sound scene.
  • the sound synthesis and spatialization tools can be judiciously combined, in order to achieve an optimized implementation of a spatialized sound synthesis engine, with, in particular, an optimization of the combination of synthesis and spatialization operations, taking into account in particular at least one gain and / or a spatialization delay, or even a spatialization filter.
  • the spatialization parameters are advantageously taken into account by simple modification of the synthesis parameters, without modification of the synthesis model itself. -even.
  • a spatialized sound synthesis based on different possible spatialization techniques, can be obtained.
  • These spatialization techniques can be of variable complexity and performance but overall offer a much richer and more complete spatialization than stereophony, with in particular a natural and particularly immersive rendering of the sound scene.
  • the sound spatialization within the meaning of the invention retains the full potential of three-dimensional sound rendering, in particular in terms of immersion, with true 3D spatialization.

Abstract

The invention relates to the synthesis and the joint spatialization of sounds emitted by virtual sources. According to the invention, a step (ETA) is provided that consists of determining parameters including at least one gain (gi) for defining, at the same time, a loudness characterizing the nature of the virtual source and the position of the source relative to a predetermined origin.

Description

Procède de synthèse et de spatialisation sonores Sound synthesis and spatialization
La présente invention concerne la synthèse de signaux audio, notamment dans des applications d'édition musicale, de jeux vidéo, ou encore de sonneries pour des téléphones mobiles .The present invention relates to the synthesis of audio signals, in particular in music editing applications, video games, or even ringtones for mobile phones.
Plus particulièrement, l'invention concerne à la fois des techniques de synthèse sonore et des techniques du son tridimensionnel (ou "3D") .More particularly, the invention relates to both sound synthesis techniques and three-dimensional (or "3D") sound techniques.
Pour offrir des services innovants, basés sur la synthèse sonore (pour créer des sonneries, ou encore dans le cadre de jeux sur téléphones mobiles) , on cherche actuellement à enrichir les méthodes de synthèse sonore. Cependant, les terminaux étant limités en termes de mémoire et de puissance de calcul, il est préférable de développer des procédés à la fois efficaces et économes en complexité.To offer innovative services, based on sound synthesis (to create ringtones, or even in the context of games on mobile phones), we are currently seeking to enrich sound synthesis methods. However, as the terminals are limited in terms of memory and computing power, it is preferable to develop methods which are both efficient and economical in complexity.
* Les techniques de synthèse sonore* Sound synthesis techniques
De nombreuses techniques de synthèse sonore ont été développées dans les dernières décennies. On indique qu'il n'existe pas, en réalité, de technique universelle capable de générer n'importe quel son. En effet, les modèles de production qui ont été établis jusqu'à présent ont chacun leurs restrictions. Une taxinomie établie par Julius Smith dans :Many sound synthesis techniques have been developed in the past decades. It is pointed out that, in reality, there is no universal technique capable of generating any sound. Indeed, the production models that have been established so far each have their restrictions. A taxonomy established by Julius Smith in:
"Viewpoints on the History of Digi tal Synthesis " , Smith J.O; Keynote paper, Proc . Int. Comp. usic Conf . 1991, Montréal, est présentée ci-dessous. Les techniques sont catégorisées en quatre groupes : - les techniques calculâtoires (FM pour "freguency modulation" , " waveshaping" pour le travail de formes d'ondes, ete) , le " sampling" et autres traitements d'enregistrements (par exemple une synthèse par table d'onde, ete), les techniques fondées sur des modèles spectraux (tels que la synthèse additive, ou encore le " source- fil tre" , ete) , les techniques fondées sur des modèles physiques (synthèse modale, par guides d'onde,...) ."Viewpoints on the History of Digi tal Synthesis", Smith JO; Keynote paper, Proc. Int. Comp. usic Conf. 1991, Montreal, is shown below. The techniques are categorized into four groups: - computational techniques (FM for "freguency modulation", "waveshaping" for working with waveforms, summer), "sampling" and other processing of recordings (for example a synthesis by wave table, ete), techniques based on spectral models (such as additive synthesis, or even the "source-filter", ete), techniques based on physical models (modal synthesis, by 'wave,...) .
Certaines techniques, selon leur usage, peuvent tomber dans plusieurs catégories.Certain techniques, depending on their use, may fall into more than one category.
Le choix de la technique de synthèse adaptée à un terminal ou à un système de rendu peut se faire en fonction de trois familles de critères, notamment des critères du type de ceux proposés par le laboratoire d'acoustique et de traitement du signal de l'université d'Helsinki dans le cadre d'une évaluation des différentes méthodes de synthèse: ".Evaluation of Modem Sound Synthesis Methods " , Tolonen T., Vâlimâki V., Karjalainen M; Report 48, Espoo 1998.The choice of synthesis technique suitable for a terminal or a rendering system can be made according to three families of criteria, in particular criteria of the type proposed by the acoustics and signal processing laboratory. University of Helsinki in the context of an evaluation of the different synthesis methods: ".Evaluation of Modem Sound Synthesis Methods", Tolonen T., Vâlimâki V., Karjalainen M; Report 48, Espoo 1998.
Une première famille de critères concerne l'emploi des paramètres suivants : 1 ' intuitivité, - la perceptibilité, le sens physique et le comportement .A first family of criteria concerns the use of the following parameters: 1 intuitiveness, - perceptibility, physical sense and behavior.
La qualité et la diversité des sons qui sont produits déterminent la seconde famille de critères, selon les paramètres suivants : robustesse de l'identité du son, étendue de la palette sonore, et avec une phase préliminaire d'analyse, le cas échéant .The quality and diversity of the sounds that are produced determine the second family of criteria, according to the following parameters: robustness of the identity of the sound, extent of the sound palette, and with a preliminary analysis phase, if necessary.
Enfin, la troisième famille de critères traite des solutions d' implémentation, avec des paramètres tels que : le coût des calculs, la mémoire nécessaire, - le contrôle, la latence et les traitements multitâches .Finally, the third family of criteria deals with implementation solutions, with parameters such as: the cost of calculations, the memory required, - control, latency and multitasking.
Il est apparu récemment que les techniques reposant sur une modélisation spectrale (avec reproduction de l'image spectrale perçue par un auditeur) ou une modélisation physique (avec simulation de l'origine physique du son) sont les plus satisfaisantes et présentent un large potentiel pour les systèmes futurs.It has recently appeared that techniques based on spectral modeling (with reproduction of the spectral image perceived by a listener) or physical modeling (with simulation of the physical origin of sound) are the most satisfactory and have great potential for future systems.
Cependant, actuellement, les méthodes basées sur la synthèse par table d'ondes sont les plus répandues. Le principe de cette technique est le suivant. Tout d'abord, tous les signaux audio naturels peuvent se décomposer en quatre phases : attaque, déclin, soutien et relâchement, regroupées généralement sous le terme " d ' enveloppe ADSR" (de l'anglais: Attack, Decay, Sustain, Release) qui' sera décrite plus loin.However, currently, the methods based on the synthesis by wave table are the most widespread. The principle of this technique is as follows. First of all, all natural audio signals can be broken down into four phases: attack, decline, support and release, generally grouped under the term "ADSR envelope" (English: Attack, Decay, Sustain, Release) which 'will be described later.
Le principe de la synthèse par table d'ondes consiste à prendre une ou plusieurs périodes de signal (correspondant à un enregistrement ou à un signal synthétique) , puis à lui appliquer des traitements (avec mise en boucle, modification de la fréquence fondamentale, ete) et enfin à lui appliquer l'enveloppe ADSR précitée. Cette méthode de synthèse très simple permet d'obtenir des résultats satisfaisants. Une technique voisine de la synthèse par table d'ondes est celle dite de "sampling" qui s'en distingue toutefois par le fait qu'elle utilise des enregistrements de signaux naturels à la place de signaux synthétiques .The principle of wave table synthesis consists of taking one or more signal periods (corresponding to a recording or a synthetic signal), then applying treatments to it (with looping, modification of the fundamental frequency, ete ) and finally to apply the above-mentioned ADSR envelope to it. This very simple synthesis method makes it possible to obtain satisfactory results. A technique similar to the synthesis by wave table is that called "sampling" which differs from it however by the fact that it uses natural signal recordings instead of synthetic signals.
Un autre exemple de synthèse simple est la synthèse par modulation de fréquence, plus connue sous le nom de "synthèse FM". Ici, on effectue une modulation de fréquence pour laquelle la fréquence du modulant et du modulé (fm et fc) se trouve dans le domaine audible (20 à 20000 Hz) . On indique aussi que les amplitudes respectives des harmoniques par rapport au mode fondamental peuvent être choisies pour définir un timbre du son.Another example of simple synthesis is synthesis by frequency modulation, better known under the name of "FM synthesis". Here, a frequency modulation is carried out for which the frequency of the modulant and the modulated (f m and f c ) is in the audible range (20 to 20,000 Hz). It is also indicated that the respective amplitudes of the harmonics with respect to the fundamental mode can be chosen to define a timbre of the sound.
Il existe différents formats de transmission de 1 ' information destinée aux synthétiseurs sonores . Tout d'abord, il est possible de transmettre une partition musicale aux formats MIDI ou selon la norme MPEG4- Structured' Audio pour qu'elle soit ensuite synthétisée par la technique de synthèse sonore choisie. Dans certains systèmes, il est aussi possible de transmettre des informations sur les instruments à utiliser par le synthétiseur, par exemple en utilisant le format DLS qui permet de transmettre les informations nécessaires à la synthèse de sons par table d'ondes. De même, des langages algorithmiques de type " CSound" ou "MPEG-4 SAOL" permettent de représenter les sons en temps que technique de synthèse sonore .There are different formats for transmitting information to sound synthesizers. First of all, it is possible to transmit a musical score in MIDI formats or according to the MPEG4-Structured 'Audio standard so that it can then be synthesized by the chosen sound synthesis technique. In some systems, it is also possible to transmit information on the instruments to be used by the synthesizer, for example by using the DLS format which makes it possible to transmit the information necessary for the synthesis of sounds by wave table. Similarly, algorithmic languages of the "CSound" or "MPEG-4 SAOL" type make it possible to represent sounds as a sound synthesis technique.
La présente invention concerne la combinaison de la synthèse sonore avec la spatialisation des sons issus de cette synthèse. On rappelle ci-après quelques techniques de spatialisation sonore connues.The present invention relates to the combination of sound synthesis with the spatialization of the sounds resulting from this synthesis. We recall below some known sound spatialization techniques.
* Les techniques de spatialisation sonore* Sound spatialization techniques
Il s'agit de procédés de traitement du signal audio appliqués à la simulation de phénomènes acoustiques et psycho-acoustiques. Ces techniques visent la génération de signaux à diffuser sur haut-parleurs ou sur écouteurs, afin de donner à l'auditeur l'illusion auditive de sources sonores placées à une position prédéterminée autour de lui. Elles trouvent une application avantageuse dans la création de sources et d'images sonores virtuelles.These are audio signal processing methods applied to the simulation of acoustic and psycho-acoustic phenomena. These techniques aim at the generation of signals to be broadcast on loudspeakers or on headphones, in order to give the listener the hearing illusion of sound sources placed at a predetermined position around him. They find an advantageous application in the creation of virtual sound sources and images.
Parmi les techniques de spatialisation sonore, on distingue principalement deux catégories.Among the sound spatialization techniques, there are mainly two categories.
Les procédés basés sur une approche physique consistent généralement à reproduire le champ sonore à 1 ' identique du champ acoustique original au sein d'une zone de dimensions finies. Ces procédés ne prennent pas en compte a priori les propriétés perceptives du système auditif, notamment en termes de localisation auditive. Avec de tels systèmes, l'auditeur est ainsi plongé dans un champ en tout point identique à celui qu'il aurait perçu en présence des sources réelles et il est donc capable de localiser les sources sonores comme dans une situation d'écoute réelle.The methods based on a physical approach generally consist in reproducing the sound field 1 identical to the original sound field within an area of finite dimensions. These processes do not take into account a priori the perceptual properties of the auditory system, in particular in terms of auditory localization. With such systems, the listener is thus immersed in a field identical in every way to that which he would have perceived in the presence of real sources and he is therefore able to locate the sound sources as in a real listening situation.
Les procédés basés sur une approche psycho-acoustique cherchent plutôt à tirer parti des mécanismes de perception sonore 3D afin de simplifier le processus de reproduction sonore. Par exemple, au lieu de reproduire le champ sonore sur toute une zone, on peut se contenter de le reproduire uniquement au niveau des deux oreilles de l'auditeur. De même, on peut imposer une reproduction fidèle du champ sonore sur une fraction du spectre seulement, afin de relâcher la contrainte sur le reste du spectre. L'objectif est de tenir compte des mécanismes de perception du système auditif afin d'identifier la quantité minimale d'information à reproduire, pour obtenir un champ psycho-acoustiquement identique au champ original, c'est à dire tel que l'oreille, en raison de la limitation de ses performances, soit incapable de les distinguer l'un de l'autre.The methods based on a psycho-acoustic approach rather seek to take advantage of the 3D sound perception mechanisms in order to simplify the process of sound reproduction. For example, instead of reproducing the sound field over an entire area, one can be content to reproduce it only at the level of the two ears of the listener. Similarly, one can impose a faithful reproduction of the sound field on only a fraction of the spectrum, in order to relax the constraint on the rest of the spectrum. The objective is to take into account the perception mechanisms of the auditory system in order to identify the minimum amount of information to reproduce, to obtain a psycho-acoustically identical field to the original field, ie such as the ear, due to the limitation of its performance, is unable to distinguish them from each other.
Dans la première catégorie, différentes techniques ont été identifiées : 1 'holophonie, qui est typiquement une technique de reconstruction physique d'un champ sonore, puisqu'elle constitue l'équivalent acoustique de l'holographie. Elle consiste à reproduire un champ sonore à partir d'un enregistrement sur une surface (sphère creuse, ou autre) . De plus amples détails sont donnés dans : "destitution sonore spatialisêe sur une zone étendue: Application à la têlêprêsence " , R. Nicol; Thèse de l'Université du Maine, 1999 ; la technique ambiophonique (de l'anglais " ambisonic" ) , qui est un autre exemple de reconstruction physique du champ acoustique, utilisant une décomposition du champ sonore sur une base de fonctions propres, appelées "harmonixju.es sphériques" .In the first category, different techniques have been identified: holophony, which is typically a technique of physical reconstruction of a sound field, since it constitutes the acoustic equivalent of holography. It consists of reproducing a sound field from a recording on a surface (hollow sphere, or other). Further details are given in: "spatial sound removal over a large area: Application to telepresence", R. Nicol; Thesis from the University of Maine, 1999; the surround technique (from English "ambisonic"), which is another example of physical reconstruction of the acoustic field, using a decomposition of the sound field on the basis of proper functions, called "spherical harmonixju.es".
Dans la seconde catégorie, on identifie par exemple : la stéréophonie, qui exploite des différences de temps ou d'intensité pour positionner les sources sonores entre deux haut-parleurs, sur la base des différences interaurales de temps et d'intensité qui définissent les critères perceptifs de localisation auditive dans un plan horizontal ; - les techniques binaurales qui visent à reconstruire le champ sonore uniquement au niveau des oreilles de l'auditeur, de telle sorte que ses tympans perçoivent un champ sonore identique à celui qu'auraient induit les sources réelles.In the second category, we identify for example: stereophony, which exploits differences in time or intensity to position the sound sources between two speakers, based on the interaural differences in time and intensity which define the criteria auditory of hearing localization in a horizontal plane; - binaural techniques which aim to reconstruct the sound field only at the level of the listener's ears, so that their eardrums perceive a sound field identical to that which the real sources would have induced.
Chaque technique se caractérise par une méthode spécifique d'encodage et de décodage des informations de spatialisation sous un format adéquat de signaux audio.Each technique is characterized by a specific method of encoding and decoding spatialization information in an adequate format of audio signals.
Les différentes techniques de spatialisation sonore se distinguent également par l'étendue de la spatialisation qu'elles fournissent. Typiquement, une spatialisation 3D telle que l'encodage ambiophonique, 1 'holophonie, la synthèse binaurale ou transaurale (qui est une transposition de la technique binaurale sur deux haut- parleurs distants) inclut toutes les directions de l'espace. Par ailleurs, une spatialisation bidimensionnelle ("2D"), telle que la stéréophonie, ou une restriction 2D de l' holophonie ou de la technique ambisonique, est limitée au plan horizontal.The different sound spatialization techniques are also distinguished by the extent of spatialization that they provide. Typically, 3D spatialization such as surround encoding, holophony, binaural or transaural synthesis (which is a transposition of the binaural technique on two distant speakers) includes all directions of space. Furthermore, two-dimensional ("2D") spatialization, such as stereophony, or a 2D restriction of holophony or ambisonic technique, is limited to the horizontal plane.
Enfin les différentes techniques se distinguent par leurs possibles systèmes de diffusion, par exemple : - une diffusion sur casque pour les techniques binaurales, ou la stéréophonie, - une diffusion sur deux haut-parleurs, notamment pour la stéréophonie ou pour un système transaural, - ou une diffusion sur un réseau à plus de deux haut- parleurs, pour une zone d'écoute étendue (notamment pour des applications multi-auditeurs) , en holophonie, ou en restitution ambiophonique.Finally, the different techniques are distinguished by their possible broadcasting systems, for example: - broadcasting on headphones for binaural techniques, or stereophony, - broadcasting on two speakers, in particular for stereophony or for a transaural system, - or a broadcast on a network with more than two speakers, for an extended listening area (in particular for multi-listener applications), in holophony, or in surround sound reproduction.
Une large gamme de dispositifs actuels offre des possibilités de synthèse sonore. Ces dispositifs vont de l'instrument de musique (tel qu'un clavier, une boîte à rythmes, ou autres) , des terminaux mobiles, par exemple de type PDA (pour "Personal Digital Assistant"), ou encore des ordinateurs sur lesquels sont installés des logiciels d'édition musicale, ou encore des pédaliers d'effets dotés d'une interface MIDI. Les systèmes de restitution sonore (casque, haut-parleurs stéréo ou systèmes à haut-parleurs multiples) et la qualité des systèmes de synthèse de sons sont très variés, notamment selon les capacités de calcul plus ou moins limitées et selon les environnements d'utilisation de tels systèmes.A wide range of current devices offers possibilities for sound synthesis. These devices range from musical instruments (such as a keyboard, a rhythm machine, or the like), mobile terminals, for example of the PDA type (for "Personal Digital Assistant"), or even computers on which are installed music editing software, or effects pedals with a MIDI interface. Sound reproduction systems (headphones, stereo speakers or multi-speaker systems) and the quality of sound synthesis systems are very varied, in particular according to the more or less limited computing capacities and according to the environments of use of such systems.
On connaît actuellement des systèmes capables de spatialiser des sons préalablement synthétisés, en particulier par une mise en cascade d'un moteur de synthèse sonore et d'un moteur de spatialisation. La spatialisation est alors appliquée au signal de sortie du synthétiseur (sur une voie mono ou deux voies stéréo) après mixage des différentes sources. On connaît ainsi des mises en œuvre de cette solution pour alors spatialiser les sons issus d'un synthétiseur.Systems are currently known capable of spatializing previously synthesized sounds, in particular by cascading a sound synthesis engine and a spatialization engine. Spatialization is then applied to the synthesizer output signal (on a mono channel or two stereo channels) after mixing the different sources. We thus know of implementations of this solution so as to spatialize the sounds coming from a synthesizer.
On connaît plus généralement des mises en oeuvre consistant en des moteurs de rendu 3D, qui peuvent s'appliquer à tout type de signaux audionumériques, qu'ils soient synthétiques ou non. Par exemple, les différents instruments de musique d'une partition MIDI (format classique de synthèse sonore) peuvent être alors positionnés dans l'espace sonore. Toutefois, pour obtenir une telle spatialisation, il faut d'abord convertir les signaux midi en signaux audionumériques et ensuite appliquer à ces derniers un traitement de spatialisation.More generally known are implementations consisting of 3D rendering engines, which can be applied to any type of digital audio signals, whether synthetic or not. For example, the different musical instruments of a MIDI score (classic sound synthesis format) can then be positioned in the sound space. However, to obtain such spatialization, it is first necessary to convert the midi signals into digital audio signals and then to apply spatialization processing to the latter.
Cette mise en œuvre est particulièrement coûteuse en termes de temps de traitement et de complexité de traitement . L'un des buts de la présente invention est un procédé de synthèse sonore offrant la possibilité de spatialiser directement les sons synthétiques .This implementation is particularly costly in terms of processing time and processing complexity. One of the aims of the present invention is a sound synthesis method offering the possibility of directly spatializing synthetic sounds.
Plus particulièrement, un but de la présente invention est d'associer à la synthèse sonore des outils de spatialisation de qualité satisfaisante. Toutefois, cette association cumule la complexité due à la synthèse sonore à celle de la spatialisation, ce qui rend difficile 1 ' implémentation d'une synthèse sonore spatialisée sur des terminaux à fortes contraintes (c'est-à-dire à puissance de calcul et à taille mémoire relativement limitées) .More particularly, an object of the present invention is to associate with sound synthesis spatialization tools of satisfactory quality. However, this association combines the complexity due to sound synthesis with that of spatialization, which makes it difficult to implement spatialized sound synthesis on terminals with high constraints (that is to say computing power and with relatively limited memory size).
Un autre but de la présente invention vise une optimisation de la complexité de la spatialisation des sons synthétiques selon les capacités du terminal .Another object of the present invention aims to optimize the complexity of the spatialization of synthetic sounds according to the capabilities of the terminal.
A cet effet, la présente invention propose tout d'abord un procédé de synthèse et de spatialisation sonores, dans lequel un son synthétique à générer est caractérisé par la nature d'une source sonore virtuelle et par sa position par rapport à une origine choisie.To this end, the present invention firstly proposes a method of sound synthesis and spatialization, in which a synthetic sound to be generated is characterized by the nature of a virtual sound source and by its position relative to a chosen origin.
Le procédé au sens de 1 ' invention comporte une étape conjointe consistant à déterminer des paramètres incluant au moins un gain, pour définir en même temps:The method within the meaning of the invention comprises a joint step consisting in determining parameters including at least one gain, in order to define at the same time:
- une intensité sonore caractérisant la nature de la source, et- a sound intensity characterizing the nature of the source, and
- la position de la source par rapport à une origine prédéterminée . On comprendra ainsi que la présente invention permet d'intégrer une technique de spatialisation du son à une technique de synthèse sonore, de façon à obtenir un traitement global utilisant des paramètres communs pour la mise en œuvre des deux techniques.- the position of the source with respect to a predetermined origin. It will thus be understood that the present invention makes it possible to integrate a sound spatialization technique with a sound synthesis technique, so as to obtain a global processing using common parameters for the implementation of the two techniques.
Dans une réalisation, la spatialisation de la source virtuelle s'effectue en contexte ambiophonique. Le procédé comporte alors une étape de calcul de gains associés à des composantes ambiophoniques dans une base d'harmoniques sphériques .In one embodiment, the spatialization of the virtual source takes place in a surround context. The method then includes a step of calculating gains associated with surround components in a base of spherical harmonics.
Dans une variante, le son synthétique est destiné à être restitué en contexte holophonique, ou binaural, ou transaural, sur une pluralité de voies de restitution. On comprendra en particulier que cette "plurali té de voies de resti tution" peut aussi bien concerner deux voies de restitution, en contexte binaural ou transaural, ou encore plus de deux voies de restitution, par exemple en contexte holophonique. Pendant ladite étape conjointe, on détermine en outre un retard entre voies de restitution, pour définir en même temps :In a variant, the synthetic sound is intended to be reproduced in a holophonic, or binaural, or transaural context, on a plurality of reproduction channels. It will be understood in particular that this "plurality of restitution channels" can as well relate to two restitution tracks, in binaural or transaural context, or even more than two restitution tracks, for example in holophonic context. During said joint step, a delay between restitution channels is also determined, to define at the same time:
- un instant de déclenchement du son caractérisant la nature de la source, et - la position de la source par rapport à une origine prédéterminée .- an instant of triggering of the sound characterizing the nature of the source, and - the position of the source with respect to a predetermined origin.
Dans cette réalisation, la nature de la source virtuelle est paramétrée au moins par une variation temporelle d'intensité sonore, sur une durée choisie et incluant un instant de déclenchement du son. En pratique, cette variation temporelle peut avantageusement être représentée par une enveloppe ADSR telle que décrite ci-avant.In this embodiment, the nature of the virtual source is configured at least by a temporal variation of sound intensity, over a chosen duration and including an instant of triggering of the sound. In practice, this time variation can advantageously be represented by an ADSR envelope as described above.
Préférentiellement, cette variation comporte au moins : - une phase d'attaque instrumentale,Preferably, this variation comprises at least: - an instrumental attack phase,
- une phase de déclin,- a phase of decline,
- une phase de soutien, et- a support phase, and
- une phase de relâchement .- a relaxation phase.
Bien entendu, des variations plus complexes d'enveloppe peuvent être envisagées .Of course, more complex variations of the envelope can be envisaged.
La spatialisation de la source virtuelle s'effectue préférentiellement par une synthèse binaurale basée sur une décomposition linéaire de fonctions de transfert, ces fonctions de transfert s ' exprimant par une combinaison linéaire de termes dépendant de la fréquence du son et pondérés par des termes dépendant de la direction du son. Cette mesure s ' avère avantageuse notamment lorsque la position de la source virtuelle est susceptible d'évoluer dans le temps et/ou lorsque plusieurs sources virtuelles sont à spatialiser.The spatialization of the virtual source is preferably carried out by a binaural synthesis based on a linear decomposition of transfer functions, these transfer functions being expressed by a linear combination of terms depending on the frequency of the sound and weighted by terms depending on sound direction. This measurement proves to be advantageous in particular when the position of the virtual source is liable to change over time and / or when several virtual sources are to be spatialized.
Préférentiellement, la direction est définie par au moins un angle azimutal (pour une spatialisation dans un simple plan) et, de préférence, par un angle azimutal et un angle d'élévation (pour un spatialisation en trois dimensions).Preferably, the direction is defined by at least one azimuthal angle (for spatialization in a single plane) and, preferably, by an azimuthal angle and an elevation angle (for three-dimensional spatialization).
Dans le contexte d'une synthèse binaurale basée sur une décomposition linéaire des fonctions de transfert, la position de la source virtuelle est avantageusement paramétrée au moins par : plusieurs filtrages, fonctions de la fréquence sonore, plusieurs gains de pondération associés chacun à un filtrage, et - un retard par voie "gauche" et "droite" .In the context of a binaural synthesis based on a linear decomposition of transfer functions, the position of the virtual source is advantageously configured at least by: several filterings, functions of the sound frequency, several weighting gains each associated with a filtering, and - a delay by "left" and "right" channel.
Préférentiellement, la nature de la source virtuelle est paramétrée au moins par un timbre sonore, en associant des intensités sonores relatives choisies à des harmoniques d'une fréquence correspondant à une hauteur tonale du son. En pratique, cette modélisation s'effectue avantageusement par une synthèse FM, décrite ci-avant.Preferably, the nature of the virtual source is parameterized at least by a sound timbre, by associating selected relative sound intensities with harmonics of a frequency corresponding to a pitch of the sound. In practice, this modeling is advantageously carried out by an FM synthesis, described above.
Dans une réalisation avantageuse, on prévoit un moteur de synthèse sonore propre à générer des sons spatialisés, par rapport à une origine prédéterminée.In an advantageous embodiment, there is provided a sound synthesis engine capable of generating spatialized sounds, with respect to a predetermined origin.
Préférentiellement, le moteur de synthèse est implémenté en contexte d'édition musicale, et l'on prévoit en outre une interface homme/machine pour placer la source virtuelle à une position choisie par rapport à l'origine prédéterminée .Preferably, the synthesis engine is implemented in the context of musical editing, and a man / machine interface is also provided for placing the virtual source at a chosen position relative to the predetermined origin.
Pour synthétiser et spatialiser une pluralité de sources virtuelles, on assigne chaque source à une position respective, préférentiellement en utilisant une décomposition linéaire des fonctions de transfert en contexte binaural, comme indiqué ci-avant.To synthesize and spatialize a plurality of virtual sources, each source is assigned to a respective position, preferably using a linear decomposition of the transfer functions in binaural context, as indicated above.
La présente invention vise aussi un module de génération de sons synthétiques, comprenant notamment un processeur, et comportant en particulier une mémoire de travail propre à stocker des instructions pour la mise en œuvre du procédé ci-avant, de manière à traiter simultanément une synthèse et une spatialisation du son, selon l'un des avantages que procure la présente invention.The present invention also relates to a module for generating synthetic sounds, comprising in particular a processor, and comprising in particular a working memory capable of storing instructions for the implementation of the above method, so as to simultaneously process a synthesis and a spatialization of the sound, according to one of the advantages which the present invention provides.
A ce titre la présente invention vise aussi un produit programme d'ordinateur, stocké dans une mémoire d'une unité centrale ou d'un terminal, notamment mobile, ou sur un support amovible propre à coopérer avec un lecteur de ladite unité centrale, et comportant des instructions pour la mise en œuvre du procédé ci-avant.As such, the present invention also relates to a computer program product, stored in a memory of a central unit or of a terminal, in particular mobile, or on a removable medium suitable for cooperating with a reader of said central unit, and comprising instructions for implementing the above process.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci- après, et des dessins annexés sur lesquels :Other characteristics and advantages of the invention will appear on examining the detailed description below, and the attached drawings in which:
- la figure 1 illustre schématiquement des positions de sources sonores i et des positions de microphones j dans l'espace tridimensionnel, - la figure 2 représente schématiquement un traitement simultané de spatialisation et de synthèse sonore, au sens de l'invention,FIG. 1 schematically illustrates positions of sound sources i and positions of microphones j in three-dimensional space, FIG. 2 schematically represents a simultaneous spatialization and sound synthesis processing, within the meaning of the invention,
- la figure 3 représente schématiquement l'application de fonctions de transfert HRTFs à des signaux Si pour une spatialisation en synthèse binaurale ou transaurale, la figure 4 représente schématiquement l'application d'une paire de retards (un retard par voie gauche ou droite) et de plusieurs gains (un gain par filtre directionnel) en synthèse binaurale ou transaurale, utilisant la décomposition linéaire des HRTFs, - la figure 5 représente schématiquement 1 ' intégration du traitement de spatialisation, au sein d'une pluralité de générateurs de sons synthétiques, pour une spatialisation et une synthèse sonore en une seule, étape, - la figure 6 représente un modèle d'enveloppe ADSR en synthèse sonore,- Figure 3 schematically represents the application of HRTFs transfer functions to Si signals for spatialization in binaural or transaural synthesis, Figure 4 schematically represents the application of a pair of delays (a delay by left or right channel) and several gains (one gain per directional filter) in binaural or transaural synthesis, using the linear decomposition of HRTFs, - Figure 5 schematically represents the integration of spatialization processing, within a plurality of synthetic sound generators, for spatialization and sound synthesis in a single step, - Figure 6 represents an ADSR envelope model in sound synthesis,
- et la figure 7 représente schématiquement un générateur de son en synthèse FM.- And Figure 7 shows schematically a sound generator in FM synthesis.
On rappelle que la présente invention propose d'intégrer une technique de spatialisation du son à une technique de synthèse sonore de façon à obtenir un traitement global, optimisé, de synthèse sonore spatialisée. Dans le contexte de terminaux à fortes contraintes, la mise en commun de certaines des opérations de synthèse sonore, d'une part, et de spatialisation sonore, d'autre part, s'avère particulièrement intéressante.It will be recalled that the present invention proposes to integrate a technique of spatialization of sound with a technique of sound synthesis so as to obtain a global, optimized processing, of spatialized sound synthesis. In the context of highly constrained terminals, the pooling of certain sound synthesis operations, on the one hand, and sound spatialization, on the other hand, is particularly interesting.
De façon générale, un moteur de synthèse sonore (typiquement un " synthétiseur" ) a pour rôle de générer un ou plusieurs signaux synthétiques, sur la base d'un modèle de synthèse des sons, modèle qui est piloté à partir d'un ensemble de paramètres, appelés ci-après "paramètres de synthèse" . Les signaux synthétiques générés par le moteur de synthèse peuvent correspondre à des sources sonores distinctes (qui sont, par exemple, les différents instruments d'une partition) ou peuvent être associés à une même source, par exemple dans le cas de différentes notes d'un même instrument. Par la suite, les termes "générateur de sons" désignent un module de production d'une note musicale. Ainsi, on comprendra qu'un synthétiseur est composé d'un ensemble de générateurs de sons .Generally, a sound synthesis engine (typically a "synthesizer") has the role of generating one or more synthetic signals, on the basis of a sound synthesis model, a model which is controlled from a set of parameters, hereinafter called "synthesis parameters". The synthetic signals generated by the synthesis engine can correspond to distinct sound sources (which are, for example, the different instruments of a score) or can be associated with the same source, for example in the case of different notes of the same instrument. Thereafter, the terms "tone generator" designate a module for producing a musical note. Thus, it will be understood that a synthesizer is composed of a set of tone generators.
De façon générale encore, un outil de spatialisation sonore est un outil qui admet un nombre donné de signaux audio en entrée, ces signaux étant représentatifs de sources sonores et, en principe, exempts de traitement de spatialisation. On indique en fait que, si ces signaux ont déjà subi un traitement spatialisé, ce traitement préalable n'est pas pris en compte ici. L'outil de spatialisation a pour rôle de traiter les signaux d'entrée, selon un schéma qui est spécifique à la technique de spatialisation choisie, pour générer un nombre donné de signaux de sortie qui définissent les signaux spatialisés représentatifs de la scène sonore au format de spatialisation choisi. La nature et la complexité du traitement de spatialisation dépendent évidemment de la technique choisie, selon que l'on considère un rendu au format stéréophonique, binaural, holophonique ou ambiophonique.Still generally, a sound spatialization tool is a tool which admits a given number of audio signals as input, these signals being representative of sound sources and, in principle, free of spatialization processing. It is in fact indicated that, if these signals have already undergone spatial processing, this prior processing is not taken into account here. The role of the spatialization tool is to process the input signals, according to a diagram which is specific to the spatialization technique chosen, to generate a given number of output signals which define the spatialized signals representative of the sound scene in format of spatialization chosen. The nature and the complexity of the spatialization processing obviously depend on the technique chosen, depending on whether one considers a rendering in stereophonic, binaural, holophonic or ambiophonic format.
Plus particulièrement, pour de nombreuses techniques de spatialisation, il apparaît que le traitement se ramène à une phase d'encodage et une phase de décodage, comme on le verra plus loin.More particularly, for many spatialization techniques, it appears that the processing is reduced to an encoding phase and a decoding phase, as will be seen below.
L'encodage correspond à la prise de son du champ sonore généré par les différentes sources à un instant donné. Ce système de prise de son "virtuel" peut être plus ou moins complexe suivant la technique de spatialisation sonore retenue. Ainsi, on simule une prise de son par un nombre plus ou moins important de microphones avec des positions et des directivités différentes. Dans tous les cas, l'encodage se ramène, pour calculer la contribution d'une source sonore, au moins à l'application de gains et, le plus souvent, de retards (typiquement en holophonie ou en synthèse binaurale ou transaurale) à différentes copies du signal émis par la source. On dispose d'un gain (et, le cas échéant d'un retard) par source pour chaque microphone virtuel. Ce gain (et ce retard) dépendent de la position de la source par rapport au microphone. Si l'on prévoit un système de prise de son virtuel muni de K microphones, on dispose de K signaux en sortie du système d'encodage.The encoding corresponds to the sound recording of the sound field generated by the different sources at a given time. This "virtual" sound recording system can be more or less complex depending on the sound spatialization technique used. So, we simulate a sound recording by a number more or less important microphones with different positions and directivities. In all cases, the encoding is reduced, to calculate the contribution of a sound source, at least to the application of gains and, more often than not, delays (typically in holophony or in binaural or transaural synthesis) to different copies of the signal from the source. There is one gain (and, if necessary, a delay) per source for each virtual microphone. This gain (and delay) depends on the position of the source relative to the microphone. If a virtual sound pickup system provided with K microphones is provided, there are K signals output from the encoding system.
En se référant à la figure 1, le signal Ej représente la somme des contributions de 1 ' ensemble des sources sonores sur le microphone j . En outre, on appelle : Si le son émis par la source i, - Ej le signal encodé en sortie du microphone j , Gji l'atténuation du son Si due à la distance entre la source i et le microphone j , à la directivité de la source, aux obstacles entre la source i et le microphone j , et enfin à la directivité même du microphone j , tji le retard du son Si dû à la propagation depuis la source i vers le microphone j , et - x, y, z les coordonnées cartésiennes de la position de la source, supposée variable dans le temps.Referring to FIG. 1, the signal Ej represents the sum of the contributions of all the sound sources on the microphone j. In addition, we call: If the sound emitted by the source i, - Ej the signal encoded at the output of the microphone j, Gji the attenuation of the sound Si due to the distance between the source i and the microphone j, to the directivity of the source, at the obstacles between the source i and the microphone j, and finally at the very directivity of the microphone j, tji the delay of the sound Si due to the propagation from the source i towards the microphone j, and - x, y, z the Cartesian coordinates of the position of the source, assumed to be variable over time.
Le signal encodé Ej est donné par 1 ' expression : L Ej(t) = ∑S(t- tji(x, y, z))* Gβ(x, y, z)Si(t) ι=l Dans cette expression, on suppose que l'on doit traiter L sources (i = 1, 2, ..., L) , tandis que le format d'encodage prévoit K signaux (j = 1, 2, ..., K) . Les gains et les retards dépendent de la position de la source i par rapport au microphone j à l'instant t. L'encodage est donc une représentation du champ sonore généré par les sources sonores à cet instant t. On rappelle simplement ici qu'en contexte ambiophonique (consistant en une décomposition du champ dans une base d'harmoniques sphériques) , le retard n'intervient pas réellement dans le traitement de spatialisation.The encoded signal Ej is given by the expression: L Ej (t) = ∑S (t- tji (x, y, z)) * Gβ (x, y, z) Si (t) ι = l In this expression, we assume that we must process L sources (i = 1, 2, ..., L), while the encoding format provides for K signals (j = 1, 2, ..., K ). The gains and the delays depend on the position of the source i relative to the microphone j at the instant t. The encoding is therefore a representation of the sound field generated by the sound sources at this instant t. It is simply recalled here that in a surround context (consisting of a decomposition of the field in a base of spherical harmonics), the delay does not really intervene in the spatialization processing.
Dans le cas où les sources sonores sont dans une salle, il faut ajouter les sources-images . Ce sont les images des sources sonores réfléchies par les murs de la salle. Les sources-images, en se réfléchissant à leur tour sur les murs, génèrent des sources images d'ordres supérieurs.In the case where the sound sources are in a room, the image sources must be added. These are the images of the sound sources reflected by the walls of the room. Image sources, in turn reflecting on the walls, generate image sources of higher order.
Dans l'expression ci-dessus, L ne représente donc plus le nombre de sources, mais le nombre de sources auquel on additionne le nombre de sources-images . Le nombre de sources-images est infini, c'est pourquoi, en pratique, on ne garde que les sources images audibles et dont on perçoit la direction. Les sources-images qui sont audibles mais dont on ne perçoit plus la direction sont regroupées et leur contribution est synthétisée à l'aide d'un réverbérateur artificiel .In the above expression, L therefore no longer represents the number of sources, but the number of sources to which the number of image sources is added. The number of image sources is infinite, which is why, in practice, we keep only audible image sources and whose direction we perceive. Image sources that are audible but whose direction is no longer perceived are grouped together and their contribution is synthesized using an artificial reverberator.
L'étape de décodage vise à restituer les signaux Ej encodés sur un dispositif donné, comportant un nombre prédéterminé T de transducteurs sonores (casque, haut- 5/069272The decoding step aims to restore the signals E j encoded on a given device, comprising a predetermined number T of sound transducers (headphones, loudspeaker, 5/069272
1919
parleur) . Cette étape consiste à appliquer une matrice TxK de filtres aux signaux encodés. Cette matrice dépend uniquement du dispositif de rendu, et non des sources sonores. Suivant la technique d'encodage et de décodage choisie, cette matrice peut être très simple (par exemple l'identité) ou très complexe.speaker). This step consists in applying a TxK matrix of filters to the encoded signals. This matrix depends only on the rendering device, and not on the sound sources. Depending on the encoding and decoding technique chosen, this matrix can be very simple (for example identity) or very complex.
On a représenté schématiquement sur la figure 2 un organigramme reprenant les différentes étapes précitées. Une première étape ST constitue une étape de démarrage au cours de laquelle un utilisateur définit des commandes de sons Ci, C2,..., CN à synthétiser et spatialiser (par exemple en prévoyant une interface homme/machine pour définir une note musicale, un instrument pour jouer cette note et une position de cet instrument jouant cette note dans l'espace). En variante, par exemple pour la spatialisation du son auprès d'un terminal mobile, les informations de spatialisation peuvent être transmises dans un flux parallèle au flux audio synthétique, ou encore directement dans le flux audio synthétique.There is schematically shown in Figure 2 a flowchart showing the different steps above. A first step ST constitutes a start-up step during which a user defines sound commands Ci, C 2 , ..., C N to be synthesized and spatialized (for example by providing a man / machine interface to define a musical note , an instrument to play this note and a position of this instrument playing this note in space). As a variant, for example for the spatialization of sound with a mobile terminal, the spatialization information can be transmitted in a stream parallel to the synthetic audio stream, or even directly in the synthetic audio stream.
Ensuite, on indique que l'invention prévoit avantageusement une étape unique ETA de synthèse et spatialisation du son, de façon conjointe. De façon générale, un son peut être défini au moins par : la fréquence de son mode fondamental, caractérisant la hauteur tonale, sa durée, et son intensité. Ainsi, dans l'exemple d'un synthétiseur à clavier sensitif, si l'utilisateur joue une note forte,Then, it is indicated that the invention advantageously provides for a single ETA step of synthesis and spatialization of the sound, jointly. In general, a sound can be defined at least by: the frequency of its fundamental mode, characterizing the pitch, its duration, and its intensity. So, in the example of a sensitive keyboard synthesizer, if the user plays a loud note,
1 ' intensité associée à la commande Ci sera plus grande que l'intensité associée à une note piano . Plus particulièrement, on indique que le paramètre d'intensité peut, de façon générale, prendre en compte le gain de spatialisation gi dans un contexte de traitement de spatialisation, comme on le verra ci-après, selon l'un des avantages majeurs que procure la présente invention.The intensity associated with the Ci command will be greater than the intensity associated with a piano note. More particularly, it is indicated that the intensity parameter can, in general, take into account the spatialization gain gi in a context of spatialization processing, as will be seen below, according to one of the major advantages which it provides. the present invention.
En outre, un son est, bien entendu, défini aussi par son instant de déclenchement. Typiquement, si la technique de spatialisation choisie n'est pas un traitement ambiophonique, mais plutôt la synthèse binaurale ou transaurale, 1 'holophonie, ou autre, le retard de spatialisation τ± (qui sera décrit en détail plus loin) peut permettre de contrôler en outre 1 ' instant de déclenchement du son.In addition, a sound is, of course, also defined by its triggering instant. Typically, if the spatialization technique chosen is not a surround treatment, but rather binaural or transaural synthesis, holophony, or the like, the spatialization delay τ ± (which will be described in detail below) can make it possible to control in addition the instant of triggering of the sound.
En se référant à nouveau à la figure 2, un dispositif de synthèse et de spatialisation sonore Dl comporte : - un module de synthèse proprement dit Ml, capable de définir, en fonction d'une commande Ci, au moins la fréquence fi et la durée Di du son i associé à cette commande Ci, et un module de spatialisation M2, capable de définir au moins le gain gi (en contexte ambiophonique notamment) et, en outre, le retard de spatialisation Ti, en holophonie ou synthèse binaurale ou transaurale . Comme indiqué ci-avant, ces deux derniers paramètres g± et Xi peuvent servir conjointement pour la spatialisation, mais aussi pour la synthèse même du son, lorsque l'on définit une intensité sonore (ou un panoramique en stéréophonie) et un instant de déclenchement du son.Referring again to FIG. 2, a sound synthesis and spatialization device Dl comprises: - a synthesis module proper Ml, capable of defining, as a function of a command Ci, at least the frequency fi and the duration Di of the sound i associated with this command Ci, and a spatialization module M2, capable of defining at least the gain gi (in surround context in particular) and, moreover, the spatialization delay Ti, in holophony or binaural or transaural synthesis. As indicated above, these last two parameters g ± and Xi can be used jointly for the spatialization, but also for the synthesis of the sound itself, when a sound intensity (or a pan in stereophony) and a triggering moment are defined. sound.
Plus généralement, on indique que dans un mode de réalisation préféré, les deux modules Ml et M2 sont regroupés dans un même module permettant de définir en une même étape tous les paramètres du signal si à synthétiser et spatialiser : sa fréquence, sa durée, son gain de spatialisation, son retard de spatialisation, notamment.More generally, it is indicated that in a preferred embodiment, the two modules M1 and M2 are grouped together in the same module making it possible to define in a single step all the parameters of the signal if to be synthesized and spatialized: its frequency, its duration, its gain in spatialization, its delay in spatialization, in particular.
Ces paramètres sont ensuite appliqués à un module d'encodage M3 du dispositif de synthèse et de spatialisation sonore Dl . Typiquement, par exemple en synthèse binaurale ou transaurale, ce module M3 réalise une combinaison linéaire sur les signaux si qui implique notamment les gains de spatialisation, comme on le verra plus loin. Ce module d'encodage M3 peut en outre appliquer un codage en compression sur les signaux Si pour préparer une transmission des données codées vers un dispositif de restitution D2.These parameters are then applied to an encoding module M3 of the sound synthesis and spatialization device D1. Typically, for example in binaural or transaural synthesis, this module M3 performs a linear combination on the signals si which in particular involves the spatialization gains, as will be seen below. This encoding module M3 can also apply compression encoding to the signals Si to prepare a transmission of the encoded data to a restitution device D2.
On indique toutefois que ce module d'encodage M3 est, dans un mode de réalisation préféré, directement intégré aux modules Ml et M2 ci-avant, de manière à créer directement, au sein d'un module unique Dl qui consisterait simplement en un moteur de synthèse et de spatialisation sonore, les signaux Ej comme s'ils étaient délivrés par des microphones j, comme expliqué ci-avant. Ainsi, le moteur de synthèse et de spatialisation sonore Dl produit, en sortie, K signaux sonores Ej représentant l'encodage du champ sonore virtuel qu'auraient créé les différentes sources synthétiques si elles avaient été réelles. A ce stade, on possède une description d'une scène sonore dans un format d'encodage donné.However, it is indicated that this encoding module M3 is, in a preferred embodiment, directly integrated into the modules Ml and M2 above, so as to create directly, within a single module Dl which would simply consist of a motor sound synthesis and spatialization, the signals Ej as if they were delivered by microphones j, as explained above. Thus, the sound synthesis and spatialization engine Dl produces, at the output, K sound signals Ej representing the encoding of the virtual sound field that the different synthetic sources would have created if they had been real. At this stage, we have a description of a sound scene in a given encoding format.
Bien entendu, il peut être prévu en outre d'additionner (ou "de mixer" ) à cette scène sonore d'autres scènes provenant d'une prise de son réelle ou de la sortie d'autres modules de traitement de sons, à condition qu'elles soient au même format de spatialisation. Le mixage de ces différentes scènes passe ensuite dans un même et unique système de décodage M' 3, prévu en entrée d'un dispositif de restitution D2. Dans l'exemple représenté sur la figure 2, ce dispositif de restitutionOf course, provision may also be made to add (or "mix") to this sound scene other scenes coming from an actual sound recording or from the output of other sound processing modules, provided that they are in the same spatialization format. The mixing of these different scenes then passes through a single and unique decoding system M '3, provided at the input of a reproduction device D2. In the example shown in Figure 2, this rendering device
D2 comprend deux voies, ici pour une restitution binaurale (restitution sur casque stéréophonique) ou transaurale (restitution sur deux haut-parleurs) sur deux voies L et R.D2 includes two channels, here for a binaural reproduction (reproduction on stereo headphones) or transaural (reproduction on two speakers) on two channels L and R.
On décrit ci-après un mode de réalisation préféré de l'invention, ici appliqué à un terminal mobile et dans le contexte d'une spatialisation sonore par synthèse binaurale .A preferred embodiment of the invention is described below, here applied to a mobile terminal and in the context of sound spatialization by binaural synthesis.
Sur des terminaux de télécommunication, notamment mobiles, on prévoit naturellement un rendu sonore avec un casque d'écoute stéréophonique. La technique de positionnement des sources sonores préférée est alors la synthèse binaurale. Elle consiste, pour chaque source sonore, à filtrer le signal monophonique par des fonctions de transfert acoustiques appelées HRTFs (pour "Head Related Transfer Functions" en anglais) , qui modélisent les transformations engendrées par le torse, la tête et le pavillon de l'auditeur au signal provenant d'une source sonore. Pour chaque position de l'espace, on peut mesurer une paire de ces fonctions (une fonction pour l'oreille droite, une fonction pour l'oreille gauche) . Les HRTFs sont donc fonctions de la position [θ,φ] (où θ représente l'azimut et φ l'élévation) et de la fréquence sonore f . On obtient alors, pour un sujet donné, une base de données de 2M fonctions de transfert acoustiques représentant chaque position de l'espace pour chaque oreille (M étant le nombre de directions mesurées) . De manière classique, la mise en œuvre de cette technique se fait sous forme dite "bicanale" .On telecommunication terminals, especially mobile, it naturally provides a sound rendering with a stereo headset. The preferred sound source positioning technique is then synthesis binaural. It consists, for each sound source, in filtering the monophonic signal by acoustic transfer functions called HRTFs (for "Head Related Transfer Functions"), which model the transformations generated by the torso, the head and the flag of the listener to the signal from a sound source. For each position in space, we can measure a pair of these functions (a function for the right ear, a function for the left ear). The HRTFs are therefore functions of the position [θ, φ] (where θ represents the azimuth and φ the elevation) and the sound frequency f. We then obtain, for a given subject, a database of 2M acoustic transfer functions representing each position of space for each ear (M being the number of directions measured). Conventionally, the implementation of this technique is done in a so-called "two-channel" form.
Une autre synthèse binaurale, basée sur une décomposition linéaire des HRTFs, correspond à une mise en œuvre qui s'avère plus efficace en particulier lorsque plusieurs sources sonores sont spatialisées, ou dans le cas où les sources sonores changent de position dans le temps . Dans ce cas, on parle de " synthèse binaurale dynamique" .Another binaural synthesis, based on a linear decomposition of HRTFs, corresponds to an implementation which proves to be more effective in particular when several sound sources are spatialized, or in the case where the sound sources change position over time. In this case, we speak of "dynamic binaural synthesis".
Ces deux modes de réalisation de la synthèse binaurale sont décrits ci-après. * Synthèse binaurale "Jbicanale"These two embodiments of binaural synthesis are described below. * Binaural "Jbicanale" synthesis
En se référant à la figure 3, la synthèse binaurale bicanale consiste à filtrer le signal de chaque source S (i = 1, 2, ..., N) que l'on souhaite positionner dans l'espace à une position [θi,φi], par les fonctions de transfert acoustiques gauche (HRTF_1) et droite (HRTF__r) correspondant aux directions appropriées [θi,φi] (étapeReferring to FIG. 3, the two-channel binaural synthesis consists in filtering the signal of each source S (i = 1, 2, ..., N) which one wishes to position in space at a position [θi, φi], by the acoustic transfer functions left (HRTF_1) and right (HRTF__r) corresponding to the appropriate directions [θi, φi] (step
31) . On obtient deux signaux qui sont alors additionnés aux signaux gauches et droits résultant de la spatialisation des autres sources (étape 32) , pour donner les signaux L et R diffusés aux oreilles gauche et droite du sujet avec un casque d'écoute stéréophonique.31). Two signals are obtained which are then added to the left and right signals resulting from the spatialization of the other sources (step 32), to give the L and R signals broadcast to the subject's left and right ears with a stereo headset.
On indique que, dans cette mise en œuvre, les positions des sources sonores ne sont pas sensées évoluer dans le temps. Toutefois, si l'on souhaite faire varier les positions des sources sonores dans l'espace au cours du temps, il est préférable de modifier les filtres utilisés pour modéliser les HRTFs gauche et droite. En revanche, ces filtres se présentant sous la forme de filtres, soit à réponse impulsionnelle finie (FIR) , soit à réponse impulsionnelle infinie (IIR) , des problèmes de discontinuités des signaux de sortie gauche et droit apparaissent, entraînant des " clicks" audibles. La solution technique employée pour pallier ce problème est de faire, tourner deux jeux de filtres binauraux en parallèle. Le premier jeu simule la première position [θl,φl] à un instant tl, le second la seconde position [Θ2,φ2] à un instant t2. Le signal donnant l'illusion d'un déplacement entre les première et seconde positions est alors obtenu par un fondu enchaîné des signaux gauche et droit résultant des premier et second processus de filtrage. Ainsi, la complexité du système de positionnement des sources sonores est alors multipliée par deux par rapport au cas statique. De plus, le nombre de filtres à mettre en oeuvre est proportionnel aux nombres de sources à spatialiser.It is indicated that, in this implementation, the positions of the sound sources are not expected to change over time. However, if one wishes to vary the positions of the sound sources in space over time, it is preferable to modify the filters used to model the left and right HRTFs. On the other hand, these filters being in the form of filters, either with finite impulse response (FIR), or with infinite impulse response (IIR), problems of discontinuities of the left and right output signals appear, causing audible "clicks" . The technical solution used to overcome this problem is to make, rotate two sets of binaural filters in parallel. The first game simulates the first position [θl, φl] at an instant tl, the second the second position [Θ2, φ2] at an instant t2. The signal giving the illusion of a displacement between the first and second positions is then obtained by a crossfade of the left and right resulting from the first and second filtering process. Thus, the complexity of the sound source positioning system is then multiplied by two compared to the static case. In addition, the number of filters to be implemented is proportional to the numbers of sources to be spatialized.
Si N sources sonores sont considérées, le nombre de filtres nécessaires est alors de 2. N pour une synthèse binaurale statique et de 4 .N pour une synthèse binaurale dynamique .If N sound sources are considered, the number of filters required is then 2. N for a static binaural synthesis and 4 .N for a dynamic binaural synthesis.
On décrit ci-après une variante avantageuse. * Synthèse binaurale basée sur une décomposition linéaire des HRTFs On indique d'abord qu'une telle mise en œuvre présente uneAn advantageous variant is described below. * Binaural synthesis based on a linear breakdown of HRTFs We first indicate that such an implementation has a
" complexité qui ne dépend plus du nombre total de sources à positionner dans l'espace. En effet, ces techniques permettent de décomposer les HRTFs sur une base de fonctions orthogonales, communes à toutes les positions de l'espace, et ne dépendent donc plus que de la fréquence f. On réduit ainsi le nombre de filtres nécessaires. Plus particulièrement, le nombre de filtres est fixe et ne dépend plus du nombre de sources à positionner, de sorte que l'ajout d'une source sonore supplémentaire ne nécessite que l'application d'un retard, avec ensuite une opération de multiplication par plusieurs gains dépendant uniquement de la position [θ,φ] et une opération d'addition, comme on le verra en référence à la figure 4. Ces techniques de décomposition linéaire ont aussi un intérêt dans le cas de la synthèse binaurale dynamique (position de sources sonores variable dans le temps) . En effet, dans ce cas, on ne fait plus varier les coefficients des filtres, mais seulement les valeurs des gains qui sont fonction de la position."complexity which no longer depends on the total number of sources to be positioned in space. Indeed, these techniques make it possible to decompose HRTFs on the basis of orthogonal functions, common to all the positions of space, and therefore no longer depend frequency f. This reduces the number of filters required. More specifically, the number of filters is fixed and no longer depends on the number of sources to be positioned, so that adding an additional sound source only requires the application of a delay, with then an operation of multiplication by several gains depending only on the position [θ, φ] and an operation of addition, as we will see with reference to Figure 4. These techniques of linear decomposition also have a interest in the case of dynamic binaural synthesis (position of sound sources variable over time). Indeed, in this case, the coefficients of the filters are no longer varied, but only the values of the gains which are a function of the position.
La décomposition linéaire des HRTFs vise à séparer les dépendances spatiales et fréquentielles des fonctions de transfert. Au préalable, l'excès de phase des HRTFs est extrait, puis modélisé sous la forme d'un retard pur τ. La décomposition linéaire s'applique alors à la composante à phase minimale des HRTFs. Chaque HRTF s'écrit comme une somme de P fonctions spatiales Cj (θ, φ) et de filtres de reconstruction Lj (f) : HRTF(Θ, φ, f) = exV(j2πfτ(θ, φ))∑C, (θ, φ)L} (f) (1)The linear decomposition of HRTFs aims to separate the spatial and frequency dependencies of the transfer functions. Beforehand, the excess phase of the HRTFs is extracted, then modeled in the form of a pure delay τ. The linear decomposition then applies to the minimum phase component of the HRTFs. Each HRTF is written as a sum of P spatial functions Cj (θ, φ) and reconstruction filters Lj (f): HRTF (Θ, φ, f) = ex V (j2πfτ (θ, φ)) ∑C, (θ, φ) L } (f) (1)
Le schéma de mise en œuvre de la synthèse binaurale basée sur une décomposition linéaire des HRTFs est illustré sur la figure 4. Les retards interauraux τi (étape 41) associés aux différentes sources sont d'abord appliqués au signal de chaque source à spatialiser Si (avec i=l,...,N) . Le signal de chaque source est ensuite décomposé en P canaux correspondant aux P vecteurs de base de la décomposition linéaire. A chacun de ces canaux sont alors appliqués les coefficients directionnels Cj (θ± , φi) (notés C ) issus de la décomposition linéaire des HRTFsThe implementation scheme of binaural synthesis based on a linear decomposition of HRTFs is illustrated in Figure 4. The interaural delays τi (step 41) associated with the different sources are first applied to the signal of each source to be spatialized Si ( with i = l, ..., N). The signal from each source is then decomposed into P channels corresponding to the P basic vectors of the linear decomposition. To each of these channels are then applied the directional coefficients Cj (θ ± , φi) (denoted C) resulting from the linear decomposition of HRTFs
(étape 42) . Ces paramètres de spatialisation τi et Ci ont pour particularité de ne dépendre que de la position(step 42). These spatialization parameters τi and Ci have the particularity of depending only on the position
[θi , φi] où l'on souhaite placer la source. Ils ne dépendent pas de la fréquence sonore. Pour chaque source, le nombre de ces coefficients correspond au nombre P des vecteurs de base que l'on a utilisés pour la décomposition linéaire des HRTFs.[θi, φi] where we want to place the source. They do not depend on the sound frequency. For each source, the number of these coefficients corresponds to the number P of the basic vectors that we used for the linear decomposition of HRTFs.
Pour chaque canal, les signaux des N sources sont ensuite additionnés (étape 43) puis filtrés (étape 44) par le filtre Lj ( f) correspondant au jxeme vecteur de base.For each channel, the signals from the N sources are then added (step 43) then filtered (step 44) by the filter Lj (f) corresponding to the j x th base vector.
Le même schéma est appliqué séparément pour les canaux droit et gauche. La figure distingue les retards appliqués sur la voie gauche (τLi) et droite (τRi) , ainsi que les coefficients directionnels appliqués sur la voie gauche { Ci,j) et droite (-Di,7) . Finalement, les signaux sommés et filtrés aux étapes 44 et 45 sont sommés à nouveaux (étape 45 de la figure 4), comme dans l'étape 32 de la figure 3, pour une restitution sur casque stéréophonique. On indique que les étapes 41, 42 et 43 peuvent correspondre à l'encodage spatial proprement dit, pour la synthèse binaurale, tandis que les étapes 44 et 45 peuvent correspondre à un décodage spatial avant restitution, qu'effectuerait le module M' 3 de la figure 2, comme décrit ci-avant. En particulier, les signaux issus des sommateurs après l'étape 43 de la figure 4 peuvent être véhiculés via un réseau de communication, pour un décodage spatial et une restitution auprès d'un terminal mobile, aux étapes 44 et 45 décrites ci-avant.The same scheme is applied separately for the right and left channels. The figure distinguishes the delays applied on the left (τ L i) and right (τ R i) channels, as well as the directional coefficients applied on the left (Ci, j) and right (-Di, 7 ) channels. Finally, the signals summed and filtered in steps 44 and 45 are summed again (step 45 in FIG. 4), as in step 32 in FIG. 3, for reproduction on stereophonic headphones. It is indicated that steps 41, 42 and 43 may correspond to the spatial encoding proper, for binaural synthesis, while steps 44 and 45 may correspond to a spatial decoding before restitution, which the module M '3 of Figure 2, as described above. In particular, the signals coming from the summers after step 43 of FIG. 4 can be conveyed via a communication network, for spatial decoding and restitution with a mobile terminal, in steps 44 and 45 described above.
L'intérêt de cette mise en œuvre est que, contrairement à la synthèse binaurale "Jicanale", l'ajout d'une source supplémentaire ne nécessite pas l'ajout de deux filtres additionnels (de type FIR ou IIR) . En d'autres termes, les P filtres de base sont partagés par toutes les sources présentes. De plus, dans le cas de la synthèse binaurale dynamique, il est possible de faire varier les coefficients Cj (θi , φi) sans provoquer de clicks audibles en sortie du dispositif. Dans ce cas, seulement 2. P filtres sont nécessaires, alors que 4.N filtres étaient nécessaires pour la mise en œuvre bicanale dynamique décrite ci-avant.The advantage of this implementation is that, unlike the binaural "Jicanale" synthesis, the addition of an additional source does not require the addition of two additional filters (FIR or IIR type). In other words, P basic filters are shared by all the sources present. In addition, in the case of dynamic binaural synthesis, it is possible to vary the coefficients Cj (θi, φi) without causing audible clicks at the output of the device. In this case, only 2. P filters are necessary, whereas 4.N filters were necessary for the dynamic two-channel implementation described above.
En d'autres termes, les retards τ et les gains C et D, qui constituent les paramètres de spatialisation et sont spécifiques à chaque source sonore en fonction de sa position, peuvent donc être dissociés des filtres directionnels L(f) dans la mise en œuvre de la synthèse binaurale basée sur une décomposition linéaire des HRTFs. En conséquence, les filtres directionnels sont communs aux N sources, indépendamment de leur position, leur nombre ou leur éventuel déplacement. L'application des paramètres de spatialisation représente alors l'encodage spatial, proprement dit, des signaux relatifs aux sources mêmes, tandis que les filtres directionnels réalisent le traitement effectif de décodage spatial, en vue d'une restitution, qui ne dépend plus de la position des sources, mais de la fréquence sonore.In other words, the delays τ and the gains C and D, which constitute the spatialization parameters and are specific to each sound source as a function of its position, can therefore be dissociated from the directional filters L (f) in setting work of binaural synthesis based on a linear decomposition of HRTFs. Consequently, the directional filters are common to the N sources, regardless of their position, their number or their possible displacement. The application of the spatialization parameters then represents the spatial encoding, properly speaking, of the signals relating to the sources themselves, while the directional filters carry out the effective processing of spatial decoding, with a view to restitution, which no longer depends on the position of the sources, but of the sound frequency.
En se référant à la figure 5, cette dissociation entre les paramètres de spatialisation et les filtres directionnels est avantageusement exploitée en intégrant l'application du retard et du gain de spatialisation dans le synthétiseur sonore. La synthèse sonore et l'encodage spatial (retards et gains) piloté par l'azimut et l'élévation sont ainsi réalisés simultanément au sein d'un même module tel qu'un générateur de sons, pour chaque signal sonore (ou note, en édition musicale) à générer (étape 51) . Le décodage spatial est ensuite pris en charge par les filtres directionnels Li(f), comme indiqué ci- avant (étape 52) .Referring to FIG. 5, this dissociation between the spatialization parameters and the directional filters is advantageously exploited by integrating the application of the spatialization delay and gain in the sound synthesizer. Sound synthesis and spatial encoding (delays and gains) controlled by the azimuth and the elevation are thus carried out simultaneously within the same module such as a sound generator, for each sound signal (or note, in musical edition) to be generated (step 51). The spatial decoding is then taken care of by the directional filters Li (f), as indicated above (step 52).
On décrit maintenant, en référence aux figures 6 et 7, des étapes de la génération de signaux en synthèse sonore. En particulier, la figure 6 représente les principaux paramètres d'une enveloppe ADSR du type précité, utilisée couramment dans différentes techniques de synthèse sonore. En particulier, la figure 6 représente la variation temporelle de l'enveloppe d'un signal sonore synthétisé, par exemple une note jouée sur un piano, avec : un paramètre d'attaque, modélisé par une rampe montante 61, correspondant par exemple à la durée d'un enfoncement d'un marteau contre une corde de piano, - un paramètre de déclin, modélisé par une rampe descendante 62, à forte décroissance, correspondant par exemple à la durée d'un dégagement d'un marteau d'une corde de piano, - un paramètre de soutien (vibration libre) , modélisé par une rampe légèrement descendante 63, due à l'amortissement acoustique naturel, correspondant par exemple à la durée d'un son d'une touche de piano enfoncée, et un paramètre de relâchement, modélisé par une rampe descendante 64, correspondant par exemple à l'amortissement acoustique rapide que produit un feutre sur une corde de piano. Bien entendu, des variations plus complexes d'enveloppe peuvent être envisagées, comportant par exemple plus de quatre phases .We will now describe, with reference to FIGS. 6 and 7, stages of the generation of signals in sound synthesis. In particular, FIG. 6 represents the main parameters of an ADSR envelope of the aforementioned type, commonly used in different sound synthesis techniques. In particular, FIG. 6 represents the temporal variation of the envelope of a synthesized sound signal, for example a note played on a piano, with: an attack parameter, modeled by an ascending ramp 61, corresponding for example to the duration of a hammer hammering against a piano string, - a decline parameter, modeled by a descending ramp 62, with strong decay, corresponding for example to the duration of a hammer release from a string piano, - a support parameter (free vibration), modeled by a slightly descending ramp 63, due to natural acoustic damping, corresponding for example to the duration of a sound of a pressed piano key, and a parameter release, modeled by a descending ramp 64, corresponding for example to the rapid acoustic damping produced by a felt on a piano string. Of course, more complex variations of the envelope can be envisaged, comprising for example more than four phases.
On indique toutefois que la plupart des sons synthétisés peuvent être modélisés par une variation d'enveloppe comme décrite ci-avant. Préférentiellement, on définit les paramètres de l'enveloppe ADSR avant d'effectuer les filtrages prévus pour le traitement de spatialisation, en raison des variables de temps mises en jeu.It is indicated however that most of the synthesized sounds can be modeled by a variation of envelope as described above. Preferably, the parameters of the ADSR envelope are defined before performing the filters provided for the spatialization processing, due to the time variables involved.
On comprendra ainsi que le maximum de l'amplitude sonore (en unité arbitraire sur la figure 6) peut être défini par le traitement de spatialisation, en correspondance alors aux gains dj et Dij précités, pour chaque voie gauche et droite. De même, l'instant de déclenchement du son (début de la rampe 61) peut être défini à travers les retards τLi et τRi .It will thus be understood that the maximum of the sound amplitude (in arbitrary units in FIG. 6) can be defined by the spatialization processing, in correspondence then to the gains dj and Dij mentioned above, for each left and right channel. Similarly, the instant of triggering of the sound (start of the ramp 61) can be defined through the delays τ L i and τ R i.
On se réfère maintenant à la figure 7 sur laquelle on a représenté un opérateur simple de synthèse sonore par modulation de fréquence ("synthèse FM"). On définit initialement une fréquence porteuse fc (typiquement la fréquence du mode fondamental) , qui définit par exemple la tonalité d'une note de musique. On a recours ensuite à un ou plusieurs oscillateurs OSCl pour définir une ou plusieurs harmoniques fm (correspondant en principe à des fréquences multiples de la fréquence porteuse fc) , auxquelles sont associées des intensités relatives Im. Par exemple, les intensités Im, par rapport à l'intensité du mode fondamental, sont plus élevées pour un son métallique (tel que celui d'une corde de guitare neuve) . De façon générale, la synthèse FM permet de définir le timbre d'un son synthétisé. Les signaux (sinusoïdes) issus du ou des oscillateurs OSCl sont additionnés au signal tiré de la fréquence porteuse fc par le module AD, lequel délivre un signal à un oscillateur de sortie OSC2 qui reçoit en consigne l'amplitude Ac du son par rapport à la fréquence porteuse fc. Là encore, on indique que cette consigne Ac peut être directement définie par le traitement de spatialisation, à travers les gains C et D (en synthèse binaurale), comme on l'a vu ci-avant. Finalement, l'oscillateur OSC2 délivre un signal S'i, auquel on applique ensuite une enveloppe ADSR du type représenté sur la figure 6, ainsi qu'une paire de retards τLi et τRi et plusieurs gains Cij et Dij , respectivement pour chaque voie gauche et droite, comme représenté sur la figure 4, et pour obtenir finalement un signal tel que l'un des signaux que délivrent les générateurs de sons de la figure 5.We now refer to FIG. 7 in which a simple operator of sound synthesis by frequency modulation ("FM synthesis") has been shown. We initially define a carrier frequency f c (typically the frequency of the fundamental mode), which defines for example the tone of a musical note. One then uses one or more oscillators OSCl to define one or more harmonics f m (corresponding in principle to frequencies multiple of the carrier frequency f c ), with which are associated relative intensities I m . Through for example, the intensities I m , compared to the intensity of the fundamental mode, are higher for a metallic sound (such as that of a new guitar string). Generally speaking, FM synthesis makes it possible to define the timbre of a synthesized sound. The signals (sinusoids) coming from the oscillator (s) OSCl are added to the signal drawn from the carrier frequency f c by the module AD, which delivers a signal to an output oscillator OSC2 which receives the amplitude A c of the sound with reference. at the carrier frequency f c . Here again, it is indicated that this setpoint A c can be directly defined by the spatialization processing, through the gains C and D (in binaural synthesis), as we have seen above. Finally, the oscillator OSC2 delivers a signal S'i, to which an ADSR envelope of the type shown in FIG. 6 is then applied, as well as a pair of delays τ L i and τ R i and several gains Cij and Dij, respectively for each left and right channel, as shown in FIG. 4, and to finally obtain a signal such as one of the signals delivered by the sound generators of FIG. 5.
On comprendra ainsi qu'une telle mesure permet d'éviter, de façon particulièrement avantageuse, de générer, à partir d'une partition au format MIDI, les sons dans un format standard de restitution audio (par exemple en format "wave") et de les encoder à nouveau pour une spatialisation du son, comme dans les mises en œuvres connues .It will thus be understood that such a measure makes it possible to avoid, in a particularly advantageous manner, from generating, from a score in MIDI format, the sounds in a standard format of audio reproduction (for example in "wave" format) and to encode them again for a spatialization of sound, as in known implementations.
La présente invention permet de mettre en œuvre directement et à la fois les étapes de spatialisation et de synthèse du son. On comprendra en particulier que tout traitement de synthèse sonore, nécessitant la définition d'une intensité (et, le cas échéant, un instant de déclenchement du son) , peut être effectué conjointement avec un traitement de spatialisation, proposant un gain (et, le cas échéant, un retard) par voie de restitution.The present invention makes it possible to directly implement both the spatialization steps and sound synthesis. It will be understood in particular that any sound synthesis processing, requiring the definition of an intensity (and, where appropriate, an instant of triggering of the sound), can be carried out in conjunction with a spatialization processing, proposing a gain (and, the delay, if applicable) by return.
De façon générale, un synthétiseur de son fonctionne à partir de la lecture d'une partition qui regroupe les informations sur les instruments à synthétiser, les instants où l'on doit jouer les sons, la hauteur de ces sons, leur force, etc. Lors de la lecture de cette partition, on associe à chaque son un générateur de sons, comme indiqué ci-avant en référence à la figure 5.Generally speaking, a sound synthesizer works by reading a score which gathers information on the instruments to be synthesized, the moments when the sounds should be played, the pitch of these sounds, their strength, etc. When reading this partition, a sound generator is associated with each sound, as indicated above with reference to FIG. 5.
On considère d'abord le cas où une même source joue plusieurs notes simultanément. Ces notes, qui proviennent de la même source, sont spatialisées à la même position et donc avec les mêmes paramètres. Il est alors préféré de regrouper le traitement de spatialisation pour les générateurs de sons associés à la même source. Dans ces conditions, les signaux associés aux notes issues d'une même source sont préférentiellement sommés au préalable de façon à appliquer le traitement de spatialisation globalement sur le signal résultant, ce qui, d'une part, réduit avantageusement le coût d' implé entation et, d'autre part, garantit avantageusement la cohérence de la scène sonore.We first consider the case where the same source plays several notes simultaneously. These notes, which come from the same source, are spatialized at the same position and therefore with the same parameters. It is therefore preferred to group the spatialization processing for the sound generators associated with the same source. Under these conditions, the signals associated with the notes from the same source are preferably summed beforehand so as to apply the spatialization processing globally to the resulting signal, which, on the one hand, advantageously reduces the cost of implementation. and, on the other hand, advantageously guarantees the coherence of the sound scene.
En outre, les gains et les retards peuvent être appliqués en tirant partie de la structure du synthétiseur. D'une part, les retards (voie gauche et voie droite) de spatialisation sont implémentés sous la forme de lignes à retard. D'autre part, dans le cadre du synthétiseur, les retards sont gérés par les instants de déclenchement des générateurs de sons en accord avec la partition. Dans le cadre d'une synthèse sonore spatialisée, les deux approches précédentes (ligne à retard et contrôle de l'instant de déclenchement) sont combinées de façon à optimiser le traitement. On économise donc une ligne à retard par source, en jouant sur les instants de déclenchement des générateurs de sons. A cet effet, on extrait la différence entre les retards de la voie gauche et de la voie de droite pour la spatialisation. On prévoit ensuite d'ajouter le plus faible des deux retards à l'instant de déclenchement du générateur. Il reste ensuite à appliquer la différence de temps entre les voies gauche et droite à une seule des deux voies, sous la forme d'une ligne à retard, étant bien entendu que cette différence de retard peut prendre aussi bien des valeurs positives que négatives.Additionally, gains and delays can be applied by taking advantage of the synthesizer structure. On the one On the other hand, the delays (left channel and right channel) of spatialization are implemented in the form of delay lines. On the other hand, within the framework of the synthesizer, the delays are managed by the instants of triggering of the sound generators in agreement with the partition. In the context of a spatialized sound synthesis, the two previous approaches (delay line and control of the triggering instant) are combined in order to optimize the processing. One saves therefore one delay line per source, by playing on the instants of triggering of the sound generators. For this purpose, we extract the difference between the delays of the left channel and the right channel for spatialization. It is then planned to add the lower of the two delays at the time of triggering of the generator. It then remains to apply the time difference between the left and right channels to only one of the two channels, in the form of a delay line, it being understood that this difference in delay can take both positive and negative values.
En ce qui concerne les gains, le paramètre de balance (ou de "panoramique" ) , qui est typiquement associé au système stéréophonique, n'a plus lieu d'être. Il est donc possible de supprimer les gains associés à la balance. De plus, le paramètre de volume du générateur de son peut être appliqué au niveau des différents gains correspondant à l'encodage spatial, comme décrit ci-avant.As far as gains are concerned, the balance (or "pan") parameter, which is typically associated with the stereophonic system, no longer needs to be. It is therefore possible to delete the gains associated with the balance. In addition, the sound generator volume parameter can be applied at the level of the different gains corresponding to the spatial encoding, as described above.
On indique en outre que la présente invention permet d'appliquer la spatialisation sonore, source par source, du fait que l'outil de spatialisation est intégré au cœur du moteur de synthèse sonore. Tel n'est pas le cas si l'on procède au contraire par simple mise en cascade du moteur de synthèse et de l'outil de spatialisation. Dans ce cas en effet, on rappelle que la spatialisation ne peut être appliquée que globalement à l'ensemble de la scène sonore.It is further indicated that the present invention makes it possible to apply sound spatialization, source by source, the fact that the spatialization tool is integrated into the heart of the sound synthesis engine. This is not the case if we proceed on the contrary by simply cascading the synthesis engine and the spatialization tool. In this case, in fact, it is recalled that the spatialization can only be applied globally to the entire sound scene.
Selon un autre avantage que procure la présente invention, on peut associer de façon judicieuse les outils de synthèse et de spatialisation sonores, afin de réaliser une mise en œuvre optimisée d'un moteur de synthèse sonore spatialisée, avec, en particulier, une optimisation de la combinaison des opérations de synthèse et de spatialisation, en tenant compte notamment d'au moins un gain et/ou d'un retard de spatialisation, ou encore d'un filtre de spatialisation.According to another advantage which the present invention provides, the sound synthesis and spatialization tools can be judiciously combined, in order to achieve an optimized implementation of a spatialized sound synthesis engine, with, in particular, an optimization of the combination of synthesis and spatialization operations, taking into account in particular at least one gain and / or a spatialization delay, or even a spatialization filter.
Dans le cas où les paramètres de synthèse appliquent déjà l'un ou plusieurs de ces paramètres (gain, retard, filtre) , les paramètres de spatialisation sont avantageusement pris en compte par simple modification des paramètres de synthèse, sans modification du modèle de synthèse lui-même.In the case where the synthesis parameters already apply one or more of these parameters (gain, delay, filter), the spatialization parameters are advantageously taken into account by simple modification of the synthesis parameters, without modification of the synthesis model itself. -even.
Par ailleurs, par la simple addition au moteur de synthèse sonore d'un gain et d'un retard, éventuellement complétés par un filtre, une synthèse sonore spatialisée, basée sur différentes techniques possibles de spatialisation, peut être obtenue. Ces techniques de spatialisation (synthèse binaurale/transaurale, holophonie, ambiophonie, ete) peuvent être de complexité et de performance variables mais offrent dans l'ensemble une spatialisation beaucoup plus riche et plus complète que la stéréophonie, avec notamment un rendu naturel et particulièrement immersif de la scène sonore. En effet, la spatialisation sonore au sens de l'invention conserve tout le potentiel d'un rendu sonore tridimensionnel, notamment en terme d'immersion, avec une véritable spatialisation en 3D.Furthermore, by simply adding a gain and a delay to the sound synthesis engine, possibly supplemented by a filter, a spatialized sound synthesis, based on different possible spatialization techniques, can be obtained. These spatialization techniques (binaural / transaural synthesis, holophony, surround sound, summer) can be of variable complexity and performance but overall offer a much richer and more complete spatialization than stereophony, with in particular a natural and particularly immersive rendering of the sound scene. Indeed, the sound spatialization within the meaning of the invention retains the full potential of three-dimensional sound rendering, in particular in terms of immersion, with true 3D spatialization.
Bien entendu, on peut prévoir en outre une intégration du traitement de spatialisation et d'effet de salle, sous la forme simplifiée d'au moins un gain et/ou d'un retard (éventuellement complétés de filtres) , et d'un réverbérateur artificiel pour la réverbération tardive. Of course, provision can also be made for integration of the spatialization and room effect processing, in the simplified form of at least one gain and / or of a delay (possibly supplemented with filters), and of a reverberator. artificial for late reverberation.

Claims

Revendications claims
1. Procédé de synthèse et de spatialisation sonores, dans lequel un son synthétique à générer est caractérisé par la nature d'une source sonore virtuelle et par sa position par rapport à une origine choisie, caractérisé en ce qu'il comporte une étape conjointe consistant à déterminer des paramètres incluant au moins un gain, pour définir en même temps: - une intensité sonore caractérisant la nature de la source, et - la position de la source par rapport à une origine prédéterminée .1. A method of sound synthesis and spatialization, in which a synthetic sound to be generated is characterized by the nature of a virtual sound source and by its position relative to a chosen origin, characterized in that it comprises a joint step consisting to determine parameters including at least one gain, to define at the same time: - a sound intensity characterizing the nature of the source, and - the position of the source with respect to a predetermined origin.
2. Procédé selon la revendication 1, dans lequel la spatialisation de la source virtuelle s'effectue en contexte ambiophonique, caractérisé en ce qu'il comporte une étape de calcul de gains associés à des composantes ambiophoniques dans une base d'harmoniques sphériques.2. Method according to claim 1, in which the spatialization of the virtual source takes place in a surround context, characterized in that it comprises a step of calculating gains associated with surround components in a base of spherical harmonics.
3. Procédé selon la revendication 1, dans lequel le son synthétique est destiné à être restitué en contexte holophonique, ou binaural, ou transaural, sur une pluralité de voies de restitution, caractérisé en ce que, pendant ladite étape conjointe, on détermine en outre un retard entre voies de restitution, pour définir en même temps:3. Method according to claim 1, in which the synthetic sound is intended to be reproduced in a holophonic, or binaural, or transaural context, on a plurality of reproduction channels, characterized in that, during said joint step, it is further determined a delay between restitution channels, to define at the same time:
- un instant de déclenchement du son caractérisant la nature de la source, et - la position de la source par rapport à une origine prédéterminée . - an instant of triggering of the sound characterizing the nature of the source, and - the position of the source with respect to a predetermined origin.
4. Procédé selon la revendication 3, caractérisé en ce que la nature de la source virtuelle est paramétrée au moins par une variation temporelle d'intensité sonore, sur une durée choisie et incluant un instant de déclenchement du son.4. Method according to claim 3, characterized in that the nature of the virtual source is configured at least by a temporal variation of sound intensity, over a chosen duration and including an instant of triggering of the sound.
5. Procédé selon la revendication 4, caractérisé en ce que ladite variation comporte au moins : - une phase d'attaque instrumentale,5. Method according to claim 4, characterized in that said variation comprises at least: - an instrumental attack phase,
- une phase de déclin,- a phase of decline,
- une phase de soutien, et- a support phase, and
- une phase de relâchement .- a relaxation phase.
6. Procédé selon l'une des revendications 3 à 5, caractérisé en ce que la spatialisation de la source virtuelle s'effectue par une synthèse binaurale basée sur une décomposition linéaire de fonctions de transfert, ces fonctions de transfert s ' exprimant par une combinaison linéaire de termes dépendant de la fréquence du son (L(f)) et pondérés par des termes dépendant de la direction du son (τR/ τL,C,D) .6. Method according to one of claims 3 to 5, characterized in that the spatialization of the virtual source is carried out by a binaural synthesis based on a linear decomposition of transfer functions, these transfer functions being expressed by a combination linear of terms depending on the frequency of sound (L (f)) and weighted by terms depending on the direction of sound (τ R / τ L , C, D).
7. Procédé selon la revendication 6, caractérisé en ce que la direction est définie par au moins un angle azimutal7. Method according to claim 6, characterized in that the direction is defined by at least one azimuth angle
(θ) et, de préférence, par un angle azimutal (θ) et un angle d'élévation (φ) .(θ) and preferably by an azimuth angle (θ) and an elevation angle (φ).
8. Procédé selon l'une des revendications 6 et 7, caractérisé en ce que la position de la source virtuelle est paramétrée au moins par : plusieurs filtrages, fonctions de la fréquence sonore (Li (f) ) , plusieurs gains de pondération associés chacun à un filtrage, et un retard par voie "gauche" et "droite".8. Method according to one of claims 6 and 7, characterized in that the position of the virtual source is parameterized at least by: several filterings, functions of the sound frequency (Li (f)), several weighting gains each associated with a filtering, and a delay by "left" and "right" channels.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce que la nature de la source virtuelle est paramétrée au moins par un timbre sonore, en associant des intensités sonores relatives choisies à des harmoniques d'une fréquence correspondant à une hauteur tonale du son.9. Method according to one of the preceding claims, characterized in that the nature of the virtual source is configured at least by a sound timbre, by associating chosen relative sound intensities with harmonics of a frequency corresponding to a pitch of the his.
10. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il prévoit un moteur de synthèse sonore propre à générer des sons spatialisés, par rapport à ladite origine prédéterminée .10. Method according to one of the preceding claims, characterized in that it provides a sound synthesis engine capable of generating spatialized sounds, with respect to said predetermined origin.
11. Procédé selon la revendication 10, dans lequel le moteur de synthèse est implémenté en contexte d'édition musicale, caractérisé en ce que le procédé prévoit en outre une interface homme/machine pour placer la source virtuelle à une position choisie par rapport à l'origine prédéterminée .11. The method of claim 10, wherein the synthesis engine is implemented in the context of music editing, characterized in that the method further provides a man / machine interface for placing the virtual source at a chosen position relative to the 'predetermined origin.
12. Procédé selon la revendication 11, prise en combinaison avec la revendication 6, dans lequel on prévoit une pluralité de sources virtuelles à synthétiser et spatialiser, caractérisé en ce que l'on assigne chaque source à une position respective. 12. The method of claim 11, taken in combination with claim 6, wherein there is provided a plurality of virtual sources to synthesize and spatialize, characterized in that each source is assigned to a respective position.
13. Module de génération de sons synthétiques, comprenant notamment un processeur, caractérisé en ce qu'il comporte en outre une mémoire de travail propre à stocker des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes.13. Synthetic sound generation module, comprising in particular a processor, characterized in that it further comprises a working memory suitable for storing instructions for the implementation of the method according to one of the preceding claims.
14. Produit programme d'ordinateur, stocké dans une mémoire d'une unité centrale ou d'un terminal, notamment mobile, ou sur un support amovible propre à coopérer avec un lecteur de ladite unité centrale, caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 12. 14. Computer program product, stored in a memory of a central unit or of a terminal, in particular mobile, or on a removable medium suitable for cooperating with a reader of said central unit, characterized in that it comprises instructions for implementing the method according to one of claims 1 to 12.
EP03819273A 2003-12-15 2003-12-15 Method for synthesizing acoustic spatialization Withdrawn EP1695335A1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FR2003/003730 WO2005069272A1 (en) 2003-12-15 2003-12-15 Method for synthesizing acoustic spatialization

Publications (1)

Publication Number Publication Date
EP1695335A1 true EP1695335A1 (en) 2006-08-30

Family

ID=34778508

Family Applications (1)

Application Number Title Priority Date Filing Date
EP03819273A Withdrawn EP1695335A1 (en) 2003-12-15 2003-12-15 Method for synthesizing acoustic spatialization

Country Status (5)

Country Link
US (1) US20070160216A1 (en)
EP (1) EP1695335A1 (en)
CN (1) CN1886780A (en)
AU (1) AU2003301502A1 (en)
WO (1) WO2005069272A1 (en)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5051782B2 (en) * 2006-03-13 2012-10-17 フランス・テレコム How to combine speech synthesis and spatialization
FR2899423A1 (en) * 2006-03-28 2007-10-05 France Telecom Three-dimensional audio scene binauralization/transauralization method for e.g. audio headset, involves filtering sub band signal by applying gain and delay on signal to generate equalized and delayed component from each of encoded channels
US20090017910A1 (en) * 2007-06-22 2009-01-15 Broadcom Corporation Position and motion tracking of an object
US20080187143A1 (en) * 2007-02-01 2008-08-07 Research In Motion Limited System and method for providing simulated spatial sound in group voice communication sessions on a wireless communication device
US20090238371A1 (en) * 2008-03-20 2009-09-24 Francis Rumsey System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
US8430750B2 (en) * 2008-05-22 2013-04-30 Broadcom Corporation Video gaming device with image identification
CN102089633B (en) * 2008-07-08 2013-01-02 布鲁尔及凯尔声音及振动测量公司 Method for reconstructing an acoustic field
US7847177B2 (en) * 2008-07-24 2010-12-07 Freescale Semiconductor, Inc. Digital complex tone generator and corresponding methods
AU2010281346A1 (en) * 2009-08-02 2012-03-08 Blamey & Saunders Hearing Pty Ltd Fitting of sound processors using improved sounds
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US8805697B2 (en) * 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
US20130204532A1 (en) * 2012-02-06 2013-08-08 Sony Ericsson Mobile Communications Ab Identifying wind direction and wind speed using wind noise
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
US9099066B2 (en) * 2013-03-14 2015-08-04 Stephen Welch Musical instrument pickup signal processor
JP6506764B2 (en) 2013-09-12 2019-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション Loudness adjustment for downmixed audio content
CN105163239B (en) * 2015-07-30 2017-11-14 郝立 The holographic three-dimensional sound implementation method of the naked ears of 4D
FR3046489B1 (en) * 2016-01-05 2018-01-12 Mimi Hearing Technologies GmbH IMPROVED AMBASSIC ENCODER OF SOUND SOURCE WITH A PLURALITY OF REFLECTIONS
CN107204132A (en) * 2016-03-16 2017-09-26 中航华东光电(上海)有限公司 3D virtual three-dimensional sound airborne early warning systems
US20170325043A1 (en) 2016-05-06 2017-11-09 Jean-Marc Jot Immersive audio reproduction systems
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
BR112019020887A2 (en) * 2017-04-13 2020-04-28 Sony Corp apparatus and method of signal processing, and, program.
CN107103801B (en) * 2017-04-26 2020-09-18 北京大生在线科技有限公司 Remote three-dimensional scene interactive teaching system and control method
CN109121069B (en) * 2018-09-25 2021-02-02 Oppo广东移动通信有限公司 3D sound effect processing method and related product

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69322805T2 (en) * 1992-04-03 1999-08-26 Yamaha Corp Method of controlling sound source position
US5596644A (en) * 1994-10-27 1997-01-21 Aureal Semiconductor Inc. Method and apparatus for efficient presentation of high-quality three-dimensional audio
DE69619587T2 (en) * 1995-05-19 2002-10-31 Yamaha Corp Method and device for sound generation
DE69637736D1 (en) * 1995-09-08 2008-12-18 Fujitsu Ltd Three-dimensional acoustic processor with application of linear predictive coefficients
US5977471A (en) * 1997-03-27 1999-11-02 Intel Corporation Midi localization alone and in conjunction with three dimensional audio rendering
US6459797B1 (en) * 1998-04-01 2002-10-01 International Business Machines Corporation Audio mixer
US6990205B1 (en) * 1998-05-20 2006-01-24 Agere Systems, Inc. Apparatus and method for producing virtual acoustic sound
JP2000341800A (en) * 1999-05-27 2000-12-08 Fujitsu Ten Ltd Acoustic system in vehicle compartment
JP3624805B2 (en) * 2000-07-21 2005-03-02 ヤマハ株式会社 Sound image localization device
US7162314B2 (en) * 2001-03-05 2007-01-09 Microsoft Corporation Scripting solution for interactive audio generation
FR2836571B1 (en) * 2002-02-28 2004-07-09 Remy Henri Denis Bruno METHOD AND DEVICE FOR DRIVING AN ACOUSTIC FIELD RESTITUTION ASSEMBLY
CA2430403C (en) * 2002-06-07 2011-06-21 Hiroyuki Hashimoto Sound image control system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005069272A1 *

Also Published As

Publication number Publication date
AU2003301502A1 (en) 2005-08-03
US20070160216A1 (en) 2007-07-12
WO2005069272A1 (en) 2005-07-28
CN1886780A (en) 2006-12-27

Similar Documents

Publication Publication Date Title
EP1695335A1 (en) Method for synthesizing acoustic spatialization
CN105900457B (en) The method and system of binaural room impulse response for designing and using numerical optimization
Begault et al. 3-D sound for virtual reality and multimedia
Savioja et al. Creating interactive virtual acoustic environments
Valimaki et al. Fifty years of artificial reverberation
EP1600042B1 (en) Method for the treatment of compressed sound data for spatialization
EP1563485B1 (en) Method for processing audio data and sound acquisition device therefor
JP2009055621A (en) Method of processing directional sound in virtual acoustic environment
EP4121957A1 (en) Encoding reverberator parameters from virtual or physical scene geometry and desired reverberation characteristics and rendering using these
WO2010089357A2 (en) Sound system
KR20240005112A (en) Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
WO2022014326A1 (en) Signal processing device, method, and program
Rocchesso Spatial effects
EP1994526B1 (en) Joint sound synthesis and spatialization
Huopaniemi et al. DIVA virtual audio reality system
US20080212784A1 (en) Parametric Multi-Channel Decoding
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
Ballivian Creating, Capturing and Conveying Spatial Music: An Open-Source Approach
Peters et al. Sound spatialization across disciplines using virtual microphone control (ViMiC)
CN117043851A (en) Electronic device, method and computer program
Zalles Ballivian Creating, capturing and conveying spatial music: an open-source approach
KR20060131806A (en) Method for synthesizing acoustic spatialization
Gozzi et al. Listen to the Theatre! Exploring Florentine Performative Spaces
Saini et al. An end-to-end approach for blindly rendering a virtual sound source in an audio augmented reality environment
CN116643712A (en) Electronic device, system and method for audio processing, and computer-readable storage medium

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060612

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20060928

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20110701