EP1593116A1 - Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage de bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede - Google Patents

Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage de bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede

Info

Publication number
EP1593116A1
EP1593116A1 EP04705433A EP04705433A EP1593116A1 EP 1593116 A1 EP1593116 A1 EP 1593116A1 EP 04705433 A EP04705433 A EP 04705433A EP 04705433 A EP04705433 A EP 04705433A EP 1593116 A1 EP1593116 A1 EP 1593116A1
Authority
EP
European Patent Office
Prior art keywords
signal
pitch
block
synthesis
frequencies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP04705433A
Other languages
German (de)
English (en)
Other versions
EP1593116B1 (fr
Inventor
Jean-Luc Crebouw
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP1593116A1 publication Critical patent/EP1593116A1/fr
Application granted granted Critical
Publication of EP1593116B1 publication Critical patent/EP1593116B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates to a differentiated digital processing of voice and music, noise filtering, the creation of special effects as well as a device for implementing said method.
  • Its purpose is more particularly to transform the voice in a realistic or original way and, more generally, to process in real time the voice, the music, the ambient noise and to record the results obtained on a support. computer science.
  • the voice signal is made up of a mixture of very complex transient signals (noises) and quasi-periodic signal parts (harmonic sounds).
  • the noises can be small explosions: P, B, T, D, K, GU; soft diffuse noises: F, V, J, Z or intense CH, S; as for harmonic sounds, their spectrum varies with the type of vowel and with the speaker.
  • the intensity ratios between noises and vowels vary depending on whether it is a conversational voice, a conference-type spoken voice, a loud shouted voice or a sung voice. The loud voice and the sung voice favor the vowel sounds to the detriment of the noises.
  • the voice signal simultaneously transmits two types of messages: a semantic message conveyed by speech, a verbal expression of thought, and an aesthetic message perceptible through the aesthetic qualities of the voice (timbre, intonation, flow, etc.).
  • the semantic content of speech is practically independent of the qualities of the voice; it is conveyed by temporal acoustic forms; a whispered voice consists only of flow noises; an “intimate” or proximity voice is made up of a mixture of harmonic sounds in the low frequencies and flow noises in the high range; the voice of a speaker or singer has a rich and intense harmonic vocal spectrum.
  • the musical range and the spectral content are not directly linked; some instruments have the maximum energy included in the range; others have a well-circumscribed maximum energy zone, located at the acute limit of the range and beyond; others still have very spread energy maxima which go far beyond the acute limit of the range.
  • analog processing of these complex signals for example their amplification, induces, in an inescapable manner, an increasing degradation as and when said processing and this in an irreversible manner.
  • the originality of digital technologies is to introduce a dete ⁇ i-iinism (that is to say a priori knowledge) as important as possible at the level of the signals processed so as to carry out particular processing which will reside in the form of calculations.
  • this signal will be processed without undergoing degradation such as noise of background, distortion and bandwidth limitation; moreover, it can be processed to create special effects such as voice transformation, suppression of ambient noise, modification of the breath of the voice, differentiation of the voice and the music.
  • bitrate reduction methods are mainly used for digital storage (with the aim of reducing the bit volume) and for transmission (with the aim of reducing the necessary bitrate). These methods include processing prior to storage or transmission (coding) and processing upon return (decoding).
  • bitrate reduction methods those using the perceptual methods with loss of information are the most used and in particular the MPEG Audio method.
  • This process is based on the mask effect of human hearing, i.e. the disappearance of weak sounds in the presence of loud sounds, equivalent to a displacement of the hearing threshold caused by the loudest sound and depending on the frequency and level difference between the two sounds.
  • the number of bits per sample is defined according to the mask effect since the weak sounds and the quantization noise are inaudible.
  • the audio spectrum is divided into a certain number of sub-bands, thus making it possible to specify the level of mask in each of the sub-bands and to perform a binary allocation for each of them. between them.
  • the MPEG audio process thus consists in:
  • This technique consists in transmitting a variable bit rate according to the instantaneous composition of the sound.
  • this process is rather suitable for processing music and not for the voice signal; it does not detect the presence of voice or music, separate the vocal or musical signal and noise, modify the voice in real time to synthesize a different but realistic voice, synthesize breath (noise) to create special effects, encode a voice signal with one voice, reduce ambient noise.
  • the invention therefore more particularly aims to eliminate these drawbacks.
  • this process for transforming voice, music and ambient noise essentially involves:
  • FIG. 1 is a simplified flow diagram of the method according to the invention.
  • FIG. 2 is a flow diagram of the analysis step
  • Figure 3 is a flow diagram of the synthesis step
  • Figure 4 is a flow diagram of the coding step; and Figure 5 is a block diagram of a device according to the invention.
  • the differentiated digital voice and music processing method according to the invention comprises the following steps:
  • the analysis of the voice signal and the coding of the parameters constitute the two functionalities of the analyzer (block A); similarly, decoding parameters, special effects and synthesis constitute the functions of the synthesizer (block C).
  • the differentiated digital processing method for voice and music essentially comprises four processing configurations: • the first configuration (path I) comprising the analysis, followed by the coding of the parameters, followed by the saving and reading the parameters, followed by the decoding of the parameters, followed by the special effects, followed by the synthesis,
  • the analysis phase of the audio signal comprises the following steps: shaping of the input signal (block 1), calculation of the time envelope (block 2 ), time interpolation detection (block 3), detection of the audible signal (block 4), calculation of the time interpolation (block 5), calculation of the signal dynamics (block 6), detection of an inaudible frame after a frame higher energy
  • TRF (block 11), preprocessing of the time signal (block 12), calculation of the TRF on processed signal (block 13), calculation of the signal to noise ratio (block 14), test of the doppler variation of the pitch (block 15 ) calculation of the TRF on unprocessed signal (block 16), calculation of the signal to noise ratio (block 17), comparison of the signal to noise ratios with and without preprocessing
  • TRF fast Fourier transform
  • the analysis of the voice signal is carried out essentially in four stages • calculation of the signal envelope (block 2), • calculation of the “pitch” and its variation (block 12), • application to the time signal of the inverse variation of the pitch (block 12),
  • TRF fast Fourrier transform
  • thresholds make it possible to detect respectively the presence of inaudible signal, the presence of inaudible frame, the presence of a pulse, the presence of disturbing sector signal (50 Hz or 60 Hz ).
  • a fifth threshold makes it possible to carry out the rapid Fourrier transform (TRF) on the unprocessed signal as a function of the characteristics of the "pitch" and of its variation.
  • a sixth threshold makes it possible to restore the result of the fast Fourrier transform (TRF) with preprocessing as a function of the signal to noise ratio.
  • Two frames are used in the audio signal analysis method, a so-called “current” frame, of fixed periodicity, containing a certain number of samples corresponding to the voice signal, and a so-called “analysis” frame, the number of which of samples is equivalent to that of the current frame or the double, and being able to be shifted, according to the temporal interpolation, compared to the aforesaid current frame.
  • the shaping of the input signal (block 1) consists in performing high pass filtering in order to improve the future coding of the frequency amplitudes by increasing their dynamics; said high pass filtering increases the dynamic frequency amplitude by avoiding that a low audible frequency occupies all the dynamics and makes disappear frequencies of low amplitude but nevertheless audible.
  • the filtered signal is then directed to block 2 for the determination of the time envelope.
  • the time difference to be applied to the analysis frame is then calculated by looking on the one hand for the maximum of the envelope in said frame and then on the other hand for two indices corresponding to the values of the envelope which are lower by a certain percentage than the maximum value.
  • the temporal interpolation detection (block 3) makes it possible to correct the two offset indices of the analysis frame found in the previous calculation, and this taking into account the past.
  • a first threshold (block 4) detects or not the presence of an audible signal by measuring the maximum value of the envelope; in the affirmative, the analysis of the frame is completed; otherwise, continuous processing.
  • a calculation is then made (block 5) of the parameters associated with the time offset of the analysis frame by determining the interpolation parameter of the modules which is equal to the ratio of the maximum envelope in the current frame to that of the offset frame .
  • the signal dynamics are then calculated (block 6) for its normalization in order to reduce the calculation noise; the signal normalization gain is calculated from the highest sample in absolute value in the analysis frame.
  • a second threshold (block 7) detects or not the presence of an inaudible frame by mask effect caused by the previous frames; if so, the analysis is complete; otherwise, processing continues.
  • a third threshold (block 8) then detects or not the presence of a pulse; if so, specific processing is carried out (blocks 9, 10); otherwise, the signal parameter calculations (block 11) used for the preprocessing of the time signal (block 12) will be performed.
  • the repetition of the pulse (block 9) is carried out by creating an artificial pitch, equal to the duration of the pulse, so as to avoid masking of the useful frequencies during the fast transform of Fourrier (TRF).
  • the fast Fourier transform (TRF) (block 10) is then carried out on the repeated pulse while retaining only the absolute value of the complex number and not the phase; the calculation of the frequencies and of the frequency data modules (block 20) is then carried out.
  • the signal parameters (block 11) are calculated, which parameters relate to: - the calculation of the pitch and its variation,
  • the calculation of the "pitch” is carried out beforehand by a differentiation of the signal from the analysis frame, followed by a low-pass filtering of the components of high rank, then by a cubic rise of the result of said filtering; the value of the pitch is determined by calculating the minimum distance between a portion of a high energy signal with the continuation of the subsequent signal, since the said minimum distance is the sum of the absolute value of the differences between the samples the template and the samples to be correlated; then, the main part of a "pitch” centered around one and a half times the value of the "pitch” is sought at the start of the analysis frame in order to calculate the distance of this portion of "pitch” over the entirety of the analysis frame; thus, the minimum distances define the positions of the "pitches", the "pitch” being the average of the "pitches” detected; then the variation of the "pitch” is calculated using a straight line which mutates the mean square error of the successions of the "pitchs” detected; the “pitch” estimated at the start and end
  • the variation in pitch found and validated previously, will be subtracted from the time signal in block 12 of time preprocessing, using only the first order of said variation.
  • Subtracting the variation in “pitch” consists in sampling the oversampled analysis frame with a sampling step varying with the inverse value of said variation in “pitch”.
  • the oversampling, in a ratio two, of the analysis frame is carried out by multiplying the result of the fast Fourrier transform (TFR) of the analysis frame by the factor exp (-j * 2 * PI * k / (2 * L_frame), so as to add a delay of half a sample to the time signal used for the calculation of the fast Fourrier transform; the fast inverse Fourier transform is then carried out in order to obtain the time signal shifted by half a sample.
  • TFR fast Fourrier transform
  • a frame of double length is thus produced by alternately using a sample of the original frame with a sample of the frame offset by half a sample.
  • the said "pitch” seems identical over the entire analysis window, which will give a result of the fast Fourrier transform (TRF) without spreading frequencies; the fast Fourier transform (TRF) can then be carried out in block 13 in order to know the frequency domain of the analysis frame; the method used makes it possible to quickly calculate the module of the complex number at the expense of the signal phase.
  • TRF fast Fourrier transform
  • the signal-to-noise ratio is calculated on the absolute value of the result of the fast Fourier transform (TRF); the above ratio is in fact the ratio of the difference of the signal energy and the noise to the sum of the signal energy and the noise; the numerator of the above ratio corresponds to the logarithm of the difference between two energy peaks, signal and noise respectively, the energy peak being that which is either greater than the four adjacent samples corresponding to the harmonic signal, or less than the four adjacent samples corresponding to noise; the denominator is the sum of the logarithms of all the signal and noise peaks; moreover, the calculation of the signal to noise ratio is done by sub-band, the highest sub-bands, in terms of level, are averaged and give the desired ratio.
  • TRF fast Fourier transform
  • the calculation of the signal-to-noise ratio defined as the signal-to-noise-to-signal-plus-noise-ratio, carried out in block 14, makes it possible to determine whether the signal analyzed is a voiced signal or music, in the case of a high ratio, or noise, in case of a low ratio.
  • the calculation of the signal to noise ratio is then carried out in block 17, so as to transmit to block 20 the results of the fast Fourrier transform (TRF) without preprocessing, in the case of a variation of the zero pitch, or, in the opposite case to restore the results of the fast Fourier transform (TRF) with pretreatment (block 19).
  • TRF fast Fourrier transform
  • the calculation of the frequencies and of the frequency data modules of the fast Fourrier transform (TRF) is carried out in block 20.
  • the fast Fourier transform (TRF), previously cited with reference to blocks 10, 13, 16, is performed, for example, on 256 samples in the case of an offset frame or a pulse, or on the double samples in the case of a centered frame without pulse.
  • a weighting of the samples located at the ends of the samples known as HAMMING, is carried out in the case of the fast Fourrier transform (TRF) on n samples; on 2n samples, we use the HAMMING weighting window multiplied by the square root of the HAMMING window.
  • the ratio between two adjacent maximum values is calculated, each representing the product of the amplitude of the frequency component by a cardinal sine; by successive approximations, this ratio between the maximum values is compared to values contained in tables containing this same ratio, for N frequencies (for example 32 or 64) distributed uniformly over a half sample of the fast Fourier transform (TRF) .
  • N frequencies for example 32 or 64
  • the index of said table which defines the ratio closest to that to be compared gives on the one hand the modulus and on the other hand the frequency for each maximum of the absolute value of the fast Fourier transform (TRF).
  • the calculation of the frequencies and of the frequency data modules of the fast Fourier transform (TRF), carried out in block 20, also makes it possible to detect a DTMF (multifrequency dual tone) signal in telephony.
  • TRF fast Fourier transform
  • the signal to noise ratio is the essential criterion which defines the type of signal.
  • the signal extracted from block 20 is categorized into four types in block 21, namely:
  • the pitch and its variation can be non-zero; the noise applied to the synthesis will be of low energy; the coding of the parameters will be carried out with maximum precision.
  • the pitch and its variation are zero; the noise applied to the synthesis will be of high energy; the coding of the parameters will be carried out with the minimum precision.
  • - type 2 voiced signal or music.
  • the pitch and its variation are zero; the noise applied to the synthesis will be of medium energy; the parameters will be coded with intermediate precision.
  • this type of signal is decided at the end of the analysis when the signal to be synthesized is zero.
  • a detection of the presence or non-presence of a disturbing signal at 50 Hz (60 Hz) is carried out in block 22; the level of the detection threshold is a function of the level of the signal sought so as to avoid confusing the electromagnetic disturbance (50, 60 Hz) and the fundamental of a musical instrument.
  • the frequency plane is subdivided into several parts, each of which has several ranges of amplitude differentiated as a function of the type of signal detected at block 21.
  • the temporal interpolation and the frequency interpolation are suppressed at the level of block 24; these were carried out to optimize the quality of the signal.
  • Frequency interpolation depends on the variation of the pitch; this will be deleted depending on the offset of a certain number of samples and the direction of the variation of the pitch.
  • the suppression of the inaudible signal is then carried out in block 25. Indeed, certain frequencies are inaudible because masked by other signals of higher amplitude.
  • the amplitudes situated below the lower limit of the amplitude range are eliminated, then the frequencies whose interval is less than a frequency unit are moved away, defined as the sampling frequency by sample unit. Then, the inaudible components are eliminated using a test between the amplitude of the frequency component to be tested and the amplitude of the others. adjacent components multiplied by an attenuating term depending on the difference between their frequency.
  • the number of frequency components is limited to a value beyond which the difference in the result obtained is not perceptible.
  • the calculation of the pitch and the validation of the pitch are performed at block 26; in fact the “pitch” calculated in block 11 on the time signal was determined in the time domain in the presence of noise; calculating the pitch in the frequency domain will improve the precision of the pitch and detect a pitch that the calculation on the time signal, performed in block 11, would not have determined because of the noise ambient. Furthermore, the calculation of the “pitch” on the frequency signal must make it possible to decide whether it should be used for coding, knowing that the use of the “pitch” for coding makes it possible to greatly reduce the coding and to make the voice more natural to synthesis; it is also used by the noise filter.
  • the principle of calculating the "pitch” consists in synthesizing the signal by a sum of cosines having originally zero phases; thus the shape of the original signal will be reconstituted without the disturbances of the envelope, the phases and the variation of the "pitch".
  • the value of the frequency pitch is defined by the value of the time pitch which is equivalent to the first synthesis value having a maximum greater than the product of a coefficient by the sum of the modules used for local synthesis (sum of the cosines said modules); this coefficient is equal to the ratio of the signal energy, considered to be harmonic, to the sum of the noise energy and the signal energy; the aforesaid coefficient is all the more low as the “pitch” to be detected is drowned in the noise; for example, a signal to noise ratio of 0 decibels corresponds to a coefficient of 0.5.
  • the validation information for the frequency pitch is obtained using the ratio of the synthesis sample, at the location of the pitch, to the sum of the modules used for the local synthesis; this ratio, synonymous with the energy of the harmonic signal over the total energy of the signal, is corrected as a function of the approximate signal to noise ratio calculated in block 14; the pitch validation information depends on exceeding the threshold of this report.
  • the local synthesis is calculated twice; a first time by using only the frequencies whose modulus is high, in order to get rid of the noise for the calculation of the "pitch”; a second time with all the modules limited in maximum value, in order to calculate the signal to noise ratio which will validate the "pitch”; indeed the limitation of the modules gives more weight to the non harmonic frequencies with weak module, in order to decrease the probability of validation of a "pitch" on music.
  • the values of said modules are not limited for the second local synthesis, only the number of frequencies is limited by taking into account only those which have a significant module in order to limit the noise.
  • a second method of calculating the “pitch” consists in selecting the “pitch” which gives the maximum energy for a sampling step of the synthesis equal to the “pitch” sought; this process is used for music or a sound environment with several voices.
  • a decision will be made by the user if he wishes to perform noise filtering or generate special effects (block 27), from the analysis, without going through the synthesis . Otherwise, the analysis will end with the following processing consisting in attenuating the noise, in block 28, by decreasing the frequency components which are not a multiple of the "pitch”; after attenuation of said frequency components, the inaudible signal will be removed again, as described above, at block 25.
  • the attenuation of said frequency components depends on the type of signal as defined previously by block 21.
  • phase of synthesis of the audio signal (block C3), represented according to FIG. 3, comprises the following steps:
  • the synthesis consists in calculating the samples of the audio signal from the parameters calculated by the analysis; the phases and the noise will be calculated artificially according to the context.
  • the formatting of the modules (block 31) consists in eliminating the attenuation of the input filter of the samples of the analysis (block 1 of block Al) and taking into account the direction of the variation of the "pitch" because the synthesis is performed temporally by a phase increment of a sine.
  • the pitch validation information is deleted if the music synthesis option is validated; this option improves the phase calculation of the frequencies by avoiding to synchronize the phases of the harmonics between them according to the "pitch".
  • the noise reduction (block 32) is carried out if it has not been previously carried out during the analysis (block 28 of block A1).
  • the signal upgrade removes the normalization of the modules received from the analysis; this upgrade consists in multiplying the modules by the inverse of the normalization gain defined in the calculation of the signal dynamics (block 6 of block Al) and in multiplying said modules by 4 in order to eliminate the effect of the HAMMING window, and that only half of the frequency plane is used.
  • the modules are saturated (block 34) if the sum of the modules is greater than the dynamic range of the signal of the output samples; it consists in multiplying the modules by the ratio of the maximum value of the sum of the modules to the sum of the modules, in the case where said ratio is less than 1.
  • the pulse is re-generated by realizing the sum of sines in the pulse duration; the pulse parameters are modified (block 35) according to the variable synthesis speed.
  • the frequency phase calculation is then performed (block 36); its purpose is to give phase continuity between the frequencies of the frames or to re-synchronize the phases between them; it also makes the voice more natural.
  • Phase synchronization is performed each time a new signal in the current frame appears to be separated in the time domain or in the frequency domain of the previous frame; this separation corresponds to: • the transition from a noisy signal to a non-noisy signal,
  • Phase continuity consists in finding the frequencies of the current frame at the start of the frame which are closest to the frequencies at the end of the frame of the previous frame; then the phase of each frequency becomes equal to that of the nearest previous frequency, knowing that the frequencies at the start of the current frame are calculated from the central value of the frequency modified by the variation of the "pitch".
  • the phases of the harmonics will be synchronized with that of the pitch by multiplying the phase of the "pitch” by the index of the harmonic of the "pitch”; as for phase continuity, the phase of the pitch at the end of the frame is calculated as a function of its variation and of the phase at the origin of the frame; this phase will be used for the start of the next frame.
  • a second solution consists in no longer applying the variation of the "pitch” to the "pitch” in order to know the new phase; it is enough to resume the phase of the end of the previous frame of the "pitch”; moreover, during the synthesis, the variation of the "pitch” is applied to the interpolation of the synthesis carried out without variation of the "pitch".
  • the generation of the breath is then carried out (block 37).
  • any sound signal in the interval of a frame is the sum of sines of fixed amplitude and the frequency of which is modulated linearly as a function of time, this sum being temporally modulated by the envelope of the signal, the noise being added to this signal before said sum.
  • the voice is metallic because the elimination of weak modules, carried out in block 25 of block A3, essentially concerns breath. Furthermore, the estimation of the signal to noise ratio carried out in block 14 of block A3 is not used; noise is calculated as a function of the type of signal, the modules and the frequencies.
  • the principle of the noise calculation is based on a filtering of white noise by a transversal filter whose coefficients are calculated by the sum of the sines of the signal frequencies whose amplitudes are attenuated as a function of the values of their frequency and their amplitude.
  • a HAMMING window is then applied to the coefficients to reduce the secondary lobes.
  • the filtered noise is then saved in two separate parts. A first part will make the link between two successive frames; the connection between two frames is made by overlapping these two frames, each of which is weighted linearly and in the opposite direction; said overlap is effected when the signal is sinusoidal; it does not apply when it is uncorrelated noise; thus the saved part of the filtered noise is added without weighting on the overlapping area.
  • the second part is for the main body of the frame.
  • the link between two frames must on the one hand allow a smooth passage between two noise filters of two successive frames, and on the other hand to prolong the noise of the following frame beyond the overlapping part of the frames if a start word (or sound) is detected.
  • the smooth passage between two frames is achieved by the sum of the white noise filtered by the filter of the previous frame weighted by a linear downward slope, and the same white noise filtered by the noise filter of the current frame weighted by the slope reverse amount of that of the filter of the previous frame.
  • the energy of the noise will be added to the energy of the sum of the sines, according to the proposed method.
  • the generation of a pulse differs from a signal without a pulse; indeed, in the case of the generation of an impulse, the sum of the sines is not realized than on a part of the current frame to which is added the sum of the sines of the previous frame.
  • the synthesis with the new frequency data (block 39) consists in performing the sum of the sines of the frequency components of the current frame; varying the length of the frame makes it possible to perform synthesis at variable speed; nevertheless the values of the frequencies at the beginning and at the end of the frame must be identical, whatever the length of the frame, for a given speed of synthesis.
  • the phase associated with the sine, a function of the frequency will be calculated by iteration; indeed for each iteration, the sine multiplied by the module is calculated; the result is then summed for each sample according to all the frequencies of the signal.
  • Another synthesis method consists in carrying out the inverse of the analysis by recreating the frequency domain from the cardinal sine produced with the module, the frequency and the phase, and then by performing a fast inverse Fourier transform (TFR), followed by the product of the inverse of the HAMMING window to obtain the time domain of the signal.
  • TFR fast inverse Fourier transform
  • the reverse of the analysis is carried out again by adding the variation of the "pitch" to the oversampled time frame.
  • the phases at the origin of the frequency data are maintained at the value 0.
  • the calculation of the sum of the sines is also carried out on a portion preceding the frame and on the same portion following the frame; the parts at the two ends of the frame will then be summed with those of the adjacent frames by linear weighting.
  • the sum of the sines is performed in the time interval of generation of the pulse; in order to avoid the creation of spurious pulses following discontinuities in the calculation of the sum of the sines, a certain number of samples located at the beginning and at the end of the sequence are weighted respectively by an upward slope and a downward slope.
  • the pitch pitch harmonic frequencies the phases were previously calculated to be synchronized, they will be generated from the index of the corresponding harmonic.
  • the synthesis by the sum of the sines with the data of the previous frame (block 41) is carried out when the current frame contains a pulse to be generated; indeed, in the case of music or noise, if the synthesis is not carried out on the previous frame, serving as background signal, the pulse will be generated on a silence, which is detrimental to a good quality of the obtained result ; moreover, the continuity of the previous frame is inaudible, even in the presence of a signal progression.
  • the application of the envelope to the synthesis signal (block 42) is carried out from the sampled values of the envelope previously determined.
  • the length of the frame varies in steps in order to be homogeneous with the sampling of the envelope.
  • the frame edge is saved (block 47) so that said frame edge can be added at the start of the next frame.
  • the parameter coding phase (block A2), represented according to FIG. 4, comprises the following steps:
  • the coding of the parameters (block A2) calculated in the analysis (block Al) in the method according to the invention consists in limiting the quantity of useful information in order to reproduce in the synthesis (block C3) after decoding (block Cl) a hearing equivalent to the original audio signal.
  • each coded frame has its own number of information bits; the audio signal being variable, more or less information will be coded.
  • the coding of the parameters can be either linear, the number of bits being a function of the number of values, or of HUFFMAN type, the number of bits being a statistical function of the value to be coded (the more frequent the data, the less it uses bits and vice versa).
  • the type of signal as defined during the analysis (block 21 of block A1), provides the noise generation information and the quality of the coding to be used; the signal type is coded first (block 51).
  • a test is then performed (block 52) allowing, in the case of type 3 of the signal, as defined in block 21 of the analysis (block A1), not to carry out coding of the parameters; the synthesis will include null samples.
  • the compression type coding (block 53) is used in the case where the user wishes to act on the bit rate of the coding data, to the detriment of the quality; this option can be advantageous in telecommunication mode associated with a high compression rate.
  • the coding of the normalization value (block 54) of the signal of the analysis frame is of the HUFFMAN type.
  • a test on the presence of pulse (block 55) is then carried out, allowing in the event of synthesis of a pulse, to code the parameters of said pulse.
  • the coding, according to a linear law, of the parameters of said pulse (block 56) will be carried out at the start and the end of said pulse in the current frame.
  • the coding of the Doppler variation of the "pitch" (block 57), it will be carried out according to a logarithmic law, taking into account the sign of said variation; this coding will not be carried out in the presence of a pulse or if the type of signal is unvoiced.
  • a limitation of the number of frequencies to be coded (block 58) is then carried out in order to avoid that a frequency of high value does not exceed the dynamic bounded by the sampling frequency, since the Doppler variation of the "pitch" varies the frequencies during the synthesis.
  • the coding of the envelope sampling values depends on the variation of the signal, the type of compression, the type of signal, the normalization value and the possible presence of a pulse; said coding consists in coding the variations and the minimum value of said sampling values.
  • the validation of the pitch is then coded (block 60), followed by a validation test (block 61) requiring, if so, to code the harmonic frequencies (block 62) according to their index relative to the frequency of the "Pitch". As for non-harmonic frequencies, they will be coded (block 63) according to their whole part.
  • the coding of harmonic frequencies (block 62) consists in performing a logarithmic coding of the pitch, in order to obtain the same relative precision for each harmonic frequency; the coding of said harmonic indices is carried out as a function of their presence or of their absence in a packet of three indices according to the coding of HUFFMAN.
  • a non-harmonic frequency changes position relative to a harmonic frequency
  • the non-harmonic frequency which is too close to the harmonic frequency is removed, knowing that it has less weight in the sense audible; thus the suppression takes place if the non-harmonic frequency is higher than the harmonic frequency and the fraction of the non-harmonic frequency due to the coding of the whole part, makes said non-harmonic frequency lower than the near harmonic frequency.
  • the coding of non-harmonic frequencies (block 63) consists in coding the number of non-harmonic frequencies, then the whole part of the frequencies, then the fractional parts when the modules are coded; concerning the coding of the whole part of the frequencies, only the differences between said whole parts are coded; moreover, the lower the modulus and the lower the precision on the fractional part; this is to decrease the bit rate.
  • a maximum number of deviations between two frequencies is defined.
  • the coding of the module dynamics uses a HUFFMAN law as a function of the number of ranges defining said dynamic and of the signal type.
  • the energy of the signal is located in the low frequencies; for the other types of signal, the energy is distributed uniformly in the frequency plane, with a decrease towards the high frequencies.
  • the coding of the highest module (block 65) consists in coding, according to a law of HUFFMAN, the entire part of said highest module taking into account the statistics of said highest module.
  • the coding of the modules is only carried out if the number of modules to be coded is greater than 1, since otherwise it is alone by being the highest module.
  • the suppression of the inaudible signal eliminates the modules lower than the product of the module by the corresponding attenuation; thus a module is necessarily located in a zone of the module / frequency plane depending on the distance which separates it from its two adjacent modules as a function of the frequency difference of said modules adjacent.
  • the value of the module is approximated relative to the previous module as a function of • the frequency deviation and the corresponding attenuation which depends on the type of signal, the normalization value and the type of compression; said approximation of the value of the module is made with reference to a scale whose pitch varies according to a logarithmic law.
  • the attenuation (block 67) provided by the sample input filter is coded, then is followed by the removal of the normalization (block 68) which makes it possible to recalculate the highest module as well as the corresponding frequency.
  • the coding of the frequency fractions of the non-harmonic frequencies completes the coding of the whole parts of the said frequencies.
  • the accuracy of the coding will depend:
  • the number of coding bytes (block 70) is coded at the end of the coding of the various aforementioned parameters, stored in a dedicated coding memory.
  • FIG. 1 representing a simplified flowchart of the method according to the invention
  • the phase of noise filtering and generation of special effects, from the analysis, without going through the synthesis is indicated by block D.
  • the filtering of the brait is carried out from the voice parameters calculated in the analysis (block Al of block A), taking the path IV indicated on said simplified flowchart of the method according to the invention.
  • the objective of noise filtering is therefore to reduce all kinds of brait such as: ambient noise from car, engine, crowd, music, other voices if these are lower than those to be kept, as well than the calculation braits of any vocoder (for example: ADPCM, GSM, G723).
  • the filtering of the brait (block D) for a voiced signal consists in carrying out the sum for each sample, of the original signal, of the original signal shifted by a "pitch" in positive value and of the original signal shifted by a "pitch” in negative value . This requires knowing for each sample the value of the pitch and its variation.
  • the two offset signals are multiplied by the same coefficient, and the original signal not offset by a second coefficient; the sum of said first coefficient added to itself and of said second coefficient is equal to 1, denominated so as to retain a
  • the number of samples spaced from a time pitch is not limited to three samples; the more samples used for the brait filter, the more the filter decreases the brait.
  • the number of three samples is adapted to the highest temporal pitch encountered in the voice and to the filter delay. In order to keep a fixed filter delay, the lower the temporal "pitch", the more samples offset by a "pitch" can be used to perform the filtering; which amounts to keeping the bandwidth around a harmonic, more or less constant; the higher the fundamental, the higher the attenuated bandwidth.
  • noise filtering does not concern signals in the form of a pulse; it is therefore necessary to detect the presence of possible pulses in the signal.
  • Brait filtering (block D) for an unvoiced signal consists in attenuating said signal by a coefficient less than 1.
  • the filtering of brait makes it possible to generate special effects; said generation of special effects makes it possible to obtain:
  • the noise filtering and special effects generation phase from the analysis, without going through the synthesis, may not include the calculation of the variation of the "pitch"; this makes it possible to obtain a hearing quality close to that previously obtained by the aforementioned method; in this operating mode, the functions defined by blocks 11, 12, 15, 16, 17, 18, 19, 25 and 28 are deleted.
  • phase of generation of special effects, associated with the synthesis (block C3) is indicated by block C2 of block C.
  • the said phase of generation of special effects, associated with the synthesis makes it possible to transform the voice or the music: • either by modifying according to certain laws, the decoded parameters coming from block Cl (path II),
  • the modified parameters are: the "pitch”, the variation of the "pitch”, the validation of the "pitch”, the number of frequency components, "the frequencies, the modules, • the clues.
  • the "Transform" function consists in multiplying all the frequencies of the frequency components by a coefficient.
  • the changes in the voice depend on the value of this coefficient, namely:
  • this artificial rendering of the voice is due to the fact that the modules of the frequency components are unchanged and that the spectral envelope is deformed.
  • the "Transvoice” function consists in recreating the harmonic modules from the spectral envelope, the original harmonics are abandoned knowing that the non harmonic frequencies are not modified; as such, said "Transvoice” function calls on the "Formant” function which determines the form.
  • the transformation of the voice is carried out realistically because the form is preserved; a multiplication coefficient of harmonic frequencies greater than 1 rejuvenates the voice, even feminizes it; conversely, a multiplication coefficient of harmonic frequencies less than 1 makes the voice lower.
  • the new amplitudes will be multiplied by the ratio of the sum of the modules at the input of said "Transvoice" function to the sum of the modules at the output.
  • the "Formant" function consists in determining the spectral envelope of the frequency signal; it is used to keep the modules of the frequency components constant when the frequencies are modified.
  • the determination of the envelope is carried out in two stages, namely:
  • Said "Formant” function can be applied when coding the modules, frequencies, amplitude ranges and frequency fractions, by performing said coding only on the essential parameters of the formant, the "pitch" being validated.
  • the frequencies and the modules are recalculated from the "pitch” and the spectral envelope respectively.
  • the bit rate is reduced; however, this approach is only applicable by voice.
  • the so-called "Transform” and “Transvoice” functions, described above, involve a constant frequency multiplication coefficient. This transformation can be non-linear and can make the voice artificial.
  • this multiplication coefficient is a function of the ratio between the new "pitch” and the actual “pitch"
  • the voice will be characterized by a fixed “pitch” and a variable forming; it will thus be transformed into a robot voice associated with a spatial effect.
  • this multiplication coefficient varies periodically or randomly, at low frequency, the voice is aged associated with a very low frequency.
  • a final solution is to perform fixed rate coding.
  • the type of signal is reduced to a voiced signal (type 0 and 2 with the validation of the "pitch” to 1), or to brait (type 1 and 2 with the validation of the "pitch” to 0). Since type 2 is for music, it is eliminated in this case, since this coding can only code for voice.
  • Fixed rate coding consists of:
  • the "pitch" provides all the harmonics of the voice; their amplitudes are those of the trainer.
  • frequencies of the unvoiced signal frequencies spaced apart are calculated by an average value to which is added a random deviation; the amplitudes are those of the trainer.
  • the device according to the invention essentially comprises: “a computer 71, of DSP type, making it possible to carry out digital processing of the signals, A keyboard 72 for selecting the voice processing menus,
  • a read-only memory 73 of EEPROM type, containing the voice processing software
  • a random access memory 74 of the flash or “memory stick” type, containing the recordings of the voice processed
  • An encoder / decoder 76 of coded type, ensuring the input / output links of the audio devices,
  • the device may include:
  • a telephone connector allowing the device according to the invention to replace a telephone handset
  • the device may include:
  • analysis means making it possible to determine parameters representative of said sound signal, the aforesaid analysis means comprising: • means for calculating the envelope of the signal, • means of calculating the pitch and its variation,
  • TRF rapid Fourier transform
  • the aforesaid synthesis means comprising: • means for summing the sinuses whose amplitude of the frequency components varies as a function of the envelope of the signal,
  • means for generating special effects associated with the synthesis comprising:
  • the device may include all the elements mentioned above, in professional or semi-professional version; some elements, such as the display, can be simplified in the basic version.
  • the device according to the invention described above, will be able to exploit the method of differentiated digital processing of voice and music, of noise filtering and the creation of special effects.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Noise Elimination (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

PROCEDE POUR LE TRAITEMENT NUMERIQUE DIFFERENCIE DE LA VOLX ET DE LA MUSIQUE. LE FILTRAGE DU BRUIT. LA CREATION D'EFFETS SPECIAUX ET DISPOSITIF POUR LA MISE EN ŒUVRE DUDIT PROCEDE.
La présente invention concerne un traitement numérique différencié de la voix et de la musique, le filtrage du bruit, la création d'effets spéciaux ainsi qu'un dispositif pour la mise en oeuvre dudit procédé.
Elle a plus particulièrement pour objet de transformer la voix d'une façon réaliste ou originale et, d'une manière plus générale, de traiter en temps réel la voix, la musique, le bruit ambiant et d'enregistrer les résultats obtenus sur un support informatique.
Elle s'applique notamment, mais non exclusivement, au grand public et aux professionnels du son qui souhaitent transformer la voix pour des applications ludiques, traiter différemment la voix et la musique, créer des effets spéciaux, réduire le bruit ambiant, et enregistrer, sous forme numérique compressée, les résultats obtenus.
D'une façon générale, on sait que le signal vocal est composé d'un mélange de signaux transitoires très complexes (bruits) et de parties de signal quasi- périodiques (sons harmoniques). Les bruits peuvent être de petites explosions : P, B, T, D, K, GU ; des bruits diffus doux : F, V, J, Z ou intenses CH, S ; quant aux sons harmoniques, leur spectre varie avec le type de voyelle et avec le locuteur. Les rapports d'intensité entre les bruits et les voyelles changent selon qu'il s'agit d'une voix conversationnelle, d'une voix parlée type conférence, d'une voix forte criée ou d'une voix chantée. La voix forte et la voix chantée favorisent les sons vocaliques au détriment des bruits.
Le signal vocal transmet simultanément deux types de messages : un message sémantique convoyé par la parole, expression verbale de la pensée, et un message esthétique perceptible au travers des qualités esthétiques de la voix (timbre, intonation, débit, etc.).
Le contenu sémantique de la parole, support d'une bonne intelligibilité est pratiquement indépendant des qualités de la voix ; il est véhiculé par les formes acoustiques temporelles ; une voix chuchotée n'est constituée que de bruits d'écoulement ; une voix « intime » ou de proximité est constituée d'un mélange de sons harmoniques dans les fréquences graves et de bruits d'écoulement dans l'aigu ; la voix d'un conférencier ou d'un chanteur possède un spectre vocalique harmonique riche et intense.
Quant aux instruments de musique, ils sont caractérisés par leur tessiture, c'est-à-dire l'étendue en fréquence de toutes les notes qu'ils peuvent émettre. Néanmoins très peu d'mstiuments possèdent un « son harmonique », c'est-à- dire un fondamental intense accompagné d'harmoniques dont l'intensité décroît avec le rang.
D'autre part, la tessiture musicale et le contenu spectral ne sont pas directement liés ; certains instruments ont les maxima d'énergie inclus dans la tessiture ; d'autres présentent une zone maximale d'énergie bien circonscrite, située à la limite aiguë de la tessiture et au-delà ; d'autres enfin ont des maxima d'énergie très étalés qui débordent largement la limite aiguë de la tessiture. Par ailleurs, on sait que le traitement analogique de ces signaux complexes, par exemple leur amplification, provoque, d'une façon incontournable, une dégradation croissante au fur et à mesure dudit traitement et cela d'une manière irréversible.
L'originalité des technologies numériques est d'introduire un déteπi-iinisme (c'est-à-dire une connaissance a priori) le plus important possible au niveau des signaux traités de manière à réaliser des traitements particuliers qui résideront sous forme de calculs.
Ainsi, si l'on opère une transformation du signal représentatif d'un son, à l'origine sous sa forme naturelle de vibrations, en un signal numérique muni des propriétés évoquées précédemment, ce signal sera traité sans subir de dégradation telles que bruit de fond, distorsion et limitation de bande passante ; de plus, il pourra être traité afin de créer des effets spéciaux tels que la transformation de la voix, la suppression du bruit ambiant, la modification du souffle de la voix, la différentiation de la voix et de la musique.
Bien entendu, la technologie audionumérique comprend les trois étapes principales :
• la conversion du signal analogique en un signal numérique,
• les traitements souhaités transposés en équations à résoudre,
• la conversion du signal numérique en signal analogique puisque le dernier maillon de la chaîne génère des vibrations acoustiques.
D'une manière générale, on sait que les dispositifs de traitement du son, désignés sous le terme de vocodeur, comportent les quatre fonctions suivantes :
• l'analyse, • le codeur,
• le décodeur, • la synthèse.
Par ailleurs, les procédés de réduction de débit sont employés essentiellement pour le stockage numérique (dans le but de diminuer le volume binaire) et pour la transmission (dans le but de diminuer le débit nécessaire). Ces procédés comprennent un traitement préalable au stockage ou à la transmission (codage) et un traitement à la restitution (décodage).
Parmi les procédés de réduction de débit, ceux utilisant les méthodes perceptuelles avec pertes d'information sont les plus employés et notamment le procédé MPEG Audio.
Ce procédé repose sur l'effet de masque de l'audition humaine, c'est-à-dire la disparition des sons faibles en présence des sons forts, équivalent à un déplacement du seuil d'audition provoqué par le son le plus fort et fonction de l'écart de fréquence et de niveau entre les deux sons.
Ainsi, le nombre de bits par échantillon est défini en fonction de l'effet de masque étant donné que les sons faibles et le bruit de quantification sont inaudibles. Afin de tirer le meilleur profit de cet effet de masque, le spectre audio est divisé en un certain nombre de sous-bandes, permettant ainsi de préciser le niveau de masque dans chacune des sous-bandes et de réaliser une allocation binaire pour chacune d'entre elles.
Le procédé MPEG audio consiste ainsi à :
• numériser en 16 bits avec un échantillonnage à 48 kHz,
• déduire la courbe de masque entre 20 Hz et 20 kHz,
• diviser le signal en 32 sous bandes,
• évaluer le niveau maximal atteint dans chaque sous bande et durant 24 ms,
• évaluer le niveau de bruit de quantification juste inaudible, • allouer le nombre de bits pour le codage,
• générer le nombre de bits dans là sous bande,
• encapsuler ces données en une trame de données qui se répète chaque 24 ms.
Cette technique consiste à transmettre un débit binaire variable selon la composition instantanée du son.
Néanmoins, ce procédé est plutôt adapté au traitement de la musique et non au signal vocal ; il ne permet pas de détecter la présence de la voix ou de la musique, de séparer le signal vocal ou musical et le bruit, de modifier la voix en temps réel pour synthétiser une voix différente mais réaliste, de synthétiser du souffle (bruit) pour créer des effets spéciaux, de coder un signal vocal comportant une seule voix, de réduire le bruit ambiant.
L'invention a donc plus particulièrement pour but de supprimer ces inconvénients.
Elle propose, à cet effet, un procédé permettant de tirer un meilleur parti des technologies audionumériques en effectuant préalablement au codage, une analyse du signal audio en considérant que tout signal sonore dans l'intervalle d'une trame est la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par l'enveloppe du signal, le bruit étant rajouté à ce signal préalablement à ladite somme.
Selon l'invention, ce procédé de transformation de la voix, de la musique et du bruit ambiant, fait essentiellement intervenir : "
- durant la phase d'analyse :
• le calcul de l'enveloppe du signal, • le calcul du « pitch » (période du fondamental du signal de voix) et de sa variation,
• l'application au signal temporel de la variation inverse du «pitch» par interpolation linéaire, « la transformée rapide de Fourrier (TRF) sur le signal prétraité,
• l'extraction des composantes fréquentielles et leurs amplitudes,
• le calcul du «pitch» et sa validation dans le domaine fréquentiel,
• l'élimination éventuelle du bruit ambiant par filtrage sélectif avant codage,
durant la phase de synthèse :
• la sommation des sinus dont l'amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal et dont les fréquences varient linéairement, • le calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la trame précédente,
• la superposition du bruit,
• 1 ' application de 1 ' enveloppe .
Un mode d'exécution de l'invention sera décrit ci-après, à titre d'exemple non limitatif, avec référence aux dessins annexés, dans lesquels :
La figure 1 est un organigramme simplifié du procédé selon l'invention ;
La figure 2 est un organigramme de l'étape d'analyse ;
La figure 3 est un organigramme de l'étape de synthèse ;
La figure 4 est un organigramme de l'étape de codage ; et La figure 5 est un schéma synoptique d'un dispositif selon l'invention.
Dans cet exemple, le procédé de traitement numérique différencié de la voix et de la musique selon l'invention, représenté selon la figure 1, comprend les étapes suivantes :
• analyse du signal vocal (bloc Al),
• codage des paramètres (bloc A2),
• sauvegarde des paramètres (bloc B), • lecture des paramètres (bloc B'),
• décodage des paramètres (bloc Cl),
• effets spéciaux (bloc C2),
• synthèse (bloc C3).
Par ailleurs, l'analyse du signal vocal et le codage des paramètres constituent les deux fonctionnalités de l'analyseur (bloc A) ; de même, le décodage des paramètres, les effets spéciaux et la synthèse constituent les fonctionnalités du synthétiseur (bloc C).
Ces différentes fonctionnalités seront décrites ci-après, notamment en ce qui concerne les différentes étapes constitutives des procédés d'analyse et de synthèse.
D'une manière générale, le procédé de traitement numérique différencié de la voix et de la musique comprend essentiellement quatre configurations de traitement : • la première configuration (trajet I) comprenant l'analyse, suivie du codage des paramètres, suivi de la sauvegarde et de la lecture des paramètres, suivie du décodage des paramètres, suivi des effets spéciaux, suivis de la synthèse,
• la seconde configuration (trajet II) comprenant l'analyse, suivie du codage des paramètres, suivi du décodage des paramètres, suivi des effets spéciaux, suivis de la synthèse, la troisième configuration (trajet III) comprenant l'analyse, suivie des effets spéciaux, suivis de la synthèse, la quatrième configuration (trajet IV) comprenant le filtre de bruit ou la génération d'effets spéciaux à partir de l'analyse, sans passer par la synthèse.
Ces différentes possibilités sont offertes à l'appréciation de l'utilisateur du dispositif mettant en œuvre le susdit procédé, lequel dispositif sera décrit ultérieurement.
Dans cet exemple, la phase d'analyse du signal audio (bloc Al), représentée selon la figure 2, comprend les étapes suivantes : mise en forme du signal d'entrée (bloc 1), calcul de l'enveloppe temporelle (bloc 2), détection d'interpolation temporelle (bloc 3), détection du signal audible (bloc 4), calcul de l'interpolation temporelle (bloc 5), calcul de la dynamique du signal (bloc 6), détection de trame inaudible après une trame d'énergie plus élevée
(bloc 7), traitement d'impulsion (bloc 8), répétition de l'impulsion (bloc 9), calcul de la transformée rapide de Fourrier (TRF) sur impulsion répétée (bloc 10), calcul des paramètres du signal servant au prétraitement avant la
TRF (bloc 11), prétraitement du signal temporel (bloc 12), calcul de la TRF sur signal traité (bloc 13), calcul du rapport signal à bruit (bloc 14), test de la variation doppler du «pitch» (bloc 15), calcul de la TRF sur signal non traité (bloc 16), calcul du rapport signal à bruit (bloc 17), comparaison des rapports signal à bruit avec et sans prétraitement
(bloc 18), restitution du résultat de la TRF avec prétraitement (bloc 19), calcul des fréquences et modules (amplitudes des composantes fréquentielles (bloc 20), décision du type de signal (bloc 21), test du 50 ou 60 Hz (bloc 22), calcul de la dynamique des modules dans le domaine fréquentiel
(bloc 23), suppression de l'interpolation sur les données fréquentielles (bloc
24), suppression du signal inaudible (bloc 25), calcul et validation du «pitch» (bloc 26), décision si filtrage de bruit ou effets spéciaux, ou continuation de l'analyse (bloc 27), atténuation éventuelle du bruit ambiant (bloc 28), fin du traitement de la trame (bloc 29).
L'exploitation de la transformée rapide de Fourrier (TRF) pour de la voix n'est pas envisageable étant donné la variabilité du signal fréquentiel ; en effet la variation des fréquences crée un étalement du résultat de ladite transformée rapide de Fourrier (TRF) ; l'élimination de cet étalement est rendu possible grâce au calcul de la variation du « pitch » et à l'application de la variation inverse dudit « pitch » sur le signal temporel.
Ainsi, l'analyse du signal vocal est effectuée essentiellement en quatre étapes • calcul de l'enveloppe du signal (bloc 2), • calcul du «pitch» et de sa variation (bloc 12), • application au signal temporel de la variation inverse du «pitch» (bloc 12),
• transformée rapide de Fourrier (TRF) sur le signal prétraité (bloc
13), • élimination éventuelle du bruit ambiant avant codage (blocs 23 à
28).
Par ailleurs, quatre seuils (blocs 4, 7, 8, 22) permettent de détecter respectivement la présence de signal inaudible, la présence de trame inaudible, la présence d'une impulsion, la présence de signal perturbateur secteur (50 Hz ou 60 Hz).
D'autre part, un cinquième seuil (bloc 15) permet d'effectuer la transformée rapide de Fourrier (TRF) sur le signal non traité en fonction des caractéristiques du «pitch» et de sa variation. Un sixième seuil (bloc 18) permet de restituer le résultat de la transformée rapide de Fourrier (TRF) avec prétraitement en fonction du rapport signal à bruit.
Enfin, une décision est prise (bloc 27) si le filtrage du bruit ou les effets spéciaux sont effectués ; dans le cas contraire, on continue l'analyse (flèche IV).
Deux trames sont exploitées dans le procédé d'analyse du signal audio, une trame dite « courante », de périodicité fixe, contenant un certain nombre d'échantillons correspondant au signal vocal, et une trame dite « d'analyse », dont le nombre d'échantillons est équivalent à celui de la trame courante ou le double, et pouvant être décalée, en fonction de l'interpolation temporelle, par rapport à la susdite trame courante.
La mise en forme du signal d'entrée (bloc 1) consiste à effectuer un filtrage passe haut afin d'améliorer le codage futur des amplitudes fréquentielles en augmentant leur dynamique ; ledit filtrage passe haut augmente la dynamique d'amplitude fréquentielle en évitant qu'une fréquence basse audible n'occupe toute la dynamique et fasse disparaître des fréquences de faible amplitude mais néanmoins audibles. Le signal filtré est ensuite dirigé vers le bloc 2 pour la déteπnination de l'enveloppe temporelle.
Le calcul de l'enveloppe temporelle (bloc 2) permet de définir :
- le type de signal, s'il s'agit d'une impulsion avec ou sans signal de fond (bruit ambiant ou musique),
- la position de la trame d'analyse de l'enveloppe du signal par rapport à la trame courante,
- l'énergie du signal temporel.
Il est effectué par une recherche des maxima du signal, considérés comme la partie du «pitch» la plus élevée en valeur absolue. On calcule ensuite le décalage temporel à appliquer à la trame d'analyse en recherchant d'une part le maximum de l'enveloppe dans ladite trame puis d'autre part deux indices correspondant aux valeurs de l'enveloppe inférieures d'un certain pourcentage à la valeur du maximum.
Si dans une trame d'analyse on trouve localement un écart entre deux échantillons supérieur à un pourcentage de la dynamique maximale de la trame et ce durant une durée limitée, on déclare qu'une impulsion brève est contenue dans la trame en forçant les indices de décalage temporels aux valeurs entourant l'impulsion additionnelle.
La détection d'interpolation temporelle (bloc 3) permet de corriger les deux indices de décalage de la trame d'analyse trouvés dans le calcul précédent, et ce en prenant en compte le passé.
Un premier seuil (bloc 4) détecte ou non la présence d'un signal audible en mesurant la valeur maximale de l'enveloppe ; dans l'affirmative, l'analyse de la trame est terminée ; dans le cas contraire, le traitement continu. Un calcul est ensuite effectué (bloc 5) des paramètres associés au décalage temporel de la trame d'analyse en déteπninant le paramètre d'interpolation des modules qui est égal au rapport de l'enveloppe maximale dans la trame courante à celle de la trame décalée.
La dynamique du signal est ensuite calculée (bloc 6) pour sa normalisation afin de diminuer le bruit de calcul ; le gain de normalisation du signal est calculé à partir de l'échantillon le plus élevé en valeur absolue dans la trame d'analyse.
Un second seuil (bloc 7) détecte ou non la présence d'une frame inaudible par effet de masque provoqué par les précédentes trames ; dans l'affirmative, l'analyse est terminée ; dans le cas contraire, le traitement continue.
Un troisième seuil (bloc 8) détecte ensuite ou non la présence d'une impulsion ; dans l'affirmative, un traitement spécifique est effectué (blocs 9, 10) ; dans le cas contraire, les calculs des paramètres du signal (bloc 11) servant au prétraitement du signal temporel (bloc 12) seront effectués.
En présence d'une impulsion, la répétition de l'impulsion (bloc 9) est effectuée en créant un « pitch » artificiel, égal à la durée de l'impulsion, de manière à éviter le masquage des fréquences utiles lors de la transformée rapide de Fourrier (TRF). La transformée rapide de Fourrier (TRF) (bloc 10) est ensuite réalisée sur l'impulsion répétée en ne conservant que la valeur absolue du nombre complexe et non la phase ; le calcul des fréquences et des modules des données fréquentielles (bloc 20) est ensuite effectué.
En l'absence d'impulsion, le calcul des paramètres du signal (bloc 11) est effectué, lesquels paramètres concernent : - le calcul du « pitch » et de sa variation,
- la définition du nombre d'échantillons dans la trame d'analyse.
En fait, le calcul du « pitch » est effectué préalablement par une différentiation du signal de la trame d'analyse, suivi d'un filtrage passe bas des composantes de rang élevé, puis d'une élévation au cube du résultat dudit filtrage ; la valeur du « pitch » est déterminée par le calcul de la distance minimale entre une portion de signal d'énergie élevée avec la suite du signal subséquent, étant donné que la susdite distance minimale est la somme de la valeur absolue des différences entre les échantillons du gabarit et les échantillons à corréler ; ensuite, la partie principale d'un « pitch » centrée autour de une fois et demie la valeur du « pitch » est recherchée en début de trame d'analyse afin de calculer la distance de cette portion de « pitch » sur l'intégralité de la trame d'analyse ; ainsi, les distances minimales définissent les positions des « pitch » , le « pitch » étant la moyenne des « pitchs » détectés ; puis la variation du « pitch » est calculée à l'aide d'une droite qui m u-nise l'erreur quadratique moyenne des successions des « pitchs » détectés ; le « pitch » estimé en début et en fin de trame d'analyse en est déduit ; si le « pitch » temporel en fin de trame est supérieur à celui en début de trame, la variation du « pitch » est égale au rapport du « pitch » estimé de début de trame à celui de fin de trame, diminué de 1 ; inversement, si le « pitch » temporel en fin de trame est inférieur à celui en début de trame, la variation du « pitch » est égal à 1 diminué du rapport du « pitch » estimé en fin de trame à celui en début de trame.
La variation du « pitch », trouvée et validée précédemment, sera soustraite du signal temporel dans le bloc 12 de prétraitement temporel, en n'utilisant que le premier ordre de ladite variation. La soustraction de la variation du « pitch » consiste à échantillonner la trame d'analyse sur-échantillonnée avec un pas d'échantillonnage variant avec la valeur inverse de ladite variation du « pitch ».
Le sur-échantillonnage, dans un rapport deux, de la trame d'analyse est réalisé en multipliant le résultat de la transformée rapide de Fourrier (TFR) de la trame d'analyse par le facteur exp(-j*2*PI*k/(2*L_trame), de manière à ajouter un délai d'un demi échantillon au signal temporel servant au calcul de la transformée rapide de Fourrier ; la transformée rapide de Fourrier inverse est ensuite réalisée afin d'obtenir le signal temporel décalé d'un demi échantillon.
Une trame de longueur double est ainsi réalisée en utilisant alternativement un échantillon de la trame originale avec un échantillon de la trame décalée d'un demi échantillon.
Après élimination de la variation du « pitch », ledit « pitch » semble identique sur toute la fenêtre d'analyse, ce qui donnera un résultat de la transformée rapide de Fourrier (TRF) sans étalement de fréquences ; la transformée rapide de Fourrier (TRF) pourra être ensuite effectuée dans le bloc 13 afin de connaître le domaine fréquentiel de la trame d'analyse ; la méthode utilisée permet de calculer rapidement le module du nombre complexe au détriment de la phase du signal.
Le calcul du rapport du signal à bruit est effectué sur la valeur absolue du résultat de la transformée rapide de Fourrier (TRF) ; le susdit rapport est en fait le rapport de la différence de l'énergie du signal et du bruit à la somme de l'énergie du signal et du bruit ; le numérateur du susdit rapport correspond au logarithme de l'écart entre deux pics d'énergie, respectivement du signal et du bruit, le pic d'énergie étant celui qui est soit supérieur aux quatre échantillons adjacents correspondant au signal harmonique, ou inférieur aux quatre échantillons adjacents correspondant au bruit ; le dénominateur est la somme des logarithmes de tous les pics du signal et du bruit ; par ailleurs, le calcul du rapport signal à bruit se fait par sous-bande, les sous-bandes les plus élevées, en terme de niveau, sont moyennées et donnent le rapport recherché.
Le calcul du rapport de signal à bruit, défini comme étant le rapport signal moins le bruit à signal plus le bruit, effectué dans le bloc 14, permet de déterminer si le signal analysé est un signal voisé ou de la musique, cas d'un rapport élevé, ou du bruit, cas d'un rapport faible.
Cette distinction est ensuite effectuée dans le bloc 15 ; en fait, des tests sont effectués sur la variation doppler du « pitch » et sur la fréquence du « pitch » ; si la variation du « pitch » est faible ou sa fréquence élevée, le traitement est immédiatement suivi par le calcul des fréquences et des modules des données fréquentielles de la transformée rapide de Fourrier (TRF) (bloc 20) ; dans le cas contraire, la transformée rapide de Fourrier (TRF) est effectuée sans prétraitement (bloc 16) .
Le calcul du rapport signal à bruit est ensuite effectué dans le bloc 17, de manière à transmettre au bloc 20 les résultats de la transformée rapide de Fourrier (TRF) sans prétraitement, cas d'une variation du « pitch » nulle, ou, dans le cas contraire à restituer les résultats de la transformée rapide de Fourrier (TRF) avec prétraitement (bloc 19).
Cette distinction est effectuée dans le bloc 18, de la manière suivante :
- si le rapport signal à bruit sans prétraitement est supérieur au rapport signal à bruit avec prétraitement, les résultats de la transformée rapide de Fourrier
(TRF) sont transférés au bloc 20,
- si le rapport signal à bruit sans prétraitement est inférieur au rapport signal à bruit avec traitement, la restitution des résultats de la transformée rapide de Fourrier (TRF) avec prétraitement étant effectuée dans le bloc 19, les résultats obtenus avec prétraitement sont ensuite transférés dans le bloc 20. Ce test permet de valider la variation du « pitch », qui pourrait être non nulle pour de la musique, alors que celle-ci doit effectivement être nulle.
Le calcul des fréquences et des modules des données fréquentielles de la transformée rapide de Fourrier (TRF) est effectué dans le bloc 20.
La transformée rapide de Fourrier (TRF), précédemment citée en référence aux blocs 10, 13, 16, est réalisée, à titre d'exemple, sur 256 échantillons dans le cas d'une trame décalée ou d'une impulsion, ou sur le double d'échantillons dans le cas d'une trame centrée sans impulsion. Une pondération des échantillons situés aux extrémités des prélèvements, dite de HAMMING, est effectué dans le cas de la transformée rapide de Fourrier (TRF) sur n échantillons ; sur 2n échantillons, on utilise la fenêtre de pondération de HAMMING multipliée par la racine carrée de la fenêtre de HAMMING. A partir des valeurs absolues des données complexes de la transformée rapide de Fourrier (TRF), on calcule le rapport entre deux valeurs maximales adjacentes, chacune représentant le produit de l'amplitude de la composante fréquentielle par un sinus cardinal ; par approximations successives, on compare ce rapport entre les valeurs maximales, à des valeurs contenues dans des tableaux contenant ce même rapport, pour N fréquences (par exemple 32 ou 64) réparties uniformément sur un demi échantillon de la transformée rapide de Fourrier (TRF). L'indice dudit tableau qui définit le rapport le plus proche de celui à comparer donne d'une part le module et d'autre part la fréquence pour chaque maximum de la valeur absolue de la transformée rapide de Fourrier (TRF).
Par ailleurs, le calcul des fréquences et des modules des données fréquentielles de la transfoπnée rapide de Fourrier (TRF), effectué dans le bloc 20, permet également de détecter un signal DTMF (multifréquence à double tonalité) en téléphonie. Il est à noter que le rapport signal à bruit est le critère essentiel qui définit le type de signal.
Afin de déterminer l'énergie du bruit à générer à la synthèse et la précision du codage, le signal extrait du bloc 20 est catégorisé en quatre types dans le bloc 21, à savoir :
- type 0 : signal voisé ou musique.
Le « pitch » et sa variation peuvent être non nuls ; le bruit appliqué à la synthèse sera de faible énergie ; le codage des paramètres sera effectué avec la précision maximale.
- type 1 : signal non voisé et éventuellement de la musique.
Le « pitch » et sa variation sont nuls ; le bruit appliqué à la synthèse sera de forte énergie ; le codage des paramètres sera effectué avec la précision miiήmale. - type 2 : signal voisé ou musique.
Le « pitch » et sa variation sont nuls ; le bruit appliqué à la synthèse sera de moyenne énergie ; le codage des paramètres sera effectué avec une précision intermédiaire.
- type 3 : ce type de signal est décidé en fin d'analyse lorsque le signal à synthétiser est nul.
Une détection de présence ou de non présence de signal perturbateur à 50 Hz (60 Hz) est effectuée dans le bloc 22 ; le niveau du seuil de détection est fonction du niveau du signal recherché de manière à éviter de confondre la perturbation électromagnétique (50, 60 Hz) et la fondamentale d'un instrument de musique.
En présence du signal perturbateur recherché, l'analyse est terminée afin de diminuer le débit binaire : fin du traitement de la trame référencée par le bloc 29. Dans le cas contraire, en l'absence de signal perturbateur, on continue l'analyse. Un calcul de la dynamique des amplitudes des composantes fréquentielles, ou modules, est effectué dans le bloc 23 ; la susdite dynamique fréquentielle est utilisée pour le codage ainsi que pour la suppression des signaux inaudibles effectuée ultérieurement dans le bloc 25.
Ainsi, le plan fréquentiel est subdivisé en plusieurs parties, chacune d'entre- elles possède plusieurs plages d'amplitude différenciées en fonction du type de signal détecté au niveau du bloc 21.
D'autre part, l'interpolation temporelle et l'interpolation fréquentielle sont supprimées au niveau du bloc 24 ; celles-ci avaient été effectuées pour optimiser la qualité du signal.
L'interpolation temporelle qui donne des modules plus élevés, sera retirée en multipliant chaque module par le paramètre de normalisation calculé au niveau du bloc 5.
L'interpolation fréquentielle dépend de la variation du « pitch » ; celle-ci sera supprimée en fonction du décalage d'un certain nombre d'échantillons et du sens de la variation du « pitch ».
La suppression du signal inaudible est effectuée ensuite dans le bloc 25. En effet, certaines fréquences sont inaudibles car masquées par d'autres signaux d'amplitude plus élevées.
L'élimination de ces dites fréquences inaudibles permettra de diminuer le débit et aussi d'améliorer le calcul du « pitch » grâce à la suppression du bruit.
Tout d'abord, on effectue une élimination des amplitudes situées en deçà de la limite inférieure de la plage d'amplitude, puis on éloigne les fréquences dont l'intervalle est inférieure à une unité fréquentielle, définie comme étant la fréquence d'échantillonnage par unité d'échantillon. Ensuite, on élimine les composantes inaudibles à l'aide d'un test entre l'amplitude de la composante fréquentielle à tester et l'amplitude des autres composantes adjacentes multipliée par un terme atténuateur fonction de la différence entre leur fréquence.
Par ailleurs, on limite le nombre de composantes fréquentielles à une valeur au-delà de laquelle la différence sur le résultat obtenu n'est pas perceptible.
Le calcul du « pitch » et la validation du « pitch » sont effectués au niveau du bloc 26 ; en effet le « pitch » calculé dans le bloc 11 sur le signal temporel a été déterminé dans le domaine temporel en présence de bruit ; le calcul du « pitch » dans le domaine fréquentiel permettra d'améliorer la précision du « pitch » et de détecter un « pitch » que le calcul sur le signal temporel, effectué dans le bloc 11, n'aurait pas déterminé à cause du bruit ambiant. Par ailleurs, le calcul du « pitch » sur le signal fréquentiel doit permettre de décider si celui-ci doit être utilisé au codage, sachant que l'utilisation du « pitch » au codage permet de diminuer fortement le codage et de rendre la voix plus naturelle à la synthèse ; il est par ailleurs utilisé par le filtre de bruit. Etant donné que les fréquences et les modules de la trame sont disponibles, le principe du calcul du « pitch » consiste à synthétiser le signal par une somme de cosinus ayant des phases à l'origine nulles ; ainsi la forme du signal original sera reconstitué sans les perturbations de l'enveloppe, des phases et de la variation du « pitch ».
La valeur du « pitch » fréquentiel est définie par la valeur du « pitch » temporel laquelle est équivalente à la première valeur de synthèse présentant un maximum supérieur au produit d'un coefficient par la somme des modules utilisés pour la synthèse locale (somme des cosinus desdits modules) ; ce coefficient est égal au rapport de l'énergie du signal, considéré comme harmonique, à la somme de l'énergie du bruit et de l'énergie du signal ; le susdit coefficient est d'autant plus faible que le « pitch » à détecter est noyé dans le bruit ; à titre d'exemple, à un rapport signal à bruit de 0 décibel correspond un coefficient de 0,5. L'information de validation du « pitch » fréquentiel est obtenue à l'aide du rapport de l'échantillon de synthèse, à l'endroit du « pitch », à la somme des modules utilisés pour la synthèse locale ; ce rapport, synonyme d'énergie du signal harmonique sur l'énergie totale du signal, est corrigé en fonction du rapport approximatif signal à bruit calculé dans le bloc 14 ; l' information de validation du « pitch » dépend du dépassement du seuil de ce rapport. Afin d'éviter de valider un « pitch » sur du bruit ou de la musique, quand le seuil de détection du « pitch » est faible, un contrôle de l'existence d'un « pitch » est effectué aux emplacements des multiples du « pitch » temporel dans la synthèse locale ; ainsi le « pitch » n'est pas valide si le niveau de la synthèse est trop faible pour être un « pitch » aux susdits emplacements des multiples du « pitch » temporel.
La synthèse locale est calculée deux fois ; une première fois en n'utilisant que les fréquences dont le module est élevé, afin de s'affranchir du bruit pour le calcul du « pitch » ; une deuxième fois avec la totalité des modules limités en valeur maximale, afin de calculer le rapport signal à bruit qui validera le « pitch » ; en effet la limitation des modules donne plus de poids aux fréquences non harmoniques à module faible, afin de diminuer la probabilité de validation d'un « pitch » sur de la musique.
Dans le cas du filtrage du bruit, les valeurs desdits modules ne sont pas limités pour la deuxième synthèse locale, seul le nombre de fréquences est limité en ne prenant en compte que celles qui ont un module significatif afin de limiter le bruit.
Un second procédé de calcul du « pitch » consiste à sélectionner le « pitch » qui donne l'énergie maximale pour un pas d'échantillonnage de la synthèse égal au « pitch » recherché ; ce procédé est utilisé pour de la musique ou un milieu sonore comportant plusieurs voix. Préalablement à la dernière étape consistant à atténuer le bruit, une décision sera prise par l'utilisateur s'il souhaite réaliser le filtrage du bruit ou générer des effets spéciaux (bloc 27), à partir de l'analyse, sans passer par la synthèse. Dans le cas contraire, l'analyse se terminera par le traitement suivant consistant à atténuer le bruit, dans le bloc 28, en diminuant les composantes fréquentielles qui ne sont pas un multiple du « pitch » ; après atténuation desdites composantes fréquentielles, on effectuera à nouveau la suppression du signal inaudible, tel que décrit précédemment, au niveau du bloc 25. L'atténuation desdites composantes fréquentielles est fonction du type de signal tel que définit précédemment par le bloc 21.
Après avoir effectué ladite atténuation du bruit, on peut considérer que le traitement de la trame est teπniné ; l'aboutissement de ladite phase d'analyse est référencé par le bloc 29.
En référence à la figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de synthèse du signal audio (bloc C3), représentée selon la figure 3, comprend les étapes suivantes :
• mise en forme des modules (bloc 31), • réduction du bruit (bloc 32),
• mise à niveau du signal (bloc 33),
• saturation des modules (bloc 34),
• modification des paramètres d'impulsion en fonction de la vitesse de la synthèse (bloc 35), • calcul des phases (bloc 36),
• génération du souffle (bloc 37),
• décision concernant la génération d'une impulsion (bloc 38),
• synthèse avec les données fréquentielles de la trame courante (bloc 39), • test concernant la trame précédente (bloc 40), • synthèse avec les données fréquentielles de la trame précédente (bloc 41),
• application de l'enveloppe sur le signal de synthèse (bloc 42),
• décision concernant l'ajout d'une impulsion (bloc 43), • synthèse avec les nouvelles données fréquentielles (bloc 44),
• connexion entre trames adjacentes (bloc 45),
• transfert du résultat de synthèse dans la trame d'échantillon (bloc 46),
• sauvegarde du bord de trame (bloc 47), • fin de la synthèse (bloc 48).
La synthèse consiste à calculer les échantillons du signal audio à partir des paramètres calculés par l'analyse ; les phases et le bruit seront calculés artificiellement suivant le contexte.
La mise en forme des modules (bloc 31) consiste à éliininer l'atténuation du filtre d'entrée des échantillons de l'analyse (bloc 1 du bloc Al) et à tenir compte du sens de la variation du »pitch » car la synthèse est réalisée temporellement par un incrément de phase d'un sinus. Par ailleurs, l'information de validation du « pitch » est supprimée si l'option de synthèse de la musique est validée ; cette option améliore le calcul de phase des fréquences en évitant de synchroniser les phases des harmoniques entre elles en fonction du « pitch ».
La réduction du bruit (bloc 32) est effectuée si celle-ci n'a pas été préalablement effectuée durant l'analyse (bloc 28 du bloc Al).
La mise à niveau du signal (bloc 33) supprime la normalisation des modules reçus de l'analyse ; cette mise à niveau consiste à multiplier les modules par l'inverse du gain de normalisation défini dans le calcul de la dynamique du signal (bloc 6 du bloc Al) et à multiplier lesdits modules par 4 afin d'éliminer l'effet de la fenêtre de HAMMING, et que seule la moitié du plan fréquentiel est utilisée.
La saturation des modules (bloc 34) est effectuée si la somme des modules est supérieure à la dynamique du signal des échantillons de sortie ; elle consiste à multiplier les modules par le rapport dé la valeur maximale de la somme des modules à la somme des modules, au cas où ledit rapport est inférieur à 1.
L'impulsion est re-générée en réalisant la somme de sinus dans la durée d'impulsion ; les paramètres d'impulsion sont modifiés (bloc 35) en fonction de la vitesse variable de synthèse.
Le calcul des phases des fréquences est effectué ensuite (bloc 36) ; il a pour but de donner une continuité de phase entre les fréquences des trames ou de re-synchroniser les phases entre elles ; elle rend par ailleurs la voix plus naturelle.
La synchronisation des phases est réalisée à chaque fois qu'un nouveau signal dans la trame courante semble séparé dans le domaine temporel ou dans le domaine fréquentiel de la trame précédente ; cette séparation correspond : • au passage de signal bruité à un signal non bruité,
• à un début de mot (ou son) dont l'enveloppe en début de trame est faible,
• à une transition entre deux mots (ou son) sans variation de l'enveloppe, • à un début de mot (ou son) qui a été détecté dans la trame précédente, mais dont la montée de l'enveloppe dans la trame courante est telle que la synchronisation doit être refaite pour que les phases soient calculées en fonction d'un « pitch » de meilleure qualité. La continuité de phase consiste à rechercher les fréquences de la trame courante en début de trame qui sont les plus proches des fréquences en fin de trame de la trame précédente ; ensuite la phase de chaque fréquence devient égale à celle de la fréquence précédente la plus proche, sachant que les fréquences en début de trame courante sont calculées à partir de la valeur centrale de la fréquence modifiée par la variation du « pitch ».
En présence d'un « pitch », cas du signal voisé, les phases des harmoniques seront synchronisées sur celle du pitch en multipliant la phase du « pitch » par l'indice de l'harmonique du « pitch » ; quant à la continuité de phase, on calcule la phase du « pitch » en fin de trame en fonction de sa variation et de la phase à l'origine de la trame ; cette phase servira pour le début de la trame suivante.
Une seconde solution consiste à ne plus appliquer la variation du « pitch » sur le « pitch » pour connaître la nouvelle phase ; il suffit de reprendre la phase de la fin de la trame précédente du « pitch » ; par ailleurs, lors de la synthèse, la variation du « pitch » est appliquée sur l'interpolation de la synthèse réalisée sans variation du « pitch ».
La génération du souffle est ensuite effectuée (bloc 37).
Selon l'invention, on considère que tout signal sonore dans l'intervalle d'une trame est la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par l'enveloppe du signal, le bruit étant rajouté à ce signal préalablement à ladite somme.
Sans ce bruit, la voix est métallique car l'élimination des modules faibles, effectuée dans le bloc 25 du bloc A3, concerne essentiellement le souffle. Par ailleurs, l'estimation du rapport signal à bruit effectuée dans le bloc 14 du bloc A3, n'est pas exploitée ; on calcule en effet un bruit en fonction du type de signal, des modules et des fréquences.
Le principe du calcul du bruit repose sur un filtrage d'un bruit blanc par un filtre transversal dont les coefficients sont calculés par la somme des sinus des fréquences du signal dont les amplitudes sont atténuées en fonction des valeurs de leur fréquence et de leur amplitude. Une fenêtre de HAMMING est ensuite appliquée sur les coefficients pour diminuer les lobes secondaires. Le bruit filtré est ensuite sauvegardé en deux parties distinctes. Une première partie permettra de faire le lien entre deux trames successives ; la connexion entre deux trames est réalisée par chevauchement de ces deux trames dont chacune est pondérée linéairement et en sens inverse ; ledit chevauchement est effectué lorsque le signal est sinusoïdal ; il ne s'applique pas quand il s'agit de bruit non corrélé ; ainsi la partie sauvegardée du bruit filtré est rajoutée sans pondération sur la zone de chevauchement. La seconde partie est destinée au corps principal de la trame. Le lien entre deux trames doit d'une part permettre un passage fluide entre deux filtres de bruit de deux trames successives, et d'autre part de prolonger le bruit de la trame suivante au-delà de la partie de chevauchement des trames si un début de mot (ou son) est détecté.
Ainsi, le passage fluide entre deux trames est réalisé par la somme du bruit blanc filtré par le filtre de la trame précédente pondéré par une pente descendante linéaire, et le même bruit blanc filtré par le filtre de bruit de la trame courante pondéré par la pente montante inverse de celle du filtre de la trame précédente.
L'énergie du bruit sera rajoutée à l'énergie de la somme des sinus, selon le procédé proposé.
La génération d'une impulsion diffère d'un signal sans impulsion ; en effet, dans le cas de la génération d'une impulsion, la somme des sinus n'est réalisée que sur une partie de la trame courante à laquelle est rajoutée la somme des sinus de la trame précédente.
Cette distinction nécessite de faire le choix (bloc 38) entre les deux options : une impulsion doit elle être générée ou non ? ; dans le cas où il n'y a pas de génération d'une impulsion , on effectue la synthèse avec les nouvelles données fréquentielles (bloc 39) ; dans le cas contraire, il s'agit de savoir si la trame précédente n'était pas une impulsion (bloc 40) ; dans ce cas on effectue la synthèse avec les données fréquentielles de la trame précédente (bloc 41) qui va servir de fond à l'impulsion (cas de la musique ou de bruit ambiant à répéter) ; dans le cas contraire, la trame précédente étant une impulsion, on ne répète pas le signal de fond avec les paramètres de l'impulsion précédente.
La synthèse avec les nouvelles données fréquentielles (bloc 39) consiste à effectuer la somme des sinus des composantes fréquentielles de la trame courante ; la variation de la longueur de la trame permet d'effectuer une synthèse à vitesse variable ; néanmoins les valeurs des fréquences en début et en fin de trame doivent être identiques, quelque soit la longueur de la trame, pour une vitesse donnée de synthèse. La phase associée au sinus, fonction de la fréquence, sera calculée par .itération ; en effet pour chaque itération, on calcule le sinus multiplié par le module ; le résultat est ensuite sommé pour chaque échantillon suivant toutes les fréquences du signal.
Une autre méthode de synthèse consiste à réaliser l'inverse de l'analyse en recréant le domaine fréquentiel à partir du sinus cardinal réalisé avec le module, la fréquence et la phase, et ensuite en réalisant une transformée rapide de Fourier (TFR) inverse, suivie par le produit de l'inverse de la fenêtre de HAMMING pour obtenir le domaine temporel du signal. Dans le cas où le « pitch » varie, l'inverse de l'analyse est à nouveau effectué en rajoutant la variation du « pitch » à la trame temporelle sur-échantillonnée. Dans le cas d'une impulsion, il suffit d'appliquer au signal temporel, une fenêtre à 1 durant l'impulsion, et à 0, en dehors de celle-ci.
Dans le cas d'une impulsion à générer, les phases à l'origine des données fréquentielles sont maintenues à la valeur 0.
Afin de réaliser une connexion fluide entre les trames, le calcul de la somme des sinus est également effectué sur une portion précédant la trame et sur une même portion suivant la trame ; les parties aux deux bouts de la trame seront ensuite sommées avec celles des trames adjacentes par pondération linéaire. Dans le cas d'une impulsion, la somme des sinus est effectuée dans l'intervalle de temps de génération de l'impulsion ; afin d'éviter la création d'impulsions parasites suite aux discontinuités dans le calcul de la somme des sinus, un certain nombre d'échantillons situés au début et à la fin de la séquence sont pondérés respectivement par une pente montante et une pente descendante. Quant au cas des fréquences harmoniques du « pitch », les phases ont été calculées précédemment pour être synchronisées, elles seront générées à partir de l'indice de l'harmonique correspondant.
La synthèse par la somme des sinus avec les données de la trame précédente (bloc 41) est effectuée lorsque la trame courante contient une impulsion à générer ; en effet, dans le cas de la musique ou de bruit, si la synthèse n'est pas effectuée sur la trame précédente, servant de signal de fond, l'impulsion sera générée sur un silence, ce qui est préjudiciable à une bonne qualité du résultat obtenu ; par ailleurs la continuité de la trame précédente est inaudible, même en présence d'une progression du signal.
L'application de l'enveloppe sur le signal de synthèse (bloc 42) est effectuée à partir des valeurs échantillonnées de l'enveloppe précédemment déterminées
(bloc 2 du bloc A3) ; par ailleurs la connexion entre deux trames successives est réalisée par la somme pondérée, comme indiqué précédemment ; cette pondération par les courbes croissante et décroissante n'est pas effectuée sur le bruit, car le brait n'est pas juxtaposé entre trame.
Enfin, dans le cas de la synthèse à vitesse variable, la longueur de la trame varie par pas afin d'être homogène avec l' échantillonnage de l'enveloppe.
Le rajout d'une impulsion par la somme de sinus dans l'intervalle ou a été détectée l'impulsion, est effectué (bloc 44) en fonction du test réalisé précédemment (bloc 43).
La pondération de juxtaposition entre deux trames est ensuite effectuée (bloc 45) comme indiqué précédemment.
Le transfert du résultat de synthèse (bloc 46) sera ensuite effectué dans la frame de sortie d'échantillon afin que ledit résultat soit sauvegardé.
De même, la sauvegarde du bord de trame (bloc 47) sera effectuée afin que ledit bord de trame puisse être additionné au début de la trame suivante.
L'aboutissement de ladite phase de synthèse est référencée par le bloc 48.
En référence à la figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de codage des paramètres (bloc A2), représentée selon la figure 4, comprend les étapes suivantes :
• codage du type de signal (bloc 51), • test sur le type de signal (bloc 52),
• codage du type de compression (bloc 53),
• codage de la valeur de normalisation du signal de trame (bloc 54),
• test sur la présence d'impulsion (bloc 55),
• codage des paramètres d'impulsion (bloc 56), • codage de la variation du « pitch » (bloc 57),
• limitation du nombre de fréquences à coder (bloc 58), codage des valeurs d'échantillonnage de l'enveloppe (bloc 59), codage de la validation du « pitch » (bloc 60), test de validation du « pitch » (bloc 61), codage des harmoniques (bloc 62), codage des fréquences non harmoniques (bloc 63), codage de la dynamique des modules (bloc 64), codage du module le plus élevé (bloc 65), codage des modules (bloc 66), codage de l'atténuation (bloc 67), suppression de la normalisation des modules (bloc 68), codage des fractions fréquentielles des fréquences non harmoniques
(bloc 69), codage du nombre d'octets de codage (bloc 70), fin de codage (bloc 71).
Le codage des paramèfres (bloc A2) calculés dans l'analyse (bloc Al) dans le procédé selon l'invention, consiste à limiter la quantité d'informations utiles afin de reproduire à la synthèse (bloc C3) après décodage (bloc Cl) un équivalent auditif au signal audio d'origine.
Le codage étant de longueur variable, chaque trame codée a un nombre de bits d'information propre ; le signal audio étant variable, plus ou moins d'informations seront à coder.
Les paramètres de codage étant interdépendants, un paramètre codé influencera le type de codage des paramèfres suivants.
Par ailleurs, le codage des paramètres peut être soit linéaire, le nombre de bits étant fonction du nombre de valeurs, soit de type HUFFMAN, le nombre de bits étant fonction statistique de la valeur à coder (plus la donnée est fréquente, moins elle utilise de bits et réciproquement). Le type de signal, tel que défini lors de l'analyse (bloc 21 du bloc Al), fournit l'information de génération du bruit et la qualité du codage à utiliser ; le codage du type de signal est effectué en premier lieu (bloc 51).
Un test est ensuite effectué (bloc 52) permettant dans le cas du type 3 du signal, tel que défini dans le bloc 21 de l'analyse (bloc Al), de ne pas effectuer de codage des paramèfres ; la synthèse comportera des échantillons nuls.
Le codage du type de compression (bloc 53) est utilisé dans le cas où l'utilisateur souhaite agir sur le débit des données de codage, au détriment de la qualité ; cette option peut être avantageuse en mode télécommunication associé à un taux de compression élevé.
Le codage de la valeur de normalisation (bloc 54) du signal de la trame d'analyse est de type HUFFMAN.
Un test sur la présence d'impulsion (bloc 55) est ensuite effectué, permettant en cas de synthèse d'une impulsion, de coder les paramètres de ladite impulsion.
En cas de présence d'une impulsion, le codage, suivant une loi linéaire, des paramètres de ladite impulsion (bloc 56) sera effectué sur le début et la fin de ladite impulsion dans la trame courante.
Quant au codage de la variation doppler du « pitch » (bloc 57), il sera effectué suivant une loi logarithmique, en tenant compte du signe de la dite variation ; ce codage ne sera pas effectué en présence d'une impulsion ou si le type de signal est non voisé. Une limitation du nombre de fréquences à coder (bloc 58) est ensuite effectuée afin d'éviter qu'une fréquence de valeur haute ne dépasse la dynamique bornée par la fréquence d'échantillonnage, étant donné que la variation doppler du « pitch » fait varier les f équences durant la synthèse.
Le codage des valeurs d'échantillonnage de l'enveloppe (bloc 59) dépend de la variation du signal, du type de compression, du type de signal, de la valeur de normalisation et de l'éventuelle présence d'impulsion ; ledit codage consiste à coder les variations et la valeur rninimale desdites valeurs d' échantillonnage.
La validation du « pitch » est ensuite codée (bloc 60), suivi d'un test de validation (bloc 61) nécessitant, dans l'affirmative, de coder les fréquences harmoniques (bloc 62) suivant leur indice par rapport à la fréquence du « pitch ». Quant aux fréquences non harmoniques, elles seront codées (bloc 63) suivant leur partie entière.
Le codage des fréquences harmoniques (bloc 62) consiste à effectuer un codage logarithmique du pitch, afin d'obtenir la même précision relative pour chaque fréquence harmonique ; le codage desdits indices des harmoniques est effectué en fonction de leur présence ou de leur absence par paquet de trois indices selon le codage d'HUFFMAN.
Les fréquences qui n'ont pas été détectées comme étant harmoniques de la fréquence du « pitch » seront codées séparément (bloc 63).
Afin d'éviter qu'au moment du codage, une fréquence non harmonique change de position par rapport à une fréquence harmonique, on supprime la fréquence non harmonique qui est trop proche de la fréquence harmonique, sachant qu'elle a moins de poids au sens audible ; ainsi la suppression a lieu si la fréquence non harmonique est supérieure à la fréquence harmonique et que la fraction de la fréquence non harmonique due au codage de la partie entière, rend ladite fréquence non harmonique inférieure à la fréquence harmonique proche.
Le codage des fréquences non harmoniques (bloc 63) consiste à coder le nombre de fréquences non harmoniques, puis la partie entière des fréquences, puis les parties fractionnaires quand les modules seront codés ; concernant le codage de la partie entière des fréquences, seuls les écarts entre lesdites parties entières sont codés ; par ailleurs, plus le module est faible et plus la précision sur la partie fractionnaire est faible ; ceci afin de diminuer le débit binaire. Afin d'optimiser le codage en terme de débit de la partie entière en fonction de la statistique des écarts de fréquence, on définit un certain nombre d'écarts maximal entre deux fréquences.
Le codage de la dynamique des modules (bloc 64) utilise une loi de HUFFMAN en fonction du nombre de plages définissant ladite dynamique et du type de signal. Dans le cas d'un signal voisé, l'énergie du signal se situe dans les basses fréquences ; pour les autres types de signal, l'énergie est répartie uniformément dans le plan fréquentiel, avec une baisse vers les hautes fréquences.
Le codage du module le plus élevé (bloc 65) consiste à coder, suivant une loi de HUFFMAN, la partie entière dudit module le plus élevé en tenant compte de la statistique dudit module le plus élevé.
Le codage des modules (bloc 66) n'est réalisé que si le nombre de module à coder est supérieur à 1, étant donné que dans le cas contraire, il est seul en étant le module le plus élevé.
Lors de l'analyse (bloc Al), la suppression du signal inaudible (bloc 25 du bloc Al) élimine les modules inférieurs au produit du module par l'atténuation correspondante ; ainsi un module se situe obligatoirement dans une zone du plan module/fréquence dépendant de la distance qui le sépare de ses deux modules adjacents en fonction de l'écart de fréquence desdits modules adjacents. Ainsi la valeur du module est approximée relativement au module précédent en fonction de l'écart de fréquence et de l'atténuation correspondante qui dépend du type de signal, de la valeur de normalisation et du type de compression ; ladite approximation de la valeur du module est effectuée en référence à une échelle dont le pas varie suivant une loi logarithmique.
Le codage de l'atténuation (bloc 67) apportée par le filtre d'entrée des échantillons est effectué, puis est suivi de la suppression de la normalisation (bloc 68) qui permet de recalculer le module le plus élevé ainsi que la fréquence correspondante.
Le codage des fractions fréquentielles des fréquences non harmoniques (bloc 69) complète le codage des parties entières desdites fréquences. La précision du codage va dépendre :
• de la fréquence : plus la fréquence est faible, plus la précision sera élevée de manière à ce que le rapport erreur de codage sur fréquence soit faible,
• du type de signal, • du type de compression,
• de la valeur de normalisation du signal : plus l'intensité du signal est élevée, plus le codage est précis.
Enfin, le codage du nombre d'octets de codage (bloc 70) est effectué à l'issue du codage des différents paramètres susmentionnés, mémorisés dans une mémoire de codage dédiée.
L'aboutissement de ladite phase de codage est référencé par le bloc 71. En référence à la figure 1 représentant un organigramme simplifié du procédé selon F invention, dans cet exemple, la phase de décodage des paramètres est représentée par le bloc Cl.
Le décodage étant l'inverse du codage, l'exploitation des bits de codage des différents paramèfres susmentionnés permettra de retrouver les valeurs d'origine des paramètres, avec d'éventuelles approximations.
En référence à la figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse est indiquée par le bloc D.
Le filtrage du brait est effectué à partir des paramèfres de la voix calculés dans l'analyse (bloc Al du bloc A), empruntant le trajet IV indiqué sur ledit organigramme simplifié du procédé selon l'invention.
Il s'avère que les algorithmes connus de l'état de l'art réalisent une annulation du brait à partir des propriétés statistiques du signal ; le bruit doit être par conséquent stationnaire statistiquement ; cette démarche n'autorise donc pas la présence de brait sous forme harmonique (voix, musique).
L'objectif du filtrage du bruit est par conséquent de réduire toutes sortes de brait tel que : bruit ambiant de voiture, de moteur, de foule, de musique, d'autres voix si celles-ci sont plus faibles que celles à conserver, ainsi que les braits de calcul de tout vocodeur (à tifre d'exemple : ADPCM, GSM, G723).
Par ailleurs, la majorité des braits ont leur énergie dans les basses fréquences ; le fait d'utiliser le signal de l'analyse préalablement filtré par le filtre d'entrée des échantillons permet de diminuer d'autant le brait très basse fréquence. Le filtrage du brait (bloc D) pour un signal voisé consiste à réaliser la somme pour chaque échantillon, du signal original, du signal original décalé de un « pitch » en valeur positive et du signal original décalé de un « pitch » en valeur négative. Ceci nécessite de connaître pour chaque échantillon, la valeur du « pitch » et de sa variation. Avantageusement les deux signaux décalés sont multipliés par un même coefficient, et le signal original non décalé par un second coefficient ; la somme dudit premier coefficient rajouté à lui-même et dudit second coefficient est égale à 1, dhninué de manière à conserver un
' niveau équivalent du signal résultant.
Le nombre d'échantillons espacés d'un « pitch » temporel ne se limite pas à trois échantillons ; plus il y a d'échantillons utilisés pour le filtre de brait, et plus le filtre diminue le brait. Le nombre de trois échantillons est adapté au « pitch » temporel le plus élevé rencontré dans de la voix et au retard de filtrage. Afin de garder un retard de filtrage fixe, plus le « pitch » temporel est faible, plus on peut utiliser d'échantillons décalés d'un « pitch » pour réaliser le filtrage ; ce qui revient à garder la bande passante autour d'un harmonique, à peu près constante ; plus la fondamentale est élevée et plus la largeur de bande atténuée est élevée.
Par ailleurs, le filtrage du bruit ne concerne pas les signaux sous forme d'impulsion ; il est donc nécessaire de détecter la présence d'éventuelles impulsions dans le signal.
Le filtrage du brait (bloc D) pour un signal non voisé consiste à atténuer ledit signal par un coefficient inférieure à 1.
Dans le domaine temporel, la somme des trois signaux sus mentionnés est corrélée ; quant au bruit contenu dans le signal original, la somme atténuera son niveau. Ainsi, il est nécessaire de connaître avec exactitude la variation du « pitch », c'est-à-dire la valeur temporelle du « pitch », approximée en valeur linéaire, sachant qu'elle fait intervenir un terme du second ordre ; l'amélioration de la précision des deux susdits décalages, positif et négatif, est obtenue grâce à l'utilisation de la corrélation par la distance en début, milieu et fin de trame ; cette démarche a été décrite au cours de l'étape "calcul des paramètres du signal" (bloc 11 du bloc Al).
Avantageusement, le filtrage de brait, décrit précédemment, permet de générer des effets spéciaux ; ladite génération d'effets spéciaux permet d'obtenir :
• une féminisation de la voix, en divisant la valeur temporelle du « pitch » par deux, pour certaines valeurs des amplitudes du signal original et des signaux originaux décalés ; ceci multiplie artificiellement la fréquence du « pitch » de la voix par deux en supprimant les harmoniques impaires ;
• une voix artificielle et étrange, en divisant la valeur temporelle du « pitch » par deux, pour d'autres valeurs des amplitudes du signal original et des signaux originaux décalés ; ceci permet de ne garder que les harmoniques impaires ; • deux voix différentes, en divisant la valeur temporelle du « pitch » par deux, pour différentes valeurs des amplitudes du signal original et des signaux originaux décalés ; ceci permet d'atténuer les harmoniques impaires.
Enfin, une autre démarche, semblable à celle décrite précédemment permettant le filtrage du brait, pourra être appliquée, non pas pour filtrer le brait, mais pour diviser par deux ou par trois la fondamentale de la voix et ce, sans modification du formant (enveloppe spectrale) de ladite voix. Le principe de ladite démarche consiste :
• à multiplier chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),
• puis à additionner le résultat obtenu à la voix originale.
Par ailleurs, la phase de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, peut ne pas inclure le calcul de la variation du « pitch » ; ceci permet d'obtenir une qualité auditive voisine de celle précédemment obtenue selon le procédé susmentionné ; dans ce mode opératoire, les fonctions définies par les blocs 11, 12, 15, 16, 17, 18, 19, 25 et 28 sont supprimées.
En référence à la figure 1 représentant un organigramme simplifié du procédé selon l'invention, dans cet exemple, la phase de génération d'effets spéciaux, associée à la synthèse (bloc C3) est indiquée par le bloc C2 du bloc C. La dite phase de génération d'effets spéciaux, associée à la synthèse, permet de transformer la voix ou la musique : • soit en modifiant selon certaines lois, les paramètres décodés issus du bloc Cl (trajet II),
• soit en traitant directement les résultats de l'analyse issus du bloc Al (trajet III).
Les paramètres modifiés sont : le « pitch », la variation du « pitch », la validation du « pitch », le nombre de composantes fréquentielles, « les fréquences, les modules, • les indices.
Les fréquences étant distinctes entre elles, leur transformation permet de rajeunir la voix, de la vieillir, de la féminiser ou inversement, de la transformer en une voix artificielle. Ainsi la transformation des modules autorise toute sorte de filtrages et permet en outre de conserver la voix naturelle en gardant le formant (enveloppe spectrale).
A titre d'exemples, trois types de transformation de la voix seront décrits ci- après, chacun étant référencé sous une appellation qui lui est propre, à savoir :
- la fonction "Transform" modifiant la voix de façon artificielle et permettant de créer un effet de chorale,
- la fonction "Transvoice" modifiant la voix de façon réaliste,
- la fonction "Formant" associée à la fonction' ransvoice".
La fonction "Transform" consiste à multiplier toutes les fréquences des composantes fréquentielles par un coefficient. Les modifications de la voix sont fonction de la valeur de ce coefficient, à savoir :
• une valeur supérieure à 1 transforme la voix en voix de canard, • une valeur faiblement supérieure à 1 rajeunit la voix,
• une valeur inférieure à 1 rend la voix plus grave.
En effet, ce rendu artificiel de la voix est dû au fait que les modules des composantes fréquentielles sont inchangés et que l'enveloppe spectrale est déformée.
Par ailleurs, en synthétisant plusieurs fois les mêmes paramètres, modifiés par ladite fonction "Transform" avec un coefficient différent, on réalise un effet de chorale en donnant l'impression que plusieurs voix sont présentes.
La fonction "Transvoice" consiste à recréer les modules des harmoniques à partir de l'enveloppe spectrale, les harmoniques originaux sont abandonnés sachant que les fréquences non harmoniques ne sont pas modifiées ; à ce titre, ladite fonction "Transvoice" fait appel à la fonction "Formant" qui détermine le formant.
Ainsi, la transformation de la voix est effectuée de façon réaliste car le formant est conservé ; un coefficient de multiplication des fréquences harmoniques supérieure à 1 rajeunit la voix, voire la féminise ; réciproquement, un coefficient de multiplication des fréquences harmoniques inférieure à 1 rend la voix plus grave.
Par ailleurs, afin de conserver un niveau sonore constant, indépendamment de la valeur du coefficient de multiplication, les nouvelles amplitudes seront multipliées par le rapport de la somme des modules en entrée de ladite fonction "Transvoice" à la somme des modules en sortie.
La fonction "Formant" consiste à déterminer l'enveloppe spectrale du signal fréquentiel ; elle est exploitée pour garder les modules des composantes fréquentielles constants quand les fréquences sont modifiées. La détermination de l'enveloppe est effectuée en deux étapes, à savoir :
• un filtrage des modules placés dans l'enveloppe,
• une interpolation logarithmique de l'enveloppe entre deux modules d'un harmonique.
Ladite fonction "Formant" peut être appliquée lors du codage des modules, des fréquences, des plages d'amplitudes et des fractions de fréquences, en n'effectuant le dit codage que sur les paramètres essentiels du formant, le « pitch » étant validé. Dans ce cas, lors du décodage, les fréquences et les modules sont recalculés à partir respectivement du « pitch » et de l'enveloppe spectrale. Ainsi le débit binaire est réduit ; néanmoins, cette démarche n'est applicable qu'à la voix. Les dites fonctions "Transform" et "Transvoice", décrites précédemment font intervenir un coefficient de multiplication des fréquences constant. Cette transformation peut être non linéaire et permettre de rendre la voix artificielle.
En effet, si ce coefficient de multiplication est fonction du rapport entre le nouveau « pitch » et le « pitch » réel, la voix sera caractérisée par un « pitch » fixe et un formant variable ; elle sera ainsi transformée en voix de robot associée à un effet spatial.
Si ce coefficient de multiplication varie périodiquement ou aléatoirement, à basse fréquence, la voix est vieillie associée à un effet hilarant.
Ces différentes transformations de la voix, obtenues à partir d'une modification, constante ou variable dans le temps, des fréquences, ladite modification étant effectuée sur chacune des fréquences prises séparément, sont données à titre d'exemples.
Une dernière solution consiste à effectuer un codage à débit fixe. Le type de signal est ramené à du signal voisé (type 0 et 2 avec la validation du « pitch » à 1), ou à du brait (type 1 et 2 avec la validation du « pitch » à 0). Le type 2 étant pour la musique, il est éliminé dans ce cas, puisque ce codage ne peut coder que de la voix. Le codage à débit fixe consiste à :
• coder le type de signal, l'infoπnation de la présence d'impulsion, et la validation du « pitch » en codage de HUFFMAN,
• coder l'emplacement de l'impulsion dans la trame si on n'est pas en présence d'une impulsion, sinon coder les parties d'enveloppe temporelle en faisant appel à une table de codage représentant les enveloppes les plus couramment rencontrées, • coder le « pitch » en loi logarithmique sur sa valeur ou la différence entre le « pitch » codé de la trame précédente et celui de la trame courante ; à noter que le codage différentiel permet d'utiliser moins de bits de codage, • coder la variation du « pitch », n'étant pas en présence d'une impulsion, seulement si la valeur calculée dans l'analyse est éloignée d'un certain pourcentage de la variation du « pitch » calculée à partir des « pitchs » de la trame précédente et de la trame courante ; de même, la variation du « pitch » n'est pas codée, si la valeur absolue de l'écart entre ces deux variations est inférieure à une valeur maximale, • coder le formant différentiel sur 2 bits pour les fréquences basses, et sur 1 bit pour les autres fréquences, le premier formant n'étant pas codé en différentiel. A noter que plus il y a d'échantillons de formant à coder, meilleure est la qualité auditive du codeur à débit fixe, et plus la différence de codage entre deux échantillons adjacents est faible.
Le décodage étant l'inverse du codage, le « pitch » fournit tous les harmoniques de la voix ; leurs amplitudes sont celles du formant. Quant aux fréquences du signal non voisé, on calcule des fréquences espacées enfre elles par une valeur moyenne à laquelle est rajouté un écart aléatoire ; les amplitudes sont celles du formant.
Le processus de synthèse, décrit précédemment, est identique à celui décrit pour un décodeur à débit variable.
Afin de permettre la mise en œuvre du procédé selon l'invention, un dispositif sera décrit ci-après, avec référence à la figure 5.
Le dispositif, selon l'invention, comprend essentiellement : « un calculateur 71, de type DSP, permettant d'effectuer le traitement numérique des signaux, • un clavier 72 permettant de sélectionner les menus de traitement de la voix,
• une mémoire morte 73, de type EEPROM, contenant le logiciel de traitement de la voix, • une mémoire vive 74, de type flash ou « memory stick », contenant les enregistrements de la voix traitée,
• un afficheur 75, de type LCD, associé au clavier 72, indiquant les différents menus de traitement de la voix,
• un codeur/décodeur 76, de type codée, assurant les liaisons entrée/sortie des périphériques audio,
• un micro 77, de type électret,
• un haut-parleur 78,
• une batterie 79,
• une liaison entrée/sortie 80, permettant le transfert des enregistrements numériques et les mises à jour du logiciel de traitement de la voix.
Par ailleurs, le dispositif pourra comporter :
• un connecteur téléphonique permettant au dispositif selon l'invention de se substituer à un combiné téléphonique,
• un connecteur de téléphonie mobile,
• une sortie casque, permettant l'écoute des enregistrements,
• une sortie chaîne hi fi, permettant la fonction karaoké,
• un connecteur d'alimentation externe.
D'une manière plus précise, le dispositif pourra comporter :
- des moyens d'analyse permettant de déterminer des paramètres représentatifs dudit signal sonore, les susdits moyens d'analyse comprenant : • des moyens de calcul de l'enveloppe du signal, • des moyens de calcul du « pitch « et de sa variation,
• des moyens d'application au signal temporel de la variation inverse du «pitch»,
• des moyens de transformée rapide de Fourrier (TRF) sur le signal prétraité,
• des moyens d'extraction des composantes fréquentielles et leurs amplitudes dudit signal, à partir du résultat de la transformée rapide de Fourrier,
• des moyens d'élimination éventuelle du bruit ambiant par filfrage sélectif avant codage,
- des moyens de synthèse desdits paramètres représentatifs permettant de reconstituer ledit signal sonore, les susdits moyens de synthèse comprenant : • des moyens de sommation des sinus dont l'amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal,
• des moyens de calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la trame précédente,
• des moyens de superposition du bruit,
• des moyens d'application de l'enveloppe,
- des moyens de filtrage du bruit et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, les susdits moyens de filtrage du bruit et de génération d'effets spéciaux comprenant :
• des moyens de sommation du signal original, du signal original décalé de un « pitch » en valeur positive et du signal original décalé de un « pitch » en valeur négative, • des moyens de division de la valeur temporelle du « pitch » par deux, • des moyens de modification des amplitudes du signal original et des deux signaux décalés,
• des moyens de multiplication de chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),
• des moyens d'addition ensuite du résultat obtenu à la voix originale,
- des moyens de génération d'effets spéciaux associés à la synthèse, les susdits moyens de génération d'effets spéciaux comprenant :
• des moyens de multiplication de toutes les fréquences des composantes fréquentielles du signal original, prises individuellement, par un coefficient, • des moyens de régénération des modules des harmoniques à partir de l'enveloppe spectrale dudit signal original.
Avantageusement, le dispositif pourra comporter tous les éléments cités précédemment, en version professionnelle ou semi professionnelle ; certains éléments, tel que l'afficheur, pourront être simplifiés en version de base.
Ainsi, le dispositif selon l'invention, décrit ci-dessus, pourra exploiter le procédé de traitement numérique différencié de la voix et de la musique, de filtrage du bruit et la création d'effets spéciaux.
Il permettra notamment de transformer la voix :
• en une autre voix réaliste,
• pour un usage de type karaoké,
• en une autre voix futuriste, étrange, d'accompagnement. ettra également :
• de supprimer le bruit ambiant et d'augmenter les capacités d'enregistrement, • de transférer les enregistrements sur disque dur d'ordinateur et de les réécouter à vitesse variable,
• de réaliser une fonction « main libre » associée à un radiotéléphone mobile.
• de générer une réponse auditive adaptée aux mal entendants.

Claims

Revendications
1- Procédé pour le traitement numérique différencié d'un signal sonore, constitué dans l'intervalle d'une frame par la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par une enveloppe, le brait dudit signal sonore étant rajouté audit signal, préalablement à ladite somme, caractérisé en ce qu'il comprend : une étape d'analyse permettant de déterminer des paramètres représentatifs dudit signal sonore, par
• un calcul de l'enveloppe du signal,
• un calcul de la période du fondamental du signal de voix (« pitch «) et de sa variation,
• une application au signal temporel de la variation inverse du «pitch», • une transformée rapide de Fourrier (TRF) sur le signal prétraité,
• une extraction des composantes fréquentielles et leurs amplitudes dudit signal, à partir du résultat de la transformée rapide de Fourrier,
• un calcul du «pitch» et sa validation dans le domaine fréquentiel,
• une élimination éventuelle du bruit ambiant par filfrage sélectif avant codage.
2- Procédé selon la revendication 1, caractérisé en ce qu'il comprend en outre une étape de synthèse desdits paramètres représentatifs permettant de reconstituer ledit signal sonore.
3- Procédé selon les revendications précédentes, caractérisé en ce qu'il comprend en outre une étape de codage et de décodage desdits paramètres représentatifs dudit signal sonore. 4- Procédé selon les revendications précédentes, caractérisé en ce qu'il comprend en outre une étape de filtrage du bruit et une étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse.
5- Procédé selon les revendications précédentes, caractérisé en ce qu'il comprend en outre une étape de génération d'effets spéciaux associés à la synthèse.
6- Procédé selon la revendication 2, caractérisé en ce que la susdite étape de synthèse comprend :
• une sommation des sinus dont l'amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal et dont les fréquences varient linéairement, « un calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la frame précédente,
• une superposition du bruit,
• une application de l'enveloppe.
7- Procédé selon la revendication 4, caractérisé en ce que la susdite étape de filtrage du brait et la susdite étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent une somme du signal original, du signal original décalé de un « pitch » en valeur positive et du signal original décalé de un « pitch » en valeur négative.
8- Procédé selon la revendication 7, caractérisé en ce que les susdits signaux décalés sont multipliés par un même coefficient, et le signal original par un second coefficient, la somme dudit premier coefficient, rajouté à lui-même, et dudit second coefficient est égale à 1, diminué de manière à conserver un niveau équivalent du signal résultant.
9- Procédé selon la revendication 7, caractérisé en ce que la susdite étape de filtrage et la susdite étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent :
• une division de la valeur temporelle du « pitch » par deux,
• une modification des amplitudes du signal original et des deux signaux décalés .
10- Procédé selon la revendication 7, caractérisé en ce que la susdite étape de filtrage et la susdite étape de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent :
• une multiplication de chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),
• une addition ensuite du résultat obtenu à la voix originale.
11- Procédé selon la revendication 5, caractérisé en ce que la susdite étape de génération d'effets spéciaux associés à la synthèse, comprend :
• une multiplication de toutes les fréquences des composantes fréquentielles du signal original, prises individuellement, par un coefficient,
• une régénération des modules des harmoniques à partir de l'enveloppe spectrale dudit signal original. 12- Procédé selon la revendication 11, caractérisé en ce que le susdit coefficient de multiplication des composantes fréquentielles est :
• un coefficient fonction du rapport enfre le nouveau « pitch » et le « pitch » réel,
• un coefficient variant, périodiquement ou aléatoirement, à basse fréquence.
13- Dispositif, pour la mise en œuvre du procédé selon la revendication 1, de traitement numérique différencié d'un signal sonore, constitué dans l'intervalle d'une trame par la somme de sinus d'amplitude fixe et dont la fréquence est modulée linéairement en fonction du temps, cette somme étant modulée temporellement par une enveloppe, le brait dudit signal sonore étant rajouté audit signal, préalablement à ladite somme, caractérisé en ce qu'il comprend :
- des moyens d'analyse permettant de déterminer des paramètres représentatifs dudit signal sonore, et/ou
- des moyens de synthèse desdits paramètres représentatifs permettant de reconstituer ledit signal sonore, et/ou - des moyens de codage et de décodage desdits paramètres représentatifs dudit signal sonore, et/ou
- des moyens de filfrage du brait et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, et/ou
- des moyens de génération d'effets spéciaux associés à la synthèse.
14- Dispositif selon la revendication 13, caractérisé en ce que les susdits moyens d'analyse comprennent :
• des moyens de calcul de l'enveloppe du signal,
• des moyens de calcul du « pitch « et de sa variation, • des moyens d'application au signal temporel de la variation inverse du «pitch», • des moyens de transformée rapide de Fourrier (TRF) sur le signal prétraité,
• des moyens d'extraction des composantes fréquentielles et leurs amplitudes dudit signal, à partir du résultat de la transformée rapide de Fourrier,
• des moyens d'élimination éventuelle du brait ambiant par filfrage sélectif avant codage.
15- Dispositif selon la revendication 13, caractérisé en ce que les susdits moyens de synthèse comprennent :
• des moyens de sommation des sinus dont l' amplitude des composantes fréquentielles varie en fonction de l'enveloppe du signal,
• des moyens de calcul des phases en fonction de la valeur des fréquences et des valeurs des phases et des fréquences appartenant à la trame précédente,
• des moyens de superposition du brait,
• des moyens d'application de l'enveloppe.
16- Dispositif selon la revendication 13 , caractérisé en ce que les susdits moyens de filtrage du brait et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent des moyens de sommation du signal original, du signal original décalé de un « pitch » en valeur positive et du signal original décalé de un « pitch » en valeur négative.
17- Dispositif selon la revendication 16, caractérisé en ce que les susdits signaux décalés sont multipliés par un même coefficient, et le signal original par un second coefficient, la somme dudit premier coefficient, rajouté à lui-même, et dudit second coefficient est égale à 1, diminué de manière à conserver un niveau équivalent du signal résultant. 18- Dispositif selon la revendication 13, caractérisé en ce que les susdits moyens de filtrage et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent : • des moyens de division de la valeur temporelle du « pitch » par deux,
• des moyens de modification des amplitudes du signal original et des deux signaux décalés.
19- Dispositif selon la revendication 13 , caractérisé en ce que les susdits moyens de filtrage et de génération d'effets spéciaux, à partir de l'analyse, sans passer par la synthèse, comprennent :
• des moyens de multiplication de chaque échantillon de la voix originale par un cosinus variant au rythme de la moitié de la fondamentale (multiplication par deux du nombre de fréquences), ou variant au rythme du tiers de la fondamentale (multiplication par trois du nombre de fréquences),
• des moyens d'addition ensuite du résultat obtenu à la voix originale.
20- Dispositif selon la revendication 13 , caractérisé en ce que les susdits moyens de génération d'effets spéciaux associés à la synthèse, comprennent :
• des moyens de multiplication de toutes les fréquences des composantes fréquentielles du signal original, prises individuellement, par un coefficient,
• des moyens de régénération des modules des harmoniques à partir de l'enveloppe spectrale dudit signal original. 21- Dispositif selon la revendication 20, caractérisé en ce que le susdit coefficient de multiplication des composantes fréquentielles est :
• un coefficient fonction du rapport enfre le nouveau « pitch » et le « pitch » réel,
• un coefficient variant périodiquement, à basse fréquence.
EP04705433A 2003-01-30 2004-01-27 Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé Expired - Lifetime EP1593116B1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0301081A FR2850781B1 (fr) 2003-01-30 2003-01-30 Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
FR0301081 2003-01-30
PCT/FR2004/000184 WO2004070705A1 (fr) 2003-01-30 2004-01-27 Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage de bruit, la creation d’effets speciaux et dispositif pour la mise en oeuvre dudit procede

Publications (2)

Publication Number Publication Date
EP1593116A1 true EP1593116A1 (fr) 2005-11-09
EP1593116B1 EP1593116B1 (fr) 2010-03-10

Family

ID=32696232

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04705433A Expired - Lifetime EP1593116B1 (fr) 2003-01-30 2004-01-27 Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé

Country Status (7)

Country Link
US (1) US8229738B2 (fr)
EP (1) EP1593116B1 (fr)
AT (1) ATE460726T1 (fr)
DE (1) DE602004025903D1 (fr)
ES (1) ES2342601T3 (fr)
FR (1) FR2850781B1 (fr)
WO (1) WO2004070705A1 (fr)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
US20050226601A1 (en) * 2004-04-08 2005-10-13 Alon Cohen Device, system and method for synchronizing an effect to a media presentation
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
US7772478B2 (en) * 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US7622665B2 (en) * 2006-09-19 2009-11-24 Casio Computer Co., Ltd. Filter device and electronic musical instrument using the filter device
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
JP5248625B2 (ja) 2007-12-21 2013-07-31 ディーティーエス・エルエルシー オーディオ信号の知覚ラウドネスを調節するシステム
US20100329471A1 (en) * 2008-12-16 2010-12-30 Manufacturing Resources International, Inc. Ambient noise compensation system
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
JP5694324B2 (ja) * 2009-08-11 2015-04-01 ディーティーエス・エルエルシーDts Llc スピーカーの知覚されるラウドネスを増加させるためのシステム
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
US8886548B2 (en) * 2009-10-21 2014-11-11 Panasonic Corporation Audio encoding device, decoding device, method, circuit, and program
EP2737479B1 (fr) 2011-07-29 2017-01-18 Dts Llc Amélioration adaptative de l'intelligibilité vocale
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9318086B1 (en) * 2012-09-07 2016-04-19 Jerry A. Miller Musical instrument and vocal effects
JP5974369B2 (ja) * 2012-12-26 2016-08-23 カルソニックカンセイ株式会社 ブザー出力制御装置およびブザー出力制御方法
US9484044B1 (en) * 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
JP6402477B2 (ja) * 2014-04-25 2018-10-10 カシオ計算機株式会社 サンプリング装置、電子楽器、方法、およびプログラム
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US20230154480A1 (en) * 2021-11-18 2023-05-18 Tencent America LLC Adl-ufe: all deep learning unified front-end system
US20230289652A1 (en) * 2022-03-14 2023-09-14 Matthias THÖMEL Self-learning audio monitoring system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4201105A (en) * 1978-05-01 1980-05-06 Bell Telephone Laboratories, Incorporated Real time digital sound synthesizer
US4357852A (en) * 1979-05-21 1982-11-09 Roland Corporation Guitar synthesizer
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JP3351905B2 (ja) * 1994-07-28 2002-12-03 ソニー株式会社 音声信号処理装置
WO1997017692A1 (fr) * 1995-11-07 1997-05-15 Euphonics, Incorporated Synthetiseur musical a modelisation parametrique des signaux
US6031173A (en) * 1997-09-30 2000-02-29 Kawai Musical Inst. Mfg. Co., Ltd. Apparatus for generating musical tones using impulse response signals
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP2000082260A (ja) * 1998-09-04 2000-03-21 Sony Corp オーディオ信号再生装置及び方法
AU2001241475A1 (en) * 2000-02-11 2001-08-20 Comsat Corporation Background noise reduction in sinusoidal based speech coding systems
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2004070705A1 *

Also Published As

Publication number Publication date
ATE460726T1 (de) 2010-03-15
DE602004025903D1 (de) 2010-04-22
US8229738B2 (en) 2012-07-24
US20060130637A1 (en) 2006-06-22
FR2850781A1 (fr) 2004-08-06
FR2850781B1 (fr) 2005-05-06
ES2342601T3 (es) 2010-07-09
EP1593116B1 (fr) 2010-03-10
WO2004070705A1 (fr) 2004-08-19

Similar Documents

Publication Publication Date Title
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP0002998B1 (fr) Procédé de compression de données relatives au signal vocal et dispositif mettant en oeuvre ledit procédé
BE1005622A3 (fr) Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole.
EP1692689B1 (fr) Procede de codage multiple optimise
EP0782128A1 (fr) Procédé d'analyse par prédiction linéaire d'un signal audiofréquence, et procédés de codage et de décodage d'un signal audiofréquence en comportant application
EP1395981B1 (fr) Dispositif et procede de traitement d'un signal audio.
WO2018146305A1 (fr) Methode et appareil de modification dynamique du timbre de la voix par decalage en fréquence des formants d'une enveloppe spectrale
EP0428445A1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
FR2653557A1 (fr) Appareil et procede pour le traitement de la parole.
EP1846918B1 (fr) Procede d'estimation d'une fonction de conversion de voix
EP0573358B1 (fr) Procédé et dispositif de synthèse vocale à vitesse variable
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP1192621B1 (fr) Codage audio avec composants harmoniques
EP1190414A1 (fr) Codage et decodage audio avec composantes harmoniques et phase minimale
EP1194923B1 (fr) Procedes et dispositifs d'analyse et de synthese audio
EP1192620A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal
Collen Bandwidth extension tools for audio digital signals
FR2980620A1 (fr) Traitement d'amelioration de la qualite des signaux audiofrequences decodes
FR2773653A1 (fr) Dispositifs de codage/decodage de donnees, et supports d'enregistrement memorisant un programme de codage/decodage de donnees au moyen d'un filtre de ponderation frequentielle
FR2737360A1 (fr) Procedes de codage et de decodage de signaux audiofrequence, codeur et decodeur pour la mise en oeuvre de tels procedes
FR2739482A1 (fr) Procede et dispositif pour l'evaluation du voisement du signal de parole par sous bandes dans des vocodeurs
FR2847706A1 (fr) Analyse de la qualite de signal vocal selon des criteres de qualite

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20050824

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL LT LV MK

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20081001

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RTI1 Title (correction)

Free format text: METHOD FOR DIFFERENTIATED DIGITAL VOICE AND MUSIC PROCESSING, NOISE FILTERING, CREATION OF SPECIAL EFFECTS AND DEVICE FOR CARRYING OUT SAID METHOD

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

REF Corresponds to:

Ref document number: 602004025903

Country of ref document: DE

Date of ref document: 20100422

Kind code of ref document: P

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20100310

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2342601

Country of ref document: ES

Kind code of ref document: T3

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100611

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100610

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100712

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

26N No opposition filed

Effective date: 20101213

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110131

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110131

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110127

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100310

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 602004025903

Country of ref document: DE

Representative=s name: GRAMM, LINS & PARTNER PATENT- UND RECHTSANWAEL, DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 14

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20190719

Year of fee payment: 16

Ref country code: IT

Payment date: 20190730

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: BE

Payment date: 20190718

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20190719

Year of fee payment: 16

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20200127

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20200131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200127

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200127

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20210604

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200128

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20220720

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230127

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 602004025903

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20230801