EP1395981A1 - Dispositif et procede de traitement d'un signal audio. - Google Patents

Dispositif et procede de traitement d'un signal audio.

Info

Publication number
EP1395981A1
EP1395981A1 EP02743323A EP02743323A EP1395981A1 EP 1395981 A1 EP1395981 A1 EP 1395981A1 EP 02743323 A EP02743323 A EP 02743323A EP 02743323 A EP02743323 A EP 02743323A EP 1395981 A1 EP1395981 A1 EP 1395981A1
Authority
EP
European Patent Office
Prior art keywords
windows
processing
segmentation
audio signal
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP02743323A
Other languages
German (de)
English (en)
Other versions
EP1395981B1 (fr
Inventor
Franck Bietrix
Hubert Cadusseau
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sierra Wireless SA
Original Assignee
Wavecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wavecom SA filed Critical Wavecom SA
Publication of EP1395981A1 publication Critical patent/EP1395981A1/fr
Application granted granted Critical
Publication of EP1395981B1 publication Critical patent/EP1395981B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Definitions

  • the present invention relates to the field of processing audio signals. More specifically, the invention relates, in particular, to the reduction or cancellation of noise in an audio signal processed by a digital communication device, for example of the digital telephone type and / or radio hands-free type mobile telephones.
  • this problem is remedied by inserting noise attenuators or cancellers, acting on the signal picked up by a microphone, before specific processing of the audio signal.
  • an echo or noise cancellation and reduction device is inserted between a microphone intended to pick up an audio signal and a device for processing the audio signal.
  • This device improves the useful signal-to-noise ratio or reduces the echo so that the signal can be further processed under optimized conditions.
  • this technique of the prior art requires a specific dedicated device, which has the disadvantage of causing additional costs and increased complexity of use.
  • the Ibruit reduction function based on the use of a fast Fourier transform (or FFT) applied to a continuous flow of vocal samples is integrated into the digital communication device.
  • FFT fast Fourier transform
  • the sample stream is divided into windows of 256 samples obtained by the application of a formatting window, the windows overlapping by half (the first 128 samples of a window corresponding to the last 128 samples from the previous window).
  • An FFT is applied to each window then the FFT result is processed by a noise canceling or echo cancellation function.
  • the result of this function is processed by an inverse fast Fourier transform (or IFFT) in order to reconstitute a flow of vocal samples which can be processed by a vocal processing function.
  • IFFT inverse fast Fourier transform
  • an objective of the invention is to provide a method and a device for audio processing in a device which allows a reduction in the complexity of a processing based on a mathematical transformation applying to blocks of data while optimizing the audio processing applied to audio frames.
  • Another objective of the invention is to optimize the integration of the processing based on a mathematical transformation and of the audio processing.
  • An objective of the invention is also to optimize the time periods for these treatments.
  • Another objective of the invention is to reduce the computing power necessary for these treatments.
  • the invention proposes a method for processing an audio signal, comprising:!
  • a first step of processing a source audio signal implementing at least one mathematical transformation applied to first sequences of samples obtained by the application of first segmentation windows on the source audio signal;
  • a second stage of audio processing applied to second sequences of samples obtained by the application of second segmentation windows to the signal delivered by the first stage, the second segmentation windows being separate from the first segmentation windows; J remarkable in that two successive first windows and / or j two i successive second windows overlap, the overlaps being such that the segmentations are synchronous.
  • the audio processing steps can be implemented sequentially or in a multitasking environment. Otherwise,; this implementation is facilitated by the use of memory with predictable, precise and economical sizing. According to a particular characteristic, the method is remarkable in that the second segmentation windows are successive frames.
  • the method is remarkable in that the last sample of a first sequence is also the last sample, after the first step, of the corresponding second sequence.
  • the second audio processing step is carried out without unnecessary waiting to optimize the overall audio processing times.
  • the method is remarkable in that
  • each first segmentation window is a window with perfect reconstruction obtained by convolution:
  • the first intermediate window being adapted to the mathematical transformation (s) (in particular there is an attenuation of the second relatively strong window lobe while the main lobe remains flat), the quality of the corresponding treatment is optimized.
  • the second intermediate window being rectangular, the processing of the corresponding samples is simple and efficient. According to a particular characteristic, the method is remarkable in that i the first processing step applied to each first sequence further comprises:
  • the method is remarkable in that the predetermined processing sub-step comprises a reduction or cancellation of noise in the audio signal. According to a particular characteristic, the method is remarkable in that the predetermined processing sub-step comprises at least one processing belonging to the group comprising:
  • the method advantageously combines treatments such as the reduction and / or cancellation of noise and / or echo and / or voice recognition in a device (for example of the telephone, personal computer or remote control type) which allows a reduction of complexity while optimizing the efficiency of these treatments and / or a strong integration of the device (which consequently allows a reduction in costs and energy consumption which which is relatively important in particular for communication devices operating on battery).
  • a device for example of the telephone, personal computer or remote control type
  • the method is remarkable in that said one or more mathematical transformations belong to the group comprising:
  • the invention advantageously makes it possible to use one or more mathematical transformations adapted to the first audio processing, these transformations being applied to blocks of size different from the size of the second segmentation windows.
  • the method is remarkable in that the source audio signal is a voice signal.
  • the invention is thus well suited to the second audio processing when it is specific to speech such as, for example, voice coding (“vocoding”) and / or voice compression for memorization and / or remote transmission.
  • the invention also relates to a device for processing an audio signal, comprising: - first means for processing a source audio signal, implementing at least one mathematical transformation applied to first sequences of samples obtained by the application of the first segmentation windows to the source audio signal; and j
  • step the second segmentation windows being distinct from the first segmentation windows; remarkable in that two successive first windows and / or two successive second windows overlap, the overlaps being such that the segmentations are synchronous. !
  • the invention relates to a computer program product, remarkable in that the program comprises sequences of instructions adapted to the implementation of an audio processing method as previously described when the program is executed on a computer.
  • FIG. 2 illustrates the successive treatments carried out by the radiotelephone of Figure 1, on a voice signal
  • FIG. 3 shows a noise cancellation or reduction algorithm, according to Figure 2;
  • FIG. 4 shows a voice processing applied to a frame, according to Figure 2; :
  • FIG. 5 describes a windowing of the sample flow as performed by the processing of Figures 3 and 4;
  • FIG. 7 illustrates a formatting window, optimized and used in the window operations of Figure 3 according to a preferred embodiment of the invention.
  • ⁇ - FIG. 8 describes more precisely a reduction type treatment of
  • the FFT and IFFT treat windows comprising a power of i
  • the speech coding takes into account windows which do not have the same size (typically voice processing within the framework of GSM i considers windows of 160 samples).
  • the voice signal is sampled at a frequency of 8 kHz before being transmitted in 20ms frames in compressed form to a recipient.
  • the speech coding is carried out on frames of 160 samples, by a vocoder. This coding which is a function of the desired bit rate is notably specified in the following documents:
  • EFR Enhanced Full Rate
  • AMR Adaptive Multi-Rate
  • the noise reduction or cancellation device and / or echo processes a window of length 256 which can cut up to three windows of length 160. It is, among other things, the asynchronism inherent in this state-of-the-art technique that makes these treatments complex and requires an oversizing of memories and computing power and / or the clock d 'a DSP (Signal Processing Processor' from the English 'Digital Signal Processor' used for calculations).
  • the two types of processing are synchronized by making the end of a noise cancellation or reduction window and / or echo systematically coincide with a voice processing frame and preferably with the end of a voice processing frame.
  • a formatting window (adapted to associated speech frames of 160 samples and to FFT at 256 points) is preferably:
  • Such a window is, for example, obtained by the convolution of a Hanning window of width 97 (denoted Hanning (97)) with a rectangular window of width 160 (denoted Rect (160)).
  • a 256-point FFT is then applied to each window of 256 samples synchronized on the frames of 160 samples.
  • a noise reduction algorithm of any type known per se, is applied before performing an inverse transform operation (denoted IFFT) on the block of 256 samples considered.
  • Blocks of 256 samples are thus processed successively.
  • the first 96 processed samples from the current window are added to the last 96 processed samples from the previous window.
  • the first 160 samples of the current window are transmitted to the vocoder to be processed according to the speech coding methods known per se, in accordance, where appropriate, with the applicable standard. !
  • FIG. 1 a radiotelephone implementing the invention is presented.
  • FIG. 1 schematically illustrates a general block diagram; of a radiotelephone, in accordance with the invention according to a preferred embodiment.
  • the radiotelephone 100 comprises interconnected by an address and data bus 103:
  • DSP signal processing processor
  • FIG. 1 a human / machine relationship interface (typically a keyboard and a screen) 113.
  • a human / machine relationship interface typically a keyboard and a screen 113.
  • FIG. 1 Each of the elements illustrated in FIG. 1 is well known to those skilled in the art. These common elements are not described here.
  • register designates in each of the memories mentioned, both a low-capacity memory area (some binary data) and a high-capacity memory area (allowing a program to be stored whole or an entire sequence of transaction data).
  • the non-volatile memory 105 (or ROM) stores in registers which, for convenience, have the same names as the data they store:
  • a value L (typically worth 256), representing a first size of segmentation window corresponding to a number of points taken into account by an FFT in a register 115; - a value V (typically worth 160), representing a second; window size corresponding to a frame size processed by a vo ⁇ deur in a register 115; and; values, ⁇ , ⁇ , K and used for noise reduction in the signal.
  • L typically worth 256
  • V typically worth 160
  • the random access memory 106 stores data, variables and intermediate processing results and includes in particular:
  • the DSP is particularly suitable for processing of the Fourier transformation and speech coding type.
  • DSP GROUP registered trademark
  • OAK registered trademark
  • FIG. 2 illustrates the successive treatments carried out by the radiotelephone of FIG. 1, on a voice signal.
  • the signal entering the microphone 107 is the sum 203: - of a voice signal which can be affected by an echo (symbolized by the sum of the produced signal 200 and the delayed produced signal); and - a noise 202
  • the noisy signal picked up by the microphone 107 is delivered to the converter.
  • Analog / Digital 204 where it converted into a series of digital samples during a step 204.
  • the sampling is typically done at a frequency equal to 8 kHz.
  • “vocoded” frames are shaped by the unit 112 to be transmitted by the radio module 111 according to techniques known per se (for example, according to the GSM standard).
  • i i
  • FIG. 3 presents an algorithm for canceling or reducing noise, implemented in the processing step 205 of FIG. 2.
  • the DSP 104 initializes in the RAM 106, a first block of 96 samples at zero corresponding to the last samples received as well as all the variables necessary for the proper functioning of the processing 205.
  • the DSP 104 stores in the RAM 106 following the samples previously received a sequence of 160 incoming samples from the converter 108.
  • the DSP 104 applies a window of
  • step 304 an inverse transformation from that of step 302, of IFFT type is applied to the sequence processed.
  • the DSP 104 adds, if necessary (that is to say after a first iteration), the last 96 samples of the previous processed sequence to the first 96 processed samples of the current sequence .
  • step 306 the sequence or frame formed of the first 160 current processed samples is transmitted to the vocoder. Then, during a step 307, the 160 samples received corresponding to the 160 samples transmitted during step 305 are erased from memory 106.
  • step 301 is repeated.
  • FIG. 4 presents a coding of the speech, implemented in step 206 of FIG. 2. ' ,
  • the DSP 104 initializes in the RAM 106, all the variables necessary for the proper functioning of the coding 206.
  • FIG. 5 describes a windowing of the sequences of samples as performed by the processing of FIGS. 3 and 4.; On a first graph, the curve 500 of the intensity 503 is represented.
  • the time is divided into successive frames 507 and 508 of length L ′ equal to 160, not overlapping and obtained during the transmission step 306.
  • the signal segmentation is such that windows 505 (respecuvement 506), and 507 (respectively 502) are perfectly synchronized.
  • the windows 505 (respectively 506), and 507 (respectively 502) end on the same sample before or after treatment (according to steps 303, 304 and 305).
  • FIG. 7 illustrates windows 700 and 701 for shaping, optimized according to the invention (corresponding to the windows 505 and 506 respectively of FIG. 5 but shown more precisely).
  • the graph gives the amplitude 602 of a window as a function of the rank of a sample 601.
  • windows 700 and 701 are Hanning windows ob: enue by convolution of an intermediate Hanning window of length 97 with a rectangular window of length 160. We thus obtain, with the successive shifts of the windows, equal to 160 samples of windows with perfect reconstruction.
  • FIG. 8 specifies the step 303 of processing of the noise reduction type as illustrated with reference to FIG. 3.
  • a frame 801 comprising 256 spectral components corresponding to a noisy voice signal is processed according to the processing 303 described below.
  • the DSP 104 converts the components of the frame 801 from rectangular coordinates to polar coordinates to separate the phase from the spectral amplitude.
  • the power P m) of the isignal j is first estimated in the short term according to the following relationships: i
  • P xk (l) (1- oc)
  • PJm) a PJm-1) + (1- ⁇ )
  • PJm PJm
  • ⁇ f corresponds to a spectral value floor, / ⁇ limit the attenuation of the noise reduction filter to a positive value to leave a 1 minimum noise in the signal.
  • the DSP 104 multiplies the amplitude
  • the DSP 104 constructs the signal 809 with reduced noise from the amplitude
  • the signal 809 is then processed according to step 304 of inverse Fourier transformation.
  • the person skilled in the art can make any variant in the application of the invention which is not limited to mobile telephony (in particular of GSM, UMTS, IS95 type, etc.) but extends to any type of device comprising an audio coding after or before a mathematical transformation on an incoming audio signal.
  • mobile telephony in particular of GSM, UMTS, IS95 type, etc.
  • any type of device comprising an audio coding after or before a mathematical transformation on an incoming audio signal.
  • the invention applies not only to the processing of voice source signals but extends to any type of audio processing.
  • the mathematical transformation applied is in particular of any type applying to blocks of samples of a particular length which is not equal to the size of the frames processed according to an audio processing or which is not a multiple or a divisor close to this size of (rame.
  • the invention extends to the case where the size of the audio frames is equal to 1
  • the invention applies to any type of processing associated with the mathematical transformation and carried out before or after a step of coding the speech, in particular in the case of voice recognition or cancellation; and / or echo reduction.
  • the invention is not limited to a purely material implantation but that it can also be implemented in the form of a sequence of instructions of a computer program or any form mixes a material part and a part software.
  • the corresponding sequence of instructions may be stored in a removable storage means (such as for example a floppy disk, a CD-ROM or a DVD-ROM) or no, this storage means being partially or totally readable by a computer than a microprocessor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Noise Elimination (AREA)
  • Stereophonic System (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

Dispositif et procédé de traitement d'un signal audio.
La présente invention se rapporte au domaine du traitement de signaux audio. Plus précisément, l'invention concerne, notamment, la réduction ou l'annulation de bruit dans un signal audio traité par un dispositif de communication numérique, par exemple de type téléphone numérique et/ou radio téléphones mobiles de type main-libre.
Lorsque des dispositifs de communication numériques audio sont utilisés dans un environnement bruité (typiquement à l'intérieur d'une voiture), ce dernier i peut perturber fortement un signal audio et en conséquence dégrader la qualité d'une communication.
Selon les techniques connues, on remédie à ce problème en insérant des atténuateurs ou annuleurs de bruit, agissant sur le signal capté par un microphone, avant un traitement spécifique du signal audio.
Selon une première technique connue, on insère un dispositif d'annulation et de réduction d'écho ou de bruit entre un microphone destiné à capter un signal audio et un dispositif de traitement du signal audio. Ce dispositif améliore le rapport signal utile sur bruit ou diminue l'écho afin que le signal puisse être traité par la suite dans des conditions optimisées. Néanmoins, cette technique de l'art antérieur nécessite un dispositif spécifique dédié, ce qui a pour inconvénient d'entraîner des surcoûts et une complexité d'utilisation accrue.
Selon une deuxième technique connue, la fonction de réduction de Ibruit, basée sur l'utilisation d'une transformée de Fourier rapide (ou FFT de l'anglais « Fast Fourier Transform ») appliquée à un flux continu d'échantillons vocaux est intégrée au dispositif de communication numérique. Dans un premier temps, le flux d'échantillons est découpé en fenêtres de 256 échantillons obtenus par l'application d'une fenêtre de mise en forme, les fenêtres se chevauchant par moitié (les 128 premiers échantillons d'une fenêtre correspondant aux 128 derniers échantillons de la fenêtre précédente). Une FFT est appliquée à chaque fenêtre puis le résultat de la FFT est traité par une fonction d'annulation pu de réduction de bruit ou d'écho.
Ensuite, le résultat de cette fonction est traité par une transformée de Fourier rapide inverse (ou IFFT) afin de reconstituer un flux d'échantillons vocaux qui pourra être traité par une fonction de traitement vocal.
Un inconvénient de cette technique de l'art antérieur est qu'elle est relativement complexe à mettre en œuvre.
L'invention selon ses différents aspects a notamment pour objectif de pallier ces inconvénients de l'art antérieur. ] Plus précisément, un objectif de l'invention est de fournir un procédé et un dispositif de traitement audio dans un dispositif qui permet une réductionl de la complexité d'un traitement basé sur une transformation mathématique s 'appliquant à des blocs de données tout en optimisant le traitement audio s'appliquant à des trames audio. Un autre objectif de l'invention est d'optimiser l'intégration du traitement basé sur une transformation mathématique et du traitement audio.
Un objectif de l'invention est également d'optimiser les délais de ces traitements.
Un autre objectif de l'invention est de réduire la puissance de calcul nécessaire à ces traitements. I
Dans ce but, l'invention propose un procédé de traitement d'un signal audio, comprenant : !
- une première étape de traitement d'un signal audio source, mettant en œuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur le signal audio source ; et ;
- une deuxième étape de traitement audio, appliquée sur des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation sur le signal délivré par la première étape, les secondes fenêtres de segmentation étant distinctes des premières fenêtres de segmentation ; J remarquable en ce que deux premières fenêtres successives et/ou j deux i secondes fenêtres successives se chevauchent, les chevauchements étant tels que les segmentations soient synchrones.
Ainsi, les étapes de traitement audio peuvent être mise en œuvre de manière séquentielle ou dans un environnement multitâche. Par ailleurs,; cette mise en œuvre est facilitée par l'utilisation de mémoire avec un dimensionnement prédictible, précis et économique. Selon une caractéristique particulière, le procédé est remarquable en ce que les secondes fenêtres de segmentation sont des trames successives.
Ainsi, selon l'invention, les délais de traitement du procédé sont optimisés.
Selon une caractéristique particulière, le procédé est remarquable en ce que le dernier échantillon d'une première séquence est également le dernier échantillon, après la première étape, de la seconde séquence correspondante.
Ainsi, préférentiellement la deuxième étape de traitement audio est effectuée sans attente inutile pour optimiser les délais globaux de traitement audio.
Selon une caractéristique particulière, le procédé est remarquable en ce que
! chaque première fenêtre de segmentation est une fenêtre à reconstruction parfaite obtenue par convolution :
- d'une première fenêtre intermédiaire à reconstruction parfaite et possédant des propriétés spectrales adaptées à la ou aux transformations mathématiques ; et - d'une deuxième fenêtre intermédiaire rectangulaire.
Ainsi, les parties de premières fenêtres de segmentation qui se chevauchent sont à reconstruction parfaite, ce qui permet d'avoir une recombinaisojn des signaux lors du premier traitement relativement simple.
En outre, la première fenêtre intermédiaire étant adaptées à la ou aux transformations mathématiques (on a notamment une atténuation du deuxième lobe de la fenêtre relativement forte alors que le lobe principal reste plat), la qualité du traitement correspondant est optimisée.
De plus, la deuxième fenêtre intermédiaire étant rectangulaire, le traitement des échantillons correspondant est simple et efficace. Selon une caractéristique particulière, le procédé est remarquable en ce que i la première étape de traitement appliquée à chaque première séquence comprend, en outre :
- une sous-étape de traitement prédéterminé appliquée à la première séquence; - une sous-étape de transformation mathématique inverse appliquée aux échantillons traités de la première séquence; et
- une étape d'addition des échantillons vocaux issus de la sous étape de transformation mathématique inverse appliquée à la première séqμence et des échantillons vocaux correspondants, issus de la sous étape de transformation mathématique inverse appliquée à la première séquence précédente.
Selon une caractéristique particulière, le procédé est remarquable en c ie que la sous-étape de traitement prédéterminé comprend une réduction ou une annulation de bruit dans le signal audio. Selon une caractéristique particulière, le procédé est remarquable en ce que la sous-étape de traitement prédéterminé comprend au moins un traitement faisant partie du groupe comprenant :
- une réduction ou une annulation d'écho dans le signal audio ;
- une reconnaissance vocale dans le signal audio. Ainsi, le procédé combine avantageusement des traitements tels qu la réduction et/ou annulation de bruit et/ou d'écho et/ou de reconnaissance vocale dans un dispositif (par exemple de type téléphone, ordinateur personnel ou télécommande) qui permet une réduction de la complexité tout en optimisant l'efficacité de ces traitements et/ou une intégration forte du dispositif (ce qui permet, en conséquence, une baisse des coûts et des consommations d'énergie ce qui est relativement important notamment pour des dispositifs de communications fonctionnant sur batterie).
Selon une caractéristique particulière, le procédé est remarquable en ce que ladite ou lesdites transformations mathématiques appartienent au groupe comprenant :
- les transformations rapides de Fourrier (FFT) et leurs variantes ;
- les transformations rapides de Hadamard (FHT) et leurs variantes ,; et
- les transformations en cosinus discrètes (DCT) et leurs variantes . Ainsi, l'invention permet avantageusement d'utiliser une ou plusieurs transformations mathématiques adaptées au premier traitement audio, ces transformations s 'appliquant sur des blocs de taille différente de la taille des deuxièmes fenêtres de segmentation.
Selon une caractéristique particulière, le procédé est remarquable en ce que le signal audio source est un signal vocal. L'invention est ainsi bien adaptée au deuxième traitement audio lorsqu'il est spécifique à la parole tel que, par exemple, le codage vocal (« vocodage ») et/ou la compression vocale pour la mémorisation et/ou la transmission à distance.
L'invention concerne également un dispositif de traitement d'un signal audio, comprenant : - des premiers moyens de traitement d'un signal audio source, mettant en œuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur le signal audio source ; et j
- des deuxièmes moyens de traitement audio, appliquées sujr des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation sur le signal délivré par la première
! étape, les secondes fenêtres de segmentation étant distinctes des premières fenêtres de segmentation ; remarquable en ce que deux premières fenêtres successives et/ou deux secondes fenêtres successives se chevauchent, les chevauchements étant tels que les segmentations soient synchrones. !
premières fenêtres de segmentation sur le signal audio source ; et
- une deuxième étape de traitement audio, appliquée sur des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation sur le signal délivré par la première étape, les secondes fenêtres de segmentation étant distinctes des prerhières fenêtres de segmentation ; : deux premières fenêtres successives et/ou deux secondes fenêtres successives se chevauchant, les chevauchements étant tels que les segmentations soient synchrones. ! De plus, l'invention concerne, un produit programme d'ordinateur, remarquable en ce que le programme comprend des séquences d'instructions adaptées à la mise en œuvre d'un procédé de traitement audio tel que idécrit précédemment lorsque le programme est exécuté sur un ordinateur.
Les avantages du dispositif de traitement d'un signal audio, et des produits programme d'ordinateur sont les mêmes que ceux du procédé de traitement d'un signal audio, ils ne sont pas détaillés plus amplement. ;
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : - la figure 1 présente un synoptique général d'un radiotéléplhone, conforme à l'invention selon un mode particulier de réalisation ; ,
- la figure 2 illustre les traitements successifs effectués par le radiotéléphone de la figure 1, sur un signal vocal ; - la figure 3 présente un algorithme d'annulation ou de réduction de bruit, selon la figure 2;
- la figure 4 présente un traitement vocal appliquer à une trame, selon la figure 2; :
- la figure 5 décrit un fenêtrage du flux d'échantillons tel qu'effectué par les traitements des figures 3 et 4 ;
- la figure 6 illustre une fenêtre de mise en forme connue en soi;
- la figure 7 illustre une fenêtre de mise en forme, optimisée et utilisée dans les opérations de fenêtrage de la figure 3 selon un mode préférentiel de l'invention ; et \ - la figure 8 décrit plus précisément un traitement de type réduction de
I bruit présentée à la figure 3. ;
Le principe général de l'invention repose sur la synchronisation :
- des traitements basés sur une FFT notamment des traitements d'annulation ou de réduction de bruit; et ' - de traitement vocal de type codage de la parole. [
En effet, les FFT et IFFT traitent des fenêtres comprenant une puissance de i
2 échantillons (typiquement 128 ou 256).
En revanche, le codage de la parole prend en compte des fenêtres qui n'ont pas la même taille (typiquement le traitement vocal dans le cadre du GSM i considère des fenêtres de 160 échantillons). [
Dans le cas, par exemple, d'un radiotéléphone répondant aux normes! GSM publiées par l'ETSI (« European Télécommunication Standard Institutei»), le signal vocal est échantillonné à une fréquence de 8kHz avant d'être transmis par trame de 20ms sous forme compressée vers un destinataire. On note que, selon la norme GSM, le codage de la parole est effectu ié sur des trames de 160 échantillons, par un vocodeur. Ce codage qui est fonction du débit désiré est notamment spécifié dans les documents suivants :
- « Full Rate (FR) speech transcoding » (GSM06.10) (ou « codage de i parole à plein débit » en français) ;
« Half Rate (HR) speech transcoding » (GSM06.20) (ou « codage de parole à demi-débit » en français) ; J
« Enhanced Full Rate (EFR) speech transcoding » (GSM06.60) (ou « codage de parole à plein débit amélioré » en français) ; et - « Adaptive Multi-Rate (AMR) speech transcoding » (GSM 06.90) (ou
« codage de parole à débit multiple adaptatif » en français). !
Selon l'état de l'art, en considérant une fenêtre de 160 échantillons traités vocalement, le dispositif de réduction ou d'annulation de bruit et/ou d'écho traite une fenêtre de longueur 256 qui peut recouper jusqu'à trois fenêtres de longueur 160. C'est, entre autres, l'asynchronisme inhérent à cette technique de l'état de l'art qui rend complexe ces traitements et nécessite un surdimensionnemerit des mémoires et de la puissance de calcul et/ou de l'horloge d'un DSP (Processeur de Traitement de Signal » de l'anglais « Digital Signal Processor » utilisé pour les calculs). Selon l'invention, on synchronise les deux types de traitement en faisant coïncider systématiquement la fin d'une fenêtre d'annulation ou de réduction de bruit et/ou d'écho avec une trame de traitement vocal et préférentiellement avec la fin d'une trame de traitement vocal. Ainsi, si les fenêtres de réduction ou d'annulation de bruit ont une taille égale à 256 échantillons et si les trames de traitement vocal ont une taille égale à 160 échantillons, une fenêtre de réduction ou d'annulation d'écho va contenir l'intégralité d'une trame de traitement vocal et
96 échantillons (soit 256 moins 160) de la fenêtre précédente. ! i
Ainsi, on conserve le synchronisme entre les fenêtres de réduction ou d'annulation de bruit et les trames de traitement vocal et on optimise les délais globaux de traitement. Selon l'invention, une fenêtre de mise en forme (adaptée à des trames vocales associées de 160 échantillons et à des FFT à 256 points) est préférentiellement :
- à reconstruction parfaite, c'est-à-dire que la somme des amplitudes de deux fenêtres se recouvrant est toujours égale à 1 (sur la partie qui se recouvre) ;
- une fenêtre de longueur 256 avec un recouvrement de 96 de c aque coté.
Une telle fenêtre est, par exemple, obtenue par la convolution d'une fenêtre de Hanning de largeur 97 (notée Hanning(97)) avec une fenêtre rectangulaire de largeur 160 (notée Rect(160)).
Une FFT à 256 points est alors appliquée à chaque fenêtre de 256 échantillons synchronisée sur les trames de 160 échantillons. La mise en œuvre de
FFT est bien connue de l'homme du métier et est notamment détaillée dans le livre « Numerical Recipes in C, 2nd édition» (ou en français « Recettes numériques en langage C, 2ème édition ») écrit par Press W.H., Teukolsky S.A., Vetterling W.T. et Flannery B.P. et paru en 1992 aux éditions Cambridge University Prèss.
Puis, on applique un algorithme de réduction de bruit, de tout type connu en soi, avant d'effectuer une opération de transformée inverse (notée IFFT) sur le bloc de 256 échantillons considéré.
Des blocs de 256 échantillons sont ainsi traités successivement. Après l'opération de IFFT, les 96 premiers échantillons traités de la fenêtre courante sont ajoutés aux 96 derniers échantillons traités de la fenêtre précédente. Après addition, les 160 premiers échantillons de la fenêtre courante sont transmis au vocodeur pour être traités selon les méthodes de codage de la parole connues en soi, conformément, le cas échéant, à la norme s' appliquant. !
On présente, en relation avec la figure 1, un radiotéléphone mettant en œuvre l'invention.
La figure 1 illustre schématiquement un synoptique général; d'un radiotéléphone, conforme à l'invention selon un mode préféré de réalisation. Le radiotéléphone 100 comprend reliés entre eux par un bus d'adresses et de données 103 :
- un microphone 107 ;
- un convertisseur Analogique/Numérique 108 ; - un haut-parleur 109 ;
- un convertisseur Numérique/ Analogique 110 ;
- un processeur de traitement du signal (DSP) 104 ;
- une mémoire non volatile 105 ;
- une mémoire vive 106 ; - une interface radio 111 ;
- une unité 112 de gestion et de contrôle des échanges des tramés de données et de protocoles ; et
- une interface de relation homme/machine (typiquement un clavier|et un écran) 113. Chacun des éléments illustrés en figure 1 est bien connu de l'homme du métier. Ces éléments communs ne sont pas décrits ici.
On observe en outre que le mot « registre » utilisé dans toute la description désigne dans chacune des mémoires mentionnées, aussi bien une zone de mémoire de faible capacité (quelques données binaires) qu'une zone mémoire de grande capacité (permettant de stocker un programme entier ou l'intégralité d'une séquence de données de transactions).
La mémoire non volatile 105 (ou ROM) conserve dans des registres qui par commodité possèdent les mêmes noms que les données qu'ils conservent;:
- le programme de fonctionnement du DSP 104 dans un registre « pr' og » 308 ;
- une valeur L (valant typiquement 256), représentant une première taille de fenêtre de segmentation correspondant à un nombre de points pris en compte par une FFT dans un registre 115 ; - une valeur V (valant typiquement 160), représentant une deuxième; taille de fenêtre correspondant à une taille de trame traitées par un voψdeur dans un registre 115 ; et ; des valeurs , β, γ, K et utilisées pour la réduction de bruit dans le signal. |
La mémoire vive 106 conserve des données, des variables et des résultats intermédiaires de traitement et comprend notamment :
- un registre 117 dans lequel sont conservées des valeurs d'échantillons hruités du signal reçu ; - un registre 118 dans lequel sont conservées des valeurs d'échantillons traités ; et
- une séquence d'échantillons traités destinée à un vocodeur.
Le DSP est adapté notamment aux traitements de type transformation de Fourier et codage de la parole. On pourra utilisé, par exemple, un cœur de DSP fabriqué par la société « DSP GROUP » (marque déposée) sous la référence « OAK » (marque déposée).
La figure 2 illustre les traitements successifs effectués par le radiotéléphone de la figure 1, sur un signal vocal.
On note que le signal entrant dans le microphone 107 est la somme 203: - d'un signal vocal pouvant être affecté d'un écho (symbolisé par la somme du signal produit 200 et du signal produit retardé) ; et - d'un bruit 202
Le signal bruité capté par le microphone 107 est délivré au converti isseur
Analogique/Numérique 204 où il converti en une suite d'échantillons numériques au cours d'une étape 204. Selon la norme GSM, on note que l'échantillonnage se fait typiquement à une fréquence égale à 8kHz.
Puis, au cours d'une étape 205, la suite d'échantillons numérique est traitée. Ensuite, au cours d'une étape 206, des trames de U (160) d'échantillons traités sont codées par un vocodeur selon une méthode connue en soi (typiquement telle que spécifiée dans la norme GSM). J
Puis, au cours d'une étape 207, des trames « vocodées » sont mises en forme par l'unité 112 pour être émises par le module radio 111 selon des techniques connues en soi (par exemple, selon la norme GSM). | i
La figure 3 présente un algorithme d'annulation ou de réduction de jbruit, mis en œuvre dans l'étape de traitement 205 de la figure 2. j
Au cours d'une étape d'initialisation 300, le DSP 104 initialise dans la RAM 106, un premier bloc de 96 échantillons à zéro correspondants aux derniers échantillons reçus ainsi que toutes les variables nécessaires a bon fonctionnement du traitement 205.
Puis au cours d'une étape 301, le DSP 104 mémorise dans la RAM 106 à la suite des échantillons précédemment reçus une séquence de 160 échantillons entrants issus du convertisseur 108. ;
Ensuite, au cours d'une étape 302, le DSP 104 applique une fenêtre de
Ensuite, au cours d'une étape 304, une transformation inverse de celle de l'étape 302, de type IFFT est appliquée à la séquence traitée.
Puis, au cours d'une étape 305, le DSP 104 ajoute, le cas échéant (c'est-à- dire après une première itération), les 96 derniers échantillons de la séquence traitée précédente aux 96 premiers échantillons traités de la séquence courante.
Ensuite, au cours d'une étape 306, la séquence ou trame formée des 160 premiers échantillons traités courants est transmise au vocodeur. Puis, au cours d'une étape 307, les 160 échantillons reçus correspondant i aux 160 échantillons transmis lors de l'étape 305 sont effacés de la mémoire 106.
Ensuite, l'étape 301 est réitérée. >
La figure 4 présente un codage de la parole, mis en œuvre dans l'étape 206 de la figure 2. ',
Au cours d'une étape d'initialisation 400, le DSP 104 initialise dans la RAM 106, toutes les variables nécessaires au bon fonctionnement du codage 206.
la mémoire RAM 106. |
Ensuite, l'opération 401 est réitérée.
La figure 5 décrit un fenêtrage des séquences d'échantillons tel qu'effectué par les traitements des figures 3 et 4. ; Sur un premier graphique, on a représenté la courbe 500 de l'intensité 503
longueur L' ' égale à 96 et obtenues lors de l'étape 302. i
On note également, sur le deuxième graphique, que le temps est découpé en trames successives 507 et 508 de longueur L' égale à 160, ne se chevauchant pas et obtenues lors de l'étape de transmission 306. La segmentation du signal est telle que, les fenêtres 505 (respecuvement 506), et 507 (respectivement 502) sont parfaitement synchrones. i
Ainsi, selon le mode préféré de réalisation, les fenêtres j 505 (respectivement 506), et 507 (respectivement 502) s'achèvent sur le ώême échantillon avant ou après traitement (selon les étapes 303, 304 et 305). J
De cette manière, le chevauchement se fait sur une longueur égale à LV. i La figure 6 illustre une fenêtre de mise en forme connue en soi. j
On a représenté sur le graphique donnant l'amplitude 602 d'une fenêtre en fonction du rang d'un échantillons 601, des fenêtres 603 et 604 de Hanning de longueur 256 avec un recouvrement de 128.
On note que selon ce découpage connu en soi, le fenêtrage ne peut en aucune façon être synchrone avec une segmentation en trames de; 160 échantillons. j
La figure 7 illustre des fenêtres 700 et 701 de mise en forme, optimisées selon l'invention (correspondant aux fenêtres respectivement 505 et 506 de la figure 5 mais représentée de manière plus précise). j
De même que précédemment, le graphique donne l'amplitude 602 d'une fenêtre en fonction du rang d'un échantillon 601.
On note que des fenêtres 700 et 701 sont des fenêtres de Hanning ob :enue par convolution d'une fenêtre de Hanning intermédiaire de longueur 97 avec un fenêtre rectangulaire de longueur 160. On obtient ainsi, avec les décalages successifs des fenêtres, égaux à 160 échantillons des fenêtres à reconstruction parfaite.
La figure 8 précise l'étape 303 de traitement de type réduction de bruit telle qu'illustrée en regard de la figure 3.
Ce traitement de réduction de bruit est notamment décrit dans les
! documents suivants :
- « Spectral substraction based on minimum statistics » (en frajαçais « soustraction spectrale basée sur des statistiques minimum ») écrit par R. Martin et publié dans le document « Signal Processing; VII : Théories and applications, 1994, EURASIP » aux pages 1182 à 1185 ; « Computationally efficient speech enhancement by spectral minima tracking in subbands » (en français « amélioration de la parole efficace pour le calcul par la recherche de minima spectraux dans des sous- bandes »), écrit par G. DOBLINGER et publié dans les comptes- rendus (pages 1513 à 1516) de la conférence « ESCA. EUROPSPEECH'95, 4* European Conférence on speech communication and technology » ; et - « A combination of noise réduction and improved écho cancella;tion »
(en français « une combinaison de réduction de bruit et d'annulation d'écho améliorée ») publié en Allemagne dans la collection i « Fachgebiet Théorie der Signale » par l'université de technologie de
Darmstadt. Après avoir été traitée selon l'étape 302, une trame 801 comportant 256 composantes spectrales correspondant à un signal vocal bruité est traitée selon le traitement 303 décrit ci-après.
On note Xk(m) la lêème composante de la mième trame de signal vocal brμité.
Au cours d'une opération 802, le DSP 104 convertit les composantes de la trame 801 de coordonnées rectangulaires vers des coordonnées polaires pour séparer la phase de l'amplitude spectrale.
Au cours des différents traitements, seule l'amplitude spectrale va être modifiée, la phase restant inchangée. !
Au cours d'une étape 803, on estime d'abord la puissance P m) du isignal j à courts termes selon les relations suivantes : i
Pxk(l) = (1- oc) | Xk(l) 1 2 (auquel on ajoute éventuellement une valeur de correction afin d'améliorer la vitesse de convergence de l'estimation) ; PJm) = a PJm-1) + (1- α) | Xk(m) \ 2 pour m>l avec une valeur pour le coefficient « d'oubli » α comprise entre 0,7 et 0,9 ce qui permet d'assurer une recherche adéquate du spectre de parole statiomiaire à courts termes.
Ces relations présentent notamment deux avantages : - leur simplicité de calcul ; et le fait qu'aucun délai de mesure n'est introduit. Selon une variante de réalisation, on utilise un algorithme amélioré de réduction de bruit. Néanmoins, l'introduction d'un délai supplémentaire dans cet algorithme requérait une taille de mémoire plus importante pour le stockage des composantes spectrales à valeurs complexes. ;
Ensuite, on estime la puissance spectrale Pnk(m) du bruit selon l'estimateur non linéaire suivant (qui effectue en quelque sorte une recherche des minima temporels de PJm)):
PJ1) = PJ1) ; et pour m strictement supérieur à 1 (m>l) : si PJm-l) < PJm) alorsPnt(rn) = γP m - l) + ^∑(Pxk(m) - βPxk(m - ï));
sinon PJm) = PJm) ; Ensuite, au cours d'une étape 806, le DSP 104 calcule un facteur de gain gL m) à valeurs réelles selon les relations suivantes :
8k(m) = l-jψj- ή8k(m) > βf etgk(m) = βf sinon Le coefficient K est un facteur de surestimation du bruit qui est introduit pour obtenir de meilleures performances de l'algorithme de réduction de bruit. βf correspond à une valeur spectrale plancher, /^limite l'atténuation du filtre de réduction de bruit à une valeur positive pour laisser subsister un1 bruit minimal dans le signal. Puis, au cours d'une étape 807, le DSP 104 multiplie l'amplitude | X ) \ par le facteur de gain gk(m) correspondant pour obtenir l'amplitude de signal améliorée | Yk(m) | selon la relation suivante :
I Yk(m) I = gk(m). | Xk(m) \ pour les valeurs de k comprises entre 1 et 256. Ensuite, au cours d'une étape 808 de conversion de coordonnée pojlaires vers rectangulaires, le DSP 104 construit le signal 809 avec bruit réduit à partir de l'amplitude | Yk(m) \ déterminée lors de l'étape 807 et de la phase du signal extraite lors de l'étape 802.
Le signal 809 est alors traité selon l'étape 304 de transformation inverse de Fourier.
Bien entendu, l'invention n'est pas limitée aux exemples de réalisation mentionnés ci-dessus.
En particulier, l'homme du métier pourra apporter toute variante dans l'application de l'invention qui ne se limite pas à la téléphonie mobile (notamment de type GSM, UMTS, IS95...) mais s'étend à tout type de dispositif comprenant un codage audio après ou avant une transformation mathématique sur un signal audio entrant.
De plus, l'invention s'applique non seulement au traitement de signaux sources vocaux mais s'étend à tout type de traitement audio. Selon l'invention, la transformation mathématique appliquée est notamment de tout type s'appliquant sur des blocs d'échantillons d'une longueur particulière qui n'est pas égale à la taille des trames traitées selon un traitement audio ou qui n'est pas un multiple ou un diviseur voisin de cette taille de (rame. Ainsi, l'invention s'étend au cas où la taille des trames audio est égale à 1|60 ou plus généralement n'est pas une puissance de 2 et où une transformation mathématique s'applique sur des tailles de blocs de longueur 256, 128, 512 ou plus généralement 2" (où n représente un entier) notamment une FFT , une FHT (de l'anglais « Fast Hadamard Transform » ou, en français « Transformée de Hadamard Rapide») ou une DCT (de l'anglais « Discrète Cosine Transform » ou , en français, « transformée en cosinus discrète ») ou les variantes de ces transformations (obtenues, par exemple, par combinaison d'une ou plusieurs de ces transformations avec une ou plusieurs autres transformations)...
En outre, l'invention s'applique à tout type de traitement associé à la transformation mathématique et effectuée avant ou après une étape de codage de i la parole, notamment au cas de la reconnaissance vocale ou de l'annulation; et/ou de la réduction d'écho.
On notera que l'invention ne se limite pas à une implantation purement matérielle mais qu'elle peut aussi être mise en œuvre sous la forme d'une séquence d'instructions d'un programme informatique ou toute forme mixarit une partie matérielle et une partie logicielle. Dans le cas où l'invention est implantée partiellement ou totalement sous forme logicielle, la séquence d'instruόtions correspondante pourra être stockée dans un moyen de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce moyjen de stockage étant lisible partiellement ou totalement par un ordinateur qu un microprocesseur.

Claims

REVENDICATIONS
1. Procédé de traitement d'un signal audio, comprenant :
-
-
segmentation (507, 508) sur le signal délivré par ladite première étape, lejsdites
I secondes fenêtres de segmentation étant distinctes desdites premières fenêtres de segmentation ; caractérisé en ce que deux premières fenêtres successives et/ou deux secondes fenêtres successives se chevauchent, les chevauchements étant tels que les segmentations soient synchrones. i
2. Procédé selon la revendication 1 caractérisé en ce que lesdites secondes fenêtres de segmentation sont des trames successives.
3. Procédé selon l'une quelconque des revendications 1 et 2 caractérisé en ce que le dernier échantillon d'une première séquence est également le dernier échantillon, après ladite première étape, de la seconde séquence correspondante.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que chaque dite première fenêtre de segmentation (700, 701) est une fenêtre à reconstruction parfaite obtenue par convolution :
- d'une première fenêtre intermédiaire à reconstruction parfaite et possédant des propriétés spectrales adaptées à ladite ou auxdites transformations mathématiques ; et
- d'une deuxième fenêtre intermédiaire rectangulaire.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé! en ce que ladite première étape de traitement appliquée à chaque première séquence comprend, en outre : - une sous-étape de traitement (303) prédéterminé appliquée à ladite première séquence;
- une sous-étape de transformation mathématique inverse (304) appliquée aux échantillons traités de ladite première séquence; et - une étape d'addition (305) des échantillons vocaux issus de ladite sous; étape de transformation mathématique inverse appliquée à ladite première séquence et des échantillons vocaux correspondants, issus de ladite sous étape de transformation mathématique inverse appliquée à la première séquence précédente.
6. Procédé selon la revendication 5, caractérisé en ce que ladite sous-étàpe de traitement prédéterminé comprend une réduction ou une annulation de bruit dans ledit signal audio.
7. Procédé selon l'une quelconque des revendications 5 et 6, caractériselen ce que ladite sous-étape de traitement prédéterminé comprend au moins un traitement faisant partie du groupe comprenant :
- une réduction ou une annulation d'écho dans ledit signal audio ;
- une reconnaissance vocale dans ledit signal audio.
8. Procédé selon l'une quelconque des revendications 1 à 7, caractérisé; en ce que ladite ou lesdites transformations mathématiques appartiennent au groupe comprenant :
- les transformations rapide de Fourrier (FFT) et leurs variantes ;
- les transformations rapide de Hadamard (FHT) et leurs variantes ; et
- les transformations en cosinus discrètes (DCT) et leurs variantes .
9. Procédé selon l'une quelconque des revendications 1 à 8, caractérisé] en ce que ledit signal audio source est un signal vocal.
10. Dispositif de traitement d'un signal audio, comprenant :
- des premiers moyens de traitement d'un signal audio source, mettant en œuvre au moins une transformation mathématique appliquée sur des preri ières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur ledit signal audio source ; et - des deuxièmes moyens de traitement audio, appliquées sur des secondes séquences d'échantillons obtenues par l'application de secondes fenênjes de segmentation sur le signal délivré par ladite première étape, lesdites secondes fenêtres de segmentation étant distinctes desdites premières fenêtr s de segmentation ; caractérisé en ce que deux premières fenêtres1 successives et/ou deux secondes fenêtres successives se chevauchent, les chevauchements étant tels que les segmentations soient synchrones.
11. Produit programme d'ordinateur comprenant des éléments de programme, enregistrés sur un support lisible par au moins un microprocesseur, caractérisé en ce que lesdits éléments de programme contrôlent le ou lesdits microprocesseurs pour qu'ils effectuent :
- une première étape de traitement d'un signal audio source, mettant en œuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur ledit signal audio source ; et
- une deuxième étape de traitement audio, appliquée sur des secondes séquences i d'échantillons obtenues par l'application de: secondes fenêtres de segmentation sur le signal délivré par ladite première étape, lesdites secondes fenêtres de segmentation étant distinctes desdites premières fenêtres de segmentation ; deux premières fenêtres successives et/ou deux secondes fenêtres successives se chevauchant, les chevauchements étant tels que les segmentations soient synchrones.
12. Produit programme d'ordinateur, caractérisé en ce que ledit programme comprend des séquences d'instructions adaptées à la mise en œuvre d'un procédé de traitement audio selon l'une quelconque des revendications 1 à 9 lorsque ledit programme est exécuté sur un ordinateur.
EP02743323A 2001-05-15 2002-05-15 Dispositif et procede de traitement d'un signal audio. Expired - Lifetime EP1395981B1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0106412 2001-05-15
FR0106412A FR2824978B1 (fr) 2001-05-15 2001-05-15 Dispositif et procede de traitement d'un signal audio
PCT/FR2002/001640 WO2002093558A1 (fr) 2001-05-15 2002-05-15 Dispositif et procede de traitement d'un signal audio.

Publications (2)

Publication Number Publication Date
EP1395981A1 true EP1395981A1 (fr) 2004-03-10
EP1395981B1 EP1395981B1 (fr) 2007-10-31

Family

ID=8863317

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02743323A Expired - Lifetime EP1395981B1 (fr) 2001-05-15 2002-05-15 Dispositif et procede de traitement d'un signal audio.

Country Status (10)

Country Link
US (1) US7295968B2 (fr)
EP (1) EP1395981B1 (fr)
JP (1) JP2004527797A (fr)
KR (1) KR20040005965A (fr)
CN (1) CN1223991C (fr)
AT (1) ATE377244T1 (fr)
DE (1) DE60223246D1 (fr)
FR (1) FR2824978B1 (fr)
IL (2) IL158797A0 (fr)
WO (1) WO2002093558A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118430527A (zh) * 2024-07-05 2024-08-02 青岛珞宾通信有限公司 一种基于pda端边缘计算处理的声音识别方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
EP2024863B1 (fr) 2006-05-07 2018-01-10 Varcode Ltd. Systeme et procede pour ameliorer la gestion de la qualite dans une chaine logistique de produits
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
ATE520120T1 (de) * 2006-06-29 2011-08-15 Nxp Bv Klangrahmenlängenanpassung
WO2008135962A2 (fr) 2007-05-06 2008-11-13 Varcode Ltd. Système et procédé de gestion de qualité utilisant des indicateurs de code à barres
JP5638948B2 (ja) * 2007-08-01 2014-12-10 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
US8540156B2 (en) 2007-11-14 2013-09-24 Varcode Ltd. System and method for quality management utilizing barcode indicators
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
KR20120125310A (ko) 2010-02-01 2012-11-14 진저 소프트웨어 인코퍼레이티드 특히 소형 키보드 디바이스를 위한 인터넷 코퍼스를 사용하는 자동 문맥 감응식 언어 교정
EP2372704A1 (fr) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Processeur de signal et procédé de traitement d'un signal
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
EP2848300A1 (fr) 2013-09-13 2015-03-18 Borealis AG Procédé de production d'oléfines par métathèse et système de réacteur associé
JP6048596B2 (ja) * 2014-01-28 2016-12-21 三菱電機株式会社 集音装置、集音装置の入力信号補正方法および移動機器情報システム
CN104914307B (zh) * 2015-04-23 2017-09-12 深圳市鼎阳科技有限公司 一种频谱仪及其多参数并行扫频的频谱测量方法
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
US10697837B2 (en) 2015-07-07 2020-06-30 Varcode Ltd. Electronic quality indicator
US10594530B2 (en) * 2018-05-29 2020-03-17 Qualcomm Incorporated Techniques for successive peak reduction crest factor reduction
US20210020191A1 (en) * 2019-07-18 2021-01-21 DeepConvo Inc. Methods and systems for voice profiling as a service
US11532314B2 (en) * 2019-12-16 2022-12-20 Google Llc Amplitude-independent window sizes in audio encoding

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JPH07264144A (ja) * 1994-03-16 1995-10-13 Toshiba Corp 信号圧縮符号化装置および圧縮信号復号装置
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
WO1998006090A1 (fr) * 1996-08-02 1998-02-12 Universite De Sherbrooke Codage parole/audio a l'aide d'une transformee non lineaire a amplitude spectrale
US5913191A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
US6418405B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO02093558A1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118430527A (zh) * 2024-07-05 2024-08-02 青岛珞宾通信有限公司 一种基于pda端边缘计算处理的声音识别方法

Also Published As

Publication number Publication date
FR2824978B1 (fr) 2003-09-19
WO2002093558A1 (fr) 2002-11-21
CN1223991C (zh) 2005-10-19
US20040236572A1 (en) 2004-11-25
KR20040005965A (ko) 2004-01-16
FR2824978A1 (fr) 2002-11-22
IL158797A (en) 2009-02-11
ATE377244T1 (de) 2007-11-15
US7295968B2 (en) 2007-11-13
CN1520589A (zh) 2004-08-11
JP2004527797A (ja) 2004-09-09
EP1395981B1 (fr) 2007-10-31
DE60223246D1 (de) 2007-12-13
IL158797A0 (en) 2004-05-12

Similar Documents

Publication Publication Date Title
EP1395981B1 (fr) Dispositif et procede de traitement d&#39;un signal audio.
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP0002998B1 (fr) Procédé de compression de données relatives au signal vocal et dispositif mettant en oeuvre ledit procédé
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP1016072B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1789956A1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en ceuvre du procede
EP0557166A1 (fr) Procédé de réduction de bruit acoustique dans un signal de parole
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
FR2789823A1 (fr) Filtres a sous-bandes unilaterales
EP0884926B1 (fr) Procédé et dispositif de traitement optimisé d&#39;un signal perturbateur lors d&#39;une prise de son
FR2739481A1 (fr) Appareil et procede d&#39;elimination du bruit
CA2939213A1 (fr) Systemes, procedes et dispositifs de communication ayant une meilleure immunite au bruit
EP1849157B1 (fr) Procede de mesure de la gene due au bruit dans un signal audio
EP0692883A1 (fr) Procédé d&#39;égalisation aveugle et son application à la reconnaissance de la parole
EP2515300A1 (fr) Procédé et système de réduction du bruit
EP2126905B1 (fr) Procédés et dispositifs d&#39;encodage et décodage de signaux audio, signal audio encodé
EP1103138B1 (fr) Dispositif de traitement numerique a filtrage frequentiel et a complexite de calcul reduite
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
EP0989544A1 (fr) Dispositif et procédé de filtrage d&#39;un signal de parole, récepteur et système de communications téléphonique
EP3828886B1 (fr) Procede et systeme pour separer dans un flux audio la composante voix et la composante bruit
FR3161060A1 (fr) Personnalisation d’un réseau de neurones pour le rehaussement de la parole
EP1155497A1 (fr) Procede et systeme de traitement de signaux d&#39;antenne
WO1999027523A1 (fr) Procede de reconstruction, apres debruitage, de signaux sonores
EP0824798B1 (fr) Filtrage adaptatif a sous-bandes
WO2006077005A2 (fr) Dispositif d&#39;annulation d&#39;echo acoustique, procede et programme d&#39;ordinateur correspondants

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20031117

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: WAVECOM

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 60223246

Country of ref document: DE

Date of ref document: 20071213

Kind code of ref document: P

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080131

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080211

GBV Gb: ep patent (uk) treated as always having been void in accordance with gb section 77(7)/1977 [no translation filed]
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080331

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20080801

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080201

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20080530

Year of fee payment: 7

BERE Be: lapsed

Owner name: WAVECOM

Effective date: 20080531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080531

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080531

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080201

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20100129

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090602

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080515

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20071031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080531