EP2530673A1 - Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire - Google Patents

Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire Download PDF

Info

Publication number
EP2530673A1
EP2530673A1 EP12170407A EP12170407A EP2530673A1 EP 2530673 A1 EP2530673 A1 EP 2530673A1 EP 12170407 A EP12170407 A EP 12170407A EP 12170407 A EP12170407 A EP 12170407A EP 2530673 A1 EP2530673 A1 EP 2530673A1
Authority
EP
European Patent Office
Prior art keywords
speech
signal
filter
equipment
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP12170407A
Other languages
German (de)
English (en)
Other versions
EP2530673B1 (fr
Inventor
Guillaume Vitte
Michael Herve
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Publication of EP2530673A1 publication Critical patent/EP2530673A1/fr
Application granted granted Critical
Publication of EP2530673B1 publication Critical patent/EP2530673B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Definitions

  • the invention relates to the treatment of speech in a noisy environment.
  • microphones include one or more microphones (“microphones”) sensitive, capturing not only the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go in some cases to make unintelligible the speaker's words . It is the same if one wants to implement speech recognition techniques, because it is very difficult to perform a form recognition on words embedded in a high noise level.
  • the large distance between the microphone (placed at the dashboard or in an upper corner of the roof of the cockpit) and the speaker (whose distance is constrained by the driving position) causes the capture of a relatively high noise level, which makes it difficult to extract the useful signal embedded in the noise.
  • the highly noisy environment typical of the automotive environment has non-stationary spectral characteristics, that is to say that evolve unpredictably depending on the driving conditions: passage on deformed or paved roads, car radio operating etc.
  • the device is a headset type microphone / headset combined used for communication functions such as "hands-free" telephony functions, in addition to listening to a source audio (music for example) from a device to which the headphones are connected.
  • the headset can be used in a noisy environment (metro, busy street, train, etc.), so that the microphone will not only pick up the word of the wearer of the helmet, but also the noise surrounding.
  • the wearer is certainly protected from this noise by the helmet, especially if it is a model with closed earphones isolating the ear from the outside, and even more if the headset is provided with an "active control of noise”.
  • the distant speaker (the one at the other end of the communication channel) will suffer from the noise picked up by the microphone and being superimposed and interfere with the speech signal of the near speaker (the helmet wearer).
  • certain speech formers essential to the understanding of the voice are often embedded in noise components commonly encountered in the usual environments.
  • the invention relates more particularly to denoising techniques using several microphones, usually two microphones, to judiciously combine the signals picked up simultaneously by these microphones in order to isolate the useful speech components of the noise noise components.
  • a conventional technique consists in placing and orienting one of the microphones so that it mainly captures the voice of the speaker, while the other is arranged to capture a greater noise component than the main microphone.
  • the comparison of the signals captured makes it possible to extract the voice of the ambient noise by spatial coherence analysis of the two signals, with relatively simple software means.
  • the US 2008/0280653 A1 describes such a configuration, where one of the pickups (the one that mainly picks up the voice) is that of a wireless headset carried by the driver of the vehicle, while the other (the one that captures the noise) is that of the telephone device, placed remotely in the passenger compartment of the vehicle, for example hung on the dashboard.
  • this technique has the disadvantage of requiring two remote microphones, the efficiency being even higher than the two microphones are remote. Therefore, this technique is not applicable to a device in which the two microphones are close together, for example two microphones incorporated in the facade of a car radio, or two microphones that would be arranged on one of the shells an earphone.
  • beamforming consists of creating by software means a directivity that improves the signal / noise ratio of the network or "antenna" microphones.
  • the US 2007/0165879 A1 describes such a technique, applied to a pair of non-directional microphones placed back to back.
  • An adaptive filtering of the captured signals makes it possible to derive at the output a signal in which the voice component has been reinforced.
  • the general problem of the invention is, in such a context, to perform an effective noise reduction for delivering to the remote speaker a voice signal representative of the speech transmitted by the close speaker (driver of the vehicle or helmet carrier), by eliminating this signal noise components external noise present in the environment of this speaker nearby.
  • the problem of the invention is also, in such a situation, to be able to implement a set of microphones at a time in reduced numbers (preferably two microphones only) and relatively close (typically a gap of a few centimeters only).
  • Another important aspect of the problem is the need to reproduce a natural and intelligible speech signal, that is to say, undistorted and whose useful frequency spectrum is not amputated by denoising treatments.
  • the invention proposes audio equipment of the general type disclosed by the US 2008/0280653 A1 above, that is to say comprising: a set of two microphonic sensors able to collect the speech of the user of the equipment and to deliver respective noisy speech signals; means for sampling the speech signals delivered by the microphone sensors; and means for denoising a speech signal, receiving as input the samples of the speech signals delivered by the two microphonic sensors, and outputting a speech signal that is not representative of the speech transmitted by the user of the equipment .
  • the denoising means are non-frequency noise reduction means comprising an adaptive filter combiner signals delivered by the two microphonic sensors, operating by iterative search to cancel the noise picked up by one of the microphone sensors on the basis of a noise reference given by the signal delivered by the other microphonic sensor.
  • the adaptive filter is a fractional delay filter, able to model a delay less than the sampling period of the sampling means.
  • the equipment further comprises voice activity detection means capable of delivering a signal representative of the presence or absence of speech by the user of the equipment, and the adaptive filter also receives as input the signal of presence or absence of speech, so as to selectively: i) perform an adaptive search filter parameters in the absence of speech, ii) freeze these parameters of the filter in the presence of speech.
  • the adaptive filter is a LMS mean least squares linear prediction algorithm filter.
  • the equipment comprises a video camera directed towards the user of the equipment and able to capture an image thereof
  • the voice activity detection means comprise suitable video analysis means. analyzing the image produced by the camera and responding in response to said presence or absence of speech signal by said user.
  • the equipment comprises a physiological sensor adapted to come into contact with the head of the user of the equipment to be coupled thereto in order to capture non-acoustic vocal vibrations transmitted by internal bone conduction
  • the voice activity detection means comprise means able to analyze the signal delivered by the physiological sensor and to respond in response to said presence or absence of speech signal by said user, in particular by evaluating the energy of the signal delivered by the physiological sensor and comparison to a threshold.
  • the equipment may in particular be a headset of the combined microphone / headset type, comprising: headphones each comprising a sound reproduction transducer of an audio signal housed in a shell provided with a circumaural pad; said two microphone sensors, arranged on the shell of one of the earphones; and said physiological sensor, incorporated in the pad of one of the earphones and placed in a region thereof able to come into contact with the cheek or temple of the wearer of the helmet.
  • These two microphonic sensors are preferably aligned in a linear array in a main direction directed towards the mouth of the user of the equipment.
  • the Figure 1 schematically illustrates, in block form, the various functions implemented by the invention.
  • the process of the invention is implemented by software means, schematized by a number of functional blocks corresponding to appropriate algorithms executed by a microcontroller or a digital signal processor. Although, for the sake of clarity, the different functions are presented as separate modules, they implement common elements and correspond in practice. to a plurality of functions globally executed by the same software.
  • the signal that is desired to be denoised originates from a network of microphone sensors which, in the minimum configuration illustrated, may simply be an array of two sensors arranged in a predetermined configuration, each sensor consisting of a corresponding respective microphone 10 , 12.
  • the invention may, however, be generalized to a network of more than two microphone sensors, and / or to microphonic sensors, each sensor of which is constituted by a more complex structure than a simple microphone, for example a combination of several microphones and / or or other speech sensors.
  • the microphones 10, 12 are microphones that pick up the signal emitted by the useful signal source (the speech signal from the speaker), and the difference in position between the two microphones induces a set of phase shifts and amplitude variations in the microphone. recording the signals emitted by the useful signal source.
  • the useful signal source the speech signal from the speaker
  • the two microphones 10, 12 are omnidirectional microphones placed a few centimeters apart from each other on the ceiling of a car interior, on the front of a car radio or in an appropriate location on the car. dashboard, or on the shell of one of the headphones headphones, etc.
  • the technique of the invention makes it possible to ensure efficient denoising even for closely spaced microphones, that is to say spaced apart from each other by a distance d such that the maximum phase delay of a signal picked up by one microphone and then the other is less than the sampling period of the signal digitizing converter.
  • This corresponds to a maximum distance of about 4.7 cm for a sampling frequency F e of 8 kHz (and a lesser spacing of half to twice the frequency, etc.).
  • a speech signal emitted by a close speaker will reach one of the microphones before the other, and therefore have a delay, and therefore a phase shift ⁇ , substantially constant.
  • phase shift it can certainly exist also a phase shift between the two microphones 10 and 12.
  • the notion of phase shift being related to the notion of incident wave direction, we can expect this phase difference is different from that of the speech. For example, if a directional noise is directed in the opposite direction to that of the mouth, its phase shift will be - ⁇ if the phase shift for the voice is ⁇ .
  • the noise reduction on the signals picked up by the microphones 10 and 12 is not operated in the frequency domain (as is often the case with conventional denoising techniques) but in the time domain .
  • This noise reduction is effected by means of an algorithm seeking the transfer function between one of the microphones (for example the microphone 10) and the other microphone (the microphone 12) by means of an adaptive combiner 14 setting A predictive filter 16 of LMS ( Least Mean Squares ) type is used.
  • the output of the filter 16 is subtracted at 18 from the signal of the microphone 10 to give a signal S de-noised, applied back to the filter 16 to allow its iterative adaptation as a function of the prediction error. It is thus possible to predict from the signal picked up by the microphone 12 the noise component contained in the signal picked up by the microphone 10 (the transfer function identifying the noise transfer).
  • the adaptive search of the transfer function between the two microphones is performed only during the speech-free phases. For this, the iterative adaptation of the filter 16 is activated only when a voice activity detector VAD ( Voice Activity Detector ) 20 controlled by a sensor 22 indicates that the near speaker is not speaking.
  • VAD Voice Activity Detector
  • the adaptive combiner 14 seeks to optimize the transfer function between the two microphones 10 and 12 so as to reduce the noise component (closed position of the switch 24, as shown in the figure); on the other hand, in the presence of a speech signal confirmed by the voice activity detector 20, the adaptive combiner 14 freezes the parameters of the filter 16 to the value at which they were just before the speech was detected (opening of the switch 24), which avoids any degradation of the speech signal of the nearby speaker.
  • the filtering of the adaptive combiner 14 is a fractional delay filtering, that is to say that it makes it possible to apply a filtering between the signals picked up by the two microphones taking into account the a delay less than the duration of a sample digitizing signals.
  • the interval or offset between two samples corresponds temporally to a duration of Te second.
  • the Figure 3a gives a graphic representation of this function.
  • MicAvant (n) and MicRear (n) being the respective values of the signals from the microphonic sensors 10 and 12.
  • the estimation of ⁇ takes place directly, by the minimization of the error e ( n ) above, without there being need to estimate separately ⁇ and F.
  • L being the length of the filter.
  • the prediction of the filter H gives a fractional delay filter which, ideally and in the absence of speech, cancels the noise of the microphone 10 with reference to the microphone 12 (as indicated above, during speech however, the filter is frozen to prevent any degradation of local speech).
  • the Figure 4 illustrates an example of acoustic response between the two microphones, in the form of a characteristic giving the amplitude A as a function of the coefficients k of the filter F.
  • the different sound reflections that may occur depending on the environment, for example on the windows or other walls of a car interior, create visible peaks on this acoustic response characteristic.
  • the Figure 5 illustrates an example of the result of the convolution G X F of the two filters G (cardinal sinus response) and F (environment of use), in the form of a characteristic giving the amplitude A as a function of the coefficients k of the convoluted filter.
  • the estimate ⁇ can be calculated by an iterative LMS algorithm seeking to minimize the error y (n) - ⁇ X x ( n ) to converge towards the optimal filter.
  • the voice activity detector is here preferably a "perfect” detector, that is to say it delivers a binary signal (absence vs. presence of speech). It is thus distinguished from most voice activity detectors used in known denoising systems, which deliver only a probability of presence of variable speech between 0 and 100% continuously or in successive steps. With such detectors based only on the probability of speech, false detections can be important in noisy environments. To be “perfect”, the voice activity detector can not rely solely on the signal picked up by the microphones; it must have additional information to discriminate the speech and silence phases of the next speaker.
  • a first example of such a detector is illustrated by the Figure 6 , where the voice activity detector 20 operates in response to the signal produced by a camera.
  • This camera is for example a camera 26 installed in the passenger compartment of a motor vehicle, and oriented so that its field of view 28 encompasses in all circumstances the driver's head 30, considered as the close speaker.
  • the signal delivered by the camera 26 is analyzed to determine from the movement of the mouth and lips whether the speaker speaks or not.
  • Video data is added to conventional audio data to improve speech enhancement .
  • This treatment may be used in the context of the present invention to distinguish between the speech phases and the silence phases of the speaker.
  • the advantage of this image analysis technique is to have complementary information completely independent of the acoustic noise environment.
  • a sensor that can be used for the detection of "perfect" voice activity is a physiological sensor capable of detecting certain vocal vibrations of the speaker that are not or only slightly corrupted by the surrounding noise.
  • Such a sensor may consist in particular of an accelerometer or a piezoelectric sensor applied against the cheek or the temple of the speaker.
  • a vibration propagates from the vocal cords to the pharynx and to the bucco-nasal cavity, where it is modulated, amplified and articulated.
  • the mouth, the soft palate, the pharynx, the sinuses and the nasal fossae then serve as a sounding board for this voiced sound and, their wall being elastic, they vibrate in turn and these vibrations are transmitted by internal bone conduction and are perceptible at the cheek and temple.
  • a physiological sensor that collects these noise-free vocal vibrations gives a signal representative of the presence or absence of voiced sounds emitted by the speaker, thus making it possible to discriminate very clearly the speech phases and the speaker's silence phases.
  • Such a physiological sensor may in particular be incorporated into a combined microphone / headset assembly as shown in FIG. Figure 7 .
  • the reference 32 generally designates the helmet according to the invention, which comprises two atria 34 joined by a hoop.
  • Each of the atria is preferably constituted by a closed shell 36, housing a sound reproduction transducer, applied around the ear of the user with the interposition of a pad 38 isolating the ear from the outside.
  • the physiological sensor 40 used for the detection of voice activity is for example an accelerometer integrated in the pad 38 so as to be applied against the cheek or the temple of the user with the closest possible coupling.
  • This physiological sensor 40 may in particular be placed on the inner face of the skin of the pad 38 so that, once the helmet is in place, the sensor is applied against the cheek or the temple of the user under the effect of a slight pressure resulting from the crash cushion material, with only interposition of the outer skin of this pad.
  • the headset also carries the microphones 10, 12 of the circuit for collecting and denoising the speech of the speaker.
  • These two microphones are omnidirectional microphones placed on the shell 36, and they are arranged with the microphone 10 placed in front (closer to the mouth of the wearer of the helmet) and the microphone 12 placed further back.
  • the alignment direction 42 of the two microphones 10, 12 is approximately directed towards the mouth 44 of the helmet wearer.
  • the Figure 8 is a block diagram showing the various functions implemented by the microphone / headset combo of the Figure 7 .
  • This figure shows the two microphones 10 and 12, as well as the voice activity detector 20.
  • the front microphone 10 is the main microphone and the rear microphone 12 serves as input to the adaptive filter 16 of the combiner 14.
  • the signal delivered by the physiological sensor 40 may be used not only as an input signal of a voice activity detector, but also to enrich the signal picked up by the microphones 10 and 12, especially in the low end of the spectrum.
  • the signals delivered by the physiological sensor which correspond to the voiced sounds, are not, strictly speaking, speech since the speech is not only formed of voiced sounds, it contains components that are not born at the level of the voices.
  • vocal cords the frequency content is for example much richer with the sound coming from the throat and emitted by the mouth.
  • the internal bone conduction and the crossing of the skin has the effect of filtering certain vocal components.
  • the signal collected by the physiological sensor is usable only in the low frequencies, mainly in the lower region of the sound spectrum (typically 0-1500 Hz).
  • the signal of a physiological sensor has the considerable advantage of being naturally devoid of parasitic component of noise it will be possible to use this signal in the low end of the spectrum, completing it in the high range (above 1500 Hz) by the (noisy) signals collected by the microphones 10 and 12, after having submitted these signals to a noise reduction operated by the adaptive combiner 14.
  • the complete spectrum is reconstructed by means of the mixing block 46 which receives in parallel: the signal of the physiological sensor 40 for the low end of the spectrum, and the signal of the microphones 10 and 12 after denoising by the adaptive combiner 14 for the top of the spectrum.
  • This reconstruction is performed by summing the signals, which are applied in synchronism with the mixing block 46 so as to avoid any deformation.
  • the resulting signal delivered by the block 46 can be subjected to a final noise reduction by the circuit 48, operated in the frequency domain according to a conventional technique comparable to that described for example in the WO 2007/099222 A1 (Parrot ), to output the final denoised signal S.
  • the system that has just been described makes it possible to obtain excellent overall performance, typically of the order of 30 to 40 dB of noise reduction on the speech signal of the nearby speaker.
  • the adaptive combiner 14 operating on the signals picked up by the microphones 10 and 12 makes it possible in particular, with the fractional-delay filtering, to obtain very good denoising performance in the high frequencies.

Abstract

L'équipement comprend deux micros (10, 12), des moyens d'échantillonnage et des moyens de débruitage. Les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur (14) à filtre adaptatif (16) opérant par recherche itérative visant à annuler le bruit capté par l'un des micros (10) sur la base d'une référence de bruit donnée par l'autre micro (12). Le filtre adaptatif est un filtre à délai fractionnaire modélisant un retard inférieur à la période d'échantillonnage. L'équipement comprend en outre des moyens de détection d'activité vocale (20) délivrant un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement. Le filtre adaptatif reçoit en entrée ce signal de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole.

Description

  • L'invention concerne le traitement de la parole en milieu bruité.
  • Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité.
  • Ces appareils comportent un ou plusieurs microphones ("micros") sensibles, captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
  • Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'accessoires en forme de boîtier amovible intégrant tous les composants et fonctions de traitement du signal pour la communication téléphonique.
  • En effet, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle supérieur du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) entraîne la captation d'un niveau de bruit relativement élevé, qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.
  • Des difficultés du même genre se présentent dans le cas où le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque.
  • Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). Or, le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants. Le porteur est certes protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels.
  • L'invention concerne plus particulièrement les techniques de débruitage mettant en oeuvre plusieurs micros, généralement deux micros, pour combiner de façon judicieuse les signaux captés simultanément par ces micros afin d'isoler les composantes de parole utiles des composantes de bruits parasites.
  • Une technique classique consiste à placer et orienter l'un des micros pour qu'il capte principalement la voix du locuteur, tandis que l'autre est disposé de manière à capter une composante de bruit plus importante que le micro principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant par analyse de cohérence spatiale des deux signaux, avec des moyens logiciels relativement simples.
  • Le US 2008/0280653 A1 décrit une telle configuration, où l'un des micros (celui qui capte principalement la voix) est celui d'une oreillette sans fil portée par le conducteur du véhicule, tandis que l'autre (celui qui capte principalement le bruit) est celui de l'appareil téléphonique, placé à distance dans l'habitacle du véhicule, par exemple accroché au tableau de bord.
  • Cette technique présente cependant l'inconvénient de nécessiter deux micros distants, l'efficacité étant d'autant plus élevée que les deux micros sont éloignés. De ce fait, cette technique n'est pas applicable à un dispositif dans lequel les deux micros sont rapprochés, par exemple deux micros incorporés à la façade d'un autoradio de véhicule automobile, ou deux micros qui seraient disposés sur l'une des coques d'un écouteur de casque audio.
  • Une autre technique encore, dite beamforming, consiste à créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit du réseau ou "antenne" de micros. Le US 2007/0165879 A1 décrit une telle technique, appliquée à une paire de micros non-directionnels placés dos à dos. Un filtrage adaptatif des signaux captés permet de dériver en sortie un signal dans lequel la composante de voix a été renforcée.
  • Toutefois, on estime qu'une telle méthode ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros, les performances étant extrêmement limitées lorsque seulement deux micros sont utilisés.
  • Le problème général de l'invention est, dans un tel contexte, de procéder à une réduction de bruit efficace permettant de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche (conducteur du véhicule ou porteur du casque), en débarrassant ce signal des composantes parasites de bruit extérieur présentes dans l'environnement de ce locuteur proche.
  • Le problème de l'invention est également, dans une telle situation, de pouvoir mettre en oeuvre un ensemble de micros à la fois en nombre réduit (avantageusement deux micros seulement) et relativement rapprochés (typiquement un écartement de quelques centimètres seulement). Un autre aspect important du problème est la nécessité de restituer un signal de parole naturelle et intelligible, c'est-à-dire non distordu et dont le spectre des fréquences utiles ne soit pas amputé par les traitements de débruitage.
  • A cet effet, l'invention propose un équipement audio du type général divulgué par le US 2008/0280653 A1 précité, c'est-à-dire comprenant : un ensemble de deux capteurs microphoniques aptes à recueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ; des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; et des moyens de débruitage d'un signal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement. Les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique.
  • De façon caractéristique de l'invention, le filtre adaptatif est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage. L'équipement comprend en outre des moyens de détection d'activité vocale aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole.
  • Le filtre adaptatif est notamment apte à estimer un filtre optimal H tel que : H ^ = G ^ F ^
    Figure imgb0001

    avec : n = G x n et G k = sinc k + τ / Te ,
    Figure imgb0002
  • représentant l'estimée du filtre optimal H, transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire,
    représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques,
    représentant l'estimée de la réponse acoustique de l'environnement,
    indiquant une convolution,
    x(n)
    étant la série d'échantillons du signal en entrée du filtre H,
    x'(n)
    étant la série x(n) décalée d'un retard τ,
    Te
    étant la période d'échantillonnage du signal en entrée du filtre H,
    τ
    étant ledit délai fractionnaire, égal à un sous-multiple de Te, et
    sinc
    indiquant la fonction sinus cardinal.
  • De préférence, le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS.
  • Dans une forme de réalisation, l'équipement comprend une caméra video dirigée vers l'utilisateur de l'équipement et apte à capter une image de celui-ci, et les moyens de détection d'activité vocale comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur.
  • Dans une autre forme de réalisation, l'équipement comprend un capteur physiologique apte à venir en contact avec la tête de l'utilisateur de l'équipement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, et les moyens de détection d'activité vocale comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur, notamment par évaluation de l'énergie du signal délivré par le capteur physiologique et comparaison à un seuil.
  • L'équipement peut en particulier être un casque audio du type combiné micro/casque, comprenant : des écouteurs comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque pourvue d'un coussinet circumaural ; lesdits deux capteurs microphoniques, disposés sur la coque de l'un des écouteurs ; et ledit capteur physiologique, incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact avec la joue ou la tempe du porteur du casque. Ces deux capteurs microphoniques sont de préférence alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche de l'utilisateur de l'équipement.
  • On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.
    • La Figure 1 illustre de façon schématique, sous forme de blocs fonctionnels, la manière dont est réalisé le traitement de débruitage selon l'invention.
    • La Figure 2 est une représentation graphique de la fonction sinus cardinal modélisée dans le traitement de débruitage de l'invention.
    • Les Figures 3a et 3b sont des représentations de la fonction sinus cardinal de la Figure 2, respectivement pour les différents points d'une série d'échantillons de signal, et pour la même série décalée dans le temps d'une valeur fractionnaire.
    • La Figure 4 est une représentation de la réponse acoustique de l'environnement, avec en ordonnée l'amplitude et en abscisse les coefficients du filtre représentant ce transfert.
    • La Figure 5 est homologue de la Figure 4, après convolution avec une réponse en sinus cardinal.
    • La Figure 6 est une représentation schématique d'un mode de réalisation consistant à utiliser une caméra pour assurer la détection d'activité vocale.
    • La Figure 7 illustre de façon générale un ensemble micro/casque combiné auquel peuvent être appliqués les enseignements de l'invention.
    • La Figure 8 est un schéma d'ensemble qui illustre sous forme de blocs fonctionnels la manière dont peut être réalisé le traitement du signal pour délivrer en sortie un signal débruité représentatif de la parole émise par le porteur du casque de la Figure 7.
    • La Figure 9 illustre deux chronogrammes correspondant respectivement à un exemple de signal brut recueilli par les micros, et de signal recueilli par un capteur physiologique permettant de distinguer les périodes de parole et les périodes de silence du locuteur.
  • La Figure 1 illustre de façon schématique, sous forme de blocs, les différentes fonctions mises en oeuvre par l'invention.
  • Le processus de l'invention est mis en oeuvre par des moyens logiciels, schématisés par un certain nombre de blocs fonctionnels correspondant à des algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, les différentes fonctions soient présentées sous forme de modules distincts, elles mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel.
  • Le signal que l'on souhaite débruiter est issu d'un réseau de capteurs microphoniques qui, dans la configuration minimale illustrée, peut être simplement un réseau de deux capteurs disposés selon une configuration prédéterminée, chaque capteur étant constitué d'un micro respectif correspondant 10, 12.
  • L'invention peut toutefois être généralisée à un réseau de plus de deux capteurs microphoniques, et/ou à des capteurs microphoniques dont chaque capteur est constitué d'une structure plus complexe qu'un simple micro, par exemple une combinaison de plusieurs micros et/ou autres capteurs de parole.
  • Les micros 10, 12 sont des micros qui captent le signal émis par la source de signal utile (le signal de parole du locuteur), et la différence de position entre les deux micros induit un ensemble de déphasages et variations d'amplitude dans l'enregistrement des signaux émis par la source de signal utile.
  • En pratique, les deux micros 10, 12, sont des micros omnidirectionnels disposés à quelques centimètres l'un de l'autre sur le plafonnier d'un habitacle de voiture, sur la façade d'un autoradio ou d'un emplacement approprié de la planche de bord, ou bien sur la coque d'un des écouteurs d'un casque audio, etc.
  • Comme on le verra, la technique de l'invention permet d'assurer un débruitage efficace même pour des micros très rapprochés, c'est-à-dire espacés entre eux d'un écartement d tel que le retard de phase maximal d'un signal capté par un micro puis par l'autre soit inférieur à la période d'échantillonnage du convertisseur de numérisation des signaux. Ceci correspond à une distance maximale d de l'ordre de 4,7 cm pour une fréquence d'échantillonnage Fe de 8 kHz (et un écartement d moitié moindre pour une fréquence double, etc.).
  • Un signal de parole émis par un locuteur proche atteindra l'un des micros avant l'autre, et présentera donc un retard, et donc un déphasage ϕ, sensiblement constant. Pour du bruit, il peut certes exister également un déphasage entre les deux micros 10 et 12. En revanche, la notion de déphasage étant liée à la notion de direction d'onde incidente, on peut s'attendre à ce que ce déphasage soit différent de celui de la parole. Par exemple, si un bruit directif est dirigé dans le sens opposé à celui de la bouche, son déphasage sera de -ϕ si le déphasage pour la voix est de ϕ. Dans le cas de l'invention, la réduction de bruit sur les signaux captés par les micros 10 et 12 n'est pas opérée dans le domaine fréquentiel (comme cela est souvent le cas avec les techniques conventionnelles de débruitage) mais dans le domaine temporel.
  • Cette réduction de bruit est opérée au moyen d'un algorithme recherchant la fonction de transfert entre l'un des micros (par exemple le micro 10) et l'autre micro (le micro 12) au moyen d'un combineur adaptatif 14 mettant en oeuvre un filtre prédictif 16 de type LMS (Least Mean Squares, moindres carrés moyens). La sortie du filtre 16 est soustraite en 18 du signal du micro 10 pour donner un signal S débruité, appliqué en retour au filtre 16 pour permettre son adaptation itérative en fonction de l'erreur de prédiction. Il est ainsi possible de prédire à partir du signal capté par le micro 12 la composante de bruit contenue dans le signal capté par le micro 10 (la fonction de transfert identifiant le transfert du bruit).
  • La recherche adaptative de la fonction de transfert entre les deux micros n'est opérée que pendant les phases d'absence de parole. Pour cela, l'adaptation itérative du filtre 16 n'est activée que lorsqu'un détecteur 20 d'activité vocale VAD (Voice Activity Detector) piloté par un capteur 22 indique que le locuteur proche n'est pas en train de parler. Cette fonction est schématisée par le commutateur 24 : en l'absence de signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 cherche à optimiser la fonction de transfert entre les deux micros 10 et 12 de manière à réduire la composante de bruit (position fermée du commutateur 24, comme illustré sur la figure) ; en revanche, en présence d'un signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 fige les paramètres du filtre 16 à la valeur à laquelle ils se trouvaient juste avant que la parole ne soit détectée (ouverture du commutateur 24), ce qui évite toute dégradation du signal de parole du locuteur proche.
  • On notera que cette manière de procéder n'est pas gênante même en présence d'un environnement bruyant évolutif, car les mises à jour des paramètres du filtre 16 sont très fréquentes puisqu'elles interviennent à chaque fois que le locuteur proche cesse de parler.
  • De façon caractéristique de l'invention, le filtrage du combineur adaptatif 14 est un filtrage à délai fractionnaire, c'est-à-dire qu'il permet d'appliquer un filtrage entre les signaux captés par les deux micros en tenant compte d'un délai inférieur à la durée d'un échantillon de numérisation des signaux.
  • On sait qu'un signal temporel x(t) de bande passante [0,Fe/2] peut être reconstitué de manière parfaite à partir de la série discrète x(k), où les échantillons x(k) correspondent aux valeurs de x(t) aux instants k.Te (Te = 1/Fe étant la période d'échantillonnage).
  • L'expression mathématique est la suivante : x t = k x k . sinc t - k . Te Te
    Figure imgb0003
  • La fonction sinus cardinal sinc étant définie par : sinc t = sin pi * t pi * t
    Figure imgb0004
  • La Figure 2 donne un représentation graphique de cette fonction sinc (t). Comme on peut le constater, cette fonction décroît rapidement, avec pour conséquence qu'un nombre fini et relativement faible de coefficients k dans la somme donne une très bonne approximation du résultat réel.
  • Pour un signal numérisé avec une période d'échantillonnage Te, l'intervalle ou décalage entre deux échantillons correspond de manière temporelle à une durée de Te seconde.
  • La série x(n) des n échantillons successifs numérisés du signal capté peut ainsi être représentée par l'expression suivante, pour tout n entier : x n . Te = k x k . sinc n . Te - k . Te Te
    Figure imgb0005
  • On notera que dans la somme le terme en sinc est nul pour tout k, sauf pour k = n.
  • La Figure 3a donne un représentation graphique de cette fonction.
  • Si l'on veut calculer cette même série x(n) décalée d'une valeur fractionnaire τ, c'est-à-dire d'un délai inférieur à la durée d'un échantillon de numérisation Te, l'expression ci-dessus devient : x n . Te - τ = k x k . sinc n - k . Te - τ Te
    Figure imgb0006
  • La Figure 3b donne un représentation graphique de cette fonction, pour un exemple de valeur fractionnaire τ = 0,5 (un demi-échantillon).
  • La série x'(n) (décalée de τ) peut être vue comme la convolution de x(n) par un filtre non causal G tel que : n = G x n
    Figure imgb0007
  • Il s'agit donc de déterminer une estimée d'un filtre optimal G tel que : H ^ = G ^ F ^ et G k = sinc k + 1 / Te
    Figure imgb0008
  • étant l'estimée du transfert de bruit entre les deux micros, incluant un délai fractionnaire, et
    F
    étant l'estimée de la réponse acoustique de l'environnement.
  • Pour l'estimation du filtre de transfert de bruit entre les deux micros, l'estimée correspond à un filtre qui minimise une erreur : e n = MicAvant n - H ^ * MicArrière n
    Figure imgb0009
  • MicAvant(n) et MicArrière(n) étant les valeurs respectives des signaux issus des capteurs microphoniques 10 et 12.
  • Ce filtre a pour caractéristique d'être non causal, c'est-à-dire qu'il se sert des échantillons futurs. En pratique, cela signifie que l'on introduit un retard dans le délai de traitement algorithmique. Comme il est non causal, il peut modéliser un délai fractionnaire et peut donc s'écrire = . (dans le cas classique d'un filtre causal, on aurait = ).
  • Concrètement, dans l'algorithme, l'estimation de a lieu directement, par la minimisation de l'erreur e(n) ci-dessus, sans qu'il y a ait besoin d'estimer séparément et .
  • Dans le cas classique causal (par exemple pour un filtre d'annulation d'écho), l'erreur e(n) à minimiser s'écrit, sous forme développée : e n = MicAvant n - k = 0 L - 1 H ^ k . MicArrière n - k
    Figure imgb0010
  • L étant la longueur du filtre.
  • Dans le cas de la présente invention (filtre non causal) l'erreur devient : e n = MicAvant n - k = - L L - 1 H ^ k . MicArrière n - k
    Figure imgb0011
  • On notera que la longueur du filtre est doublée, pour tenir compte des échantillons futurs.
  • La prédiction du filtre H donne un filtre à délai fractionnaire qui, idéalement et en l'absence de parole, annule le bruit du micro 10 en ayant pour référence le micro 12 (comme on l'a indiqué plus haut, en période de parole le filtre est toutefois figé pour éviter toute dégradation de la parole locale).
  • Concrètement, le filtre calculé par l'algorithme adaptatif qui estime le transfert de bruit entre le micro 10 et le micro 12, peut être vu comme la convolution = de deux filtres et où :
    • correspond à la partie fractionnaire (avec la forme en sinus cardinal), et
    • correspond au transfert acoustique entre les deux micros, c'est-à-dire à la partie "environnementale" du système, représentative de l'acoustique du volume dans lequel opère celui-ci.
  • La Figure 4 illustre un exemple de réponse acoustique entre les deux micros, sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre F. Les différentes réflexions du son qui peuvent intervenir en fonction de l'environnement, par exemple sur les vitres ou autres parois d'un habitacle de voiture, créent des pics visibles sur cette caractéristique de réponse acoustique.
  • La Figure 5 illustre un exemple du résultat de la convolution GF des deux filtres G (réponse en sinus cardinal) et F (environnement d'utilisation), sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre convolué.
  • L'estimée peut être calculée par un algorithme LMS itératif cherchant à minimiser l'erreur y(n) - Ĥx(n) pour converger vers le filtre optimal.
  • Les algorithmes de type LMS - ou NLMS (Normalized LMS) qui est une version normalisée du LMS - sont des algorithmes relativement simples et peu exigeants en termes de ressources de calcul. Il s'agit d'algorithmes en eux-mêmes connus, décrits par exemple par :
    1. [1] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R. E. Kalman and N. De Claris Eds., New York: Holt, Rinehart and Winston, pp. 563-587, 1970 ;
    2. [2] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975.
    3. [3] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.
  • Comme on l'a indiqué plus haut, pour que le traitement précédent soit possible, il est nécessaire de disposer d'un détecteur d'activité vocale permettant de discriminer entre les phases d'absence de parole (où l'adaptation du filtre permet d'optimiser l'évaluation du bruit) et de présence de parole (où les paramètres du filtre sont figés à leur dernière valeur trouvée).
  • Plus précisément, le détecteur d'activité vocale est ici de préférence un détecteur "parfait", c'est-à-dire qu'il délivre un signal binaire (absence vs. présence de parole). Il se distingue ainsi de la plupart des détecteurs d'activité vocale utilisés dans les systèmes de débruitage connus, qui délivrent seulement une probabilité de présence de parole variable entre 0 et 100 % de façon continue ou par pas successifs. Avec de tels détecteurs basés seulement sur une probabilité de présence de parole, les fausses détections peuvent être importantes dans des environnements bruités. Pour être "parfait", le détecteur d'activité vocale ne peut pas se baser uniquement sur le signal capté par les micros ; il doit disposer d'une information additionnelle permettant de discriminer les phases de parole et de silence du locuteur proche.
  • Un premier exemple d'un tel détecteur est illustré par la Figure 6, où le détecteur d'activité vocale 20 opère en réponse au signal produit par une caméra.
  • Cette caméra est par exemple une caméra 26 installée dans l'habitacle d'un véhicule automobile, et orientée de manière que son angle de champ 28 englobe en toutes circonstances la tête 30 du conducteur, considéré comme le locuteur proche. Le signal délivré par la caméra 26 est analysé pour déterminer d'après le mouvement de la bouche et des lèvres si le locuteur parle ou non.
  • On peut utiliser à cet effet des algorithmes de détection de la région de la bouche dans une image d'un visage, et de suivi du mouvement des lèvres (lip contour tracking) telle que ceux exposés notamment par :
    • [4] G. Potamianos et al., Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing, G. Bailly et al. Eds., MIT Press, pp. 1-30, 2004.
  • Ce document décrit, de façon générale, l'apport d'une information visuelle en complément d'un signal audio pour notamment faire de la reconnaissance vocale dans des conditions acoustiques dégradées. Les données vidéo viennent ainsi s'ajouter aux données audio conventionnelles pour améliorer l'information vocale (speech enhancement).
  • Ce traitement pourra être utilisé dans le cadre de la présente invention pour distinguer entre les phases de parole et les phases de silence du locuteur. Pour tenir compte du fait que dans un habitacle automobile les mouvements de l'utilisateur sont lents tandis que les mouvements de la bouche sont rapides, on peut par exemple, une fois localisée la bouche, comparer deux images consécutives et évaluer le décalage sur un même pixel.
  • L'avantage de cette technique d'analyse d'image est de disposer d'une information complémentaire totalement indépendante de l'environnement de bruit acoustique.
  • Un autre exemple de capteur utilisable pour la détection d'activité vocale "parfaite" est un capteur physiologique susceptible de détecter certaines vibrations vocales du locuteur qui ne soient pas ou peu corrompues par le bruit environnant.
  • Un tel capteur peut être notamment constitué d'un accéléromètre ou d'un capteur piézoélectrique appliqué contre la joue ou la tempe du locuteur. En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cordes vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. La bouche, le voile du palais, le pharynx, les sinus et les fosses nasales servent ensuite de caisse de résonance à ce son voisé et, leur paroi étant élastique, elles vibrent à leur tour et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe.
  • Ces vibrations au niveau de la joue et de la tempe présentent la caractéristique d'être, par nature, très peu corrompues par le bruit environnant : en effet, en présence de bruits extérieurs, même importants, les tissus de la joue et de la tempe ne vibrent quasiment pas, et ceci quelle que soit la composition spectrale du bruit extérieur.
  • Un capteur physiologique qui recueille ces vibrations vocales dépourvues de bruit donne un signal représentatif de la présence ou de l'absence de sons voisés émis par le locuteur, permettant donc de discriminer très bien les phases de parole et les phases de silence du locuteur.
  • Un tel capteur physiologique peut être notamment incorporé à un ensemble combiné micro/casque tel qu'illustré sur la Figure 7.
  • Sur cette figure, la référence 32 désigne de façon générale le casque selon l'invention, qui comporte deux oreillettes 34 réunies par un arceau. Chacune des oreillettes est de préférence constituée d'une coque fermée 36, logeant un transducteur de reproduction sonore, appliquée autour de l'oreille de l'utilisateur avec interposition d'un coussinet 38 isolant l'oreille de l'extérieur.
  • Le capteur physiologique 40 servant à la détection d'activité vocale est par exemple un accéléromètre intégré dans le coussinet 38 de manière à venir s'appliquer contre la joue ou la tempe de l'utilisateur avec un couplage le plus étroit possible. Ce capteur physiologique 40 peut notamment être placé sur la face intérieure de la peau du coussinet 38 de sorte que, une fois le casque mis en place, le capteur soit appliqué contre la joue ou la tempe de l'utilisateur sous l'effet d'une légère pression résultant de l'écrasement du matériau du coussinet, avec seulement interposition de la peau extérieure de ce coussinet.
  • Le casque porte également les micros 10, 12 du circuit de recueil et de débruitage de la parole du locuteur. Ces deux micros sont des micros omnidirectionnels placés sur la coque 36, et ils sont disposés avec le micro 10 placé en avant (plus proche de la bouche du porteur du casque) et le micro 12 placé plus en arrière. D'autre part la direction d'alignement 42 des deux micros 10, 12 est approximativement dirigée vers la bouche 44 du porteur du casque.
  • La Figure 8 est un schéma par blocs montrant les différentes fonctions mises en oeuvre par le combiné micro/casque de la Figure 7.
  • On retrouve sur cette figure les deux micros 10 et 12, ainsi que le détecteur d'activité vocale 20. Le micro avant 10 est le micro principal et le micro arrière 12 sert d'entrée au filtre adaptatif 16 du combineur 14. Le détecteur d'activité vocale 20 est contrôlé par le signal délivré par le capteur physiologique 40, avec par exemple lissage de la puissance du signal délivré par ce capteur 40 : puissance capteur n = α . puissance capteur n - 1 + 1 - α . capteur n 2
    Figure imgb0012

    α étant une constante de lissage proche de 1. Il suffit alors de fixer un seuil ζ tel que ce seuil soit dépassé dès que le locuteur parle.
  • La Figure 9 illustre l'allure des signaux recueillis :
    • le signal S10 du chronogramme du haut correspond à ce qui est capté par le micro avant 10 : on voit qu'il est impossible d'opérer à partir de ce signal (bruité) une discrimination efficace entre les phases de présence et d'absence de parole.
    • le signal S40 du chronogramme du bas correspond à ce que délivre concurremment le capteur physiologique 40 : les phases successives de présence et d'absence de parole y sont marquées de façon bien plus apparente. Le signal binaire désigné VAD correspond à l'indication délivrée par le détecteur d'activité vocale 20 ('1' = présence de parole ; '0' = absence de parole), après évaluation de la puissance du signal S40 et comparaison par rapport au seuil ξ prédéfini.
  • Le signal délivré par le capteur physiologique 40 peut être utilisé non seulement comme signal d'entrée d'un détecteur d'activité vocale, mais également pour enrichir le signal capté par les micros 10 et 12, notamment dans le bas du spectre.
  • Bien sûr, les signaux délivrés par le capteur physiologique, qui correspondent aux sons voisés, ne sont pas à proprement parler de la parole puisque la parole n'est pas seulement formée de sons voisés, elle contient des composantes qui ne naissent pas au niveau des cordes vocales : le contenu fréquentiel est par exemple beaucoup plus riche avec le son provenant de la gorge et émis par la bouche. De plus, la conduction osseuse interne et la traversée de la peau a pour effet de filtrer certaines composantes vocales.
  • Par ailleurs, en raison du filtrage dû à la propagation des vibrations jusqu'à la tempe ou la joue, le signal recueilli par le capteur physiologique est utilisable uniquement dans les basses fréquences, principalement dans la région inférieure du spectre sonore (typiquement 0-1500 Hz).
  • Mais comme les bruits généralement rencontrés dans un environnement habituel (rue, métro, train, ...) sont majoritairement concentrés dans les basses fréquences, le signal d'un capteur physiologique présente l"avantage considérable d'être naturellement dépourvu de composante parasite de bruit il sera donc possible d'utiliser ce signal dans le bas du spectre, en le complétant dans le haut du spectre (au-dessus de 1500 Hz) par les signaux (bruités) recueillis par les micros 10 et 12, après avoir soumis ces signaux à une réduction de bruit opérée par le combineur adaptatif 14.
  • Le spectre complet est reconstruit au moyen du bloc de mixage 46 qui reçoit parallèlement : le signal du capteur physiologique 40 pour le bas du spectre, et le signal des micros 10 et 12 après débruitage par le combineur adaptatif 14 pour le haut du spectre. Cette reconstruction est opérée par sommation des signaux, qui sont appliqués en synchronisme au bloc de mixage 46 de manière à éviter toute déformation.
  • Le signal résultant délivré par le bloc 46 peut être soumis à une réduction de bruit finale par le circuit 48, opérée dans le domaine fréquentiel selon une technique conventionnelle comparable à celle décrite par exemple dans le WO 2007/099222 A1 (Parrot ), pour donner en sortie le signal débruité final S.
  • La mise en oeuvre de cette technique est toutefois fortement simplifiée par rapport à ce qui est enseigné par exemple dans le document précité. En effet, dans le cas présent il n'est plus nécessaire d'évaluer une probabilité de présence de parole à partir du signal recueilli, puisque cette information peut être directement obtenue par le bloc de détection d'activité vocale 20 en réponse à la détection de l'émission de son voisé détecté par le capteur physiologique 40. L'algorithme peut être ainsi simplifié et rendu plus efficace et plus rapide.
  • La réduction de bruit fréquentielle est avantageusement opérée de façon différente en présence et en l'absence de parole (information donnée par le détecteur d'activité vocale parfait 20) :
    • en l'absence de parole, la réduction de bruit est maximale sur toutes les bandes de fréquences, c'est-à-dire que le gain correspondant au débruitage maximum est appliqué de la même façon sur toutes les composantes du signal (puisque l'on est certain dans ce cas que celui-ci ne contient pas de composante utile) ;
    • en revanche, en présence de parole, la réduction de bruit est une réduction fréquentielle, appliquée de façon différenciée sur chaque bande de fréquences selon le schéma classique.
  • Le système que l'on vient de décrire permet d'obtenir d'excellentes performances globales, typiquement de l'ordre de 30 à 40 dB de réduction de bruit sur le signal de parole du locuteur proche. Le combineur adaptatif 14 opérant sur les signaux captés par les micros 10 et 12 permet en particulier, avec le filtrage à délai fractionnaire, d'obtenir de très bonnes performances de débruitage dans les hautes fréquences.
  • Grâce à l'élimination de tous les bruits parasites, cela donne l'impression au locuteur distant (celui avec lequel le porteur du casque est en communication) que son interlocuteur (le porteur du casque) se trouve dans une pièce silencieuse.

Claims (8)

  1. Un équipement audio, comprenant :
    - un ensemble de deux capteurs microphoniques (10, 12) aptes à recueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ;
    - des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; et
    - des moyens de débruitage d'un signal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement,
    dans lequel les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif (14) des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques (10) sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique (12) ;
    équipement caractérisé en ce que :
    - le filtre adaptatif (16) est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage ;
    - l'équipement comprend en outre des moyens de détection d'activité vocale (20, 22) aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et
    - le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole.
  2. L'équipement audio de la revendication 1, dans lequel le filtre adaptatif (16) est apte à estimer un filtre optimal H tel que : H ^ = G ^ F ^
    Figure imgb0013

    avec : n = G x n et G k = sinc k + τ / Te ,
    Figure imgb0014
    représentant l'estimée du filtre optimal H, transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire,
    représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques,
    représentant l'estimée de la réponse acoustique de l'environnement,
    Ⓧ indiquant une convolution,
    x(n) étant la série d'échantillons du signal en entrée du filtre H,
    x'(n) étant la série x(n) décalée d'un retard τ,
    Te étant la période d'échantillonnage du signal en entrée du filtre H,
    τ étant ledit délai fractionnaire, égal à un sous-multiple de Te, et
    sinc indiquant la fonction sinus cardinal.
  3. L'équipement audio de la revendication 1, dans lequel le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS.
  4. L'équipement audio de la revendication 1, dans lequel :
    - l'équipement comprend en outre une caméra video (26) dirigée vers l'utilisateur (30) de l'équipement et apte à capter une image de celui-ci, et
    - les moyens de détection d'activité vocale (20) comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur.
  5. L'équipement audio de la revendication 1, dans lequel :
    - l'équipement comprend en outre un capteur physiologique (40) apte à venir en contact avec la tête de l'utilisateur de l'équipement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, et
    - les moyens de détection d'activité vocale (20) comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur.
  6. L'équipement audio de la revendication 5, dans lequel les moyens de détection d'activité vocale comprennent des moyens d'évaluation de l'énergie du signal délivré par le capteur physiologique, et des moyens à seuil.
  7. L'équipement audio de la revendication 6, dans lequel l'équipement est un casque audio du type combiné micro/casque, comprenant :
    - des écouteurs (34) comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque (36) pourvue d'un coussinet (38) circumaural ;
    - lesdits deux capteurs microphoniques (10, 12), disposés sur la coque de l'un des écouteurs ; et
    - ledit capteur physiologique (40), incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact avec la joue ou la tempe du porteur du casque.
  8. L'équipement audio de la revendication 7, dans lequel les deux capteurs microphoniques (10, 12) sont alignés en un réseau linéaire suivant une direction principale (42) dirigée vers la bouche (44) de l'utilisateur de l'équipement.
EP12170407.6A 2011-06-01 2012-06-01 Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire Active EP2530673B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1154825A FR2976111B1 (fr) 2011-06-01 2011-06-01 Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"

Publications (2)

Publication Number Publication Date
EP2530673A1 true EP2530673A1 (fr) 2012-12-05
EP2530673B1 EP2530673B1 (fr) 2013-07-10

Family

ID=44533268

Family Applications (1)

Application Number Title Priority Date Filing Date
EP12170407.6A Active EP2530673B1 (fr) 2011-06-01 2012-06-01 Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire

Country Status (6)

Country Link
US (1) US8682658B2 (fr)
EP (1) EP2530673B1 (fr)
JP (1) JP6150988B2 (fr)
CN (1) CN103002170B (fr)
ES (1) ES2430121T3 (fr)
FR (1) FR2976111B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110447073B (zh) * 2017-03-20 2023-11-03 伯斯有限公司 用于降噪的音频信号处理

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2974655B1 (fr) * 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
FR3002679B1 (fr) * 2013-02-28 2016-07-22 Parrot Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement
US9185199B2 (en) 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US20150199950A1 (en) * 2014-01-13 2015-07-16 DSP Group Use of microphones with vsensors for wearable devices
FR3021180B1 (fr) * 2014-05-16 2016-06-03 Parrot Casque audio a controle actif de bruit anc avec prevention des effets d'une saturation du signal microphonique "feedback"
CA2953619A1 (fr) * 2014-06-05 2015-12-10 Interdev Technologies Inc. Systemes et procedes d'interpretation de donnees vocales
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN106157963B (zh) * 2015-04-08 2019-10-15 质音通讯科技(深圳)有限公司 一种音频信号的降噪处理方法和装置及电子设备
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3147896B1 (fr) * 2015-09-25 2023-05-31 Harman Becker Automotive Systems GmbH Système de contrôle actif du bruit de la route avec détection de surcharge du signal de détection primaire
CN110036441B (zh) * 2016-12-16 2023-02-17 日本电信电话株式会社 目标音强调装置及方法、噪音估计用参数学习装置及方法、记录介质
WO2018119467A1 (fr) * 2016-12-23 2018-06-28 Synaptics Incorporated Traitement de signal audio à entrées multiples et sorties multiples (mimo) afin d'exécuter une dé-réverbération de la parole
US10366708B2 (en) * 2017-03-20 2019-07-30 Bose Corporation Systems and methods of detecting speech activity of headphone user
JP6821126B2 (ja) * 2017-05-19 2021-01-27 株式会社Jvcケンウッド ノイズ除去装置、ノイズ除去方法およびノイズ除去プログラム
CN108810692A (zh) * 2018-05-25 2018-11-13 会听声学科技(北京)有限公司 主动降噪系统、主动降噪方法及耳机
US10455319B1 (en) * 2018-07-18 2019-10-22 Motorola Mobility Llc Reducing noise in audio signals
JP2020144204A (ja) * 2019-03-06 2020-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 信号処理装置及び信号処理方法
CN110049395B (zh) * 2019-04-25 2020-06-05 维沃移动通信有限公司 耳机控制方法及耳机设备
US11871190B2 (en) 2019-07-03 2024-01-09 The Board Of Trustees Of The University Of Illinois Separating space-time signals with moving and asynchronous arrays
US11227587B2 (en) * 2019-12-23 2022-01-18 Peiker Acustic Gmbh Method, apparatus, and computer-readable storage medium for adaptive null-voice cancellation
CN112822592B (zh) * 2020-12-31 2022-07-12 青岛理工大学 一种可定向聆听的有源降噪耳机及控制方法
TWI777729B (zh) * 2021-08-17 2022-09-11 達發科技股份有限公司 適應性主動雜訊消除裝置以及使用其之聲音播放系統
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法
CN115132220B (zh) * 2022-08-25 2023-02-28 深圳市友杰智新科技有限公司 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070165879A1 (en) 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
WO2007099222A1 (fr) 2006-03-01 2007-09-07 Parrot Procede de debruitage d'un signal audio
US20080280653A1 (en) 2007-05-09 2008-11-13 Motorola, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672665A (en) * 1984-07-27 1987-06-09 Matsushita Electric Industrial Co. Ltd. Echo canceller
US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
DE69628618T2 (de) * 1995-09-26 2004-05-13 Nippon Telegraph And Telephone Corp. Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US7062049B1 (en) * 1999-03-09 2006-06-13 Honda Giken Kogyo Kabushiki Kaisha Active noise control system
JP2000312395A (ja) * 1999-04-28 2000-11-07 Alpine Electronics Inc マイクロホンシステム
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
JP3568922B2 (ja) * 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
WO2004010415A1 (fr) * 2002-07-19 2004-01-29 Nec Corporation Dispositif de decodage audio, procede de decodage et programme
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
CA2473195C (fr) * 2003-07-29 2014-02-04 Microsoft Corporation Systeme multisensoriel d'entree audio monte sur la tete
JP4496379B2 (ja) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
US7533017B2 (en) * 2004-08-31 2009-05-12 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Method for recovering target speech based on speech segment detection under a stationary noise
US7844059B2 (en) * 2005-03-16 2010-11-30 Microsoft Corporation Dereverberation of multi-channel audio streams
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070165879A1 (en) 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
WO2007099222A1 (fr) 2006-03-01 2007-09-07 Parrot Procede de debruitage d'un signal audio
US20080280653A1 (en) 2007-05-09 2008-11-13 Motorola, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALAN V: "Signal Processing Series", 1985
B. WIDROW ET AL.: "Adaptative Noise Cancelling: Principles and Applications", PROC. IEEE, vol. 63, no. 12, December 1975 (1975-12-01), pages 1692 - 1716
B. WIDROW: "Adaptative Filters, Aspect of Network and System Theory", 1970, HOLT, RINEHART AND WINSTO, pages: 563 - 587
B. WIDROW; S. STEARNS: "Adaptative Signal Processing", PRENTICE-HALL
DJENDI M ET AL: "Noise Cancellation using Two Closely Spaced Microphones: Experimental Study witha Specific Model and Two Adaptive Algorithms", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2006. ICASSP 2006 PROCEEDINGS . 2006 IEEE INTERNATIONAL CONFERENCE ON TOULOUSE, FRANCE 14-19 MAY 2006, PISCATAWAY, NJ, USA,IEEE, PISCATAWAY, NJ, USA, 14 May 2006 (2006-05-14), pages III, XP031386771, ISBN: 978-1-4244-0469-8 *
G. POTAMIANOS ET AL.: "Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing", 2004, MIT PRESS, pages: 1 - 30

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110447073B (zh) * 2017-03-20 2023-11-03 伯斯有限公司 用于降噪的音频信号处理

Also Published As

Publication number Publication date
US20120310637A1 (en) 2012-12-06
FR2976111B1 (fr) 2013-07-05
US8682658B2 (en) 2014-03-25
ES2430121T3 (es) 2013-11-19
EP2530673B1 (fr) 2013-07-10
CN103002170A (zh) 2013-03-27
FR2976111A1 (fr) 2012-12-07
JP6150988B2 (ja) 2017-06-21
JP2012253771A (ja) 2012-12-20
CN103002170B (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
EP2530673B1 (fr) Equipement audio comprenant des moyens de débruitage d&#39;un signal de parole par filtrage à délai fractionnaire
EP2518724B1 (fr) Combiné audio micro/casque comprenant des moyens de débruitage d&#39;un signal de parole proche, notamment pour un système de téléphonie &#34;mains libres&#34;
EP2680262B1 (fr) Procédé de débruitage d&#39;un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité
EP2057835B1 (fr) Procédé de réduction de l&#39;écho acoustique résiduel après suppression d&#39;écho dans un dispositif &#34;mains libres&#34;
EP2293594B1 (fr) Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP2309499B1 (fr) Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP2538409B1 (fr) Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie &#34;mains libres&#34;
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
CH702399A2 (fr) Appareil et procédé pour la saisie et le traitement de la voix.
EP0752181A1 (fr) Annuleur d&#39;echo acoustique a filtre adaptatif et passage dans le domaine frequentiel
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
EP0884926B1 (fr) Procédé et dispositif de traitement optimisé d&#39;un signal perturbateur lors d&#39;une prise de son
FR2906070A1 (fr) Reduction de bruit multi-reference pour des applications vocales en environnement automobile
FR3009121A1 (fr) Procede de suppression de la reverberation tardive d&#39;un signal sonore
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
EP0989544A1 (fr) Dispositif et procédé de filtrage d&#39;un signal de parole, récepteur et système de communications téléphonique
FR3085784A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
WO2008037925A1 (fr) Reduction de bruit et de distorsion dans une structure de type forward
EP4315328A1 (fr) Estimation d&#39;un masque optimise pour le traitement de donnees sonores acquises
FR2921747A1 (fr) Procede de traitement d&#39;un signal audio dans un dispositif portable
FR2878399A1 (fr) Dispositif et procede de debruitage a deux voies mettant en oeuvre une fonction de coherence associee a une utilisation de proprietes psychoacoustiques, et programme d&#39;ordinateur correspondant

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120601

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 602012000117

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0021020000

Ipc: G10L0021020800

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 21/0208 20130101AFI20130314BHEP

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20130422

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 621363

Country of ref document: AT

Kind code of ref document: T

Effective date: 20130715

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602012000117

Country of ref document: DE

Effective date: 20130905

REG Reference to a national code

Ref country code: NL

Ref legal event code: T3

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2430121

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20131119

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 621363

Country of ref document: AT

Kind code of ref document: T

Effective date: 20130710

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131111

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130918

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131110

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131010

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131011

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20140411

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602012000117

Country of ref document: DE

Effective date: 20140411

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140601

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140601

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 4

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20150724

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602012000117

Country of ref document: DE

Owner name: PARROT AUTOMOTIVE, FR

Free format text: FORMER OWNER: PARROT, PARIS, FR

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140602

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20151029 AND 20151104

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: PARROT AUTOMOTIVE, FR

Effective date: 20151201

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: NL

Ref legal event code: PD

Owner name: PARROT AUTOMOTIVE; FR

Free format text: DETAILS ASSIGNMENT: VERANDERING VAN EIGENAAR(S), OVERDRACHT; FORMER OWNER NAME: PARROT

Effective date: 20151102

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150630

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150630

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20120601

Ref country code: BE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140630

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130710

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20190619

Year of fee payment: 8

REG Reference to a national code

Ref country code: NL

Ref legal event code: MM

Effective date: 20200701

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200701

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20230523

Year of fee payment: 12

Ref country code: FR

Payment date: 20230523

Year of fee payment: 12

Ref country code: DE

Payment date: 20230523

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230523

Year of fee payment: 12