EP2530673A1 - Audio device with suppression of noise in a voice signal using a fractional delay filter - Google Patents

Audio device with suppression of noise in a voice signal using a fractional delay filter Download PDF

Info

Publication number
EP2530673A1
EP2530673A1 EP20120170407 EP12170407A EP2530673A1 EP 2530673 A1 EP2530673 A1 EP 2530673A1 EP 20120170407 EP20120170407 EP 20120170407 EP 12170407 A EP12170407 A EP 12170407A EP 2530673 A1 EP2530673 A1 EP 2530673A1
Authority
EP
Grant status
Application
Patent type
Prior art keywords
speech
signal
equipment
filter
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP20120170407
Other languages
German (de)
French (fr)
Other versions
EP2530673B1 (en )
Inventor
Guillaume Vitte
Michael Herve
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

The equipment has microphones (10, 12) for picking up a speech of a user of the equipment, and an adaptive filter (16), which is a fractional delay filter for modeling a delay shorter than a sampling period of a sampling unit. A voice activity detector (20) and a sensor (22) deliver signals representing presence or absence of the speech. The adaptive filter receives the signals representing presence or absence of speech so as to act selectively either to perform an adaptive search for filter parameters in the absence of speech or to freeze the parameters in the presence of speech. The adaptive filter is a filter having a least mean square (LMS) type linear prediction algorithm.

Description

  • L'invention concerne le traitement de la parole en milieu bruité. The invention relates to the treatment of speech in a noisy environment.
  • Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité. It relates in particular processing speech signals picked up by type of telephony devices "hands free" for use in a noisy environment.
  • Ces appareils comportent un ou plusieurs microphones ("micros") sensibles, captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. These devices include one or more microphones ( "micro") sensitive, capturing not only the voice of the user, but also the surrounding noise, noise that is disruptive up in some cases to make the lyrics unintelligible speaker . Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé. It is the same if we want to implement voice recognition techniques, because it is very difficult to operate a form of recognition for words embedded in a high noise level.
  • Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'accessoires en forme de boîtier amovible intégrant tous les composants et fonctions de traitement du signal pour la communication téléphonique. This difficulty related to environmental noise is particularly compelling in the case of devices "hands free" for motor vehicles, be it equipment incorporated in the vehicle or removable box-shaped accessories including all components and functions signal processing for the telephone call.
  • En effet, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle supérieur du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) entraîne la captation d'un niveau de bruit relativement élevé, qui rend difficile l'extraction du signal utile noyé dans le bruit. Indeed, the large distance between the microphone (placed at the dashboard or in a upper corner of the flag of the passenger compartment) and the speaker (whose distance is constrained by the driving position) results in the uptake of a relatively high noise level, which makes it difficult to extract the useful signal buried in noise. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc. In addition, the very noisy environment typical automotive environment presents non-stationary spectral characteristics, that is to say, which vary unpredictably as a function of driving conditions: driving on bumpy or paved roads, car radio in operation etc.
  • Des difficultés du même genre se présentent dans le cas où le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque. similar difficulties arise in the event that the device is a headset microphone type handset / headset used for communication functions such as telephony functions "hands free", in addition to listening to a source audio (e.g. music) from a device that is connected headphones.
  • Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). In this case, it is to ensure sufficient intelligibility of the signal picked up by the microphone, that is to say, the speech signal of the near speaker (the helmet wearer). Or, le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants. However, the headset can be used in a noisy environment (metro, busy street, train, etc.), so that the microphone will capture not only the helmet wearer's speech, but also the surrounding noise. Le porteur est certes protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". The bearer is certainly protected from the noise by the helmet, particularly if it is a model headphones closed insulating the ear from the outside, and more if the headset is provided with an "active control noise". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). In contrast, remote speaker (the one located at the other end of the communication channel) will suffer from the noise picked up by the microphone and which is superimposed and interfere with the speech signal of the near speaker (the helmet wearer). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels. In particular, some of the formant key word to understanding the voices are often drowned in noise components commonly encountered in conventional environments.
  • L'invention concerne plus particulièrement les techniques de débruitage mettant en oeuvre plusieurs micros, généralement deux micros, pour combiner de façon judicieuse les signaux captés simultanément par ces micros afin d'isoler les composantes de parole utiles des composantes de bruits parasites. The invention relates more particularly to techniques for denoising using several microphones, usually two microphones, for combining wisely simultaneously the signals received by these microphones in order to isolate the useful speech components of noise components.
  • Une technique classique consiste à placer et orienter l'un des micros pour qu'il capte principalement la voix du locuteur, tandis que l'autre est disposé de manière à capter une composante de bruit plus importante que le micro principal. A conventional technique consists in placing and orienting one of the microphones to that mainly captures the voice of the speaker, while the other is arranged so as to capture a larger noise component than the main microphone. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant par analyse de cohérence spatiale des deux signaux, avec des moyens logiciels relativement simples. Comparing the sensed signals to retrieve the voice from ambient noise by analyzing spatial coherence of the two signals, with relatively simple software means.
  • Le The US 2008/0280653 A1 US 2008/0280653 A1 décrit une telle configuration, où l'un des micros (celui qui capte principalement la voix) est celui d'une oreillette sans fil portée par le conducteur du véhicule, tandis que l'autre (celui qui capte principalement le bruit) est celui de l'appareil téléphonique, placé à distance dans l'habitacle du véhicule, par exemple accroché au tableau de bord. describes such a configuration, where one of the microphones (one that mainly captures voice) is one of a wireless headset worn by the driver of the vehicle, while the other (the one that picks up mainly noise) is one of the telephone apparatus, placed at a distance in the vehicle cabin, for example hung on the dashboard.
  • Cette technique présente cependant l'inconvénient de nécessiter deux micros distants, l'efficacité étant d'autant plus élevée que les deux micros sont éloignés. This technique has the disadvantage of requiring two remote microphones, efficiency being higher when both pickups are remote. De ce fait, cette technique n'est pas applicable à un dispositif dans lequel les deux micros sont rapprochés, par exemple deux micros incorporés à la façade d'un autoradio de véhicule automobile, ou deux micros qui seraient disposés sur l'une des coques d'un écouteur de casque audio. Therefore, this technique is not applicable to a device wherein the two microphones are close together, for example two microphones incorporated in the front of a car radio for a motor vehicle, or two microphones which are disposed on one of the shells a headphone earpiece.
  • Une autre technique encore, dite beamforming, consiste à créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit du réseau ou "antenne" de micros. Yet another technique, called beamforming, is to create by software means directivity which improves the signal / noise ratio of the network or "antenna" microphones. Le The US 2007/0165879 A1 US 2007/0165879 A1 décrit une telle technique, appliquée à une paire de micros non-directionnels placés dos à dos. describes such a technique, applied to a pair of non-directional microphones placed back to back. Un filtrage adaptatif des signaux captés permet de dériver en sortie un signal dans lequel la composante de voix a été renforcée. Adaptively filtering the received signals used to derive an output signal in which the voice component has been strengthened.
  • Toutefois, on estime qu'une telle méthode ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros, les performances étant extrêmement limitées lorsque seulement deux micros sont utilisés. However, it is estimated that such a method provides good results only if they have a network of at least eight microphones, performance is extremely limited when only two microphones are used.
  • Le problème général de l'invention est, dans un tel contexte, de procéder à une réduction de bruit efficace permettant de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche (conducteur du véhicule ou porteur du casque), en débarrassant ce signal des composantes parasites de bruit extérieur présentes dans l'environnement de ce locuteur proche. The general problem of the invention is, in this context, to carry out an effective noise reduction for delivering to the remote speaker voice signal representative of the speech uttered by the near speaker (driver of the vehicle or helmet wearer) ridding the signal of the external noise nuisance components in the environment of the near speaker.
  • Le problème de l'invention est également, dans une telle situation, de pouvoir mettre en oeuvre un ensemble de micros à la fois en nombre réduit (avantageusement deux micros seulement) et relativement rapprochés (typiquement un écartement de quelques centimètres seulement). The problem of the invention is also, in such a situation, be able to implement a set of microphones at the same time reduced in number (preferably only two microphones) and relatively short (typically a spacing of only a few centimeters). Un autre aspect important du problème est la nécessité de restituer un signal de parole naturelle et intelligible, c'est-à-dire non distordu et dont le spectre des fréquences utiles ne soit pas amputé par les traitements de débruitage. Another important aspect is the need to restore a signal of natural and intelligible speech, that is to say not distorted and that the useful frequency spectrum is not cut by the treatments denoising.
  • A cet effet, l'invention propose un équipement audio du type général divulgué par le To this end, the invention provides a general type of audio equipment disclosed by US 2008/0280653 A1 US 2008/0280653 A1 précité, c'est-à-dire comprenant : un ensemble de deux capteurs microphoniques aptes à recueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ; supra, that is to say comprising: a set of two microphone sensors adapted to collect the user equipment speech and outputting respective noisy speech signals; des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; sampling means speech signals from the microphone sensors; et des moyens de débruitage d'un signal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement. and means for denoising of a speech signal, receiving as input the samples of the speech signals supplied by the two microphone sensors, and outputting a noise-suppressed speech signal representative of the speech uttered by the user equipment . Les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique. The means for denoising are non-frequency noise reduction means comprising an adaptive filter combiner of signals delivered by the two microphone sensors, operating by iterative search to cancel the noise picked up by one of the microphone elements on the basis of a noise reference given by the signal issued by the other microphone element.
  • De façon caractéristique de l'invention, le filtre adaptatif est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage. Typically of the invention, the adaptive filter is a fractional delay filter adapted to model a delay less than the sampling period of the sampling means. L'équipement comprend en outre des moyens de détection d'activité vocale aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole. The equipment further comprises voice activity detection means capable of delivering a signal representative of the presence or absence of speech by the user equipment, and the adaptive filter also receives as input the signal presence or absence of speech, so as to selectively: i) operating an adaptive search of the filter parameters in the absence of speech, ii) freeze these filter parameters in the presence of speech.
  • Le filtre adaptatif est notamment apte à estimer un filtre optimal H tel que : The adaptive filter is especially adapted to estimate an optimal filter H such that: H H ^ ^ = = G G ^ ^ F F ^ ^
    Figure imgb0001

    avec : with: x ' n not = = G G x x n not et and G G k k = = sinc sinc k k + + τ τ / / Te You , ,
    Figure imgb0002
  • Ĥ
    représentant l'estimée du filtre optimal H , transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire, representing the estimate of the optimal filter H, noise transfer between the two microphone sensors to an impulse response including a fractional delay,
    Ĝ
    représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques, representing the estimated fractional delay filter G between the two microphone sensors,
    F
    représentant l'estimée de la réponse acoustique de l'environnement, representing the estimate of the acoustic response of the environment,
    indiquant une convolution, indicating a convolution,
    x(n) x (n)
    étant la série d'échantillons du signal en entrée du filtre H , being the series of samples of the input signal of the filter H,
    x'(n) x '(n)
    étant la série x ( n ) décalée d'un retard τ, being the series x (n) shifted by a delay τ,
    Te You
    étant la période d'échantillonnage du signal en entrée du filtre H , being the sampling period of the input signal of the filter H,
    τ τ
    étant ledit délai fractionnaire, égal à un sous-multiple de Te, et said fractional delay being equal to a submultiple of Te, and
    sinc sinc
    indiquant la fonction sinus cardinal. indicating the sinc function.
  • De préférence, le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS. Preferably, the adaptive filter is a linear prediction filter algorithm least mean squares type LMS.
  • Dans une forme de réalisation, l'équipement comprend une caméra video dirigée vers l'utilisateur de l'équipement et apte à capter une image de celui-ci, et les moyens de détection d'activité vocale comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur. In one embodiment, the equipment comprises a video camera directed towards the user equipment and capable of capturing an image thereof, and the voice activity detection means comprises means capable of video analysis analyzing the image produced by the camera and outputting in response to said signal presence or absence of speech by said user.
  • Dans une autre forme de réalisation, l'équipement comprend un capteur physiologique apte à venir en contact avec la tête de l'utilisateur de l'équipement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, et les moyens de détection d'activité vocale comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur, notamment par évaluation de l'énergie du signal délivré par le capteur physiologique et comparaison à un seuil. In another embodiment, the equipment comprises a physiological sensor adapted to come into contact with the head of the equipment user to be coupled to receive the non-acoustic voice vibration transmitted by internal bone conduction, and voice activity detection means comprises means capable of analyzing the signal delivered by the physiological sensor and outputting in response to said signal presence or absence of speech by said user, in particular by evaluating the energy of the signal delivered by the physiological sensor and compared to a threshold.
  • L'équipement peut en particulier être un casque audio du type combiné micro/casque, comprenant : des écouteurs comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque pourvue d'un coussinet circumaural ; The equipment may in particular be a headset of the combined microphone / headphone type, comprising: earphones each comprising a sound reproduction transducer housed an audio signal in a shell provided with a circumaural cushion; lesdits deux capteurs microphoniques, disposés sur la coque de l'un des écouteurs ; said two microphone sensors, arranged on the hull of a headset; et ledit capteur physiologique, incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact avec la joue ou la tempe du porteur du casque. and said physiological sensor incorporated in the pad of one of the earphone and placed in a region thereof adapted to come into contact with the cheek or the forehead of the helmet wearer. Ces deux capteurs microphoniques sont de préférence alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche de l'utilisateur de l'équipement. These two microphone sensors are preferably aligned in a linear array in a main direction toward the mouth of the user equipment.
  • On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables. will now be described an example of implementation of the device of the invention, with reference to the accompanying drawings where like reference numerals from one figure to the other identical or functionally similar elements.
    • La The Figure 1 Figure 1 illustre de façon schématique, sous forme de blocs fonctionnels, la manière dont est réalisé le traitement de débruitage selon l'invention. schematically illustrates, in the form of functional blocks, the manner in which the treatment is carried denoising according to the invention.
    • La The Figure 2 Figure 2 est une représentation graphique de la fonction sinus cardinal modélisée dans le traitement de débruitage de l'invention. is a graphical representation of the cardinal sine function modeled in the denoising processing of the invention.
    • Les The Figures 3a et 3b Figures 3a and 3b sont des représentations de la fonction sinus cardinal de la are representations of the cardinal sine function of the Figure 2 Figure 2 , respectivement pour les différents points d'une série d'échantillons de signal, et pour la même série décalée dans le temps d'une valeur fractionnaire. Respectively for the different points of a series of signal samples, and for the same series in the time domain of a fractional value.
    • La The Figure 4 Figure 4 est une représentation de la réponse acoustique de l'environnement, avec en ordonnée l'amplitude et en abscisse les coefficients du filtre représentant ce transfert. is a representation of the acoustic response of the environment, with the ordinate the amplitude and the abscissa representing the coefficients of the filter transfer.
    • La The Figure 5 Figure 5 est homologue de la is homologous to the Figure 4 Figure 4 , après convolution avec une réponse en sinus cardinal. After convolution with a sinc response.
    • La The Figure 6 Figure 6 est une représentation schématique d'un mode de réalisation consistant à utiliser une caméra pour assurer la détection d'activité vocale. is a schematic representation of one embodiment of using a camera for detection of voice activity.
    • La The Figure 7 Figure 7 illustre de façon générale un ensemble micro/casque combiné auquel peuvent être appliqués les enseignements de l'invention. generally illustrates a micro assembly / combined helmet which can be applied the teachings of the invention.
    • La The Figure 8 Figure 8 est un schéma d'ensemble qui illustre sous forme de blocs fonctionnels la manière dont peut être réalisé le traitement du signal pour délivrer en sortie un signal débruité représentatif de la parole émise par le porteur du casque de la is a block diagram illustrating the form of functional blocks the way can be carried out signal processing for outputting a noise-suppressed speech signal representative of the emitted by the wearer of the helmet of Figure 7 Figure 7 . .
    • La The Figure 9 Figure 9 illustre deux chronogrammes correspondant respectivement à un exemple de signal brut recueilli par les micros, et de signal recueilli par un capteur physiologique permettant de distinguer les périodes de parole et les périodes de silence du locuteur. shows two timing diagrams respectively corresponding to an exemplary raw signal collected by the microphones, and a signal collected by physiologic sensor for distinguishing between periods of speech and periods of silence of the speaker.
  • La The Figure 1 Figure 1 illustre de façon schématique, sous forme de blocs, les différentes fonctions mises en oeuvre par l'invention. schematically illustrates, in block form, the various functions implemented by the invention.
  • Le processus de l'invention est mis en oeuvre par des moyens logiciels, schématisés par un certain nombre de blocs fonctionnels correspondant à des algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. The process of the invention is implemented by software means, schematized by a number of functional blocks corresponding to appropriate algorithms executed by a microcontroller or a digital signal processor. Bien que, pour la clarté de l'exposé, les différentes fonctions soient présentées sous forme de modules distincts, elles mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel. Although for the sake of clarity, the various functions are presented as separate modules, they implement common elements and correspond in practice to a plurality of generally executed by the same software functions.
  • Le signal que l'on souhaite débruiter est issu d'un réseau de capteurs microphoniques qui, dans la configuration minimale illustrée, peut être simplement un réseau de deux capteurs disposés selon une configuration prédéterminée, chaque capteur étant constitué d'un micro respectif correspondant 10, 12. The signal which it is desired to denoise comes from a microphone array of sensors which, in the illustrated system requirements, can be simply an array of two sensors disposed in a predetermined configuration, each sensor being constituted by a respective corresponding microphone 10 12.
  • L'invention peut toutefois être généralisée à un réseau de plus de deux capteurs microphoniques, et/ou à des capteurs microphoniques dont chaque capteur est constitué d'une structure plus complexe qu'un simple micro, par exemple une combinaison de plusieurs micros et/ou autres capteurs de parole. The invention may, however, be generalized to a network of more than two microphone sensors, and / or microphone sensors which each sensor consists of a more complex than a single micro structure, e.g., a combination of several microphones and / or other words sensors.
  • Les micros 10, 12 sont des micros qui captent le signal émis par la source de signal utile (le signal de parole du locuteur), et la différence de position entre les deux micros induit un ensemble de déphasages et variations d'amplitude dans l'enregistrement des signaux émis par la source de signal utile. The microphones 10, 12 are microphones which pick up the signal from the useful signal source (the speech signal of the speaker), and the positional difference between the two microphones induced a set of phase shifts and amplitude changes in the recording the signals emitted by the source useful signal.
  • En pratique, les deux micros 10, 12, sont des micros omnidirectionnels disposés à quelques centimètres l'un de l'autre sur le plafonnier d'un habitacle de voiture, sur la façade d'un autoradio ou d'un emplacement approprié de la planche de bord, ou bien sur la coque d'un des écouteurs d'un casque audio, etc. In practice, the two microphones 10, 12, are omnidirectional microphones positioned a few centimeters from each other on the ceiling of a car interior, on the front of a car radio or a suitable location dashboard or on the hull of an earphone of a headset, etc.
  • Comme on le verra, la technique de l'invention permet d'assurer un débruitage efficace même pour des micros très rapprochés, c'est-à-dire espacés entre eux d'un écartement d tel que le retard de phase maximal d'un signal capté par un micro puis par l'autre soit inférieur à la période d'échantillonnage du convertisseur de numérisation des signaux. As we shall see, the technique of the invention ensures an effective denoising even for closely spaced microphones, that is to say spaced apart by a distance d such that the maximum phase delay of signal picked up by a microphone and the other is less than the sampling period of the scan converter of the signals. Ceci correspond à une distance maximale d de l'ordre de 4,7 cm pour une fréquence d'échantillonnage F e de 8 kHz (et un écartement d moitié moindre pour une fréquence double, etc.). This corresponds to a maximum distance of about 4.7 cm for a sampling frequency F e of 8 kHz (and a lesser spacing of half to twice the frequency, etc.).
  • Un signal de parole émis par un locuteur proche atteindra l'un des micros avant l'autre, et présentera donc un retard, et donc un déphasage ϕ, sensiblement constant. A speech signal from the near speaker will reach one of the microphones before the other, and therefore present a delay, and therefore a phase shift φ, substantially constant. Pour du bruit, il peut certes exister également un déphasage entre les deux micros 10 et 12. En revanche, la notion de déphasage étant liée à la notion de direction d'onde incidente, on peut s'attendre à ce que ce déphasage soit différent de celui de la parole. For noise, it can certainly also be a phase shift between the two microphones 10 and 12. However, the concept of phase shift being related to the concept of incident wave direction, it can be expected that this phase shift is different that of speech. Par exemple, si un bruit directif est dirigé dans le sens opposé à celui de la bouche, son déphasage sera de -ϕ si le déphasage pour la voix est de ϕ. For example, if a directional sound is directed in the opposite direction to that of the mouth, its phase will be -φ if the phase shift for voice is φ. Dans le cas de l'invention, la réduction de bruit sur les signaux captés par les micros 10 et 12 n'est pas opérée dans le domaine fréquentiel (comme cela est souvent le cas avec les techniques conventionnelles de débruitage) mais dans le domaine temporel. In the case of the invention, the noise reduction on signals picked up by the microphones 10 and 12 is not operated in the frequency domain (as is often the case with conventional techniques for noise suppression) but in the time domain .
  • Cette réduction de bruit est opérée au moyen d'un algorithme recherchant la fonction de transfert entre l'un des micros (par exemple le micro 10) et l'autre micro (le micro 12) au moyen d'un combineur adaptatif 14 mettant en oeuvre un filtre prédictif 16 de type LMS ( Least Mean Squares, moindres carrés moyens). This noise reduction is performed by means of an algorithm searching the transfer function between one of the microphones (e.g. the microphone 10) and the other microphone (the microphone 12) by means of an adaptive combiner 14 using implementing a predictive filter 16 type LMS (least Mean squares, least Mean square). La sortie du filtre 16 est soustraite en 18 du signal du micro 10 pour donner un signal S débruité, appliqué en retour au filtre 16 pour permettre son adaptation itérative en fonction de l'erreur de prédiction. The output of filter 16 is subtracted 18 from the microphone signal 10 to provide a denoised signal S, fed back to the filter 16 to allow the iterative adaptation based on the prediction error. Il est ainsi possible de prédire à partir du signal capté par le micro 12 la composante de bruit contenue dans le signal capté par le micro 10 (la fonction de transfert identifiant le transfert du bruit). It is thus possible to predict from the signal picked up by the microphone 12, the noise component contained in the signal picked up by the microphone 10 (the transfer function identifier noise transfer).
  • La recherche adaptative de la fonction de transfert entre les deux micros n'est opérée que pendant les phases d'absence de parole. Adaptive research of the transfer function between the two microphones is operated only during the absence of speech phases. Pour cela, l'adaptation itérative du filtre 16 n'est activée que lorsqu'un détecteur 20 d'activité vocale VAD ( Voice Activity Detector ) piloté par un capteur 22 indique que le locuteur proche n'est pas en train de parler. For this, the iterative adaptation of the filter 16 is activated when a detector 20 voice activity VAD (Voice Activity Detector) controlled by a sensor 22 indicates that the near speaker is not speaking. Cette fonction est schématisée par le commutateur 24 : en l'absence de signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 cherche à optimiser la fonction de transfert entre les deux micros 10 et 12 de manière à réduire la composante de bruit (position fermée du commutateur 24, comme illustré sur la figure) ; This function is shown schematically by the switch 24: in the absence of speech signal found by the voice activity detector 20, the adaptive combiner 14 seeks to optimize the transfer function between the two microphones 10 and 12 so as to reduce the noise component (the closed position of switch 24, as shown in the figure); en revanche, en présence d'un signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 fige les paramètres du filtre 16 à la valeur à laquelle ils se trouvaient juste avant que la parole ne soit détectée (ouverture du commutateur 24), ce qui évite toute dégradation du signal de parole du locuteur proche. however, in the presence of a speech signal out by the voice activity detector 20, the adaptive combiner 14 freezes the filter parameters 16 to the value at which they were just before the speech is detected (opening of switch 24), which avoids any degradation of the speech signal from the near speaker.
  • On notera que cette manière de procéder n'est pas gênante même en présence d'un environnement bruyant évolutif, car les mises à jour des paramètres du filtre 16 sont très fréquentes puisqu'elles interviennent à chaque fois que le locuteur proche cesse de parler. Note that this procedure is not a problem even with an evolving noisy because updates of the parameters of the filter 16 are very common as they intervene whenever the near speaker stops talking.
  • De façon caractéristique de l'invention, le filtrage du combineur adaptatif 14 est un filtrage à délai fractionnaire, c'est-à-dire qu'il permet d'appliquer un filtrage entre les signaux captés par les deux micros en tenant compte d'un délai inférieur à la durée d'un échantillon de numérisation des signaux. Typically of the invention, the filter of the adaptive combiner 14 is a fractional delay filter, that is to say it allows to apply a filter between the signals picked up by the two microphones taking account of a period shorter than the duration of a scan signal sample.
  • On sait qu'un signal temporel x ( t ) de bande passante [0, Fe /2] peut être reconstitué de manière parfaite à partir de la série discrète x(k), où les échantillons x ( k ) correspondent aux valeurs de x ( t ) aux instants k.Te ( Te = 1 / Fe étant la période d'échantillonnage). It is known that a time signal x (t) of bandwidth [0, Fe / 2] can be reconstructed perfectly from the discrete series x (k), where the samples x (k) correspond to the values of x (t) at the instants k.Te (Te = 1 / Fe being the sampling period).
  • L'expression mathématique est la suivante : The mathematical expression is as follows: x x t t = = Σ k k x x k k . . sinc sinc t t - - k k . . Te You Te You
    Figure imgb0003
  • La fonction sinus cardinal sinc étant définie par : The sine function sinc Cardinal being defined by: sinc sinc t t = = sin sin pi pi * * t t pi pi * * t t
    Figure imgb0004
  • La The Figure 2 Figure 2 donne un représentation graphique de cette fonction sinc ( t ). gives a graph of the sinc function (t). Comme on peut le constater, cette fonction décroît rapidement, avec pour conséquence qu'un nombre fini et relativement faible de coefficients k dans la somme donne une très bonne approximation du résultat réel. As we can see, this function decreases rapidly, resulting in a finite and relatively small number of coefficients k in the sum gives a very good approximation of the actual result.
  • Pour un signal numérisé avec une période d'échantillonnage Te , l'intervalle ou décalage entre deux échantillons correspond de manière temporelle à une durée de Te seconde. To a digitized signal with a sampling period Te, the interval or difference between two samples temporally corresponds to a duration of Tc seconds.
  • La série x ( n ) des n échantillons successifs numérisés du signal capté peut ainsi être représentée par l'expression suivante, pour tout n entier : Series x (n) of n successive digitized samples of the received signal can thus be represented by the following expression, for any integer n: x x n not . . Te You = = Σ k k x x k k . . sinc sinc n not . . Te You - - k k . . Te You Te You
    Figure imgb0005
  • On notera que dans la somme le terme en sinc est nul pour tout k , sauf pour k = n. Note that in the short term sinc is zero for all k except for k = n.
  • La The Figure 3a 3a donne un représentation graphique de cette fonction. gives a graphic representation of the function.
  • Si l'on veut calculer cette même série x ( n ) décalée d'une valeur fractionnaire τ, c'est-à-dire d'un délai inférieur à la durée d'un échantillon de numérisation Te , l'expression ci-dessus devient : If we want to calculate the same series x (n) shifted by a fractional value τ, that is to say a lower limit to the duration of a scanning sample Te, the above expression becomes: x x n not . . Te You - - τ τ = = Σ k k x x k k . . sinc sinc n not - - k k . . Te You - - τ τ Te You
    Figure imgb0006
  • La The Figure 3b Figure 3b donne un représentation graphique de cette fonction, pour un exemple de valeur fractionnaire τ = 0,5 (un demi-échantillon). gives a graphical representation of this function, for example a fractional value τ = 0.5 (one-half sample).
  • La série x' ( n ) (décalée de τ) peut être vue comme la convolution de x ( n ) par un filtre non causal G tel que : Series x (n) (shifted τ) can be viewed as the convolution of x (n) by a non-causal filter G such that: x ' n not = = G G x x n not
    Figure imgb0007
  • Il s'agit donc de déterminer une estimée d'un filtre optimal G tel que : It is therefore necessary to determine an estimated Ĝ an optimal filter G such that: H H ^ ^ = = G G ^ ^ F F ^ ^ et and G G k k = = sinc sinc k k + + 1 1 / / Te You
    Figure imgb0008
  • Ĥ
    étant l'estimée du transfert de bruit entre les deux micros, incluant un délai fractionnaire, et being the estimate of the noise transfer between the two microphones, including a fractional delay, and
    F F
    étant l'estimée de la réponse acoustique de l'environnement. being the estimate of the acoustic response of the environment.
  • Pour l'estimation du filtre de transfert de bruit entre les deux micros, l'estimée correspond à un filtre qui minimise une erreur : For the noise estimate filter transfer between the two microphones, the estimate Ĥ matches a filter that minimizes an error: e e n not = = MicAvant MicAvant n not - - H H ^ ^ * * MicArrière mid-career n not
    Figure imgb0009
  • MicAvant(n) et MicArrière(n) étant les valeurs respectives des signaux issus des capteurs microphoniques 10 et 12. MicAvant (n) and mid-career (n) being the respective values of the signals from the microphone 10 and 12 sensors.
  • Ce filtre a pour caractéristique d'être non causal, c'est-à-dire qu'il se sert des échantillons futurs. This filter has the characteristic of being non-causal, that is to say, it uses future samples. En pratique, cela signifie que l'on introduit un retard dans le délai de traitement algorithmique. In practice this means that a delay is introduced in the algorithmic processing time. Comme il est non causal, il peut modéliser un délai fractionnaire et peut donc s'écrire = . Since it is non-causal, it can model a fractional delay and can be written Ĥ = ĜF. (dans le cas classique d'un filtre causal, on aurait = ). (in the classical case of a causal filter, it would Ĥ = F).
  • Concrètement, dans l'algorithme, l'estimation de a lieu directement, par la minimisation de l'erreur e ( n ) ci-dessus, sans qu'il y a ait besoin d'estimer séparément et . Specifically, in the algorithm, the estimate Ĥ takes place directly, by minimizing the error e (n) above, without there needing to separately estimate Ĝ and F.
  • Dans le cas classique causal (par exemple pour un filtre d'annulation d'écho), l'erreur e ( n ) à minimiser s'écrit, sous forme développée : In the classical causal event (eg an echo cancellation filter), the error e (n) to minimize writes, in expanded form: e e n not = = MicAvant MicAvant n not - - Σ k k = = 0 0 L The - - 1 1 H H ^ ^ k k . . MicArrière mid-career n not - - k k
    Figure imgb0010
  • L étant la longueur du filtre. L is the length of the filter.
  • Dans le cas de la présente invention (filtre non causal) l'erreur devient : In the case of the present invention (not causal filter) the error is: e e n not = = MicAvant MicAvant n not - - Σ k k = = - - L The L The - - 1 1 H H ^ ^ k k . . MicArrière mid-career n not - - k k
    Figure imgb0011
  • On notera que la longueur du filtre est doublée, pour tenir compte des échantillons futurs. Note that the filter length is doubled to account for future samples.
  • La prédiction du filtre H donne un filtre à délai fractionnaire qui, idéalement et en l'absence de parole, annule le bruit du micro 10 en ayant pour référence le micro 12 (comme on l'a indiqué plus haut, en période de parole le filtre est toutefois figé pour éviter toute dégradation de la parole locale). The prediction filter H gives a fractional delay filter which ideally and in the absence of speech, cancels the noise microphone 10 with reference to the microphone 12 (as noted above, speaking of the period filter is however frozen to prevent degradation of the local speech).
  • Concrètement, le filtre calculé par l'algorithme adaptatif qui estime le transfert de bruit entre le micro 10 et le micro 12, peut être vu comme la convolution = de deux filtres et où : Concretely, the filter h calculated by the adaptive algorithm that estimates the noise transfer between the microphone 10 and the microphone 12 can be viewed as the convolution Ĥ = Ĝ Ⓧ of two filters F G and F where:
    • correspond à la partie fractionnaire (avec la forme en sinus cardinal), et G corresponds to the fractional part (with the sinc shaped), and
    • correspond au transfert acoustique entre les deux micros, c'est-à-dire à la partie "environnementale" du système, représentative de l'acoustique du volume dans lequel opère celui-ci. F corresponds to the acoustic transfer between the two microphones, that is to say, the "environmental" part of the system, representative of the acoustic volume wherein operates thereof.
  • La The Figure 4 Figure 4 illustre un exemple de réponse acoustique entre les deux micros, sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre F . illustrates an example of acoustic response between the two microphones, as a characteristic giving the amplitude A as a function of the k coefficients of the filter F. Les différentes réflexions du son qui peuvent intervenir en fonction de l'environnement, par exemple sur les vitres ou autres parois d'un habitacle de voiture, créent des pics visibles sur cette caractéristique de réponse acoustique. The different sound reflections that can occur depending on the environment, for example on glass or other walls of a car interior, creating peaks visible on this characteristic of acoustic response.
  • La The Figure 5 Figure 5 illustre un exemple du résultat de la convolution GF des deux filtres G (réponse en sinus cardinal) et F (environnement d'utilisation), sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre convolué. illustrates an example of the result of the convolution Ⓧ G F G of the two filters (response sinc) and F (use environment), in the form of a characteristic showing the amplitude A as a function of the convolved filter coefficients k.
  • L'estimée peut être calculée par un algorithme LMS itératif cherchant à minimiser l'erreur y(n) - Ĥx ( n ) pour converger vers le filtre optimal. The estimate Ĥ may be calculated by an iterative LMS algorithm seeks to minimize the error y (n) - Ĥx (n) to converge to optimal filter.
  • Les algorithmes de type LMS - ou NLMS ( Normalized LMS ) qui est une version normalisée du LMS - sont des algorithmes relativement simples et peu exigeants en termes de ressources de calcul. LMS type algorithms - or NLMS (Normalized LMS) is a normalized version of the LMS - are relatively simple algorithms and undemanding in terms of computing resources. Il s'agit d'algorithmes en eux-mêmes connus, décrits par exemple par : These algorithms themselves known, described for example by:
  1. [1] [1] ; ;
  2. [2] [2] . .
  3. [3] [3] . .
  • Comme on l'a indiqué plus haut, pour que le traitement précédent soit possible, il est nécessaire de disposer d'un détecteur d'activité vocale permettant de discriminer entre les phases d'absence de parole (où l'adaptation du filtre permet d'optimiser l'évaluation du bruit) et de présence de parole (où les paramètres du filtre sont figés à leur dernière valeur trouvée). As noted above, for the previous treatment is possible, it is necessary to have a voice activity detector for discriminating between non-speech phases (where the adaptation of the filter allows optimize noise assessment) and presence of speech (which the filter parameters are frozen at their last value found).
  • Plus précisément, le détecteur d'activité vocale est ici de préférence un détecteur "parfait", c'est-à-dire qu'il délivre un signal binaire (absence vs. présence de parole). Specifically, the voice activity detector is here preferably a "perfect" detector, that is to say, it delivers a binary signal (vs. no presence of speech). Il se distingue ainsi de la plupart des détecteurs d'activité vocale utilisés dans les systèmes de débruitage connus, qui délivrent seulement une probabilité de présence de parole variable entre 0 et 100 % de façon continue ou par pas successifs. It is thus distinguished from most voice activity detectors used in known denoising systems that only deliver a probability of variable word between 0 and 100% continuously or in steps. Avec de tels détecteurs basés seulement sur une probabilité de présence de parole, les fausses détections peuvent être importantes dans des environnements bruités. With such detectors based only on a probability of presence of speech, false detections can be important in noisy environments. Pour être "parfait", le détecteur d'activité vocale ne peut pas se baser uniquement sur le signal capté par les micros ; To be "perfect", the voice activity detector can not be based only on the signal picked up by the microphones; il doit disposer d'une information additionnelle permettant de discriminer les phases de parole et de silence du locuteur proche. it must have additional information to discriminate speech and silence phases of the near speaker.
  • Un premier exemple d'un tel détecteur est illustré par la A first example of such a detector is illustrated in Figure 6 Figure 6 , où le détecteur d'activité vocale 20 opère en réponse au signal produit par une caméra. Wherein the voice activity detector 20 operates in response to the product by a camera signal.
  • Cette caméra est par exemple une caméra 26 installée dans l'habitacle d'un véhicule automobile, et orientée de manière que son angle de champ 28 englobe en toutes circonstances la tête 30 du conducteur, considéré comme le locuteur proche. This camera is for example a camera 26 installed in the passenger compartment of a motor vehicle, and oriented so that its field of view 28 includes in all cases the head 30 of the conductor, regarded as the near speaker. Le signal délivré par la caméra 26 est analysé pour déterminer d'après le mouvement de la bouche et des lèvres si le locuteur parle ou non. The signal delivered by the camera 26 is analyzed to determine from the movement of the mouth and lips if the speaker is speaking or not.
  • On peut utiliser à cet effet des algorithmes de détection de la région de la bouche dans une image d'un visage, et de suivi du mouvement des lèvres ( lip contour tracking ) telle que ceux exposés notamment par : Can be used for this purpose algorithms of the mouth area detection in an image of a face, and monitoring the movement of the lips (lip outline tracking) such as those set out in particular by:
    • [4] [4] . .
  • Ce document décrit, de façon générale, l'apport d'une information visuelle en complément d'un signal audio pour notamment faire de la reconnaissance vocale dans des conditions acoustiques dégradées. This document describes, in general, the provision of visual information in addition to an audio signal including making voice recognition in acoustic conditions deteriorated. Les données vidéo viennent ainsi s'ajouter aux données audio conventionnelles pour améliorer l'information vocale ( speech enhancement ). The video data are thus added to conventional audio data to enhance voice information (speech enhancement).
  • Ce traitement pourra être utilisé dans le cadre de la présente invention pour distinguer entre les phases de parole et les phases de silence du locuteur. This treatment may be used in the context of the present invention to distinguish between speech and silence phases phases of the speaker. Pour tenir compte du fait que dans un habitacle automobile les mouvements de l'utilisateur sont lents tandis que les mouvements de la bouche sont rapides, on peut par exemple, une fois localisée la bouche, comparer deux images consécutives et évaluer le décalage sur un même pixel. To reflect the fact that in a motor compartment of the user's movements are slow while the movements of the mouth are fast, it is possible for example, once localized mouth, compare two consecutive images and assessing the offset on the same pixel.
  • L'avantage de cette technique d'analyse d'image est de disposer d'une information complémentaire totalement indépendante de l'environnement de bruit acoustique. The advantage of this analysis technique is to have additional information completely independent of the acoustic noise environment.
  • Un autre exemple de capteur utilisable pour la détection d'activité vocale "parfaite" est un capteur physiologique susceptible de détecter certaines vibrations vocales du locuteur qui ne soient pas ou peu corrompues par le bruit environnant. Another example of a usable sensor for detecting voice activity "perfect" is a physiological sensor capable of detecting certain voice vibrations of the speaker that are not or little corrupted by background noise.
  • Un tel capteur peut être notamment constitué d'un accéléromètre ou d'un capteur piézoélectrique appliqué contre la joue ou la tempe du locuteur. Such a sensor may in particular be constituted by an accelerometer or a piezoelectric sensor applied against the cheek or the forehead of the speaker. En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cordes vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. Indeed, when a person makes a voiced sound (that is to say a speech component whose production is accompanied by a vibration of the vocal cords), a vibration propagates from the vocal cords to the pharynx and the oronasal cavity, where it is modulated, amplified and articulated. La bouche, le voile du palais, le pharynx, les sinus et les fosses nasales servent ensuite de caisse de résonance à ce son voisé et, leur paroi étant élastique, elles vibrent à leur tour et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe. Mouth, the soft palate, pharynx, sinuses and nasal cavities are then used as a sounding board to voiced sound, and their wall being resilient, they vibrate in turn and these vibrations are transmitted by internal bone conduction and are noticeable in the cheek and temple.
  • Ces vibrations au niveau de la joue et de la tempe présentent la caractéristique d'être, par nature, très peu corrompues par le bruit environnant : en effet, en présence de bruits extérieurs, même importants, les tissus de la joue et de la tempe ne vibrent quasiment pas, et ceci quelle que soit la composition spectrale du bruit extérieur. These vibrations at the cheek and temple have the characteristic of being, by nature, very little corrupted by the surrounding noise: in fact, in the presence of external noise, even important, tissues of the cheek and temple hardly vibrate, and this regardless of the spectral composition of the external noise.
  • Un capteur physiologique qui recueille ces vibrations vocales dépourvues de bruit donne un signal représentatif de la présence ou de l'absence de sons voisés émis par le locuteur, permettant donc de discriminer très bien les phases de parole et les phases de silence du locuteur. A physiological sensor that collects these vocal vibrations without noise gives a signal representative of the presence or absence of voiced sounds emitted by the speaker, so for discriminating fine speech phases and pause phases of the speaker.
  • Un tel capteur physiologique peut être notamment incorporé à un ensemble combiné micro/casque tel qu'illustré sur la One such physiologic sensor may be incorporated in particular to a combined assembly microphone / headphone as shown in Figure 7 Figure 7 . .
  • Sur cette figure, la référence 32 désigne de façon générale le casque selon l'invention, qui comporte deux oreillettes 34 réunies par un arceau. In this figure, generally reference 32 designates the helmet according to the invention, which comprises two ear 34 joined by a headband. Chacune des oreillettes est de préférence constituée d'une coque fermée 36, logeant un transducteur de reproduction sonore, appliquée autour de l'oreille de l'utilisateur avec interposition d'un coussinet 38 isolant l'oreille de l'extérieur. Each of the atria is preferably constituted by a closed shell 36, housing a transducer sound reproduction, applied around the ear of the user with the interposition of a bushing 38 insulating the ear from the outside.
  • Le capteur physiologique 40 servant à la détection d'activité vocale est par exemple un accéléromètre intégré dans le coussinet 38 de manière à venir s'appliquer contre la joue ou la tempe de l'utilisateur avec un couplage le plus étroit possible. The physiologic sensor 40 for the voice activity detection is for example an accelerometer built into the pad 38 so as to come to bear against the cheek or the forehead of the user with a narrowest possible combination. Ce capteur physiologique 40 peut notamment être placé sur la face intérieure de la peau du coussinet 38 de sorte que, une fois le casque mis en place, le capteur soit appliqué contre la joue ou la tempe de l'utilisateur sous l'effet d'une légère pression résultant de l'écrasement du matériau du coussinet, avec seulement interposition de la peau extérieure de ce coussinet. The physiologic sensor 40 may particularly be placed on the inner face of the bearing skin 38 so that once the helmet in place, the sensor is pressed against the cheek or the forehead of the user under the effect of slight pressure resulting from the crushing of the pad material, with only interposition of the outer skin of the cushion.
  • Le casque porte également les micros 10, 12 du circuit de recueil et de débruitage de la parole du locuteur. The headset also includes the microphones 10, 12 of the collection circuit and noise suppression of speech of the speaker. Ces deux micros sont des micros omnidirectionnels placés sur la coque 36, et ils sont disposés avec le micro 10 placé en avant (plus proche de la bouche du porteur du casque) et le micro 12 placé plus en arrière. Both microphones are omnidirectional microphones placed on the shell 36, and they are arranged with the microphone 10 placed in front (closer to the helmet wearer's mouth) and the microphone 12 placed further back. D'autre part la direction d'alignement 42 des deux micros 10, 12 est approximativement dirigée vers la bouche 44 du porteur du casque. On the other hand the alignment direction 42 of the two microphones 10, 12 is approximately directed towards the mouth 44 of the helmet wearer.
  • La The Figure 8 Figure 8 est un schéma par blocs montrant les différentes fonctions mises en oeuvre par le combiné micro/casque de la is a block diagram showing the various functions implemented by the combined microphone / headphone of Figure 7 Figure 7 . .
  • On retrouve sur cette figure les deux micros 10 et 12, ainsi que le détecteur d'activité vocale 20. Le micro avant 10 est le micro principal et le micro arrière 12 sert d'entrée au filtre adaptatif 16 du combineur 14. Le détecteur d'activité vocale 20 est contrôlé par le signal délivré par le capteur physiologique 40, avec par exemple lissage de la puissance du signal délivré par ce capteur 40 : Found in this figure the two microphones 10 and 12, as well as the voice activity detector 20. The microphone 10 is before the main microphone and the rear microphone 12 is input to the adaptive filter 16 of the combiner 14. The detector voice activity 20 is controlled by the signal delivered by the physiological sensor 40, for example with smoothing of the power of the signal delivered by the sensor 40: puissance power capteur sensor n not = = α α . . puissance power capteur sensor n not - - 1 1 + + 1 1 - - α α . . capteur sensor n not 2 2
    Figure imgb0012

    α étant une constante de lissage proche de 1. Il suffit alors de fixer un seuil ζ tel que ce seuil soit dépassé dès que le locuteur parle. α is a smoothing constant close to 1. Then simply set a threshold ζ as this threshold is exceeded when the speaker speaks.
  • La The Figure 9 Figure 9 illustre l'allure des signaux recueillis : illustrates the shape of the signals:
    • le signal S 10 du chronogramme du haut correspond à ce qui est capté par le micro avant 10 : on voit qu'il est impossible d'opérer à partir de ce signal (bruité) une discrimination efficace entre les phases de présence et d'absence de parole. the signal S 10 of the upper timing diagram corresponds to what is sensed by the microphone 10 before is evident that it is impossible to operate from this signal (noisy) an effective discrimination between the presence and absence of phases speech.
    • le signal S 40 du chronogramme du bas correspond à ce que délivre concurremment le capteur physiologique 40 : les phases successives de présence et d'absence de parole y sont marquées de façon bien plus apparente. the signal S 40 of the lower timing chart represents that concurrently outputs the physiologic sensor 40: the successive phases of presence and absence of speech are marked so much more apparent. Le signal binaire désigné VAD correspond à l'indication délivrée par le détecteur d'activité vocale 20 ('1' = présence de parole ; '0' = absence de parole), après évaluation de la puissance du signal S 40 et comparaison par rapport au seuil ξ prédéfini. The bit designated VAD signal corresponds to the indication issued by the voice activity detector 20 ( '1' = presence of speech; '0' = absence of speech), after evaluation of the power of signal S 40 and comparison the predefined threshold ξ.
  • Le signal délivré par le capteur physiologique 40 peut être utilisé non seulement comme signal d'entrée d'un détecteur d'activité vocale, mais également pour enrichir le signal capté par les micros 10 et 12, notamment dans le bas du spectre. The signal from the physiologic sensor 40 may be used not only as an input signal of a voice activity detector but also to enhance the signal picked up by the microphones 10 and 12, particularly in the lower spectrum.
  • Bien sûr, les signaux délivrés par le capteur physiologique, qui correspondent aux sons voisés, ne sont pas à proprement parler de la parole puisque la parole n'est pas seulement formée de sons voisés, elle contient des composantes qui ne naissent pas au niveau des cordes vocales : le contenu fréquentiel est par exemple beaucoup plus riche avec le son provenant de la gorge et émis par la bouche. Of course, the signals from the physiological sensor, corresponding to voiced sounds, not to speak of the word, since the word is not only made up of voiced sounds, it contains components that are not born at the vocal cords: the frequency content is such much richer with the sound from the throat and emitted through the mouth. De plus, la conduction osseuse interne et la traversée de la peau a pour effet de filtrer certaines composantes vocales. In addition, the internal bone conduction and skin bushing is effective to filter certain voice components.
  • Par ailleurs, en raison du filtrage dû à la propagation des vibrations jusqu'à la tempe ou la joue, le signal recueilli par le capteur physiologique est utilisable uniquement dans les basses fréquences, principalement dans la région inférieure du spectre sonore (typiquement 0-1500 Hz). Furthermore, because of the filter due to the propagation of vibrations to the forehead or cheek, the signal collected by the physiological sensor is usable only in low frequencies, mainly in the lower region of the sound spectrum (typically 0-1500 Hz).
  • Mais comme les bruits généralement rencontrés dans un environnement habituel (rue, métro, train, ...) sont majoritairement concentrés dans les basses fréquences, le signal d'un capteur physiologique présente l"avantage considérable d'être naturellement dépourvu de composante parasite de bruit il sera donc possible d'utiliser ce signal dans le bas du spectre, en le complétant dans le haut du spectre (au-dessus de 1500 Hz) par les signaux (bruités) recueillis par les micros 10 et 12, après avoir soumis ces signaux à une réduction de bruit opérée par le combineur adaptatif 14. But as noise generally encountered in a usual environment (street, underground, train, ...) are mainly concentrated in the low frequencies, the physiological sensor signal has the "considerable advantage of being naturally devoid of spurious component of noise it will be possible to use this signal in the lower spectrum, by supplementing it into the top of the spectrum (above 1500 Hz) by the signals (noisy) collected by the microphones 10 and 12, after subjecting these signals to a noise reduction effected by the adaptive combiner 14.
  • Le spectre complet est reconstruit au moyen du bloc de mixage 46 qui reçoit parallèlement : le signal du capteur physiologique 40 pour le bas du spectre, et le signal des micros 10 et 12 après débruitage par le combineur adaptatif 14 pour le haut du spectre. The complete spectrum is reconstructed by means of the mixing block 46 that receives in parallel: the physiological sensor signal 40 to the low end, and the microphones 10 and 12 of the signal after noise removal by the adaptive combiner 14 for the upper spectrum. Cette reconstruction est opérée par sommation des signaux, qui sont appliqués en synchronisme au bloc de mixage 46 de manière à éviter toute déformation. This reconstruction is performed by summation of the signals, which are applied in synchronism to the mixing block 46 so as to prevent deformation.
  • Le signal résultant délivré par le bloc 46 peut être soumis à une réduction de bruit finale par le circuit 48, opérée dans le domaine fréquentiel selon une technique conventionnelle comparable à celle décrite par exemple dans le The resulting signal output from block 46 may be subjected to a final noise reduction by the circuit 48, operated in the frequency domain according to a conventional technique similar to that described for example in WO 2007/099222 A1 (Parrot WO 2007/099222 A1 (Parrot ), pour donner en sortie le signal débruité final S. ), For outputting the final denoised signal S.
  • La mise en oeuvre de cette technique est toutefois fortement simplifiée par rapport à ce qui est enseigné par exemple dans le document précité. The implementation of this technique is, however, greatly simplified compared to what is taught for example in the aforementioned document. En effet, dans le cas présent il n'est plus nécessaire d'évaluer une probabilité de présence de parole à partir du signal recueilli, puisque cette information peut être directement obtenue par le bloc de détection d'activité vocale 20 en réponse à la détection de l'émission de son voisé détecté par le capteur physiologique 40. L'algorithme peut être ainsi simplifié et rendu plus efficace et plus rapide. Indeed, in this case it is not necessary to evaluate a speech presence probability from the received signal, as this information can be directly obtained by the voice activity detection block 20 in response to detecting the issuance of voiced sound detected by the physiological sensor 40. the algorithm can be thus simplified and made more efficient and faster.
  • La réduction de bruit fréquentielle est avantageusement opérée de façon différente en présence et en l'absence de parole (information donnée par le détecteur d'activité vocale parfait 20) : The frequency noise reduction is advantageously performed differently in the presence and absence of speech (information given by the perfect voice activity detector 20):
    • en l'absence de parole, la réduction de bruit est maximale sur toutes les bandes de fréquences, c'est-à-dire que le gain correspondant au débruitage maximum est appliqué de la même façon sur toutes les composantes du signal (puisque l'on est certain dans ce cas que celui-ci ne contient pas de composante utile) ; in the absence of speech, the noise reduction is maximum on all frequency bands, that is to say, the gain corresponding to the maximum noise suppression is applied in the same way on all components of the signal (since the we are sure in this case that it does not contain useful component);
    • en revanche, en présence de parole, la réduction de bruit est une réduction fréquentielle, appliquée de façon différenciée sur chaque bande de fréquences selon le schéma classique. however, in the presence of speech, noise reduction is a frequency reduction, applied differentially to each frequency band according to the conventional scheme.
  • Le système que l'on vient de décrire permet d'obtenir d'excellentes performances globales, typiquement de l'ordre de 30 à 40 dB de réduction de bruit sur le signal de parole du locuteur proche. The system as described above provides excellent overall performance, typically of the order of 30 to 40 dB noise reduction on the speech signal from the near speaker. Le combineur adaptatif 14 opérant sur les signaux captés par les micros 10 et 12 permet en particulier, avec le filtrage à délai fractionnaire, d'obtenir de très bonnes performances de débruitage dans les hautes fréquences. The adaptive combiner 14 operating on the signals picked up by the microphones 10 and 12 makes it possible in particular with the filter fractional delay, to obtain very good noise suppression performance at high frequencies.
  • Grâce à l'élimination de tous les bruits parasites, cela donne l'impression au locuteur distant (celui avec lequel le porteur du casque est en communication) que son interlocuteur (le porteur du casque) se trouve dans une pièce silencieuse. With the elimination of all noise, it gives the impression to the remote speaker (the one with which the wearer of the helmet is communicating) that his interlocutor (the helmet wearer) is in a quiet room.
  • Claims (8)

    1. Un équipement audio, comprenant : Audio equipment, including:
      - un ensemble de deux capteurs microphoniques (10, 12) aptes à recueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ; - a set of two microphone sensors (10, 12) adapted to collect the user equipment speech and outputting respective noisy speech signals;
      - des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; - means for sampling the speech signals supplied by the microphone sensors; et and
      - des moyens de débruitage d'un signal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement, - noise suppression means of a speech signal, receiving as input the samples of the speech signals supplied by the two microphone sensors, and outputting a noise-suppressed speech signal representative of the speech uttered by the user equipment ,
      dans lequel les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif (14) des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques (10) sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique (12) ; wherein the means for denoising are non-frequency noise reduction means comprising an adaptive filter combiner (14) the signals delivered by the two microphone sensors, operating by iterative search to cancel the noise picked up by one of the microphone elements (10) on the basis of a noise reference given by the signal issued by the other microphone element (12);
      équipement caractérisé en ce que : equipment characterized in that:
      - le filtre adaptatif (16) est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage ; - the adaptive filter (16) is a fractional delay filter adapted to model a delay less than the sampling period of the sampling means;
      - l'équipement comprend en outre des moyens de détection d'activité vocale (20, 22) aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et - the equipment further comprises voice activity detection means (20, 22) suitable for delivering a signal representative of the presence or absence of speech by the user equipment, and
      - le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole. - the adaptive filter also receives as input signal the presence or absence of speech, so as to selectively: i) operating an adaptive search of the filter parameters in the absence of speech, ii) freeze these parameters filter in the presence of speech.
    2. L'équipement audio de la revendication 1, dans lequel le filtre adaptatif (16) est apte à estimer un filtre optimal H tel que : The claim 1 of audio equipment, wherein the adaptive filter (16) is adapted to estimate an optimal filter H such that: H H ^ ^ = = G G ^ ^ F F ^ ^
      Figure imgb0013

      avec : with: x ' n not = = G G x x n not et and G G k k = = sinc sinc k k + + τ τ / / Te You , ,
      Figure imgb0014
      représentant l'estimée du filtre optimal H , transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire, Ĥ representing the estimate of the optimal filter H, noise transfer between the two microphone sensors to an impulse response including a fractional delay,
      représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques, Ĝ representing the estimate of the fractional delay filter G between the two microphone sensors,
      représentant l'estimée de la réponse acoustique de l'environnement, F representing the estimate of the acoustic response of the environment,
      Ⓧ indiquant une convolution, Ⓧ indicating a convolution,
      x ( n ) étant la série d'échantillons du signal en entrée du filtre H , x (n) is the set of samples of the input signal of the filter H,
      x'(n) étant la série x(n) décalée d'un retard τ, x '(n) being the series x (n) shifted by a delay τ,
      Te étant la période d'échantillonnage du signal en entrée du filtre H , Te is the sampling period of the input signal of the filter H,
      τ étant ledit délai fractionnaire, égal à un sous-multiple de Te, et τ being said fractional delay, equal to a submultiple of Te, and
      sinc indiquant la fonction sinus cardinal. sinc indicating the sinc function.
    3. L'équipement audio de la revendication 1, dans lequel le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS. The audio equipment of claim 1, wherein the adaptive filter is a linear prediction filter algorithm least mean squares type LMS.
    4. L'équipement audio de la revendication 1, dans lequel : The audio equipment of claim 1, wherein:
      - l'équipement comprend en outre une caméra video (26) dirigée vers l'utilisateur (30) de l'équipement et apte à capter une image de celui-ci, et - the equipment further comprises a video camera (26) directed towards the user (30) of the equipment and adapted to capture an image thereof, and
      - les moyens de détection d'activité vocale (20) comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur. - the voice activity detection means (20) comprise video analysis means capable of analyzing the image produced by the camera and outputting in response to said signal presence or absence of speech by said user.
    5. L'équipement audio de la revendication 1, dans lequel : The audio equipment of claim 1, wherein:
      - l'équipement comprend en outre un capteur physiologique (40) apte à venir en contact avec la tête de l'utilisateur de l'équipement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, et - the equipment further comprises a physiological sensor (40) capable of coming into contact with the equipment of the user head to be coupled to receive the non-acoustic voice vibration transmitted by internal bone conduction, and
      - les moyens de détection d'activité vocale (20) comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur. - the voice activity detection means (20) comprises means suitable for analyzing the signal delivered by the physiological sensor and outputting in response to said signal presence or absence of speech by said user.
    6. L'équipement audio de la revendication 5, dans lequel les moyens de détection d'activité vocale comprennent des moyens d'évaluation de l'énergie du signal délivré par le capteur physiologique, et des moyens à seuil. The method of claim 5 audio equipment, wherein the voice activity detection means comprise energy estimating means of the signal supplied by the physiological sensor, and threshold means.
    7. L'équipement audio de la revendication 6, dans lequel l'équipement est un casque audio du type combiné micro/casque, comprenant : The audio equipment of claim 6, wherein the equipment is an audio headset combined type microphone / headphone, comprising:
      - des écouteurs (34) comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque (36) pourvue d'un coussinet (38) circumaural ; - headphones (34) each having a sound reproduction transducer housed an audio signal in a shell (36) provided with a bearing bush (38) circumaural;
      - lesdits deux capteurs microphoniques (10, 12), disposés sur la coque de l'un des écouteurs ; - said two microphone sensors (10, 12) arranged on the hull of a headset; et and
      - ledit capteur physiologique (40), incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact avec la joue ou la tempe du porteur du casque. - said physiological sensor (40) incorporated to the pad of one of the earphone and placed in a region thereof adapted to come into contact with the cheek or the forehead of the helmet wearer.
    8. L'équipement audio de la revendication 7, dans lequel les deux capteurs microphoniques (10, 12) sont alignés en un réseau linéaire suivant une direction principale (42) dirigée vers la bouche (44) de l'utilisateur de l'équipement. The audio equipment of claim 7, wherein the two microphone elements (10, 12) are aligned in a linear array in a main direction (42) directed towards the mouth (44) of the user equipment.
    EP20120170407 2011-06-01 2012-06-01 Audio device with suppression of noise in a voice signal using a fractional delay filter Active EP2530673B1 (en)

    Priority Applications (1)

    Application Number Priority Date Filing Date Title
    FR1154825A FR2976111B1 (en) 2011-06-01 2011-06-01 Audio equipment comprising means for denoising of a speech signal by filtering a fractional delay, including a telephony system "hands free"

    Publications (2)

    Publication Number Publication Date
    EP2530673A1 true true EP2530673A1 (en) 2012-12-05
    EP2530673B1 EP2530673B1 (en) 2013-07-10

    Family

    ID=44533268

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP20120170407 Active EP2530673B1 (en) 2011-06-01 2012-06-01 Audio device with suppression of noise in a voice signal using a fractional delay filter

    Country Status (6)

    Country Link
    US (1) US8682658B2 (en)
    EP (1) EP2530673B1 (en)
    JP (1) JP6150988B2 (en)
    CN (1) CN103002170B (en)
    ES (1) ES2430121T3 (en)
    FR (1) FR2976111B1 (en)

    Families Citing this family (10)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    FR2974655B1 (en) * 2011-04-26 2013-12-20 Parrot Micro combines audio / headphone comprising means for denoising a near speech signal, especially a telephony system "hands free".
    US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
    US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
    US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
    CN103871419B (en) * 2012-12-11 2017-05-24 联想(北京)有限公司 An information processing method and an electronic device
    FR3002679B1 (en) * 2013-02-28 2016-07-22 Parrot Method for denoising an audio signal by an algorithm variable spectral gain is dynamically adjustable hardness
    US9185199B2 (en) 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
    US20150199950A1 (en) * 2014-01-13 2015-07-16 DSP Group Use of microphones with vsensors for wearable devices
    FR3021180B1 (en) * 2014-05-16 2016-06-03 Parrot active noise control headset was formerly with prevention of the effects of saturation of the microphone signal "feedback"
    JP2017032857A (en) * 2015-08-04 2017-02-09 本田技研工業株式会社 Voice processing device and voice processing method

    Citations (3)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US20070165879A1 (en) 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
    WO2007099222A1 (en) 2006-03-01 2007-09-07 Parrot Method for suppressing noise in an audio signal
    US20080280653A1 (en) 2007-05-09 2008-11-13 Motorola, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone

    Family Cites Families (29)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US4672665A (en) * 1984-07-27 1987-06-09 Matsushita Electric Industrial Co. Ltd. Echo canceller
    US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
    US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
    US5761318A (en) * 1995-09-26 1998-06-02 Nippon Telegraph And Telephone Corporation Method and apparatus for multi-channel acoustic echo cancellation
    US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
    FI114422B (en) * 1997-09-04 2004-10-15 Nokia Corp Source voice activity detection
    US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
    US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
    US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
    US7062049B1 (en) * 1999-03-09 2006-06-13 Honda Giken Kogyo Kabushiki Kaisha Active noise control system
    JP2000312395A (en) * 1999-04-28 2000-11-07 Alpine Electronics Inc Microphone system
    US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
    US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
    US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
    JP3568922B2 (en) * 2001-09-20 2004-09-22 三菱電機株式会社 Echo processing unit
    US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
    US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
    JP3579047B2 (en) * 2002-07-19 2004-10-20 日本電気株式会社 Audio decoding apparatus and decoding method and program
    US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
    US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
    CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
    US7533017B2 (en) * 2004-08-31 2009-05-12 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Method for recovering target speech based on speech segment detection under a stationary noise
    JP4496379B2 (en) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 Method for recovering target speech based on the shape of the amplitude frequency distribution of spectral sequence
    JP2005249816A (en) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> Device, method and program for signal enhancement, and device, method and program for speech recognition
    JP2006039267A (en) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd Voice input device
    US7844059B2 (en) * 2005-03-16 2010-11-30 Microsoft Corporation Dereverberation of multi-channel audio streams
    FR2908003B1 (en) * 2006-10-26 2009-04-03 Parrot Sa reduction process of the acoustic echo suppression after residual echo in a device "hands free"
    US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
    US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique

    Patent Citations (3)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US20070165879A1 (en) 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
    WO2007099222A1 (en) 2006-03-01 2007-09-07 Parrot Method for suppressing noise in an audio signal
    US20080280653A1 (en) 2007-05-09 2008-11-13 Motorola, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone

    Non-Patent Citations (6)

    * Cited by examiner, † Cited by third party
    Title
    ALAN V: "Signal Processing Series", 1985
    B. WIDROW ET AL.: "Adaptative Noise Cancelling: Principles and Applications", PROC. IEEE, vol. 63, no. 12, December 1975 (1975-12-01), pages 1692 - 1716
    B. WIDROW: "Adaptative Filters, Aspect of Network and System Theory", 1970, HOLT, RINEHART AND WINSTO, pages: 563 - 587
    B. WIDROW; S. STEARNS: "Adaptative Signal Processing", PRENTICE-HALL
    DJENDI M ET AL: "Noise Cancellation using Two Closely Spaced Microphones: Experimental Study witha Specific Model and Two Adaptive Algorithms", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2006. ICASSP 2006 PROCEEDINGS . 2006 IEEE INTERNATIONAL CONFERENCE ON TOULOUSE, FRANCE 14-19 MAY 2006, PISCATAWAY, NJ, USA,IEEE, PISCATAWAY, NJ, USA, 14 May 2006 (2006-05-14), pages III, XP031386771, ISBN: 978-1-4244-0469-8 *
    G. POTAMIANOS ET AL.: "Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing", 2004, MIT PRESS, pages: 1 - 30

    Also Published As

    Publication number Publication date Type
    ES2430121T3 (en) 2013-11-19 grant
    FR2976111B1 (en) 2013-07-05 grant
    CN103002170B (en) 2016-01-06 grant
    CN103002170A (en) 2013-03-27 application
    US20120310637A1 (en) 2012-12-06 application
    EP2530673B1 (en) 2013-07-10 grant
    JP2012253771A (en) 2012-12-20 application
    FR2976111A1 (en) 2012-12-07 application
    JP6150988B2 (en) 2017-06-21 grant
    US8682658B2 (en) 2014-03-25 grant

    Similar Documents

    Publication Publication Date Title
    Hamacher et al. Signal processing in high-end hearing aids: state of the art, challenges, and future trends
    US6097820A (en) System and method for suppressing noise in digitally represented voice signals
    US5406635A (en) Noise attenuation system
    US20030206640A1 (en) Microphone array signal enhancement
    US20040230428A1 (en) Method and apparatus for blind source separation using two sensors
    US20100323652A1 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
    US20060224382A1 (en) Noise reduction and audio-visual speech activity detection
    US20070291953A1 (en) Ear sensor assembly for speech processing
    US20070033020A1 (en) Estimation of noise in a speech signal
    US20120148067A1 (en) Wind noise detection method and system
    US20030179888A1 (en) Voice activity detection (VAD) devices and methods for use with noise suppression systems
    US7243060B2 (en) Single channel sound separation
    US6757395B1 (en) Noise reduction apparatus and method
    US20120263019A1 (en) Passive proximity detection
    US5878389A (en) Method and system for generating an estimated clean speech signal from a noisy speech signal
    US20070100605A1 (en) Method for processing audio-signals
    US20110058676A1 (en) Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
    US20030228023A1 (en) Microphone and Voice Activity Detection (VAD) configurations for use with communication systems
    US20120278070A1 (en) Combined microphone and earphone audio headset having means for denoising a near speech signal, in particular for a &#34; hands-free&#34; telephony system
    US20020150264A1 (en) Method for eliminating spurious signal components in an input signal of an auditory system, application of the method, and a hearing aid
    US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
    US20070088544A1 (en) Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
    US20080167866A1 (en) Spectro-temporal varying approach for speech enhancement
    US20110129097A1 (en) System, Device, and Method Utilizing an Integrated Stereo Array Microphone
    US20090279715A1 (en) Method, medium, and apparatus for extracting target sound from mixed sound

    Legal Events

    Date Code Title Description
    AX Request for extension of the european patent to

    Extension state: BA ME

    17P Request for examination filed

    Effective date: 20120601

    AK Designated contracting states:

    Kind code of ref document: A1

    Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R079

    Ref document number: 602012000117

    Country of ref document: DE

    Free format text: PREVIOUS MAIN CLASS: G10L0021020000

    Ipc: G10L0021020800

    RIC1 Classification (correction)

    Ipc: G10L 21/0208 20130101AFI20130314BHEP

    INTG Announcement of intention to grant

    Effective date: 20130422

    AK Designated contracting states:

    Kind code of ref document: B1

    Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: EP

    Ref country code: AT

    Ref legal event code: REF

    Ref document number: 621363

    Country of ref document: AT

    Kind code of ref document: T

    Effective date: 20130715

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R096

    Ref document number: 602012000117

    Country of ref document: DE

    Effective date: 20130905

    REG Reference to a national code

    Ref country code: NL

    Ref legal event code: T3

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: SI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FG2A

    Ref document number: 2430121

    Country of ref document: ES

    Kind code of ref document: T3

    Effective date: 20131119

    REG Reference to a national code

    Ref country code: AT

    Ref legal event code: MK05

    Ref document number: 621363

    Country of ref document: AT

    Kind code of ref document: T

    Effective date: 20130710

    REG Reference to a national code

    Ref country code: LT

    Ref legal event code: MG4D

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20131111

    Ref country code: HR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: CY

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130918

    Ref country code: LT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: IS

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20131110

    Ref country code: NO

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20131010

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: LV

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20131011

    Ref country code: PL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: CY

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: EE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: CZ

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: SK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: RO

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    26N No opposition filed

    Effective date: 20140411

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R097

    Ref document number: 602012000117

    Country of ref document: DE

    Effective date: 20140411

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20140601

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: MM4A

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20140601

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 4

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FD2A

    Effective date: 20150724

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R081

    Ref document number: 602012000117

    Country of ref document: DE

    Owner name: PARROT AUTOMOTIVE, FR

    Free format text: FORMER OWNER: PARROT, PARIS, FR

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20140602

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: 732E

    Free format text: REGISTERED BETWEEN 20151029 AND 20151104

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: TP

    Owner name: PARROT AUTOMOTIVE, FR

    Effective date: 20151201

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    REG Reference to a national code

    Ref country code: NL

    Ref legal event code: PD

    Owner name: PARROT AUTOMOTIVE; FR

    Free format text: DETAILS ASSIGNMENT: VERANDERING VAN EIGENAAR(S), OVERDRACHT; FORMER OWNER NAME: PARROT

    Effective date: 20151102

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: MT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: SM

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20150630

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20150630

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 5

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: RS

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: BG

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: TR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    Ref country code: HU

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

    Effective date: 20120601

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20140630

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 6

    PGFP Postgrant: annual fees paid to national office

    Ref country code: GB

    Payment date: 20170626

    Year of fee payment: 6

    PGFP Postgrant: annual fees paid to national office

    Ref country code: IT

    Payment date: 20170622

    Year of fee payment: 6

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 7

    PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

    Ref country code: MK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20130710

    PGFP Postgrant: annual fees paid to national office

    Ref country code: NL

    Payment date: 20180625

    Year of fee payment: 7

    Ref country code: DE

    Payment date: 20180625

    Year of fee payment: 7

    PGFP Postgrant: annual fees paid to national office

    Ref country code: FR

    Payment date: 20180615

    Year of fee payment: 7