EP2530673A1

EP2530673A1 - Audio device with suppression of noise in a voice signal using a fractional delay filter

Info

Publication number: EP2530673A1
Application number: EP12170407A
Authority: EP
Inventors: Guillaume Vitte; Michael Herve
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2011-06-01
Filing date: 2012-06-01
Publication date: 2012-12-05
Anticipated expiration: 2032-06-01
Also published as: ES2430121T3; US8682658B2; FR2976111B1; US20120310637A1; CN103002170B; CN103002170A; FR2976111A1; JP6150988B2; JP2012253771A; EP2530673B1

Abstract

The equipment has microphones (10, 12) for picking up a speech of a user of the equipment, and an adaptive filter (16), which is a fractional delay filter for modeling a delay shorter than a sampling period of a sampling unit. A voice activity detector (20) and a sensor (22) deliver signals representing presence or absence of the speech. The adaptive filter receives the signals representing presence or absence of speech so as to act selectively either to perform an adaptive search for filter parameters in the absence of speech or to freeze the parameters in the presence of speech. The adaptive filter is a filter having a least mean square (LMS) type linear prediction algorithm.

Description

L'invention concerne le traitement de la parole en milieu bruité.The invention relates to the treatment of speech in a noisy environment.

Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité.It relates in particular to the processing of speech signals picked up by "hands-free" telephony devices intended to be used in a noisy environment.

Ces appareils comportent un ou plusieurs microphones ("micros") sensibles, captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.These devices include one or more microphones ("microphones") sensitive, capturing not only the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go in some cases to make unintelligible the speaker's words . It is the same if one wants to implement speech recognition techniques, because it is very difficult to perform a form recognition on words embedded in a high noise level.

Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'accessoires en forme de boîtier amovible intégrant tous les composants et fonctions de traitement du signal pour la communication téléphonique.This difficulty related to surrounding noise is particularly restrictive in the case of devices "hands free" for motor vehicles, whether in-vehicle equipment or accessories in the form of removable housing incorporating all components and functions signal processing for telephone communication.

En effet, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle supérieur du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) entraîne la captation d'un niveau de bruit relativement élevé, qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.Indeed, the large distance between the microphone (placed at the dashboard or in an upper corner of the roof of the cockpit) and the speaker (whose distance is constrained by the driving position) causes the capture of a relatively high noise level, which makes it difficult to extract the useful signal embedded in the noise. In addition, the highly noisy environment typical of the automotive environment has non-stationary spectral characteristics, that is to say that evolve unpredictably depending on the driving conditions: passage on deformed or paved roads, car radio operating etc.

Des difficultés du même genre se présentent dans le cas où le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque.Similar difficulties arise in the case where the device is a headset type microphone / headset combined used for communication functions such as "hands-free" telephony functions, in addition to listening to a source audio (music for example) from a device to which the headphones are connected.

Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). Or, le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants. Le porteur est certes protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels.In this case, it is a question of ensuring sufficient intelligibility of the signal picked up by the microphone, that is to say the speech signal of the close speaker (the helmet wearer). However, the headset can be used in a noisy environment (metro, busy street, train, etc.), so that the microphone will not only pick up the word of the wearer of the helmet, but also the noise surrounding. The wearer is certainly protected from this noise by the helmet, especially if it is a model with closed earphones isolating the ear from the outside, and even more if the headset is provided with an "active control of noise". On the other hand, the distant speaker (the one at the other end of the communication channel) will suffer from the noise picked up by the microphone and being superimposed and interfere with the speech signal of the near speaker (the helmet wearer). In particular, certain speech formers essential to the understanding of the voice are often embedded in noise components commonly encountered in the usual environments.

L'invention concerne plus particulièrement les techniques de débruitage mettant en oeuvre plusieurs micros, généralement deux micros, pour combiner de façon judicieuse les signaux captés simultanément par ces micros afin d'isoler les composantes de parole utiles des composantes de bruits parasites.The invention relates more particularly to denoising techniques using several microphones, usually two microphones, to judiciously combine the signals picked up simultaneously by these microphones in order to isolate the useful speech components of the noise noise components.

Une technique classique consiste à placer et orienter l'un des micros pour qu'il capte principalement la voix du locuteur, tandis que l'autre est disposé de manière à capter une composante de bruit plus importante que le micro principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant par analyse de cohérence spatiale des deux signaux, avec des moyens logiciels relativement simples.A conventional technique consists in placing and orienting one of the microphones so that it mainly captures the voice of the speaker, while the other is arranged to capture a greater noise component than the main microphone. The comparison of the signals captured makes it possible to extract the voice of the ambient noise by spatial coherence analysis of the two signals, with relatively simple software means.

Le US 2008/0280653 A1 décrit une telle configuration, où l'un des micros (celui qui capte principalement la voix) est celui d'une oreillette sans fil portée par le conducteur du véhicule, tandis que l'autre (celui qui capte principalement le bruit) est celui de l'appareil téléphonique, placé à distance dans l'habitacle du véhicule, par exemple accroché au tableau de bord.The US 2008/0280653 A1 describes such a configuration, where one of the pickups (the one that mainly picks up the voice) is that of a wireless headset carried by the driver of the vehicle, while the other (the one that captures the noise) is that of the telephone device, placed remotely in the passenger compartment of the vehicle, for example hung on the dashboard.

Cette technique présente cependant l'inconvénient de nécessiter deux micros distants, l'efficacité étant d'autant plus élevée que les deux micros sont éloignés. De ce fait, cette technique n'est pas applicable à un dispositif dans lequel les deux micros sont rapprochés, par exemple deux micros incorporés à la façade d'un autoradio de véhicule automobile, ou deux micros qui seraient disposés sur l'une des coques d'un écouteur de casque audio.However, this technique has the disadvantage of requiring two remote microphones, the efficiency being even higher than the two microphones are remote. Therefore, this technique is not applicable to a device in which the two microphones are close together, for example two microphones incorporated in the facade of a car radio, or two microphones that would be arranged on one of the shells an earphone.

Une autre technique encore, dite beamforming, consiste à créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit du réseau ou "antenne" de micros. Le US 2007/0165879 A1 décrit une telle technique, appliquée à une paire de micros non-directionnels placés dos à dos. Un filtrage adaptatif des signaux captés permet de dériver en sortie un signal dans lequel la composante de voix a été renforcée.Another technique, called beamforming, consists of creating by software means a directivity that improves the signal / noise ratio of the network or "antenna" microphones. The US 2007/0165879 A1 describes such a technique, applied to a pair of non-directional microphones placed back to back. An adaptive filtering of the captured signals makes it possible to derive at the output a signal in which the voice component has been reinforced.

Toutefois, on estime qu'une telle méthode ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros, les performances étant extrêmement limitées lorsque seulement deux micros sont utilisés.However, it is estimated that such a method provides good results if provided with a network of at least eight microphones, the performance is extremely limited when only two microphones are used.

Le problème général de l'invention est, dans un tel contexte, de procéder à une réduction de bruit efficace permettant de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche (conducteur du véhicule ou porteur du casque), en débarrassant ce signal des composantes parasites de bruit extérieur présentes dans l'environnement de ce locuteur proche.The general problem of the invention is, in such a context, to perform an effective noise reduction for delivering to the remote speaker a voice signal representative of the speech transmitted by the close speaker (driver of the vehicle or helmet carrier), by eliminating this signal noise components external noise present in the environment of this speaker nearby.

Le problème de l'invention est également, dans une telle situation, de pouvoir mettre en oeuvre un ensemble de micros à la fois en nombre réduit (avantageusement deux micros seulement) et relativement rapprochés (typiquement un écartement de quelques centimètres seulement). Un autre aspect important du problème est la nécessité de restituer un signal de parole naturelle et intelligible, c'est-à-dire non distordu et dont le spectre des fréquences utiles ne soit pas amputé par les traitements de débruitage.The problem of the invention is also, in such a situation, to be able to implement a set of microphones at a time in reduced numbers (preferably two microphones only) and relatively close (typically a gap of a few centimeters only). Another important aspect of the problem is the need to reproduce a natural and intelligible speech signal, that is to say, undistorted and whose useful frequency spectrum is not amputated by denoising treatments.

A cet effet, l'invention propose un équipement audio du type général divulgué par le US 2008/0280653 A1 précité, c'est-à-dire comprenant : un ensemble de deux capteurs microphoniques aptes à recueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ; des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; et des moyens de débruitage d'un signal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement. Les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique.For this purpose, the invention proposes audio equipment of the general type disclosed by the US 2008/0280653 A1 above, that is to say comprising: a set of two microphonic sensors able to collect the speech of the user of the equipment and to deliver respective noisy speech signals; means for sampling the speech signals delivered by the microphone sensors; and means for denoising a speech signal, receiving as input the samples of the speech signals delivered by the two microphonic sensors, and outputting a speech signal that is not representative of the speech transmitted by the user of the equipment . The denoising means are non-frequency noise reduction means comprising an adaptive filter combiner signals delivered by the two microphonic sensors, operating by iterative search to cancel the noise picked up by one of the microphone sensors on the basis of a noise reference given by the signal delivered by the other microphonic sensor.

De façon caractéristique de l'invention, le filtre adaptatif est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage. L'équipement comprend en outre des moyens de détection d'activité vocale aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole.In a characteristic way of the invention, the adaptive filter is a fractional delay filter, able to model a delay less than the sampling period of the sampling means. The equipment further comprises voice activity detection means capable of delivering a signal representative of the presence or absence of speech by the user of the equipment, and the adaptive filter also receives as input the signal of presence or absence of speech, so as to selectively: i) perform an adaptive search filter parameters in the absence of speech, ii) freeze these parameters of the filter in the presence of speech.

Le filtre adaptatif est notamment apte à estimer un filtre optimal H tel que : $\hat{H} = \hat{G} \otimes \hat{F}$

avec :

xʹ (n) = G \otimes x (n) et G (k) = sinc (k + τ / Te),

Ĥ: représentant l'estimée du filtre optimal H, transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire,
Ĝ: représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques,
F̂: représentant l'estimée de la réponse acoustique de l'environnement,
Ⓧ: indiquant une convolution,
x(n): étant la série d'échantillons du signal en entrée du filtre H,
x'(n): étant la série x(n) décalée d'un retard τ,
Te: étant la période d'échantillonnage du signal en entrée du filtre H,
τ: étant ledit délai fractionnaire, égal à un sous-multiple de Te, et
sinc: indiquant la fonction sinus cardinal.

The adaptive filter is particularly capable of estimating an optimal filter H such that:

\hat{H} = \hat{BOY WUT} \otimes \hat{F}

with:

x ' (not) = BOY WUT \otimes x (not) and BOY WUT (k) = sinc (k + τ / You),

Ĥ: representing the estimate of the optimal filter H , transfer of noise between the two microphonic sensors for an impulse response including a fractional delay,
BOY WUT: representing the estimate of the fractional delay filter G between the two microphonic sensors,
F: representing the estimated acoustic response of the environment,
ⓧ: indicating a convolution,
x (n): being the series of samples of the input signal of the filter H ,
x '(n): being the series x ( n ) shifted by a delay τ,
You: being the sampling period of the signal at the input of the filter H ,
τ: being said fractional delay equal to a sub-multiple of Te, and
sinc: indicating the cardinal sinus function.

De préférence, le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS.Preferably, the adaptive filter is a LMS mean least squares linear prediction algorithm filter.

Dans une forme de réalisation, l'équipement comprend une caméra video dirigée vers l'utilisateur de l'équipement et apte à capter une image de celui-ci, et les moyens de détection d'activité vocale comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur.In one embodiment, the equipment comprises a video camera directed towards the user of the equipment and able to capture an image thereof, and the voice activity detection means comprise suitable video analysis means. analyzing the image produced by the camera and responding in response to said presence or absence of speech signal by said user.

Dans une autre forme de réalisation, l'équipement comprend un capteur physiologique apte à venir en contact avec la tête de l'utilisateur de l'équipement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, et les moyens de détection d'activité vocale comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur, notamment par évaluation de l'énergie du signal délivré par le capteur physiologique et comparaison à un seuil.In another embodiment, the equipment comprises a physiological sensor adapted to come into contact with the head of the user of the equipment to be coupled thereto in order to capture non-acoustic vocal vibrations transmitted by internal bone conduction, and the voice activity detection means comprise means able to analyze the signal delivered by the physiological sensor and to respond in response to said presence or absence of speech signal by said user, in particular by evaluating the energy of the signal delivered by the physiological sensor and comparison to a threshold.

L'équipement peut en particulier être un casque audio du type combiné micro/casque, comprenant : des écouteurs comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque pourvue d'un coussinet circumaural ; lesdits deux capteurs microphoniques, disposés sur la coque de l'un des écouteurs ; et ledit capteur physiologique, incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact avec la joue ou la tempe du porteur du casque. Ces deux capteurs microphoniques sont de préférence alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche de l'utilisateur de l'équipement.The equipment may in particular be a headset of the combined microphone / headset type, comprising: headphones each comprising a sound reproduction transducer of an audio signal housed in a shell provided with a circumaural pad; said two microphone sensors, arranged on the shell of one of the earphones; and said physiological sensor, incorporated in the pad of one of the earphones and placed in a region thereof able to come into contact with the cheek or temple of the wearer of the helmet. These two microphonic sensors are preferably aligned in a linear array in a main direction directed towards the mouth of the user of the equipment.

On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.

La Figure 1 illustre de façon schématique, sous forme de blocs fonctionnels, la manière dont est réalisé le traitement de débruitage selon l'invention.
La Figure 2 est une représentation graphique de la fonction sinus cardinal modélisée dans le traitement de débruitage de l'invention.
Les Figures 3a et 3b sont des représentations de la fonction sinus cardinal de la Figure 2, respectivement pour les différents points d'une série d'échantillons de signal, et pour la même série décalée dans le temps d'une valeur fractionnaire.
La Figure 4 est une représentation de la réponse acoustique de l'environnement, avec en ordonnée l'amplitude et en abscisse les coefficients du filtre représentant ce transfert.
La Figure 5 est homologue de la Figure 4, après convolution avec une réponse en sinus cardinal.
La Figure 6 est une représentation schématique d'un mode de réalisation consistant à utiliser une caméra pour assurer la détection d'activité vocale.
La Figure 7 illustre de façon générale un ensemble micro/casque combiné auquel peuvent être appliqués les enseignements de l'invention.
La Figure 8 est un schéma d'ensemble qui illustre sous forme de blocs fonctionnels la manière dont peut être réalisé le traitement du signal pour délivrer en sortie un signal débruité représentatif de la parole émise par le porteur du casque de la Figure 7.
La Figure 9 illustre deux chronogrammes correspondant respectivement à un exemple de signal brut recueilli par les micros, et de signal recueilli par un capteur physiologique permettant de distinguer les périodes de parole et les périodes de silence du locuteur.

An embodiment of the device of the invention will now be described with reference to the appended drawings in which the same reference numerals designate identical or functionally similar elements from one figure to another.

The Figure 1 illustrates schematically, in the form of functional blocks, the manner in which the denoising treatment according to the invention is carried out.
The Figure 2 is a graphical representation of the cardinal sinus function modeled in the denoising process of the invention.
The Figures 3a and 3b are representations of the cardinal sinus function of the Figure 2 , respectively for the different points of a series of signal samples, and for the same time-shifted series of a fractional value.
The Figure 4 is a representation of the acoustic response of the environment, with ordinate amplitude and abscissa the coefficients of the filter representing this transfer.
The Figure 5 is counterpart of the Figure 4 , after convolution with a cardinal sinus response.
The Figure 6 is a schematic representation of an embodiment of using a camera to provide voice activity detection.
The Figure 7 generally illustrates a combined microphone / headset assembly to which the teachings of the invention can be applied.
The Figure 8 is a block diagram illustrating in the form of functional blocks the manner in which the signal processing can be performed to output a speech-neutral signal representative of the speech transmitted by the headphone wearer of the Figure 7 .
The Figure 9 illustrates two chronograms respectively corresponding to an example of raw signal collected by the microphones, and signal collected by a physiological sensor to distinguish speech periods and periods of silence of the speaker.

La Figure 1 illustre de façon schématique, sous forme de blocs, les différentes fonctions mises en oeuvre par l'invention.The Figure 1 schematically illustrates, in block form, the various functions implemented by the invention.

Le processus de l'invention est mis en oeuvre par des moyens logiciels, schématisés par un certain nombre de blocs fonctionnels correspondant à des algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, les différentes fonctions soient présentées sous forme de modules distincts, elles mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel.The process of the invention is implemented by software means, schematized by a number of functional blocks corresponding to appropriate algorithms executed by a microcontroller or a digital signal processor. Although, for the sake of clarity, the different functions are presented as separate modules, they implement common elements and correspond in practice. to a plurality of functions globally executed by the same software.

Le signal que l'on souhaite débruiter est issu d'un réseau de capteurs microphoniques qui, dans la configuration minimale illustrée, peut être simplement un réseau de deux capteurs disposés selon une configuration prédéterminée, chaque capteur étant constitué d'un micro respectif correspondant 10, 12.The signal that is desired to be denoised originates from a network of microphone sensors which, in the minimum configuration illustrated, may simply be an array of two sensors arranged in a predetermined configuration, each sensor consisting of a corresponding respective microphone 10 , 12.

L'invention peut toutefois être généralisée à un réseau de plus de deux capteurs microphoniques, et/ou à des capteurs microphoniques dont chaque capteur est constitué d'une structure plus complexe qu'un simple micro, par exemple une combinaison de plusieurs micros et/ou autres capteurs de parole.The invention may, however, be generalized to a network of more than two microphone sensors, and / or to microphonic sensors, each sensor of which is constituted by a more complex structure than a simple microphone, for example a combination of several microphones and / or or other speech sensors.

Les micros 10, 12 sont des micros qui captent le signal émis par la source de signal utile (le signal de parole du locuteur), et la différence de position entre les deux micros induit un ensemble de déphasages et variations d'amplitude dans l'enregistrement des signaux émis par la source de signal utile.The microphones 10, 12 are microphones that pick up the signal emitted by the useful signal source (the speech signal from the speaker), and the difference in position between the two microphones induces a set of phase shifts and amplitude variations in the microphone. recording the signals emitted by the useful signal source.

En pratique, les deux micros 10, 12, sont des micros omnidirectionnels disposés à quelques centimètres l'un de l'autre sur le plafonnier d'un habitacle de voiture, sur la façade d'un autoradio ou d'un emplacement approprié de la planche de bord, ou bien sur la coque d'un des écouteurs d'un casque audio, etc.In practice, the two microphones 10, 12 are omnidirectional microphones placed a few centimeters apart from each other on the ceiling of a car interior, on the front of a car radio or in an appropriate location on the car. dashboard, or on the shell of one of the headphones headphones, etc.

Comme on le verra, la technique de l'invention permet d'assurer un débruitage efficace même pour des micros très rapprochés, c'est-à-dire espacés entre eux d'un écartement d tel que le retard de phase maximal d'un signal capté par un micro puis par l'autre soit inférieur à la période d'échantillonnage du convertisseur de numérisation des signaux. Ceci correspond à une distance maximale d de l'ordre de 4,7 cm pour une fréquence d'échantillonnage F_e de 8 kHz (et un écartement d moitié moindre pour une fréquence double, etc.).As will be seen, the technique of the invention makes it possible to ensure efficient denoising even for closely spaced microphones, that is to say spaced apart from each other by a distance d such that the maximum phase delay of a signal picked up by one microphone and then the other is less than the sampling period of the signal digitizing converter. This corresponds to a maximum distance of about 4.7 cm for a sampling frequency F _e of 8 kHz (and a lesser spacing of half to twice the frequency, etc.).

Un signal de parole émis par un locuteur proche atteindra l'un des micros avant l'autre, et présentera donc un retard, et donc un déphasage ϕ, sensiblement constant. Pour du bruit, il peut certes exister également un déphasage entre les deux micros 10 et 12. En revanche, la notion de déphasage étant liée à la notion de direction d'onde incidente, on peut s'attendre à ce que ce déphasage soit différent de celui de la parole. Par exemple, si un bruit directif est dirigé dans le sens opposé à celui de la bouche, son déphasage sera de -ϕ si le déphasage pour la voix est de ϕ. Dans le cas de l'invention, la réduction de bruit sur les signaux captés par les micros 10 et 12 n'est pas opérée dans le domaine fréquentiel (comme cela est souvent le cas avec les techniques conventionnelles de débruitage) mais dans le domaine temporel.A speech signal emitted by a close speaker will reach one of the microphones before the other, and therefore have a delay, and therefore a phase shift φ, substantially constant. For noise, it can certainly exist also a phase shift between the two microphones 10 and 12. By contrast, the notion of phase shift being related to the notion of incident wave direction, we can expect this phase difference is different from that of the speech. For example, if a directional noise is directed in the opposite direction to that of the mouth, its phase shift will be -φ if the phase shift for the voice is φ. In the case of the invention, the noise reduction on the signals picked up by the microphones 10 and 12 is not operated in the frequency domain (as is often the case with conventional denoising techniques) but in the time domain .

Cette réduction de bruit est opérée au moyen d'un algorithme recherchant la fonction de transfert entre l'un des micros (par exemple le micro 10) et l'autre micro (le micro 12) au moyen d'un combineur adaptatif 14 mettant en oeuvre un filtre prédictif 16 de type LMS (Least Mean Squares, moindres carrés moyens). La sortie du filtre 16 est soustraite en 18 du signal du micro 10 pour donner un signal S débruité, appliqué en retour au filtre 16 pour permettre son adaptation itérative en fonction de l'erreur de prédiction. Il est ainsi possible de prédire à partir du signal capté par le micro 12 la composante de bruit contenue dans le signal capté par le micro 10 (la fonction de transfert identifiant le transfert du bruit).This noise reduction is effected by means of an algorithm seeking the transfer function between one of the microphones (for example the microphone 10) and the other microphone (the microphone 12) by means of an adaptive combiner 14 setting A predictive filter 16 of LMS ( Least Mean Squares ) type is used. The output of the filter 16 is subtracted at 18 from the signal of the microphone 10 to give a signal S de-noised, applied back to the filter 16 to allow its iterative adaptation as a function of the prediction error. It is thus possible to predict from the signal picked up by the microphone 12 the noise component contained in the signal picked up by the microphone 10 (the transfer function identifying the noise transfer).

La recherche adaptative de la fonction de transfert entre les deux micros n'est opérée que pendant les phases d'absence de parole. Pour cela, l'adaptation itérative du filtre 16 n'est activée que lorsqu'un détecteur 20 d'activité vocale VAD (Voice Activity Detector) piloté par un capteur 22 indique que le locuteur proche n'est pas en train de parler. Cette fonction est schématisée par le commutateur 24 : en l'absence de signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 cherche à optimiser la fonction de transfert entre les deux micros 10 et 12 de manière à réduire la composante de bruit (position fermée du commutateur 24, comme illustré sur la figure) ; en revanche, en présence d'un signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 fige les paramètres du filtre 16 à la valeur à laquelle ils se trouvaient juste avant que la parole ne soit détectée (ouverture du commutateur 24), ce qui évite toute dégradation du signal de parole du locuteur proche.The adaptive search of the transfer function between the two microphones is performed only during the speech-free phases. For this, the iterative adaptation of the filter 16 is activated only when a voice activity detector VAD ( Voice Activity Detector ) 20 controlled by a sensor 22 indicates that the near speaker is not speaking. This function is shown schematically by the switch 24: in the absence of a speech signal confirmed by the voice activity detector 20, the adaptive combiner 14 seeks to optimize the transfer function between the two microphones 10 and 12 so as to reduce the noise component (closed position of the switch 24, as shown in the figure); on the other hand, in the presence of a speech signal confirmed by the voice activity detector 20, the adaptive combiner 14 freezes the parameters of the filter 16 to the value at which they were just before the speech was detected (opening of the switch 24), which avoids any degradation of the speech signal of the nearby speaker.

On notera que cette manière de procéder n'est pas gênante même en présence d'un environnement bruyant évolutif, car les mises à jour des paramètres du filtre 16 sont très fréquentes puisqu'elles interviennent à chaque fois que le locuteur proche cesse de parler.It should be noted that this way of proceeding is not a problem even in the presence of an evolving noisy environment, because the updates of 16 filter settings are very common since they occur each time the close speaker stops speaking.

De façon caractéristique de l'invention, le filtrage du combineur adaptatif 14 est un filtrage à délai fractionnaire, c'est-à-dire qu'il permet d'appliquer un filtrage entre les signaux captés par les deux micros en tenant compte d'un délai inférieur à la durée d'un échantillon de numérisation des signaux.In a characteristic way of the invention, the filtering of the adaptive combiner 14 is a fractional delay filtering, that is to say that it makes it possible to apply a filtering between the signals picked up by the two microphones taking into account the a delay less than the duration of a sample digitizing signals.

On sait qu'un signal temporel x(t) de bande passante [0,Fe/2] peut être reconstitué de manière parfaite à partir de la série discrète x(k), où les échantillons x(k) correspondent aux valeurs de x(t) aux instants k.Te (Te = 1/Fe étant la période d'échantillonnage).It is known that a time signal x ( t ) of bandwidth [0, Fe / 2] can be perfectly reconstructed from the discrete series x (k), where the samples x ( k ) correspond to the values of x ( t ) at times k.Te ( Te = 1 / Fe being the sampling period).

L'expression mathématique est la suivante : $x (t) = \sum_{k} x (k) . sinc (\frac{t - k . Te}{Te})$

The mathematical expression is:

x (t) = \underset{k}{Σ} x (k) . sinc (\frac{t - k . You}{You})

La fonction sinus cardinal sinc étant définie par : $sinc (t) = \frac{\sin (pi * t)}{pi * t}$

The cardinal sin function sinc being defined by:

sinc (t) = \frac{\sin (pi * t)}{pi * t}

La Figure 2 donne un représentation graphique de cette fonction sinc (t). Comme on peut le constater, cette fonction décroît rapidement, avec pour conséquence qu'un nombre fini et relativement faible de coefficients k dans la somme donne une très bonne approximation du résultat réel.The Figure 2 gives a graphical representation of this function sinc ( t ). As can be seen, this function decreases rapidly, with the result that a finite and relatively small number of coefficients k in the sum gives a very good approximation of the real result.

Pour un signal numérisé avec une période d'échantillonnage Te, l'intervalle ou décalage entre deux échantillons correspond de manière temporelle à une durée de Te seconde.For a digitized signal with a sampling period Te , the interval or offset between two samples corresponds temporally to a duration of Te second.

La série x(n) des n échantillons successifs numérisés du signal capté peut ainsi être représentée par l'expression suivante, pour tout n entier : $x (n . Te) = \sum_{k} x (k) . sinc (\frac{n . Te - k . Te}{Te})$

The series x ( n ) of the n digitized successive samples of the captured signal can thus be represented by the following expression, for all n integer:

x (not . You) = \underset{k}{Σ} x (k) . sinc (\frac{not . You - k . You}{You})

On notera que dans la somme le terme en sinc est nul pour tout k, sauf pour k = n. Note that in the sum the term in sinc is zero for all k , except for k = n.

La Figure 3a donne un représentation graphique de cette fonction.The Figure 3a gives a graphic representation of this function.

Si l'on veut calculer cette même série x(n) décalée d'une valeur fractionnaire τ, c'est-à-dire d'un délai inférieur à la durée d'un échantillon de numérisation Te, l'expression ci-dessus devient : $x (n . Te - τ) = \sum_{k} x (k) . sinc (\frac{(n - k) . Te - τ}{Te})$

If we want to calculate this same series x ( n ) shifted by a fractional value τ, that is to say by a delay less than the duration of a digitization sample Te , the expression above bECOMES :

x (not . You - τ) = \underset{k}{Σ} x (k) . sinc (\frac{(not - k) . You - τ}{You})

La Figure 3b donne un représentation graphique de cette fonction, pour un exemple de valeur fractionnaire τ = 0,5 (un demi-échantillon).The Figure 3b gives a graphical representation of this function, for an example of fractional value τ = 0.5 (half a sample).

La série x'(n) (décalée de τ) peut être vue comme la convolution de x(n) par un filtre non causal G tel que : $xʹ (n) = G \otimes x (n)$

The series x ' ( n ) (shifted by τ) can be seen as the convolution of x ( n ) by a non-causal filter G such that:

x ' (not) = BOY WUT \otimes x (not)

Il s'agit donc de déterminer une estimée Ĝ d'un filtre optimal G tel que : $\hat{H} = \hat{G} \otimes \hat{F} et G (k) = sinc (k + 1 / Te)$

Ĥ: étant l'estimée du transfert de bruit entre les deux micros, incluant un délai fractionnaire, et
F: étant l'estimée de la réponse acoustique de l'environnement.

It is therefore necessary to determine an estimate Ĝ of an optimal filter G such that:

\hat{H} = \hat{BOY WUT} \otimes \hat{F} and BOY WUT (k) = sinc (k + 1 / You)

Ĥ: being the estimate of the noise transfer between the two microphones, including a fractional delay, and
F: being the estimate of the acoustic response of the environment.

Pour l'estimation du filtre de transfert de bruit entre les deux micros, l'estimée Ĥ correspond à un filtre qui minimise une erreur : $e (n) = MicAvant (n) - \hat{H} * MicArrière (n)$

For estimating the noise transfer filter between the two microphones, the estimate Ĥ corresponds to a filter that minimizes an error:

e (not) = MicAvant (not) - \hat{H} * mid-career (not)

MicAvant(n) et MicArrière(n) étant les valeurs respectives des signaux issus des capteurs microphoniques 10 et 12. MicAvant (n) and MicRear (n) being the respective values of the signals from the microphonic sensors 10 and 12.

Ce filtre a pour caractéristique d'être non causal, c'est-à-dire qu'il se sert des échantillons futurs. En pratique, cela signifie que l'on introduit un retard dans le délai de traitement algorithmique. Comme il est non causal, il peut modéliser un délai fractionnaire et peut donc s'écrire Ĥ = Ĝ Ⓧ F̂. (dans le cas classique d'un filtre causal, on aurait Ĥ = F̂ ).This filter has the characteristic of being non-causal, that is to say that it uses future samples. In practice, this means that a delay is introduced in the algorithmic processing time. Since it is non-causal, it can model a fractional delay and can therefore be written Ĥ = Ĝ Ⓧ F. (In the classic case of a causal filter, we would have Ĥ = F ).

Concrètement, dans l'algorithme, l'estimation de Ĥ a lieu directement, par la minimisation de l'erreur e(n) ci-dessus, sans qu'il y a ait besoin d'estimer séparément Ĝ et F̂.Concretely, in the algorithm, the estimation of Ĥ takes place directly, by the minimization of the error e ( n ) above, without there being need to estimate separately Ĝ and F.

Dans le cas classique causal (par exemple pour un filtre d'annulation d'écho), l'erreur e(n) à minimiser s'écrit, sous forme développée : $e (n) = MicAvant (n) - \sum_{k = 0}^{L - 1} \hat{H} (k) . MicArrière (n - k)$

In the classical causal case (for example for an echo cancellation filter), the error e ( n ) to be minimized is written in expanded form:

e (not) = MicAvant (not) - Σ_{k = 0}^{The - 1} \hat{H} (k) . mid-career (not - k)

L étant la longueur du filtre.L being the length of the filter.

Dans le cas de la présente invention (filtre non causal) l'erreur devient : $e (n) = MicAvant (n) - \sum_{k = - L}^{L - 1} \hat{H} (k) . MicArrière (n - k)$

In the case of the present invention (non-causal filter) the error becomes:

e (not) = MicAvant (not) - Σ_{k = - The}^{The - 1} \hat{H} (k) . mid-career (not - k)

On notera que la longueur du filtre est doublée, pour tenir compte des échantillons futurs.Note that the length of the filter is doubled to account for future samples.

La prédiction du filtre H donne un filtre à délai fractionnaire qui, idéalement et en l'absence de parole, annule le bruit du micro 10 en ayant pour référence le micro 12 (comme on l'a indiqué plus haut, en période de parole le filtre est toutefois figé pour éviter toute dégradation de la parole locale).The prediction of the filter H gives a fractional delay filter which, ideally and in the absence of speech, cancels the noise of the microphone 10 with reference to the microphone 12 (as indicated above, during speech however, the filter is frozen to prevent any degradation of local speech).

Concrètement, le filtre Ĥ calculé par l'algorithme adaptatif qui estime le transfert de bruit entre le micro 10 et le micro 12, peut être vu comme la convolution Ĥ = Ĝ Ⓧ F̂ de deux filtres Ĝ et F̂ où :

Ĝ correspond à la partie fractionnaire (avec la forme en sinus cardinal), et
F̂ correspond au transfert acoustique entre les deux micros, c'est-à-dire à la partie "environnementale" du système, représentative de l'acoustique du volume dans lequel opère celui-ci.

Concretely, the filter Ĥ calculated by the adaptive algorithm which estimates the transfer of noise between the microphone 10 and the microphone 12, can be seen as the convolution Ĥ = Ĝ Ⓧ F of two filters Ĝ and F where:

Ĝ corresponds to the fractional part (with the cardinal sinus form), and
F corresponds to the acoustic transfer between the two microphones, that is to say the "environmental" part of the system, representative of the acoustics of the volume in which it operates.

La Figure 4 illustre un exemple de réponse acoustique entre les deux micros, sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre F. Les différentes réflexions du son qui peuvent intervenir en fonction de l'environnement, par exemple sur les vitres ou autres parois d'un habitacle de voiture, créent des pics visibles sur cette caractéristique de réponse acoustique.The Figure 4 illustrates an example of acoustic response between the two microphones, in the form of a characteristic giving the amplitude A as a function of the coefficients k of the filter F. The different sound reflections that may occur depending on the environment, for example on the windows or other walls of a car interior, create visible peaks on this acoustic response characteristic.

La Figure 5 illustre un exemple du résultat de la convolution GⓍF des deux filtres G (réponse en sinus cardinal) et F (environnement d'utilisation), sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre convolué.The Figure 5 illustrates an example of the result of the convolution G Ⓧ F of the two filters G (cardinal sinus response) and F (environment of use), in the form of a characteristic giving the amplitude A as a function of the coefficients k of the convoluted filter.

L'estimée Ĥ peut être calculée par un algorithme LMS itératif cherchant à minimiser l'erreur y(n) - Ĥ Ⓧ x(n) pour converger vers le filtre optimal.The estimate Ĥ can be calculated by an iterative LMS algorithm seeking to minimize the error y (n) - Ĥ Ⓧ x ( n ) to converge towards the optimal filter.

Les algorithmes de type LMS - ou NLMS (Normalized LMS) qui est une version normalisée du LMS - sont des algorithmes relativement simples et peu exigeants en termes de ressources de calcul. Il s'agit d'algorithmes en eux-mêmes connus, décrits par exemple par :

[1] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R. E. Kalman and N. De Claris Eds., New York: Holt, Rinehart and Winston, pp. 563-587, 1970 ;
[2] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975 .
[3] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985 .

LMS algorithms - or NLMS ( Normalized LMS ) which is a standardized version of the LMS - are relatively simple and undemanding algorithms in terms of computing resources. These are algorithms known per se, described for example by:

[1] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, RE Kalman and N. Claris Eds., New York: Holt, Rinehart and Winston, pp. 563-587, 1970 ;
[2] B. Widrow et al., Adaptive Noise Canceling: Principles and Applications, Proc. IEEE, Vol. 63, No. 12 pp. 1692-1716, Dec 1975 .
[3] B. Widrow and S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985 .

Comme on l'a indiqué plus haut, pour que le traitement précédent soit possible, il est nécessaire de disposer d'un détecteur d'activité vocale permettant de discriminer entre les phases d'absence de parole (où l'adaptation du filtre permet d'optimiser l'évaluation du bruit) et de présence de parole (où les paramètres du filtre sont figés à leur dernière valeur trouvée).As indicated above, in order for the above treatment to be possible, it is necessary to have a voice activity detector making it possible to discriminate between the phases of absence of speech (where the adaptation of the filter makes it possible to 'optimize noise evaluation) and speech presence (where the filter parameters are frozen at their last found value).

Plus précisément, le détecteur d'activité vocale est ici de préférence un détecteur "parfait", c'est-à-dire qu'il délivre un signal binaire (absence vs. présence de parole). Il se distingue ainsi de la plupart des détecteurs d'activité vocale utilisés dans les systèmes de débruitage connus, qui délivrent seulement une probabilité de présence de parole variable entre 0 et 100 % de façon continue ou par pas successifs. Avec de tels détecteurs basés seulement sur une probabilité de présence de parole, les fausses détections peuvent être importantes dans des environnements bruités. Pour être "parfait", le détecteur d'activité vocale ne peut pas se baser uniquement sur le signal capté par les micros ; il doit disposer d'une information additionnelle permettant de discriminer les phases de parole et de silence du locuteur proche.More specifically, the voice activity detector is here preferably a "perfect" detector, that is to say it delivers a binary signal (absence vs. presence of speech). It is thus distinguished from most voice activity detectors used in known denoising systems, which deliver only a probability of presence of variable speech between 0 and 100% continuously or in successive steps. With such detectors based only on the probability of speech, false detections can be important in noisy environments. To be "perfect", the voice activity detector can not rely solely on the signal picked up by the microphones; it must have additional information to discriminate the speech and silence phases of the next speaker.

Un premier exemple d'un tel détecteur est illustré par la Figure 6, où le détecteur d'activité vocale 20 opère en réponse au signal produit par une caméra.A first example of such a detector is illustrated by the Figure 6 , where the voice activity detector 20 operates in response to the signal produced by a camera.

Cette caméra est par exemple une caméra 26 installée dans l'habitacle d'un véhicule automobile, et orientée de manière que son angle de champ 28 englobe en toutes circonstances la tête 30 du conducteur, considéré comme le locuteur proche. Le signal délivré par la caméra 26 est analysé pour déterminer d'après le mouvement de la bouche et des lèvres si le locuteur parle ou non.This camera is for example a camera 26 installed in the passenger compartment of a motor vehicle, and oriented so that its field of view 28 encompasses in all circumstances the driver's head 30, considered as the close speaker. The signal delivered by the camera 26 is analyzed to determine from the movement of the mouth and lips whether the speaker speaks or not.

On peut utiliser à cet effet des algorithmes de détection de la région de la bouche dans une image d'un visage, et de suivi du mouvement des lèvres (lip contour tracking) telle que ceux exposés notamment par :

[4] G. Potamianos et al., Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing, G. Bailly et al. Eds., MIT Press, pp. 1-30, 2004 .

For this purpose, it is possible to use algorithms for detecting the region of the mouth in an image of a face, and for tracking the lip movement ( lip contour tracking ) such as those exhibited in particular by:

Ce document décrit, de façon générale, l'apport d'une information visuelle en complément d'un signal audio pour notamment faire de la reconnaissance vocale dans des conditions acoustiques dégradées. Les données vidéo viennent ainsi s'ajouter aux données audio conventionnelles pour améliorer l'information vocale (speech enhancement).This document describes, in general, the provision of visual information in addition to an audio signal to include speech recognition in degraded acoustic conditions. Video data is added to conventional audio data to improve speech enhancement .

Ce traitement pourra être utilisé dans le cadre de la présente invention pour distinguer entre les phases de parole et les phases de silence du locuteur. Pour tenir compte du fait que dans un habitacle automobile les mouvements de l'utilisateur sont lents tandis que les mouvements de la bouche sont rapides, on peut par exemple, une fois localisée la bouche, comparer deux images consécutives et évaluer le décalage sur un même pixel.This treatment may be used in the context of the present invention to distinguish between the speech phases and the silence phases of the speaker. To take into account that in a passenger compartment the movements of the user are slow while the movements of the mouth are fast, we can for example, once localized the mouth, compare two consecutive images and evaluate the shift on the same pixel.

L'avantage de cette technique d'analyse d'image est de disposer d'une information complémentaire totalement indépendante de l'environnement de bruit acoustique.The advantage of this image analysis technique is to have complementary information completely independent of the acoustic noise environment.

Un autre exemple de capteur utilisable pour la détection d'activité vocale "parfaite" est un capteur physiologique susceptible de détecter certaines vibrations vocales du locuteur qui ne soient pas ou peu corrompues par le bruit environnant.Another example of a sensor that can be used for the detection of "perfect" voice activity is a physiological sensor capable of detecting certain vocal vibrations of the speaker that are not or only slightly corrupted by the surrounding noise.

Un tel capteur peut être notamment constitué d'un accéléromètre ou d'un capteur piézoélectrique appliqué contre la joue ou la tempe du locuteur. En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cordes vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. La bouche, le voile du palais, le pharynx, les sinus et les fosses nasales servent ensuite de caisse de résonance à ce son voisé et, leur paroi étant élastique, elles vibrent à leur tour et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe.Such a sensor may consist in particular of an accelerometer or a piezoelectric sensor applied against the cheek or the temple of the speaker. Indeed, when a person makes a voiced sound (that is, a speech component whose production is accompanied by a vibration of the vocal cords), a vibration propagates from the vocal cords to the pharynx and to the bucco-nasal cavity, where it is modulated, amplified and articulated. The mouth, the soft palate, the pharynx, the sinuses and the nasal fossae then serve as a sounding board for this voiced sound and, their wall being elastic, they vibrate in turn and these vibrations are transmitted by internal bone conduction and are perceptible at the cheek and temple.

Ces vibrations au niveau de la joue et de la tempe présentent la caractéristique d'être, par nature, très peu corrompues par le bruit environnant : en effet, en présence de bruits extérieurs, même importants, les tissus de la joue et de la tempe ne vibrent quasiment pas, et ceci quelle que soit la composition spectrale du bruit extérieur.These vibrations at the level of the cheek and the temple have the characteristic of being, by nature, very little corrupted by the surrounding noise: indeed, in the presence of external noise, even important, the tissues of the cheek and the temple do not vibrate almost, and this whatever the spectral composition of the external noise.

Un capteur physiologique qui recueille ces vibrations vocales dépourvues de bruit donne un signal représentatif de la présence ou de l'absence de sons voisés émis par le locuteur, permettant donc de discriminer très bien les phases de parole et les phases de silence du locuteur.A physiological sensor that collects these noise-free vocal vibrations gives a signal representative of the presence or absence of voiced sounds emitted by the speaker, thus making it possible to discriminate very clearly the speech phases and the speaker's silence phases.

Un tel capteur physiologique peut être notamment incorporé à un ensemble combiné micro/casque tel qu'illustré sur la Figure 7.Such a physiological sensor may in particular be incorporated into a combined microphone / headset assembly as shown in FIG. Figure 7 .

Sur cette figure, la référence 32 désigne de façon générale le casque selon l'invention, qui comporte deux oreillettes 34 réunies par un arceau. Chacune des oreillettes est de préférence constituée d'une coque fermée 36, logeant un transducteur de reproduction sonore, appliquée autour de l'oreille de l'utilisateur avec interposition d'un coussinet 38 isolant l'oreille de l'extérieur.In this figure, the reference 32 generally designates the helmet according to the invention, which comprises two atria 34 joined by a hoop. Each of the atria is preferably constituted by a closed shell 36, housing a sound reproduction transducer, applied around the ear of the user with the interposition of a pad 38 isolating the ear from the outside.

Le capteur physiologique 40 servant à la détection d'activité vocale est par exemple un accéléromètre intégré dans le coussinet 38 de manière à venir s'appliquer contre la joue ou la tempe de l'utilisateur avec un couplage le plus étroit possible. Ce capteur physiologique 40 peut notamment être placé sur la face intérieure de la peau du coussinet 38 de sorte que, une fois le casque mis en place, le capteur soit appliqué contre la joue ou la tempe de l'utilisateur sous l'effet d'une légère pression résultant de l'écrasement du matériau du coussinet, avec seulement interposition de la peau extérieure de ce coussinet.The physiological sensor 40 used for the detection of voice activity is for example an accelerometer integrated in the pad 38 so as to be applied against the cheek or the temple of the user with the closest possible coupling. This physiological sensor 40 may in particular be placed on the inner face of the skin of the pad 38 so that, once the helmet is in place, the sensor is applied against the cheek or the temple of the user under the effect of a slight pressure resulting from the crash cushion material, with only interposition of the outer skin of this pad.

Le casque porte également les micros 10, 12 du circuit de recueil et de débruitage de la parole du locuteur. Ces deux micros sont des micros omnidirectionnels placés sur la coque 36, et ils sont disposés avec le micro 10 placé en avant (plus proche de la bouche du porteur du casque) et le micro 12 placé plus en arrière. D'autre part la direction d'alignement 42 des deux micros 10, 12 est approximativement dirigée vers la bouche 44 du porteur du casque.The headset also carries the microphones 10, 12 of the circuit for collecting and denoising the speech of the speaker. These two microphones are omnidirectional microphones placed on the shell 36, and they are arranged with the microphone 10 placed in front (closer to the mouth of the wearer of the helmet) and the microphone 12 placed further back. On the other hand, the alignment direction 42 of the two microphones 10, 12 is approximately directed towards the mouth 44 of the helmet wearer.

La Figure 8 est un schéma par blocs montrant les différentes fonctions mises en oeuvre par le combiné micro/casque de la Figure 7.The Figure 8 is a block diagram showing the various functions implemented by the microphone / headset combo of the Figure 7 .

On retrouve sur cette figure les deux micros 10 et 12, ainsi que le détecteur d'activité vocale 20. Le micro avant 10 est le micro principal et le micro arrière 12 sert d'entrée au filtre adaptatif 16 du combineur 14. Le détecteur d'activité vocale 20 est contrôlé par le signal délivré par le capteur physiologique 40, avec par exemple lissage de la puissance du signal délivré par ce capteur 40 : ${puissance}_{capteur} (n) = α . {puissance}_{capteur} (n - 1) + (1 - α) . {(capteur (n))}^{2}$

α étant une constante de lissage proche de 1. Il suffit alors de fixer un seuil ζ tel que ce seuil soit dépassé dès que le locuteur parle.This figure shows the two

microphones

10 and 12, as well as the voice activity detector 20. The front microphone 10 is the main microphone and the rear microphone 12 serves as input to the adaptive filter 16 of the combiner 14. voice activity 20 is controlled by the signal delivered by the physiological sensor 40, with, for example, smoothing the power of the signal delivered by this sensor 40:

{power}_{sensor} (not) = α . {power}_{sensor} (not - 1) + (1 - α) . {(sensor (not))}^{2}

α being a smoothing constant close to 1. It is then sufficient to set a threshold ζ such that this threshold is exceeded as soon as the speaker speaks.

La Figure 9 illustre l'allure des signaux recueillis :

le signal S₁₀ du chronogramme du haut correspond à ce qui est capté par le micro avant 10 : on voit qu'il est impossible d'opérer à partir de ce signal (bruité) une discrimination efficace entre les phases de présence et d'absence de parole.
le signal S₄₀ du chronogramme du bas correspond à ce que délivre concurremment le capteur physiologique 40 : les phases successives de présence et d'absence de parole y sont marquées de façon bien plus apparente. Le signal binaire désigné VAD correspond à l'indication délivrée par le détecteur d'activité vocale 20 ('1' = présence de parole ; '0' = absence de parole), après évaluation de la puissance du signal S₄₀ et comparaison par rapport au seuil ξ prédéfini.

The Figure 9 illustrates the pace of the signals collected:

the signal S ₁₀ of the top chronogram corresponds to what is picked up by the microphone before 10: it is seen that it is impossible to operate from this signal (noisy) an effective discrimination between the phases of presence and absence of speech.
the signal S ₄₀ of the bottom chronogram corresponds to what concurrently delivers the physiological sensor 40: the successive phases of presence and absence of speech are marked much more clearly. The binary signal designated VAD corresponds to the indication delivered by the voice activity detector 20 ('1' = presence of speech, '0' = absence of speech), after evaluation of the power of the signal S ₄₀ and comparison with respect to at the predefined threshold ξ.

Le signal délivré par le capteur physiologique 40 peut être utilisé non seulement comme signal d'entrée d'un détecteur d'activité vocale, mais également pour enrichir le signal capté par les micros 10 et 12, notamment dans le bas du spectre.The signal delivered by the physiological sensor 40 may be used not only as an input signal of a voice activity detector, but also to enrich the signal picked up by the microphones 10 and 12, especially in the low end of the spectrum.

Bien sûr, les signaux délivrés par le capteur physiologique, qui correspondent aux sons voisés, ne sont pas à proprement parler de la parole puisque la parole n'est pas seulement formée de sons voisés, elle contient des composantes qui ne naissent pas au niveau des cordes vocales : le contenu fréquentiel est par exemple beaucoup plus riche avec le son provenant de la gorge et émis par la bouche. De plus, la conduction osseuse interne et la traversée de la peau a pour effet de filtrer certaines composantes vocales.Of course, the signals delivered by the physiological sensor, which correspond to the voiced sounds, are not, strictly speaking, speech since the speech is not only formed of voiced sounds, it contains components that are not born at the level of the voices. vocal cords: the frequency content is for example much richer with the sound coming from the throat and emitted by the mouth. In addition, the internal bone conduction and the crossing of the skin has the effect of filtering certain vocal components.

Par ailleurs, en raison du filtrage dû à la propagation des vibrations jusqu'à la tempe ou la joue, le signal recueilli par le capteur physiologique est utilisable uniquement dans les basses fréquences, principalement dans la région inférieure du spectre sonore (typiquement 0-1500 Hz).Moreover, due to the filtering due to the propagation of vibrations up to the temple or the cheek, the signal collected by the physiological sensor is usable only in the low frequencies, mainly in the lower region of the sound spectrum (typically 0-1500 Hz).

Mais comme les bruits généralement rencontrés dans un environnement habituel (rue, métro, train, ...) sont majoritairement concentrés dans les basses fréquences, le signal d'un capteur physiologique présente l"avantage considérable d'être naturellement dépourvu de composante parasite de bruit il sera donc possible d'utiliser ce signal dans le bas du spectre, en le complétant dans le haut du spectre (au-dessus de 1500 Hz) par les signaux (bruités) recueillis par les micros 10 et 12, après avoir soumis ces signaux à une réduction de bruit opérée par le combineur adaptatif 14.But as the noises generally encountered in a usual environment (street, subway, train, ...) are mainly concentrated in the low frequencies, the signal of a physiological sensor has the considerable advantage of being naturally devoid of parasitic component of noise it will be possible to use this signal in the low end of the spectrum, completing it in the high range (above 1500 Hz) by the (noisy) signals collected by the microphones 10 and 12, after having submitted these signals to a noise reduction operated by the adaptive combiner 14.

Le spectre complet est reconstruit au moyen du bloc de mixage 46 qui reçoit parallèlement : le signal du capteur physiologique 40 pour le bas du spectre, et le signal des micros 10 et 12 après débruitage par le combineur adaptatif 14 pour le haut du spectre. Cette reconstruction est opérée par sommation des signaux, qui sont appliqués en synchronisme au bloc de mixage 46 de manière à éviter toute déformation.The complete spectrum is reconstructed by means of the mixing block 46 which receives in parallel: the signal of the physiological sensor 40 for the low end of the spectrum, and the signal of the microphones 10 and 12 after denoising by the adaptive combiner 14 for the top of the spectrum. This reconstruction is performed by summing the signals, which are applied in synchronism with the mixing block 46 so as to avoid any deformation.

Le signal résultant délivré par le bloc 46 peut être soumis à une réduction de bruit finale par le circuit 48, opérée dans le domaine fréquentiel selon une technique conventionnelle comparable à celle décrite par exemple dans le WO 2007/099222 A1 (Parrot ), pour donner en sortie le signal débruité final S.The resulting signal delivered by the block 46 can be subjected to a final noise reduction by the circuit 48, operated in the frequency domain according to a conventional technique comparable to that described for example in the WO 2007/099222 A1 (Parrot ), to output the final denoised signal S.

La mise en oeuvre de cette technique est toutefois fortement simplifiée par rapport à ce qui est enseigné par exemple dans le document précité. En effet, dans le cas présent il n'est plus nécessaire d'évaluer une probabilité de présence de parole à partir du signal recueilli, puisque cette information peut être directement obtenue par le bloc de détection d'activité vocale 20 en réponse à la détection de l'émission de son voisé détecté par le capteur physiologique 40. L'algorithme peut être ainsi simplifié et rendu plus efficace et plus rapide.The implementation of this technique is however greatly simplified compared to what is taught for example in the aforementioned document. Indeed, in the present case it is no longer necessary to evaluate a probability of presence of speech from the collected signal, since this information can be directly obtained by the voice activity detection block 20 in response to the detection. the emission of sound voiced detected by the physiological sensor 40. The algorithm can be thus simplified and made more efficient and faster.

La réduction de bruit fréquentielle est avantageusement opérée de façon différente en présence et en l'absence de parole (information donnée par le détecteur d'activité vocale parfait 20) :

en l'absence de parole, la réduction de bruit est maximale sur toutes les bandes de fréquences, c'est-à-dire que le gain correspondant au débruitage maximum est appliqué de la même façon sur toutes les composantes du signal (puisque l'on est certain dans ce cas que celui-ci ne contient pas de composante utile) ;
en revanche, en présence de parole, la réduction de bruit est une réduction fréquentielle, appliquée de façon différenciée sur chaque bande de fréquences selon le schéma classique.

The frequency noise reduction is advantageously operated differently in the presence and in the absence of speech (information given by the perfect speech activity detector 20):

in the absence of speech, the noise reduction is maximum on all the frequency bands, ie the gain corresponding to maximum denoising is applied in the same way to all the signal components (since the it is certain in this case that it does not contain a useful component);
on the other hand, in the presence of speech, the noise reduction is a frequency reduction applied differentially on each frequency band according to the conventional scheme.

Le système que l'on vient de décrire permet d'obtenir d'excellentes performances globales, typiquement de l'ordre de 30 à 40 dB de réduction de bruit sur le signal de parole du locuteur proche. Le combineur adaptatif 14 opérant sur les signaux captés par les micros 10 et 12 permet en particulier, avec le filtrage à délai fractionnaire, d'obtenir de très bonnes performances de débruitage dans les hautes fréquences.The system that has just been described makes it possible to obtain excellent overall performance, typically of the order of 30 to 40 dB of noise reduction on the speech signal of the nearby speaker. The adaptive combiner 14 operating on the signals picked up by the microphones 10 and 12 makes it possible in particular, with the fractional-delay filtering, to obtain very good denoising performance in the high frequencies.

Grâce à l'élimination de tous les bruits parasites, cela donne l'impression au locuteur distant (celui avec lequel le porteur du casque est en communication) que son interlocuteur (le porteur du casque) se trouve dans une pièce silencieuse.By eliminating all the unwanted noises, it gives the impression to the distant speaker (the one with which the wearer of the headset is in communication) that his interlocutor (the helmet wearer) is in a quiet room.

Claims

Audio equipment, including: a set of two microphone sensors (10, 12) able to collect the speech of the user of the equipment and to deliver respective noisy speech signals;

means for sampling the speech signals delivered by the microphone sensors; and

means for denoising a speech signal, receiving as input the samples of the speech signals delivered by the two microphone sensors, and outputting a speechless signal representative of the speech transmitted by the user of the equipment , in which the denoising means are non-frequency noise reduction means comprising an adaptive filter combiner (14) signals delivered by the two microphonic sensors, operating by iterative search to cancel the noise picked up by one of the microphonic sensors (10) based on a noise reference given by the signal delivered by the other microphone sensor (12);
equipment characterized in that

the adaptive filter (16) is a fractional delay filter, able to model a delay less than the sampling period of the sampling means;

the equipment further comprises voice activity detection means (20, 22) capable of delivering a signal representative of the presence or absence of speech by the user of the equipment, and

the adaptive filter also receives as input the presence or absence of speech signal, so as, selectively: i) to carry out an adaptive search of the filter parameters in the absence of speech, ii) to freeze these parameters of the speech filter in the presence of speech.

The audio equipment of claim 1, wherein the adaptive filter (16) is adapted to estimate an optimal filter H such that:

\hat{H} = \hat{BOY WUT} \otimes \hat{F}

with:

x ' (not) = BOY WUT \otimes x (not) and BOY WUT (k) = sinc (k + τ / You),

Ĥ representing the estimate of the optimal filter H , noise transfer between the two microphonic sensors for an impulse response including a fractional delay,

Ĝ representing the estimate of the fractional delay filter G between the two microphonic sensors,

F representing the estimate of the acoustic response of the environment,

Ⓧ indicating a convolution,

x ( n ) being the series of samples of the input signal of the filter H ,

x '(n) being the series x (n) shifted by a delay τ,

Te being the sampling period of the signal at the input of the filter H ,

τ being said fractional delay, equal to a sub-multiple of Te, and

sinc indicating cardinal sinus function.

The audio equipment of claim 1, wherein the adaptive filter is a LMS mean least squares linear prediction algorithm filter.

The audio equipment of claim 1, wherein: the equipment further comprises a video camera (26) directed towards the user (30) of the equipment and able to capture an image thereof; and

the voice activity detection means (20) comprise video analysis means able to analyze the image produced by the camera and to deliver in response said presence or absence of speech signal by said user.

The audio equipment of claim 1, wherein: the equipment further comprises a physiological sensor (40) able to come into contact with the head of the user of the equipment to be coupled thereto in order to pick up the non-acoustic vocal vibrations transmitted by internal bone conduction, and

the voice activity detection means (20) comprise means able to analyze the signal delivered by the physiological sensor and to deliver in response said presence or absence of speech signal by said user.

The audio equipment of claim 5, wherein the voice activity detecting means comprises means for evaluating the signal energy delivered by the physiological sensor, and threshold means.

The audio equipment of claim 6, wherein the equipment is a headset of the mic / headset combination type, comprising: - Earphones (34) each having a sound reproduction transducer of an audio signal housed in a shell (36) provided with a circumaural pad (38);

said two microphonic sensors (10, 12), arranged on the shell of one of the earphones; and

said physiological sensor (40), incorporated in the pad of one of the earphones and placed in a region thereof able to come into contact with the cheek or the temple of the wearer of the helmet.

The audio equipment of claim 7, wherein the two microphone sensors (10, 12) are aligned in a linear array in a main direction (42) directed to the mouth (44) of the user of the equipment.