EP2518724A1

EP2518724A1 - Microphone/headphone audio headset comprising a means for suppressing noise in a speech signal, in particular for a hands-free telephone system

Info

Publication number: EP2518724A1
Application number: EP12164777A
Authority: EP
Inventors: Michael Herve; Guillaume Vitte
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2011-04-26
Filing date: 2012-04-19
Publication date: 2012-10-31
Anticipated expiration: 2032-04-19
Also published as: FR2974655A1; CN102761643A; JP6017825B2; JP2012231468A; US8751224B2; FR2974655B1; CN102761643B; EP2518724B1; US20120278070A1

Abstract

The headset has a physiological sensor (18) provided in an insulating cushion of a closed shell of one of earpieces. A microphone set has front and rear microphones (20, 22) placed on the shell and aligned to form a linear array in a main direction toward a mouth of a wearer. A combiner-and-phase shifter (56) reduces non-frequency noise of speech signal and includes a combiner for applying a delay to a signal delivered by the microphone and subtracting a signal delivered by another microphone from the delay signal so as to remove noise from a near speech signal uttered by the wearer.

Description

L'invention concerne un casque audio du type micro/casque combinés.The invention relates to a headset type microphone / headset combined.

Un tel casque peut notamment être utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque.Such a headset can in particular be used for communication functions such as "hands-free" telephony functions, in addition to listening to an audio source (music for example) coming from a device on which the headphones are connected. .

Dans les fonctions de communication, l'une des difficultés est d'assurer une intelligibilité suffisante du signal capté par le microphone ("micro"), c'est-à-dire le signal de parole du locuteur proche (le porteur du casque). Le casque peut en effet être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants.In the communication functions, one of the difficulties is to ensure sufficient intelligibility of the signal picked up by the microphone ("microphone"), that is to say the speech signal of the close speaker (the helmet wearer). . The helmet can indeed be used in a noisy environment (metro, busy street, train, etc.), so that the microphone will not only capture the speech of the wearer of the helmet, but also the surrounding noise.

Le porteur peut être protégé de ces bruits par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro, venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque).The wearer can be protected from these noises by the helmet, especially if it is a model with closed headphones isolating the ear from the outside, and even more if the headset is provided with an "active control of noise". On the other hand, the distant speaker (the one at the other end of the communication channel) will suffer from the noise picked up by the microphone, coming to overlap and interfere with the speech signal of the nearby speaker (the helmet wearer).

En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels, composantes qui sont majoritairement concentrées dans les basses fréquences.In particular, some speech formers essential to the understanding of the voice are often embedded in noise components commonly encountered in the usual environments, components which are mainly concentrated in the low frequencies.

Il a été proposé de recueillir certaines vibrations vocales au moyen d'un capteur physiologique appliqué contre la joue ou la tempe du porteur du casque. En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cordes vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. La bouche, le voile du palais, le pharynx, les sinus les fosses nasales servent de caisse de résonance ce son voisé et, leurs parois étant élastiques, elles vibrent à leur tour, et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe.It has been proposed to collect certain vocal vibrations by means of a physiological sensor applied against the cheek or the temple of the helmet wearer. Indeed, when a person makes a voiced sound (that is, a speech component whose production is accompanied by a vibration of the vocal cords), a vibration propagates from the vocal cords to the pharynx and to the bucco-nasal cavity, where it is modulated, amplified and articulated. The mouth, the soft palate, the pharynx, the sinuses and the nasal fossae serve as a sounding board for this voiced sound and, their walls being elastic, they vibrate in turn, and these vibrations are transmitted by internal bone conduction and are perceptible at level of the cheek and temple.

Ces vibrations vocales au niveau de la joue et de la tempe présentent la caractéristique d'être, par nature, très peu corrompues par le bruit environnant : en effet, en présence de bruits extérieurs, les tissus de la joue et de la tempe ne vibrent quasiment pas et ceci, quelle que soit la composition spectrale du bruit extérieur.These vocal vibrations at the level of the cheek and the temple have the characteristic of being, by nature, very little corrupted by the surrounding noise: indeed, in the presence of external noises, the fabrics of the cheek and the temple do not vibrate. almost no, whatever the spectral composition of the external noise.

Par ailleurs, en raison du filtrage engendré par la propagation des vibrations jusqu'à la tempe, le signal recueilli par le capteur physiologique est utilisable uniquement dans les basses fréquences. Mais comme les bruits généralement rencontrés dans un environnement habituel (rue, métro, train ...) sont majoritairement concentrés dans les basses fréquences, le capteur physiologique délivre un signal naturellement dépourvu de composante parasite de bruit (ce qui n'est pas possible avec un micro classique).Moreover, because of the filtering generated by the propagation of vibrations to the temple, the signal collected by the physiological sensor is usable only in the low frequencies. But as the noises generally encountered in a usual environment (street, metro, train ...) are mainly concentrated in the low frequencies, the physiological sensor delivers a signal naturally devoid of noise component noise (which is not possible with a classic microphone).

Le JP 2000-261534 A décrit un tel combiné micro-casque comprenant :

deux écouteurs comportant chacun un transducteur de reproduction sonore d'un signal audio ;
un capteur physiologique, apte à venir en contact avec la joue ou la tempe du porteur du casque pour y être couplé et capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, ce capteur physiologique délivrant un premier signal de parole ;
un ensemble microphonique, comprenant au moins un microphone apte à capter les vibrations vocales acoustiques transmises par voie aérienne depuis la bouche du porteur du casque, cet ensemble microphonique délivrant un second signal de parole ; et
des moyens de mixage, pour combiner le premier signal de parole et le second signal de parole, et donner en sortie un troisième signal de parole représentatif de la parole émise par le porteur du casque.

The JP 2000-261534 A describes such a headset handset comprising:

two earphones each having a sound reproduction transducer of an audio signal;
a physiological sensor, adapted to come into contact with the cheek or the temple of the helmet wearer to be coupled thereto and to capture the non-acoustic vocal vibrations transmitted by internal bone conduction, this physiological sensor delivering a first speech signal;
a microphone assembly, comprising at least one microphone capable of capturing the acoustic vocal vibrations transmitted by air from the mouth of the helmet wearer, this microphone assembly delivering a second speech signal; and
mixing means, for combining the first speech signal and the second speech signal, and outputting a third speech representative signal of the speech transmitted by the helmet wearer.

Le EP 0 683 621 A2 , quant à lui, décrit plus précisément la manière d'intégrer à une même oreillette intra-auriculaire à la fois le capteur physiologique et le microphone extérieur.The EP 0 683 621 A2 for its part, it describes more precisely how to integrate the physiological sensor and the external microphone into one and the same ear canal.

Bien sûr, le signal recueilli par le capteur physiologique n'est pas à proprement parler de la parole puisque la parole n'est pas seulement formée de sons voisés, elle contient des composantes qui ne naissent pas au niveau des cordes vocales : le contenu fréquentiel est par exemple beaucoup plus riche avec le son provenant de la gorge et émis par la bouche. De plus, la conduction osseuse interne et la traversée de la peau a pour effet de filtrer certaines composantes vocales, qui fait que le signal délivré par le capteur physiologique n'est exploitable que dans la partie la plus basse du spectre. C'est pour cela que ce signal est complété par un autre signal, délivré par un capteur microphonique conventionnel, auquel il est combiné.Of course, the signal collected by the physiological sensor is not strictly speaking speech since speech is not only formed of voiced sounds, it contains components that are not born at the level of the vocal cords: the frequency content is for example much richer with the sound coming from the throat and emitted through the mouth. Moreover, the internal bone conduction and the crossing of the skin has the effect of filtering certain vocal components, which makes that the signal delivered by the physiological sensor is exploitable only in the lowest part of the spectrum. That is why this signal is supplemented by another signal, delivered by a conventional microphonic sensor, to which it is combined.

Le problème général de l'invention est, dans un tel contexte, de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche, signal qui soit débarrassé des composantes parasites de bruits extérieurs présents dans l'environnement du locuteur proche.The general problem of the invention is, in such a context, to deliver to the remote speaker a voice signal representative of the speech transmitted by the near speaker, a signal which is freed from the parasitic components of external noise present in the environment of the close speaker .

Un aspect important de ce problème est la nécessité de restituer un signal de parole naturel et intelligible, c'est-à-dire non distordu et dont la plage des fréquences utiles ne soit pas amputée par les traitements de combinaison des signaux issus de capteurs exploitant des vibrations qui sont de nature différente et transmises par des voies différentes.An important aspect of this problem is the need to restore a natural and intelligible speech signal, that is to say, undistorted and whose range of useful frequencies is not amputated by the combination of signal processing from operating sensors vibrations that are different in nature and transmitted by different paths.

Un autre aspect de l'invention réside dans la possibilité d'utiliser de façon efficace le signal issu du capteur physiologique pour contrôler diverses fonctions de traitement du signal. Ce signal permet en effet d'accéder à de nouvelles informations concernant le contenu de la parole, qui seront ensuite utilisées pour le débruitage ainsi que pour diverses fonctions auxiliaires que l'on exposera plus bas, notamment le calcul d'une fréquence de coupure d'un filtre dynamique.Another aspect of the invention resides in the ability to efficiently use the signal from the physiological sensor to control various signal processing functions. This signal makes it possible to access new information concerning the content of the speech, which will then be used for the denoising as well as for various auxiliary functions that will be explained below, in particular the calculation of a cutoff frequency of a dynamic filter.

Pour résoudre ces problèmes, l'invention propose un combiné micro/casque du type exposé ci-dessus tel qu'enseigné par le JP 2000-261534 A et dans lequel, de façon caractéristique de l'invention :

le capteur physiologique est incorporé à un coussinet circumaural d'une coque de l'un des écouteurs ;
l'ensemble microphonique comprend deux microphones placés sur la coque de l'un des écouteurs ;
les deux microphones sont alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche du porteur du casque ; et
il est prévu des moyens de réduction de bruit non fréquentielle du second signal de parole, comprenant un combineur apte à appliquer un retard au signal délivré par l'un des microphones et à soustraire ce signal retardé du signal délivré par l'autre microphone, de manière à opérer un débruitage du signal de parole proche émis par le porteur du casque.

To solve these problems, the invention proposes a microphone / headset of the type described above as taught by the JP 2000-261534 A and wherein, in a characteristic manner of the invention:

the physiological sensor is incorporated in a circumaural pad of a shell of one of the earphones;
the microphone set includes two microphones placed on the shell of one of the earphones;
the two microphones are aligned in a linear array in a principal direction directed towards the mouth of the wearer of the helmet; and
there is provided non-frequency noise reduction means of the second speech signal, comprising a combiner able to apply a delay to the signal delivered by one of the microphones and to subtract this delayed signal from the signal delivered by the other microphone, way to operate a denoising of the near speech signal emitted by the wearer of the helmet.

Avantageusement, le combiné micro/casque comprend des moyens de filtrage passe-bas du premier signal de parole avant combinaison par les moyens de mixage, et/ou des moyens de filtrage passe-haut du second signal de parole avant débruitage et combinaison par les moyens de mixage. Ces moyens de filtrage passe-bas et/ou passe-haut comprennent un filtre à fréquence de coupure ajustable, et le casque comprend des moyens de calcul de la fréquence de coupure, opérant en fonction du signal délivré par le capteur physiologique. Les moyens de calcul de la fréquence de coupure peuvent en particulier comprendre des moyens d'analyse du contenu spectral du signal délivré par le capteur physiologique, aptes à déterminer la fréquence de coupure en fonction des niveaux relatifs du rapport signal/bruit évalué dans une pluralité de bandes de fréquences distinctes du signal délivré par le capteur physiologique.Advantageously, the microphone / headset combination comprises low-pass filtering means of the first speech signal before combination by the mixing means, and / or high-pass filtering means of the second speech signal before denoising and combination by the means. mixing. These low-pass and / or high-pass filtering means comprise an adjustable cutoff frequency filter, and the headset comprises means for calculating the cutoff frequency, operating as a function of the signal delivered by the physiological sensor. The means for calculating the cutoff frequency may in particular comprise means for analyzing the spectral content of the signal delivered by the physiological sensor, able to determine the cutoff frequency as a function of the relative levels of the signal / noise ratio evaluated in a plurality of distinct frequency bands of the signal delivered by the physiological sensor.

De préférence, les moyens de débruitage du second signal de parole sont des moyens de réduction de bruit non fréquentielle avec, dans une forme de réalisation particulière de l'invention, l'ensemble microphonique qui comprend deux microphones, et les moyens de réduction de bruit non fréquentielle qui comprennent un combineur apte à appliquer un retard au signal délivré par l'un des microphones et à soustraire ce signal retardé du signal délivré par l'autre microphone.Preferably, the denoising means of the second speech signal are non-frequency noise reduction means with, in a particular embodiment of the invention, the microphone assembly which comprises two microphones, and the noise reduction means. non-frequency which comprise a combiner able to apply a delay to the signal delivered by one of the microphones and to subtract this delayed signal from the signal delivered by the other microphone.

Les deux microphones peuvent en particulier être alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche du porteur du casque.In particular, the two microphones can be aligned in a linear array in a main direction directed towards the mouth of the wearer of the helmet.

De préférence également, il est prévu des moyens de débruitage du troisième signal de parole délivré par les moyens de mixage, notamment des moyens de réduction de bruit fréquentielle.Also preferably, there is provided denoising means of the third speech signal delivered by the mixing means, including frequency noise reduction means.

À cet effet, et selon un aspect original de l'invention, il est prévu des moyens recevant en entrée, et opérant une intercorrélation entre, le premier et le troisième signal de parole, et délivrant en sortie un signal de probabilité de présence de parole fonction du résultat de l'intercorrélation. Les moyens de débruitage du troisième signal de parole reçoivent en entrée ce signal de probabilité de présence de parole pour, sélectivement : i) opérer une réduction de bruit différenciée selon les bandes de fréquences en fonction de la valeur du signal de probabilité de présence de parole, et ii) opérer une réduction de bruit maximale sur toutes les bandes de fréquences en l'absence de parole.For this purpose, and according to an original aspect of the invention, there is provided input receiving means, and operating an intercorrelation between the first and the third speech signal, and outputting a speech presence probability signal. function of the result of the intercorrelation. The denoising means of the third speech signal receive as input this speech presence probability signal for selectively: i) making a noise reduction differentiated according to the frequency bands as a function of the value of the speech presence probability signal, and ii) perform a maximum noise reduction on all the frequency bands in the absence of speech.

Il peut en outre être prévu des moyens de post-traitement, aptes à opérer une égalisation sélective par bandes de fréquences dans la partie du spectre correspondant au signal recueilli par le capteur physiologique. Ces moyens déterminent un gain d'égalisation pour chacune des bandes de fréquences, ce gain étant calculé à partir des coefficients fréquentiels respectifs des signaux délivrés par le(s) microphones et des signaux délivrés par le capteur physiologique, considérés dans le domaine fréquentiel. Ils opèrent en outre un lissage sur une pluralité des trames successives de signal du gain d'égalisation calculé.In addition, there may be provided post-processing means capable of selectively frequency band equalizing in the part of the spectrum corresponding to the signal collected by the physiological sensor. These means determine an equalization gain for each of the frequency bands, this gain being calculated from the respective frequency coefficients of the signals delivered by the microphone (s) and signals delivered by the physiological sensor, considered in the frequency domain. They also operate smoothing on a plurality of successive signal frames of the calculated equalization gain.

On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.

La Figure 1 illustre de façon générale le casque de l'invention, posé sur la tête d'un utilisateur.
La Figure 2 est un schéma d'ensemble, sous forme de blocs fonctionnels, expliquant la manière dont est réalisé le traitement du signal permettant de délivrer en sortie un signal débruité représentatif de la parole émise par le porteur du casque.
La Figure 3 est une représentation spectrale amplitude/fréquence illustrant le calcul d'intercorrélation servant à évaluer une probabilité de présence de parole.
La Figure 4 est une représentation spectrale amplitude/fréquence illustrant le traitement final d'égalisation automatique opéré après la réduction de bruit.

An embodiment of the device of the invention will now be described with reference to the appended drawings in which the same reference numerals designate identical or functionally similar elements from one figure to another.

The Figure 1 generally illustrates the headset of the invention, placed on the head of a user.
The Figure 2 is a block diagram, in the form of functional blocks, explaining the manner in which the signal processing is carried out making it possible to output a speechless signal representative of the speech transmitted by the helmet wearer.
The Figure 3 is an amplitude / frequency spectral representation illustrating the intercorrelation calculation used to evaluate a probability of presence of speech.
The Figure 4 is an amplitude / frequency spectral representation illustrating the final automatic equalization processing performed after the noise reduction.

Sur la Figure 1, la référence 10 désigne de façon générale le casque selon l'invention, qui comporte deux oreillettes 12 réunies par un arceau. Chacune des oreillettes est de préférence constituée d'une coque fermée 12, logeant un transducteur de reproduction sonore, appliquée autour de l'oreille de l'utilisateur avec interposition d'un coussinet isolant 16 isolant l'oreille de l'extérieur.On the Figure 1 , the reference 10 generally designates the helmet according to the invention, which comprises two atria 12 joined by a hoop. Each of the atria is preferably constituted by a closed shell 12, housing a sound reproduction transducer, applied around the ear of the user with the interposition of an insulating pad 16 isolating the ear from the outside.

Ce casque est pourvu d'un capteur physiologique 18 permettant de recueillir les vibrations produites par un signal voisé émis par le porteur du casque, et qui peuvent être captées au niveau de la joue ou de la tempe. Le capteur 18 est de préférence un accéléromètre intégré dans le coussinet 16 de manière à venir s'appliquer contre la joue ou la tempe de l'utilisateur avec un couplage le plus étroit possible. Le capteur physiologique peut notamment être placé sur la face intérieure de la peau du coussinet de sorte que, une fois le casque mis en place, le capteur physiologique soit appliqué contre la joue ou la tempe de l'utilisateur sous l'effet une légère pression résultant de l'écrasement du matériau du coussinet, avec seulement interposition de la peau du coussinet.This helmet is provided with a physiological sensor 18 for collecting the vibrations produced by a voiced signal emitted by the wearer of the helmet, and which can be picked up at the level of the cheek or the temple. The sensor 18 is preferably an accelerometer integrated in the pad 16 so as to be applied against the cheek or the temple of the user with the closest possible coupling. The physiological sensor may in particular be placed on the inside of the skin of the pad so that, once the helmet is in place, the physiological sensor is applied against the cheek or the temple of the user under the effect of a slight pressure resulting from the crushing of the material of the pad, with only the interposition of the skin of the pad.

Le casque comporte également un réseau ou antenne de microphones, par exemple deux micros omnidirectionnels 20, 22, placés sur la coque de l'écouteur 12. Ces deux micros avant 20 et arrière 22 sont des micros omnidirectionnels disposés l'un par rapport à l'autre de manière que leur direction d'alignement 24 soit approximativement dirigée vers la bouche 26 du porteur du casque.The headset also comprises a microphone array or antenna, for example two omnidirectional microphones 20, 22, placed on the shell of the earpiece 12. These two front and rear mics 22 and 20 are omnidirectional microphones arranged relative to each other. other so that their alignment direction 24 is approximately directed towards the mouth 26 of the helmet wearer.

La Figure 2 est un schéma par blocs montrant les différents blocs et fonctions mis en oeuvre par le procédé de l'invention ainsi que leurs interactions.The Figure 2 is a block diagram showing the different blocks and functions implemented by the method of the invention as well as their interactions.

Le procédé de l'invention est mis en oeuvre par des moyens logiciels, qu'il est possible de décomposer et schématiser par un certain nombre de blocs 30 à 64 illustrés Figure 2. Ces traitements sont mis en oeuvre sous forme d'algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, ces divers traitements soient présentés sous forme de blocs distincts, ils mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel.The method of the invention is implemented by software means, which can be broken down and schematized by a number of illustrated blocks 30 to 64 Figure 2 . These processes are implemented in the form of appropriate algorithms executed by a microcontroller or a digital signal processor. Although, for the sake of clarity, these various treatments are presented in the form of separate blocks, they implement common elements and correspond in practice to a plurality of functions globally executed by the same software.

On retrouve sur cette figure le capteur physiologique 18 et les deux micros omnidirectionnels avant 20 et arrière 22. La référence 28 désigne par ailleurs le transducteur de reproduction sonore placé à l'intérieur de la coque de l'écouteur. Ces divers éléments délivrent des signaux qui font l'objet d'un traitement par le bloc référencé 30, qui peut être couplé à une interface 32 aux circuits de communication (circuits téléphoniques) et reçoit en entrée E le son destiné à être reproduit par le transducteur 28 (parole du locuteur distant pendant une communication téléphonique, source musicale hors des périodes de communication téléphonique), et délivre sur la sortie S un signal représentatif de la parole du locuteur proche, c'est-à-dire du porteur du casque.In this figure, we find the physiological sensor 18 and the two omnidirectional microphones 20 and 22 behind. The reference 28 also designates the sound reproduction transducer placed inside the hull. of the earpiece. These various elements deliver signals that are processed by the block referenced 30, which can be coupled to an interface 32 to the communication circuits (telephone circuits) and receives at the input E the sound intended to be reproduced by the transducer 28 (speech of the remote speaker during a telephone call, music source out periods of telephone communication), and delivers on the output S a signal representative of the speech of the next speaker, that is to say, the wearer of the headset.

Le signal à reproduire appliqué sur l'entrée E est un signal numérique converti en analogique par le convertisseur 34, puis amplifié par l'amplificateur 36 pour reproduction par le transducteur 28.The signal to be reproduced applied to the input E is a digital signal converted into analog by the converter 34, then amplified by the amplifier 36 for reproduction by the transducer 28.

On va maintenant décrire la manière dont est produit le signal débruité représentatif de la parole du locuteur proche, à partir des signaux respectifs recueillis par le capteur physiologique 18 et les micros 20 et 22.The manner in which the speech signal representative of the speech of the near speaker is produced from the respective signals collected by the physiological sensor 18 and the microphones 20 and 22 will now be described.

Le signal recueilli par le capteur physiologique 18 est un signal comprenant principalement des composantes dans la région inférieure du spectre sonore (typiquement 0-1500 Hz). Comme on l'a expliqué plus haut, ce signal est naturellement non bruité.The signal collected by the physiological sensor 18 is a signal mainly comprising components in the lower region of the sound spectrum (typically 0-1500 Hz). As explained above, this signal is naturally non-noisy.

Les signaux recueillis par les micros 20, 22 seront utilisés principalement pour le haut du spectre (au-dessus de 1500 Hz), mais ces signaux sont fortement bruités et il sera indispensable d'opérer un traitement de débruitage fort pour en éliminer les composantes de bruit parasites, dont le niveau peut être tel, dans certains environnements, qu'elles occultent complètement le signal de parole capté par ces micros 20, 22.The signals collected by the microphones 20, 22 will be used mainly for the high spectrum (above 1500 Hz), but these signals are strongly noisy and it will be essential to carry out a strong denoising treatment to eliminate the components of parasitic noise, the level of which may be such, in certain environments, that they completely obscure the speech signal picked up by these microphones 20, 22.

La première étape du traitement est un traitement anti-écho, appliqué aux signaux du capteur physiologique et des micros.The first stage of the treatment is an anti-echo treatment, applied to the signals of the physiological sensor and the microphones.

En effet, le son reproduit par le transducteur 28 est capté par le capteur physiologique 18 et les micros 20, 22, générant un écho qui perturbe le fonctionnement du système, et qui doit donc être éliminé en amont.Indeed, the sound reproduced by the transducer 28 is captured by the physiological sensor 18 and the microphones 20, 22, generating an echo that disrupts the operation of the system, and must be eliminated upstream.

Ce traitement anti-écho est mis en oeuvre par les blocs 38, 40 et 42, chacun de ces blocs recevant sur une première entrée le signal émis par le capteur 18, 20 ou bien 22 et sur une second entrée le signal reproduit par le transducteur 28 (signal générateur d'écho), et délivre en sortie, pour traitement ultérieur, un signal dont l'écho a été éliminé.This anti-echo treatment is implemented by the blocks 38, 40 and 42, each of these blocks receiving on a first input the signal emitted by the sensor 18, 20 or else 22 and on a second input the signal reproduced by the transducer. 28 (echo generator signal), and outputs, for further processing, a signal whose echo has been eliminated.

Le traitement anti-écho est par exemple réalisé par un traitement à algorithme adaptatif tel que celui décrit dans le FR 2 792 146 A1 (Parrot SA), auquel on pourra se reporter pour plus de détails. Il s'agit d'une technique d'annulation d'écho ou AEC consistant à définir de façon dynamique un filtre de compensation modélisant le couplage acoustique entre le transducteur 28 et le capteur physiologique 18 (ou le micro 20, ou le micro 22, respectivement) par une transformation linéaire entre le signal reproduit par le transducteur 28 (c'est-à-dire le signal E appliqué en entrée des blocs 38, 40 ou 42) et l'écho capté par le capteur physiologique 18 (ou le micro 20 ou 22). Cette transformation définit un filtre adaptatif qui est appliqué au signal incident reproduit, et le résultat de ce filtrage est soustrait du signal recueilli par le capteur physiologique 18 (ou le micro 20 ou 22), ce qui a pour effet d'annuler la majeure partie de l'écho acoustique.The anti-echo treatment is for example carried out by an adaptive algorithm treatment such as that described in FIG. FR 2 792 146 A1 (Parrot SA), which can be referred to for more details. This is an echo cancellation or AEC technique consisting in dynamically defining a compensation filter modeling the acoustic coupling between the transducer 28 and the physiological sensor 18 (or the microphone 20, or the microphone 22, respectively) by a linear transformation between the signal reproduced by the transducer 28 (that is to say the signal E applied at the input of the blocks 38, 40 or 42) and the echo picked up by the physiological sensor 18 (or the microphone 20 or 22). This transformation defines an adaptive filter which is applied to the reproduced incident signal, and the result of this filtering is subtracted from the signal collected by the physiological sensor 18 (or the microphone 20 or 22), which has the effect of canceling the major part acoustic echo.

Cette modélisation repose sur la recherche d'une corrélation entre le signal reproduit par le transducteur 28 et le signal recueilli par le capteur physiologique 18 (ou le micro 20 ou 22), c'est-à-dire sur une estimation de la réponse impulsionnelle du couplage constituée par le corps de l'écouteur 12 supportant ces divers éléments.This modeling is based on the search for a correlation between the signal reproduced by the transducer 28 and the signal collected by the physiological sensor 18 (or the microphone 20 or 22), that is to say on an estimate of the impulse response. the coupling constituted by the body of the earphone 12 supporting these various elements.

Le traitement est notamment opéré par un algorithme de type APA (Affine Projection Algorithm) adaptatif, qui assure une convergence rapide, bien adaptée à des applications de type "mains libres" avec un débit vocal intermittent et un niveau pouvant rapidement varier.The processing is performed in particular by an adaptive APA ( Affine Projection Algorithm ) algorithm , which provides fast convergence, well suited to hands-free applications with intermittent speech rate and a level that can quickly vary.

Avantageusement, l'algorithme itératif est exécuté avec un pas variable, comme décrit dans le FR 2 792 146 A1 précité. Avec cette technique, le pas µ varie de façon continue en fonction des niveaux d'énergie du signal capté par le micro, avant et après filtrage. Ce pas est accru lorsque l'énergie du signal capté est dominée par l'énergie de l'écho, et, inversement, réduit lorsque l'énergie du signal capté est dominée par l'énergie du bruit de fond et/ou de la parole du locuteur distant.Advantageously, the iterative algorithm is executed with a variable pitch, as described in FIG. FR 2 792 146 A1 supra. With this technique, the pitch μ varies continuously according to the energy levels of the signal picked up by the microphone, before and after filtering. This step is increased when the energy of the sensed signal is dominated by the energy of the echo, and, conversely, reduced when the energy of the signal picked up is dominated by the energy of the background noise and / or the speech from the remote speaker.

Le signal recueilli par le capteur physiologique 18 après le traitement anti-écho par le bloc 38 sera utilisé comme signal d'entrée d'un bloc 44 de calcul d'une fréquence de coupure FC.The signal collected by the physiological sensor 18 after the anti-echo processing by the block 38 will be used as the input signal of a block 44 for calculating a cutoff frequency FC.

L'étape suivante consiste à opérer un filtrage des signaux, avec un filtre passe-bas 48 pour le signal du capteur physiologique 18 et avec un filtre passe-haut 50, 52 pour les signaux recueillis par les micros 20, 22, respectivement.The next step consists in filtering the signals, with a low-pass filter 48 for the signal of the physiological sensor 18 and with a filter high pass 50, 52 for the signals collected by the microphones 20, 22, respectively.

Ces filtres 48, 50 et 52 sont de préférence des filtres numériques du type à réponse impulsionnelle infinie IIR (filtres récursifs), qui présentent une transition relativement abrupte entre la bande passante et la bande rejetée.These filters 48, 50 and 52 are preferably infinite impulse response type IIR (recursive filter) type digital filters, which have a relatively steep transition between the bandwidth and the rejected band.

Avantageusement, ces filtres sont des filtres adaptatifs dont la fréquence de coupure est variable et déterminée dynamiquement par le bloc 44.Advantageously, these filters are adaptive filters whose cutoff frequency is variable and determined dynamically by the block 44.

Ceci permet d'adapter le filtrage aux conditions particulières d'utilisation du casque : voix plus ou moins haute du porteur lorsqu'il parle, couplage plus ou moins étroit entre le capteur physiologique 18 et la joue ou la tempe du porteur, etc. La fréquence de coupure FC, qui est de préférence la même pour le filtre passe-bas 48 et les filtres passe-haut 50 et 52, est déterminée à partir du signal du capteur physiologique 18 après le traitement anti-écho 38. Pour cela, un algorithme calcule le rapport signal/bruit pour plusieurs bandes de fréquences situées dans une plage comprise entre par exemple 0 et 2500 Hz (le niveau de bruit étant donné par un calcul de l'énergie dans une bande de fréquences plus haute, par exemple entre 3000 et 4000 Hz, car l'on sait que dans cette zone le signal ne peut être que du bruit, du fait des propriétés du composant constituant le capteur physiologique 18). La fréquence de coupure choisie correspondra à la fréquence maximale pour laquelle le rapport signal/bruit dépasse un seuil prédéterminé, par exemple 10 dB.This makes it possible to adapt the filtering to the particular conditions of use of the headset: the voice of the wearer when he speaks, more or less close coupling between the physiological sensor 18 and the cheek or the temple of the wearer, etc. The cut-off frequency FC, which is preferably the same for the low-pass filter 48 and the high-pass filters 50 and 52, is determined from the signal of the physiological sensor 18 after the anti-echo treatment 38. For this purpose, an algorithm calculates the signal-to-noise ratio for a plurality of frequency bands in a range between, for example, 0 and 2500 Hz (the noise level being given by a calculation of the energy in a higher frequency band, for example between 3000 and 4000 Hz, because it is known that in this zone the signal can only be noise, because of the properties of the component constituting the physiological sensor 18). The cutoff frequency chosen will correspond to the maximum frequency for which the signal / noise ratio exceeds a predetermined threshold, for example 10 dB.

L'étape suivante consiste à opérer au moyen du bloc 54 un mixage pour reconstruire le spectre complet avec, d'une part, la région inférieure du spectre donnée par le signal filtré du capteur physiologique 18 et, d'autre part, le haut du spectre donné par le signal filtré des micros 20 et 22 après passage dans un combineur-déphaseur 56 permettant d'opérer un débruitage dans cette partie du spectre. Cette reconstruction est opérée par sommation des deux signaux, qui sont appliqués en synchronisme au bloc de mixage 54 de manière à éviter toute déformation.The following step consists in operating, by means of block 54, a mix to reconstruct the complete spectrum with, on the one hand, the lower region of the spectrum given by the filtered signal of the physiological sensor 18 and, on the other hand, the top of the spectrum given by the filtered signal of the microphones 20 and 22 after passing through a combiner-phase shifter 56 for operating a denoising in this part of the spectrum. This reconstruction is performed by summing the two signals, which are applied synchronously to the mixing block 54 so as to avoid any deformation.

On va maintenant décrire plus précisément la manière dont est opérée la réduction du bruit par le combineur-déphaseur 56.We shall now describe more precisely the manner in which the noise reduction is performed by the phase-shifter combiner 56.

Le signal que l'on souhaite débruiter (c'est-à-dire le signal du locuteur proche situé dans la partie haute du spectre, typiquement les composantes de fréquence supérieure à 1500 Hz) est issu des deux micros 20, 22 disposés à quelques centimètres l'un de l'autre sur la coque 14 de l'un des écouteurs du casque. Comme on l'a indiqué, ces deux micros sont disposés l'un par rapport à l'autre de manière que la direction 24 qu'ils définissent soit approximativement orientée dans la direction de la bouche 26 du porteur du casque. De ce fait, un signal de parole émis depuis la bouche atteindra le micro avant 20 puis le micro arrière 22 avec un retard, et donc un déphasage, sensiblement constant, tandis que les bruits ambiants seront captés sans déphasage par les deux micros 20 et 22 (qui sont des micros omnidirectionnels), compte tenu de l'éloignement des sources de bruits parasites par rapport aux deux micros 20 et 22.The signal that we want to denoise (that is, the signal from the near speaker located in the upper part of the spectrum, typically the components of frequency greater than 1500 Hz) is derived from the two microphones 20, 22 disposed a few centimeters from each other on the shell 14 of one of the earphones of the helmet. As indicated, these two microphones are arranged relative to each other so that the direction 24 they define is approximately oriented in the direction of the mouth 26 of the helmet wearer. As a result, a speech signal emitted from the mouth will reach the microphone before 20 and then the rear microphone 22 with a delay, and therefore a substantially constant phase shift, while the ambient noise will be picked up without phase shift by the two microphones 20 and 22. (which are omnidirectional microphones), given the distance of sources of parasitic noise compared to the two microphones 20 and 22.

La réduction de bruit sur les signaux captés par les micros 20 et 22 n'est pas opérée dans le domaine fréquentiel (comme cela est souvent le cas), mais dans le domaine temporel, au moyen du combineur-déphaseur 56 qui comprend un déphaseur 58 appliquant un retard τ au signal du micro arrière 22 et un combineur 60 permettant de soustraire ce signal retardé au signal issu du micro avant 20.The noise reduction on the signals picked up by the microphones 20 and 22 is not operated in the frequency domain (as is often the case), but in the time domain, by means of the phase shifter combiner 56 which comprises a phase-shifter 58 applying a delay τ to the signal of the rear microphone 22 and a combiner 60 for subtracting this delayed signal from the signal from the microphone before 20.

On constitue ainsi un réseau différentiel de micros du premier ordre, équivalent à un micro virtuel unique dont la directivité pourra être ajustée en fonction de la valeur de τ, avec 0 ≤ τ ≤ τ_A (τ_A étant la valeur correspondant au déphasage naturel entre les deux micros 20 et 22, égale à la distance entre les deux micros divisée par la vitesse du son, soit un retard d'environ 30 µs pour un espacement de 1 cm). Une valeur τ = τ_A donnera un diagramme de directivité cardioïde, une valeur τ = τ_A /3 un diagramme hypercardioïde, et une valeur τ = 0 un diagramme dipolaire. On peut obtenir par un choix approprié de ce paramètre une atténuation d'environ 6 dB sur des bruits diffus environnants. Pour plus de détails sur cette technique, on pourra par exemple se référer à :Thus, a differential network of first-order microphones equivalent to a single virtual microphone whose directivity can be adjusted as a function of the value of τ, with 0 ≤ τ ≤ τ _A (τ _A being the value corresponding to the natural phase difference between the two microphones 20 and 22, equal to the distance between the two microphones divided by the speed of sound, a delay of about 30 microseconds for a spacing of 1 cm). A value τ = τ _A will give a cardioid directivity diagram, a value τ = τ _A / 3 a hypercardioid diagram, and a value τ = 0 a dipole diagram. An appropriate choice of this parameter can be achieved by attenuating about 6 dB on surrounding diffuse noises. For more details on this technique, we can for example refer to:

[1] M. Buck et M. Rößler, First Order Differential Microphones Arrays for Automotive Applications, Proceedings of the 7th International Workshop on Acoustic echo and Noise control (IWAENC), Darmstadt, 10-13 Sept 2001 .
On va maintenant décrire les traitements opérés sur le signal global (haut et bas du spectre) délivré en sortie des moyens de mixage 54.[1] M. Buck and M. Rößler, First Order Differential Microphones Arrays for Automotive Applications, Proceedings of the 7th International Workshop on Acoustic echo and Noise control (IWAENC), Darmstadt, 10-13 Sept 2001 .
We will now describe the operations performed on the overall signal (top and bottom of the spectrum) delivered at the output of the mixing means 54.

Ce signal est soumis par le bloc 62 à une réduction de bruit fréquentielle.This signal is subjected by the block 62 to a frequency noise reduction.

De préférence, cette réduction de bruit fréquentielle est opérée de façon différente en présence ou en l'absence de parole, en évaluant une probabilité p d'absence de parole à partir du signal recueilli par le capteur physiologique 18.Preferably, this frequency noise reduction is operated differently in the presence or absence of speech, by evaluating a probability p of absence of speech from the signal collected by the physiological sensor 18.

Avantageusement, cette probabilité d'absence de parole est dérivée de l'information donnée par le capteur physiologique.Advantageously, this probability of absence of speech is derived from the information given by the physiological sensor.

En effet, comme on l'a indiqué plus haut, le signal délivré par ce capteur présente un très bon rapport signal/bruit jusqu'à la fréquence de coupure FC déterminée par le bloc 44. Mais au-delà de cette fréquence de coupure le rapport signal/bruit reste encore bon, et souvent meilleur que celui des micros 20 et 22. L'information du capteur est exploitée en calculant (bloc 64) l'intercorrélation fréquentielle entre le signal combiné délivré par le bloc de mixage 54 et le signal non filtré du capteur physiologique, avant filtrage par le filtre passe-bas 48.Indeed, as indicated above, the signal delivered by this sensor has a very good signal / noise ratio up to the cutoff frequency FC determined by the block 44. But beyond this cutoff frequency the signal / noise ratio is still good, and often better than that of the microphones 20 and 22. The sensor information is exploited by calculating (block 64) the frequency intercorrelation between the combined signal delivered by the mixing block 54 and the signal unfiltered physiological sensor, before filtering by the low-pass filter 48.

Ainsi, pour chaque fréquence f comprise par exemple entre FC et 4000 Hz, et pour chaque trame n, le calcul suivant est réalisé par le bloc 64 : $int e r C o r r e l a t i o n (n f) = α_{int e r c o r r} • int e r C o r r e l a t i o n (n - 1, f) + (1 - α_{int e r c o r r}) • \overline{S m i x (f)} \cdot \overline{S a c c (f)}$

Thus, for each frequency f, for example between FC and 4000 Hz, and for each frame n, the following calculation is performed by block 64:

int e r VS o r r e l at t i o not (not f) = α_{int e r vs o r r} • int e r VS o r r e l at t i o not (not - 1, f) + (1 - α_{int e r vs o r r}) • \tilde{S m i x (f)} \cdot \tilde{S at vs vs (f)}

Smix(f)et smix(f) étant les représentations vectorielles (complexes) fréquentielles, pour la trame n, respectivement du signal combiné délivré par le bloc de mixage 54, et du signal du capteur physiologique 18. Smix ( f ) and smix ( f ) being the frequency (complex) vector representations, for the n- frame, respectively of the combined signal delivered by the mixing block 54, and of the signal of the physiological sensor 18.

Pour évaluer une probabilité d'absence de parole, l'algorithme recherche les fréquences pour lesquelles il n'y a que du bruit (situation d'absence de parole) : sur le spectrogramme du signal délivré par le bloc de mixage 54 certaines harmoniques sont noyées dans le bruit, alors qu'elles ressortent plus sur le signal du capteur physiologique.To evaluate a probability of absence of speech, the algorithm searches for frequencies for which there is only noise (situation of absence of speech): on the spectrogram of the signal delivered by the mixing block 54 certain harmonics are embedded in the noise, while they stand out more on the signal of the physiological sensor.

Le calcul d'intercorrélation par la formule décrite ci-dessus produit un résultat dont la figure 3 montre un exemple, dans le domaine fréquentiel.The intercorrelation calculation by the formula described above produces a result whose figure 3 shows an example, in the frequency domain.

Les pics P₁, P₂, P₃, P₄, ... de ce calcul d'intercorrélation indiquent une forte corrélation entre le signal combiné délivré par le bloc de mixage 54, et le signal du capteur physiologique 18, et l'émergence de ces fréquences corrélées indique la présence probable de parole pour ces fréquences.The peaks P ₁ , P ₂ , P ₃ , P ₄ , ... of this intercorrelation calculation indicate a strong correlation between the combined signal delivered by the mixing block 54, and the signal of the physiological sensor 18, and the Emergence of these correlated frequencies indicates the likely presence of speech for these frequencies.

Pour obtenir une probabilité d'absence de parole (bloc 66), on considère la valeur complémentaire : $AbsProbo (n f) = 1 - i nterCorrelation (n f) / coefficient_normalisation$

To obtain a probability of absence of speech (block 66), the complementary value is considered:

AbsProbo (not f) = 1 - i nterCorrelation (not f) / coefficient_normalisation

La valeur coefficient_normalisation permet de régler la répartition des probabilités en fonction de la valeur de l'intercorrélation, et obtenir des valeurs entre 0 et 1.The value coefficient_normalization makes it possible to regulate the distribution of the probabilities according to the value of intercorrelation, and to obtain values between 0 and 1.

La probabilité p d'absence de parole ainsi obtenue est appliquée au bloc 62 qui opère sur le signal délivré par le bloc de mixage 54 une réduction de bruit fréquentielle de façon sélective par rapport à un seuil donné de probabilité d'absence de parole :

en l'absence probable de parole, la réduction de bruit est appliquée sur toutes les bandes de fréquences, c'est-à-dire que le gain maximal de réduction est appliqué de la même façon sur toutes les composantes du signal (puisque dans ce cas celui-ci ne contient vraisemblablement pas de composante utile) ;
en revanche, en présence probable de parole, la réduction de bruit est une réduction de bruit fréquentielle appliquée sélectivement selon les différentes bandes de fréquences en fonction de la valeur p de la probabilité de présence de parole, selon un schéma classique, par exemple comparable à celui décrit dans le WO 2007/099222 A1 (Parrot ).

The probability p of absence of speech thus obtained is applied to the block 62 which operates on the signal delivered by the mixing block 54 a frequency noise reduction selectively with respect to a given threshold of the probability of absence of speech:

in the probable absence of speech, the noise reduction is applied to all the frequency bands, ie the maximum reduction gain is applied in the same way to all the signal components (since in this case this one probably does not contain a useful component);
on the other hand, in the probable presence of speech, the noise reduction is a frequency noise reduction applied selectively according to the different frequency bands as a function of the value p of the probability of presence of speech, according to a conventional scheme, for example comparable to the one described in WO 2007/099222 A1 (Parrot ).

Le système que l'on vient de décrire permet d'obtenir d'excellentes performances globales, typiquement de l'ordre de 30 à 40 dB de réduction de bruit sur le signal de parole du locuteur proche. Grâce à l'élimination de tous les bruits parasites, notamment les plus gênants (train, métro, etc.) qui sont concentrés dans les basses fréquences, cela donne l'impression au locuteur distant (celui avec lequel le porteur du casque est en communication) que son interlocuteur (le porteur du casque) se trouve dans une pièce silencieuse.The system that has just been described makes it possible to obtain excellent overall performance, typically of the order of 30 to 40 dB of noise reduction on the speech signal of the nearby speaker. By eliminating all the noises, especially the most troublesome (train, metro, etc.) that are concentrated in the low frequencies, this gives the impression to the distant speaker (the one with which the wearer of the headset is in communication ) that his interlocutor (the helmet wearer) is in a quiet room.

Enfin, il est avantageux d'appliquer au signal une égalisation finale (bloc 68), notamment sur le bas du spectre.Finally, it is advantageous to apply to the signal a final equalization (block 68), especially on the low end of the spectrum.

En effet, le contenu basse fréquence recueilli au niveau de la joue ou de la tempe par le capteur physiologique 18 est différent du contenu basse fréquence du son émis par la bouche de l'utilisateur, tel qu'il serait capté par un micro situé à quelques centimètres de la bouche, ou même par l'oreille d'un interlocuteur. L'utilisation du capteur physiologique et le filtrage que l'on a décrit plus haut permet certes d'obtenir un signal très bon en termes de rapport signal/bruit, mais qui peut présenter pour l'interlocuteur qui l'entend un timbre un peu sourd et peu naturel.Indeed, the low frequency content collected at the cheek or temple by the physiological sensor 18 is different from the low frequency content of the sound emitted by the mouth of the user, as it would be captured by a microphone located a few centimeters from the mouth, or even by the ear of an interlocutor. The use of the physiological sensor and the filtering described above certainly makes it possible to obtain a very good signal in terms of signal-to-noise ratio, but which may present for the interlocutor who hears it a tone a little deaf and unnatural.

Pour pallier cette difficulté, il est avantageux d'opérer une égalisation du signal de sortie avec des gains ajustés sélectivement sur différentes bandes de fréquences dans la région du spectre correspondant au signal recueilli par le capteur physiologique. L'égalisation peut être réalisée de manière automatique, à partir du signal délivré par les micros 20, 22, avant filtrage.To overcome this difficulty, it is advantageous to operate an equalization of the output signal with gains adjusted selectively on different frequency bands in the region of the spectrum corresponding to the signal collected by the physiological sensor. The equalization can be performed automatically, from the signal delivered by the microphones 20, 22, before filtering.

La Figure 4 montre un exemple, dans le domaine fréquentiel (donc après transformée de Fourier) du signal ACC produit par le capteur physiologique 18, par rapport à un signal microphonique MIC qui serait capté à quelques centimètres de la bouche.The Figure 4 shows an example, in the frequency domain (thus after Fourier transform) of the ACC signal produced by the physiological sensor 18, with respect to a MIC microphone signal that would be captured a few centimeters from the mouth.

De manière à optimiser le rendu du signal recueilli par le capteur physiologique, des gains différenciés G₁, G₂, G₃, G₄, ... sont appliqués à différentes bandes de fréquences de la partie du spectre située dans les basses fréquences.In order to optimize the rendering of the signal collected by the physiological sensor, differentiated gains G ₁ , G ₂ , G ₃ , G ₄ ,... Are applied to different frequency bands of the part of the spectrum located in the low frequencies.

Ces gains sont évalués par comparaison des signaux captés, dans une bande de fréquences commune, à la fois par le capteur physiologique 18 et par les micros 20 et/ou 22.These gains are evaluated by comparing the signals picked up, in a common frequency band, by both the physiological sensor 18 and the microphones 20 and / or 22.

Plus précisément, l'algorithme calcule les transformées de Fourier respectives de ces deux signaux, donnant une série de coefficients fréquentiels (exprimés en dB) NormPhysioFreq_dB(i) et NormMicFreq_dB(i), correspondant respectivement à la norme du ¡ ^ième coefficient de Fourier du signal du capteur physiologique et à la norme du ¡ ^ième coefficient Fourier du signal microphonique.Specifically, the algorithm calculates respective Fourier transforms of the two signals, providing a series of frequency coefficients (expressed in dB) NormPhysioFreq_dB (i) and NormMicFreq_dB (i) respectively corresponding to the standard of the ^¡th Fourier coefficient physiological sensor signal and the standard of the ¡ ^th Fourier coefficient of the microphonic signal.

Pour chaque coefficient fréquentiel de rang i, si la différence : $DifferenceFreq_dB (i) = NormPhysioFreq_d B (i) - NormMicFreq_dB (i) .$

est positive, le gain qui sera appliqué sera inférieur à l'unité (négatif en dB) ; réciproquement si la différence est négative le gain à appliquer sera supérieur à l'unité (positif en dB).For each frequency coefficient of rank i , if the difference:

DifferenceFreq_dB (i) = NormPhysioFreq_d B (i) - NormMicFreq_db (i) .

is positive, the gain that will be applied will be less than unity (negative in dB); Conversely, if the difference is negative, the gain to be applied will be greater than unity (positive in dB).

Si le gain était appliqué tel quel, les différences n'étant pas exactement constantes d'une trame à une autre, notamment lorsqu'il ne s'agit pas de sons voisés, il y aurait des variations importantes d'égalisation dans le timbre. Pour éviter ces variations, l'algorithme opère un lissage de la différence, qui permet d'affiner l'égalisation : $Gain_dB (i) = λ . Gain_dB (i) - (1 - λ) DifferenceFreq_dB (i) .$

If the gain were applied as is, the differences are not exactly constant from one frame to another, especially when it is not about voiced sounds, there would be significant variations of equalization in the timbre. To avoid these variations, the algorithm operates a smoothing of the difference, which makes it possible to refine the equalization:

Gain_dB (i) = λ . Gain_dB (i) - (1 - λ) DifferenceFreq_dB (i) .

Plus le coefficient λ sera proche de 1, moins l'information de la trame courante sera prise en compte pour le calcul du gain du i ^ième coefficient. Inversement, plus le coefficient λ sera proche de 0, plus l'information instantanée sera prise en compte. En pratique, pour que le lissage soit efficace, on prendra une valeur λ proche de 1, par exemple λ = 0,99. Le gain appliqué sur chaque bande de fréquences du signal issu du capteur physiologique donnera, pour la i ^ième fréquence modifiée : $NormPhysioFreq_dB_corrigée (i) = NormPhysioFreq_dB (i) + Gain_dB (i)$

Plus the λ coefficient will be close to 1, less the information of the current frame will be taken into account for the calculation of the gain of the ^ith coefficient. Conversely, the closer the coefficient λ is to 0, the more instantaneous information will be taken into account. In practice, for the smoothing to be effective, we will take a value λ close to 1, for example λ = 0.99. The gain applied to each frequency band of the signal from the physiologic sensor will give, for the i ^th frequency modified:

NormPhysioFreq_dB_corrigée (i) = NormPhysioFreq_dB (i) + Gain_dB (i)

C'est cette norme qui sera utilisée par l'algorithme d'égalisation.It is this standard that will be used by the equalization algorithm.

L'application de gains différenciés permet de rendre plus naturel le signal de parole dans le bas du spectre. Une étude subjective a montré que, dans un environnement silencieux et lorsqu'une telle égalisation est appliquée, la différence entre un signal microphonique de référence et le signal produit par le capteur physiologique dans le bas du spectre est pratiquement imperceptible.The application of differentiated gains makes it possible to make the speech signal more natural in the lower part of the spectrum. A subjective study has shown that in a quiet environment and when such equalization is applied, the difference between a reference microphonic signal and the signal produced by the physiological sensor in the low end of the spectrum is practically imperceptible.

Claims

An audio headset (10) of the combined microphone / headphone type, comprising: - two earphones (12) each having a transducer (28) for reproducing sound of an audio signal;

a physiological sensor (18) able to come into contact with the cheek or the temple of the helmet wearer to be coupled thereto and to pick up the non-acoustic vocal vibrations transmitted by internal bone conduction, this physiological sensor delivering a first speech signal;

- A microphone assembly, comprising at least one microphone (20, 22) adapted to capture the acoustic vocal vibrations transmitted by air from the mouth of the wearer of the headset, the microphone assembly delivering a second speech signal; and

mixing means (54), for combining the first speech signal and the second speech signal, and outputting a third speech signal representative of the speech transmitted by the headphone wearer, characterized in that :

the physiological sensor (18) is incorporated in a circumaural pad (16) of a shell (14) of one of the earphones (12);

the microphone assembly comprises two microphones (20, 22) placed on the shell (14) of one of the earphones (12);

- the two microphones (20, 22) are aligned in a linear array in a main direction (24) directed towards the mouth (26) of the helmet wearer; and

- means (56) for non-frequency noise reduction of the second speech signal are provided, comprising a combiner able to apply a delay to the signal delivered by one of the microphones and to subtract this delayed signal from the signal delivered by the other microphone,
in order to operate a denoising of the close speech signal emitted by the wearer of the helmet.

The headset of claim 1, further comprising: means (48) for low-pass filtering of the first speech signal before combination by the mixing means, and / or means (50, 52) for high-pass filtering of the second speech signal before denoising and combining by the mixing means, said low-pass and / or high-pass filtering means (48, 50, 52) comprising an adjustable cutoff frequency filter; and

- means (44) for calculating the cutoff frequency operating according to the signal delivered by the physiological sensor.

The headset of claim 2, wherein the means (44) for calculating the cutoff frequency comprise means for analyzing the spectral content of the signal delivered by the physiological sensor, able to determine the cutoff frequency according to the levels. the signal-to-noise ratio evaluated in a plurality of separate frequency bands of the signal delivered by the physiological sensor.

The headset of claim 1, further comprising: means (62) for denoising the third speech signal delivered by the mixing means, operating by frequency noise reduction.

The headset of claim 4, further comprising input receiving means, performing cross correlation between said first and said third speech signal, and outputting a speech presence probability signal as a result of said cross correlation result. .

The headset of claim 5, wherein the denoising means (62) of the third speech signal receives said speech presence probability signal and is adapted to selectively: i) performing a differentiated noise reduction according to the frequency bands as a function of the value of said speech presence probability signal, and

ii) perform maximum noise reduction on all frequency bands in the absence of speech.

The headset of claim 1, further comprising: - Post-processing means (64) capable of selectively frequency-band equalizing the part of the spectrum corresponding to the signal collected by the physiological sensor.

The headset of claim 7, wherein the post-processing means is adapted to determine an equalization gain for each of said frequency bands, said gain being calculated from the respective frequency coefficients of the signals delivered by the microphones and signals delivered by the physiological sensor, considered in the frequency domain.

The headset of claim 8, wherein the post-processing means is further operable to smooth out a plurality of successive signal frames of said calculated equalization gain.