EP2518724A1

EP2518724A1 - Combiné audio micro/casque comprenant des moyens de débruitage d'un signal de parole proche, notamment pour un système de téléphonie "mains libres"

Info

Publication number: EP2518724A1
Application number: EP12164777A
Authority: EP
Inventors: Michael Herve; Guillaume Vitte
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2011-04-26
Filing date: 2012-04-19
Publication date: 2012-10-31
Anticipated expiration: 2032-04-19
Also published as: JP2012231468A; US20120278070A1; FR2974655B1; CN102761643B; FR2974655A1; JP6017825B2; US8751224B2; EP2518724B1; CN102761643A

Abstract

Ce casque comprend : un capteur physiologique (18), apte à être couplé à la joue ou à la tempe du porteur du casque et à capter les vibrations vocales non acoustiques transmises par conduction osseuse interne ; des moyens de filtrage passe-bas (48) du signal capté ; un ensemble de microphones (20, 22) captant les vibrations vocales acoustiques transmises par voie aérienne depuis la bouche du porteur du casque ; des moyens de filtrage passe-haut (50, 52) et de réduction de bruit (56) des signaux captés par ces microphones ; et des moyens de mixage (54), pour combiner les signaux filtrés et donner en sortie un signal représentatif de la parole émise par le porteur du casque. Le signal du capteur physiologique (18) est également utilisé par des moyens de calcul de la fréquence de coupure (44) des filtres passe-bas et passe-haut et par des moyens de calcul de probabilité d'absence de parole (64, 66).

Description

L'invention concerne un casque audio du type micro/casque combinés.
Un tel casque peut notamment être utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque.
Dans les fonctions de communication, l'une des difficultés est d'assurer une intelligibilité suffisante du signal capté par le microphone ("micro"), c'est-à-dire le signal de parole du locuteur proche (le porteur du casque). Le casque peut en effet être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants.
Le porteur peut être protégé de ces bruits par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro, venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque).
En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels, composantes qui sont majoritairement concentrées dans les basses fréquences.
Il a été proposé de recueillir certaines vibrations vocales au moyen d'un capteur physiologique appliqué contre la joue ou la tempe du porteur du casque. En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cordes vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. La bouche, le voile du palais, le pharynx, les sinus les fosses nasales servent de caisse de résonance ce son voisé et, leurs parois étant élastiques, elles vibrent à leur tour, et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe.
Ces vibrations vocales au niveau de la joue et de la tempe présentent la caractéristique d'être, par nature, très peu corrompues par le bruit environnant : en effet, en présence de bruits extérieurs, les tissus de la joue et de la tempe ne vibrent quasiment pas et ceci, quelle que soit la composition spectrale du bruit extérieur.
Par ailleurs, en raison du filtrage engendré par la propagation des vibrations jusqu'à la tempe, le signal recueilli par le capteur physiologique est utilisable uniquement dans les basses fréquences. Mais comme les bruits généralement rencontrés dans un environnement habituel (rue, métro, train ...) sont majoritairement concentrés dans les basses fréquences, le capteur physiologique délivre un signal naturellement dépourvu de composante parasite de bruit (ce qui n'est pas possible avec un micro classique).
Le JP 2000-261534 A décrit un tel combiné micro-casque comprenant :

deux écouteurs comportant chacun un transducteur de reproduction sonore d'un signal audio ;
un capteur physiologique, apte à venir en contact avec la joue ou la tempe du porteur du casque pour y être couplé et capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, ce capteur physiologique délivrant un premier signal de parole ;
un ensemble microphonique, comprenant au moins un microphone apte à capter les vibrations vocales acoustiques transmises par voie aérienne depuis la bouche du porteur du casque, cet ensemble microphonique délivrant un second signal de parole ; et
des moyens de mixage, pour combiner le premier signal de parole et le second signal de parole, et donner en sortie un troisième signal de parole représentatif de la parole émise par le porteur du casque.

Le EP 0 683 621 A2 , quant à lui, décrit plus précisément la manière d'intégrer à une même oreillette intra-auriculaire à la fois le capteur physiologique et le microphone extérieur.
Bien sûr, le signal recueilli par le capteur physiologique n'est pas à proprement parler de la parole puisque la parole n'est pas seulement formée de sons voisés, elle contient des composantes qui ne naissent pas au niveau des cordes vocales : le contenu fréquentiel est par exemple beaucoup plus riche avec le son provenant de la gorge et émis par la bouche. De plus, la conduction osseuse interne et la traversée de la peau a pour effet de filtrer certaines composantes vocales, qui fait que le signal délivré par le capteur physiologique n'est exploitable que dans la partie la plus basse du spectre. C'est pour cela que ce signal est complété par un autre signal, délivré par un capteur microphonique conventionnel, auquel il est combiné.
Le problème général de l'invention est, dans un tel contexte, de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche, signal qui soit débarrassé des composantes parasites de bruits extérieurs présents dans l'environnement du locuteur proche.
Un aspect important de ce problème est la nécessité de restituer un signal de parole naturel et intelligible, c'est-à-dire non distordu et dont la plage des fréquences utiles ne soit pas amputée par les traitements de combinaison des signaux issus de capteurs exploitant des vibrations qui sont de nature différente et transmises par des voies différentes.
Un autre aspect de l'invention réside dans la possibilité d'utiliser de façon efficace le signal issu du capteur physiologique pour contrôler diverses fonctions de traitement du signal. Ce signal permet en effet d'accéder à de nouvelles informations concernant le contenu de la parole, qui seront ensuite utilisées pour le débruitage ainsi que pour diverses fonctions auxiliaires que l'on exposera plus bas, notamment le calcul d'une fréquence de coupure d'un filtre dynamique.
Pour résoudre ces problèmes, l'invention propose un combiné micro/casque du type exposé ci-dessus tel qu'enseigné par le JP 2000-261534 A et dans lequel, de façon caractéristique de l'invention :

le capteur physiologique est incorporé à un coussinet circumaural d'une coque de l'un des écouteurs ;
l'ensemble microphonique comprend deux microphones placés sur la coque de l'un des écouteurs ;
les deux microphones sont alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche du porteur du casque ; et
il est prévu des moyens de réduction de bruit non fréquentielle du second signal de parole, comprenant un combineur apte à appliquer un retard au signal délivré par l'un des microphones et à soustraire ce signal retardé du signal délivré par l'autre microphone, de manière à opérer un débruitage du signal de parole proche émis par le porteur du casque.

Avantageusement, le combiné micro/casque comprend des moyens de filtrage passe-bas du premier signal de parole avant combinaison par les moyens de mixage, et/ou des moyens de filtrage passe-haut du second signal de parole avant débruitage et combinaison par les moyens de mixage. Ces moyens de filtrage passe-bas et/ou passe-haut comprennent un filtre à fréquence de coupure ajustable, et le casque comprend des moyens de calcul de la fréquence de coupure, opérant en fonction du signal délivré par le capteur physiologique. Les moyens de calcul de la fréquence de coupure peuvent en particulier comprendre des moyens d'analyse du contenu spectral du signal délivré par le capteur physiologique, aptes à déterminer la fréquence de coupure en fonction des niveaux relatifs du rapport signal/bruit évalué dans une pluralité de bandes de fréquences distinctes du signal délivré par le capteur physiologique.
De préférence, les moyens de débruitage du second signal de parole sont des moyens de réduction de bruit non fréquentielle avec, dans une forme de réalisation particulière de l'invention, l'ensemble microphonique qui comprend deux microphones, et les moyens de réduction de bruit non fréquentielle qui comprennent un combineur apte à appliquer un retard au signal délivré par l'un des microphones et à soustraire ce signal retardé du signal délivré par l'autre microphone.
Les deux microphones peuvent en particulier être alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche du porteur du casque.
De préférence également, il est prévu des moyens de débruitage du troisième signal de parole délivré par les moyens de mixage, notamment des moyens de réduction de bruit fréquentielle.
À cet effet, et selon un aspect original de l'invention, il est prévu des moyens recevant en entrée, et opérant une intercorrélation entre, le premier et le troisième signal de parole, et délivrant en sortie un signal de probabilité de présence de parole fonction du résultat de l'intercorrélation. Les moyens de débruitage du troisième signal de parole reçoivent en entrée ce signal de probabilité de présence de parole pour, sélectivement : i) opérer une réduction de bruit différenciée selon les bandes de fréquences en fonction de la valeur du signal de probabilité de présence de parole, et ii) opérer une réduction de bruit maximale sur toutes les bandes de fréquences en l'absence de parole.
Il peut en outre être prévu des moyens de post-traitement, aptes à opérer une égalisation sélective par bandes de fréquences dans la partie du spectre correspondant au signal recueilli par le capteur physiologique. Ces moyens déterminent un gain d'égalisation pour chacune des bandes de fréquences, ce gain étant calculé à partir des coefficients fréquentiels respectifs des signaux délivrés par le(s) microphones et des signaux délivrés par le capteur physiologique, considérés dans le domaine fréquentiel. Ils opèrent en outre un lissage sur une pluralité des trames successives de signal du gain d'égalisation calculé.
On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.

La Figure 1 illustre de façon générale le casque de l'invention, posé sur la tête d'un utilisateur.
La Figure 2 est un schéma d'ensemble, sous forme de blocs fonctionnels, expliquant la manière dont est réalisé le traitement du signal permettant de délivrer en sortie un signal débruité représentatif de la parole émise par le porteur du casque.
La Figure 3 est une représentation spectrale amplitude/fréquence illustrant le calcul d'intercorrélation servant à évaluer une probabilité de présence de parole.
La Figure 4 est une représentation spectrale amplitude/fréquence illustrant le traitement final d'égalisation automatique opéré après la réduction de bruit.

Sur la Figure 1, la référence 10 désigne de façon générale le casque selon l'invention, qui comporte deux oreillettes 12 réunies par un arceau. Chacune des oreillettes est de préférence constituée d'une coque fermée 12, logeant un transducteur de reproduction sonore, appliquée autour de l'oreille de l'utilisateur avec interposition d'un coussinet isolant 16 isolant l'oreille de l'extérieur.
Ce casque est pourvu d'un capteur physiologique 18 permettant de recueillir les vibrations produites par un signal voisé émis par le porteur du casque, et qui peuvent être captées au niveau de la joue ou de la tempe. Le capteur 18 est de préférence un accéléromètre intégré dans le coussinet 16 de manière à venir s'appliquer contre la joue ou la tempe de l'utilisateur avec un couplage le plus étroit possible. Le capteur physiologique peut notamment être placé sur la face intérieure de la peau du coussinet de sorte que, une fois le casque mis en place, le capteur physiologique soit appliqué contre la joue ou la tempe de l'utilisateur sous l'effet une légère pression résultant de l'écrasement du matériau du coussinet, avec seulement interposition de la peau du coussinet.
Le casque comporte également un réseau ou antenne de microphones, par exemple deux micros omnidirectionnels 20, 22, placés sur la coque de l'écouteur 12. Ces deux micros avant 20 et arrière 22 sont des micros omnidirectionnels disposés l'un par rapport à l'autre de manière que leur direction d'alignement 24 soit approximativement dirigée vers la bouche 26 du porteur du casque.
La Figure 2 est un schéma par blocs montrant les différents blocs et fonctions mis en oeuvre par le procédé de l'invention ainsi que leurs interactions.
Le procédé de l'invention est mis en oeuvre par des moyens logiciels, qu'il est possible de décomposer et schématiser par un certain nombre de blocs 30 à 64 illustrés Figure 2. Ces traitements sont mis en oeuvre sous forme d'algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, ces divers traitements soient présentés sous forme de blocs distincts, ils mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel.
On retrouve sur cette figure le capteur physiologique 18 et les deux micros omnidirectionnels avant 20 et arrière 22. La référence 28 désigne par ailleurs le transducteur de reproduction sonore placé à l'intérieur de la coque de l'écouteur. Ces divers éléments délivrent des signaux qui font l'objet d'un traitement par le bloc référencé 30, qui peut être couplé à une interface 32 aux circuits de communication (circuits téléphoniques) et reçoit en entrée E le son destiné à être reproduit par le transducteur 28 (parole du locuteur distant pendant une communication téléphonique, source musicale hors des périodes de communication téléphonique), et délivre sur la sortie S un signal représentatif de la parole du locuteur proche, c'est-à-dire du porteur du casque.
Le signal à reproduire appliqué sur l'entrée E est un signal numérique converti en analogique par le convertisseur 34, puis amplifié par l'amplificateur 36 pour reproduction par le transducteur 28.
On va maintenant décrire la manière dont est produit le signal débruité représentatif de la parole du locuteur proche, à partir des signaux respectifs recueillis par le capteur physiologique 18 et les micros 20 et 22.
Le signal recueilli par le capteur physiologique 18 est un signal comprenant principalement des composantes dans la région inférieure du spectre sonore (typiquement 0-1500 Hz). Comme on l'a expliqué plus haut, ce signal est naturellement non bruité.
Les signaux recueillis par les micros 20, 22 seront utilisés principalement pour le haut du spectre (au-dessus de 1500 Hz), mais ces signaux sont fortement bruités et il sera indispensable d'opérer un traitement de débruitage fort pour en éliminer les composantes de bruit parasites, dont le niveau peut être tel, dans certains environnements, qu'elles occultent complètement le signal de parole capté par ces micros 20, 22.
La première étape du traitement est un traitement anti-écho, appliqué aux signaux du capteur physiologique et des micros.
En effet, le son reproduit par le transducteur 28 est capté par le capteur physiologique 18 et les micros 20, 22, générant un écho qui perturbe le fonctionnement du système, et qui doit donc être éliminé en amont.
Ce traitement anti-écho est mis en oeuvre par les blocs 38, 40 et 42, chacun de ces blocs recevant sur une première entrée le signal émis par le capteur 18, 20 ou bien 22 et sur une second entrée le signal reproduit par le transducteur 28 (signal générateur d'écho), et délivre en sortie, pour traitement ultérieur, un signal dont l'écho a été éliminé.
Le traitement anti-écho est par exemple réalisé par un traitement à algorithme adaptatif tel que celui décrit dans le FR 2 792 146 A1 (Parrot SA), auquel on pourra se reporter pour plus de détails. Il s'agit d'une technique d'annulation d'écho ou AEC consistant à définir de façon dynamique un filtre de compensation modélisant le couplage acoustique entre le transducteur 28 et le capteur physiologique 18 (ou le micro 20, ou le micro 22, respectivement) par une transformation linéaire entre le signal reproduit par le transducteur 28 (c'est-à-dire le signal E appliqué en entrée des blocs 38, 40 ou 42) et l'écho capté par le capteur physiologique 18 (ou le micro 20 ou 22). Cette transformation définit un filtre adaptatif qui est appliqué au signal incident reproduit, et le résultat de ce filtrage est soustrait du signal recueilli par le capteur physiologique 18 (ou le micro 20 ou 22), ce qui a pour effet d'annuler la majeure partie de l'écho acoustique.
Cette modélisation repose sur la recherche d'une corrélation entre le signal reproduit par le transducteur 28 et le signal recueilli par le capteur physiologique 18 (ou le micro 20 ou 22), c'est-à-dire sur une estimation de la réponse impulsionnelle du couplage constituée par le corps de l'écouteur 12 supportant ces divers éléments.
Le traitement est notamment opéré par un algorithme de type APA (Affine Projection Algorithm) adaptatif, qui assure une convergence rapide, bien adaptée à des applications de type "mains libres" avec un débit vocal intermittent et un niveau pouvant rapidement varier.
Avantageusement, l'algorithme itératif est exécuté avec un pas variable, comme décrit dans le FR 2 792 146 A1 précité. Avec cette technique, le pas µ varie de façon continue en fonction des niveaux d'énergie du signal capté par le micro, avant et après filtrage. Ce pas est accru lorsque l'énergie du signal capté est dominée par l'énergie de l'écho, et, inversement, réduit lorsque l'énergie du signal capté est dominée par l'énergie du bruit de fond et/ou de la parole du locuteur distant.
Le signal recueilli par le capteur physiologique 18 après le traitement anti-écho par le bloc 38 sera utilisé comme signal d'entrée d'un bloc 44 de calcul d'une fréquence de coupure FC.
L'étape suivante consiste à opérer un filtrage des signaux, avec un filtre passe-bas 48 pour le signal du capteur physiologique 18 et avec un filtre passe-haut 50, 52 pour les signaux recueillis par les micros 20, 22, respectivement.
Ces filtres 48, 50 et 52 sont de préférence des filtres numériques du type à réponse impulsionnelle infinie IIR (filtres récursifs), qui présentent une transition relativement abrupte entre la bande passante et la bande rejetée.
Avantageusement, ces filtres sont des filtres adaptatifs dont la fréquence de coupure est variable et déterminée dynamiquement par le bloc 44.
Ceci permet d'adapter le filtrage aux conditions particulières d'utilisation du casque : voix plus ou moins haute du porteur lorsqu'il parle, couplage plus ou moins étroit entre le capteur physiologique 18 et la joue ou la tempe du porteur, etc. La fréquence de coupure FC, qui est de préférence la même pour le filtre passe-bas 48 et les filtres passe-haut 50 et 52, est déterminée à partir du signal du capteur physiologique 18 après le traitement anti-écho 38. Pour cela, un algorithme calcule le rapport signal/bruit pour plusieurs bandes de fréquences situées dans une plage comprise entre par exemple 0 et 2500 Hz (le niveau de bruit étant donné par un calcul de l'énergie dans une bande de fréquences plus haute, par exemple entre 3000 et 4000 Hz, car l'on sait que dans cette zone le signal ne peut être que du bruit, du fait des propriétés du composant constituant le capteur physiologique 18). La fréquence de coupure choisie correspondra à la fréquence maximale pour laquelle le rapport signal/bruit dépasse un seuil prédéterminé, par exemple 10 dB.
L'étape suivante consiste à opérer au moyen du bloc 54 un mixage pour reconstruire le spectre complet avec, d'une part, la région inférieure du spectre donnée par le signal filtré du capteur physiologique 18 et, d'autre part, le haut du spectre donné par le signal filtré des micros 20 et 22 après passage dans un combineur-déphaseur 56 permettant d'opérer un débruitage dans cette partie du spectre. Cette reconstruction est opérée par sommation des deux signaux, qui sont appliqués en synchronisme au bloc de mixage 54 de manière à éviter toute déformation.
On va maintenant décrire plus précisément la manière dont est opérée la réduction du bruit par le combineur-déphaseur 56.
Le signal que l'on souhaite débruiter (c'est-à-dire le signal du locuteur proche situé dans la partie haute du spectre, typiquement les composantes de fréquence supérieure à 1500 Hz) est issu des deux micros 20, 22 disposés à quelques centimètres l'un de l'autre sur la coque 14 de l'un des écouteurs du casque. Comme on l'a indiqué, ces deux micros sont disposés l'un par rapport à l'autre de manière que la direction 24 qu'ils définissent soit approximativement orientée dans la direction de la bouche 26 du porteur du casque. De ce fait, un signal de parole émis depuis la bouche atteindra le micro avant 20 puis le micro arrière 22 avec un retard, et donc un déphasage, sensiblement constant, tandis que les bruits ambiants seront captés sans déphasage par les deux micros 20 et 22 (qui sont des micros omnidirectionnels), compte tenu de l'éloignement des sources de bruits parasites par rapport aux deux micros 20 et 22.
La réduction de bruit sur les signaux captés par les micros 20 et 22 n'est pas opérée dans le domaine fréquentiel (comme cela est souvent le cas), mais dans le domaine temporel, au moyen du combineur-déphaseur 56 qui comprend un déphaseur 58 appliquant un retard τ au signal du micro arrière 22 et un combineur 60 permettant de soustraire ce signal retardé au signal issu du micro avant 20.
On constitue ainsi un réseau différentiel de micros du premier ordre, équivalent à un micro virtuel unique dont la directivité pourra être ajustée en fonction de la valeur de τ, avec 0 ≤ τ ≤ τ_A (τ_A étant la valeur correspondant au déphasage naturel entre les deux micros 20 et 22, égale à la distance entre les deux micros divisée par la vitesse du son, soit un retard d'environ 30 µs pour un espacement de 1 cm). Une valeur τ = τ_A donnera un diagramme de directivité cardioïde, une valeur τ = τ_A /3 un diagramme hypercardioïde, et une valeur τ = 0 un diagramme dipolaire. On peut obtenir par un choix approprié de ce paramètre une atténuation d'environ 6 dB sur des bruits diffus environnants. Pour plus de détails sur cette technique, on pourra par exemple se référer à :
[1] M. Buck et M. Rößler, First Order Differential Microphones Arrays for Automotive Applications, Proceedings of the 7th International Workshop on Acoustic echo and Noise control (IWAENC), Darmstadt, 10-13 Sept 2001.
On va maintenant décrire les traitements opérés sur le signal global (haut et bas du spectre) délivré en sortie des moyens de mixage 54.
Ce signal est soumis par le bloc 62 à une réduction de bruit fréquentielle.
De préférence, cette réduction de bruit fréquentielle est opérée de façon différente en présence ou en l'absence de parole, en évaluant une probabilité p d'absence de parole à partir du signal recueilli par le capteur physiologique 18.
Avantageusement, cette probabilité d'absence de parole est dérivée de l'information donnée par le capteur physiologique.
En effet, comme on l'a indiqué plus haut, le signal délivré par ce capteur présente un très bon rapport signal/bruit jusqu'à la fréquence de coupure FC déterminée par le bloc 44. Mais au-delà de cette fréquence de coupure le rapport signal/bruit reste encore bon, et souvent meilleur que celui des micros 20 et 22. L'information du capteur est exploitée en calculant (bloc 64) l'intercorrélation fréquentielle entre le signal combiné délivré par le bloc de mixage 54 et le signal non filtré du capteur physiologique, avant filtrage par le filtre passe-bas 48.
Ainsi, pour chaque fréquence f comprise par exemple entre FC et 4000 Hz, et pour chaque trame n, le calcul suivant est réalisé par le bloc 64 : $int e r C o r r e l a t i o n (n f) = α_{int e r c o r r} • int e r C o r r e l a t i o n (n - 1, f) + (1 - α_{int e r c o r r}) • \overline{S m i x (f)} \cdot \overline{S a c c (f)}$
Smix(f)et smix(f) étant les représentations vectorielles (complexes) fréquentielles, pour la trame n, respectivement du signal combiné délivré par le bloc de mixage 54, et du signal du capteur physiologique 18.
Pour évaluer une probabilité d'absence de parole, l'algorithme recherche les fréquences pour lesquelles il n'y a que du bruit (situation d'absence de parole) : sur le spectrogramme du signal délivré par le bloc de mixage 54 certaines harmoniques sont noyées dans le bruit, alors qu'elles ressortent plus sur le signal du capteur physiologique.
Le calcul d'intercorrélation par la formule décrite ci-dessus produit un résultat dont la figure 3 montre un exemple, dans le domaine fréquentiel.
Les pics P₁, P₂, P₃, P₄, ... de ce calcul d'intercorrélation indiquent une forte corrélation entre le signal combiné délivré par le bloc de mixage 54, et le signal du capteur physiologique 18, et l'émergence de ces fréquences corrélées indique la présence probable de parole pour ces fréquences.
Pour obtenir une probabilité d'absence de parole (bloc 66), on considère la valeur complémentaire : $AbsProbo (n f) = 1 - i nterCorrelation (n f) / coefficient_normalisation$
La valeur coefficient_normalisation permet de régler la répartition des probabilités en fonction de la valeur de l'intercorrélation, et obtenir des valeurs entre 0 et 1.
La probabilité p d'absence de parole ainsi obtenue est appliquée au bloc 62 qui opère sur le signal délivré par le bloc de mixage 54 une réduction de bruit fréquentielle de façon sélective par rapport à un seuil donné de probabilité d'absence de parole :

en l'absence probable de parole, la réduction de bruit est appliquée sur toutes les bandes de fréquences, c'est-à-dire que le gain maximal de réduction est appliqué de la même façon sur toutes les composantes du signal (puisque dans ce cas celui-ci ne contient vraisemblablement pas de composante utile) ;
en revanche, en présence probable de parole, la réduction de bruit est une réduction de bruit fréquentielle appliquée sélectivement selon les différentes bandes de fréquences en fonction de la valeur p de la probabilité de présence de parole, selon un schéma classique, par exemple comparable à celui décrit dans le WO 2007/099222 A1 (Parrot ).

Le système que l'on vient de décrire permet d'obtenir d'excellentes performances globales, typiquement de l'ordre de 30 à 40 dB de réduction de bruit sur le signal de parole du locuteur proche. Grâce à l'élimination de tous les bruits parasites, notamment les plus gênants (train, métro, etc.) qui sont concentrés dans les basses fréquences, cela donne l'impression au locuteur distant (celui avec lequel le porteur du casque est en communication) que son interlocuteur (le porteur du casque) se trouve dans une pièce silencieuse.
Enfin, il est avantageux d'appliquer au signal une égalisation finale (bloc 68), notamment sur le bas du spectre.
En effet, le contenu basse fréquence recueilli au niveau de la joue ou de la tempe par le capteur physiologique 18 est différent du contenu basse fréquence du son émis par la bouche de l'utilisateur, tel qu'il serait capté par un micro situé à quelques centimètres de la bouche, ou même par l'oreille d'un interlocuteur. L'utilisation du capteur physiologique et le filtrage que l'on a décrit plus haut permet certes d'obtenir un signal très bon en termes de rapport signal/bruit, mais qui peut présenter pour l'interlocuteur qui l'entend un timbre un peu sourd et peu naturel.
Pour pallier cette difficulté, il est avantageux d'opérer une égalisation du signal de sortie avec des gains ajustés sélectivement sur différentes bandes de fréquences dans la région du spectre correspondant au signal recueilli par le capteur physiologique. L'égalisation peut être réalisée de manière automatique, à partir du signal délivré par les micros 20, 22, avant filtrage.
La Figure 4 montre un exemple, dans le domaine fréquentiel (donc après transformée de Fourier) du signal ACC produit par le capteur physiologique 18, par rapport à un signal microphonique MIC qui serait capté à quelques centimètres de la bouche.
De manière à optimiser le rendu du signal recueilli par le capteur physiologique, des gains différenciés G₁, G₂, G₃, G₄, ... sont appliqués à différentes bandes de fréquences de la partie du spectre située dans les basses fréquences.
Ces gains sont évalués par comparaison des signaux captés, dans une bande de fréquences commune, à la fois par le capteur physiologique 18 et par les micros 20 et/ou 22.
Plus précisément, l'algorithme calcule les transformées de Fourier respectives de ces deux signaux, donnant une série de coefficients fréquentiels (exprimés en dB) NormPhysioFreq_dB(i) et NormMicFreq_dB(i), correspondant respectivement à la norme du ¡ ^ième coefficient de Fourier du signal du capteur physiologique et à la norme du ¡ ^ième coefficient Fourier du signal microphonique.
Pour chaque coefficient fréquentiel de rang i, si la différence : $DifferenceFreq_dB (i) = NormPhysioFreq_d B (i) - NormMicFreq_dB (i) .$

est positive, le gain qui sera appliqué sera inférieur à l'unité (négatif en dB) ; réciproquement si la différence est négative le gain à appliquer sera supérieur à l'unité (positif en dB).
Si le gain était appliqué tel quel, les différences n'étant pas exactement constantes d'une trame à une autre, notamment lorsqu'il ne s'agit pas de sons voisés, il y aurait des variations importantes d'égalisation dans le timbre. Pour éviter ces variations, l'algorithme opère un lissage de la différence, qui permet d'affiner l'égalisation : $Gain_dB (i) = λ . Gain_dB (i) - (1 - λ) DifferenceFreq_dB (i) .$
Plus le coefficient λ sera proche de 1, moins l'information de la trame courante sera prise en compte pour le calcul du gain du i ^ième coefficient. Inversement, plus le coefficient λ sera proche de 0, plus l'information instantanée sera prise en compte. En pratique, pour que le lissage soit efficace, on prendra une valeur λ proche de 1, par exemple λ = 0,99. Le gain appliqué sur chaque bande de fréquences du signal issu du capteur physiologique donnera, pour la i ^ième fréquence modifiée : $NormPhysioFreq_dB_corrigée (i) = NormPhysioFreq_dB (i) + Gain_dB (i)$
C'est cette norme qui sera utilisée par l'algorithme d'égalisation.
L'application de gains différenciés permet de rendre plus naturel le signal de parole dans le bas du spectre. Une étude subjective a montré que, dans un environnement silencieux et lorsqu'une telle égalisation est appliquée, la différence entre un signal microphonique de référence et le signal produit par le capteur physiologique dans le bas du spectre est pratiquement imperceptible.

Claims

Un casque audio (10) du type combiné micro/casque, comprenant :
- deux écouteurs (12) comportant chacun un transducteur (28) de reproduction sonore d'un signal audio ;

- un capteur physiologique (18), apte à venir en contact avec la joue ou la tempe du porteur du casque pour y être couplé et capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, ce capteur physiologique délivrant un premier signal de parole ;

- un ensemble microphonique, comprenant au moins un microphone (20, 22) apte à capter les vibrations vocales acoustiques transmises par voie aérienne depuis la bouche du porteur du casque, cet ensemble microphonique délivrant un second signal de parole ; et

- des moyens de mixage (54), pour combiner le premier signal de parole et le second signal de parole, et donner en sortie un troisième signal de parole représentatif de la parole émise par le porteur du casque, caractérisé en ce que :

- le capteur physiologique (18) est incorporé à un coussinet circumaural (16) d'une coque (14) de l'un des écouteurs (12) ;

- l'ensemble microphonique comprend deux microphones (20, 22) placés sur la coque (14) de l'un des écouteurs (12) ;

- les deux microphones (20, 22) sont alignés en un réseau linéaire suivant une direction principale (24) dirigée vers la bouche (26) du porteur du casque ; et

- il est prévu des moyens (56) de réduction de bruit non fréquentielle du second signal de parole, comprenant un combineur apte à appliquer un retard au signal délivré par l'un des microphones et à soustraire ce signal retardé du signal délivré par l'autre microphone,
de manière à opérer un débruitage du signal de parole proche émis par le porteur du casque.
Le casque audio de la revendication 1, comprenant en outre :
- des moyens (48) de filtrage passe-bas du premier signal de parole avant combinaison par les moyens de mixage, et/ou des moyens (50, 52) de filtrage passe-haut du second signal de parole avant débruitage et combinaison par les moyens de mixage, ces moyens de filtrage passe-bas et/ou passe-haut (48, 50, 52) comprenant un filtre à fréquence de coupure ajustable ; et

- des moyens (44) de calcul de la fréquence de coupure opérant en fonction du signal délivré par le capteur physiologique.
Le casque audio de la revendication 2, dans lequel les moyens (44) de calcul de la fréquence de coupure comprennent des moyens d'analyse du contenu spectral du signal délivré par le capteur physiologique, aptes à déterminer la fréquence de coupure en fonction des niveaux relatifs du rapport signal/bruit évalué dans une pluralité de bandes de fréquences distinctes du signal délivré par le capteur physiologique.
Le casque audio de la revendication 1, comprenant en outre :
- des moyens (62) de débruitage du troisième signal de parole délivré par les moyens de mixage, opérant par réduction de bruit fréquentielle.
Le casque audio de la revendication 4, comprenant en outre des moyens recevant en entrée, et opérant une intercorrélation entre, ledit premier et ledit troisième signal de parole, et délivrant en sortie un signal de probabilité de présence de parole fonction du résultat de ladite intercorrélation.
Le casque audio de la revendication 5, dans lequel les moyens (62) de débruitage du troisième signal de parole reçoivent en entrée ledit signal de probabilité de présence de parole et sont aptes à, sélectivement :
i) opérer une réduction de bruit différenciée selon les bandes de fréquences en fonction de la valeur dudit signal de probabilité de présence de parole, et

ii) opérer une réduction de bruit maximale sur toutes les bandes de fréquences en l'absence de parole.
Le casque audio de la revendication 1, comprenant en outre :
- des moyens (64) de post-traitement, aptes à opérer une égalisation sélective par bandes de fréquences dans la partie du spectre correspondant au signal recueilli par le capteur physiologique.
Le casque audio de la revendication 7, dans lequel les moyens de post-traitement sont aptes à déterminer un gain d'égalisation pour chacune desdites bandes de fréquences, ce gain étant calculé à partir des coefficients fréquentiels respectifs des signaux délivrés par le(s) microphones et des signaux délivrés par le capteur physiologique, considérés dans le domaine fréquentiel.
Le casque audio de la revendication 8, dans lequel les moyens de post-traitement sont en outre aptes à opérer un lissage sur une pluralité des trames successives de signal dudit gain d'égalisation calculé.