FR2976111A1 - Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" - Google Patents

Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" Download PDF

Info

Publication number
FR2976111A1
FR2976111A1 FR1154825A FR1154825A FR2976111A1 FR 2976111 A1 FR2976111 A1 FR 2976111A1 FR 1154825 A FR1154825 A FR 1154825A FR 1154825 A FR1154825 A FR 1154825A FR 2976111 A1 FR2976111 A1 FR 2976111A1
Authority
FR
France
Prior art keywords
speech
signal
filter
equipment
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1154825A
Other languages
English (en)
Other versions
FR2976111B1 (fr
Inventor
Guillaume Vitte
Michael Herve
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Europe SAS
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Priority to FR1154825A priority Critical patent/FR2976111B1/fr
Priority to US13/475,431 priority patent/US8682658B2/en
Priority to ES12170407T priority patent/ES2430121T3/es
Priority to CN201210179601.4A priority patent/CN103002170B/zh
Priority to EP12170407.6A priority patent/EP2530673B1/fr
Priority to JP2012125653A priority patent/JP6150988B2/ja
Publication of FR2976111A1 publication Critical patent/FR2976111A1/fr
Application granted granted Critical
Publication of FR2976111B1 publication Critical patent/FR2976111B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

L'équipement comprend deux micros (10, 12), des moyens d'échantillonnage et des moyens de débruitage. Les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur (14) à filtre adaptatif (16) opérant par recherche itérative visant à annuler le bruit capté par l'un des micros (10) sur la base d'une référence de bruit donnée par l'autre micro (12). Le filtre adaptatif est un filtre à délai fractionnaire modélisant un retard inférieur à la période d'échantillonnage. L'équipement comprend en outre des moyens de détection d'activité vocale (20) délivrant un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement. Le filtre adaptatif reçoit en entrée ce signal de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole.

Description

L'invention concerne le traitement de la parole en milieu bruité. Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité.
Ces appareils comportent un ou plusieurs microphones ("micros") sensibles, captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de recon- naissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé. Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'acces- soires en forme de boîtier amovible intégrant tous les composants et fonctions de traitement du signal pour la communication téléphonique. En effet, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle supérieur du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) en- traîne la captation d'un niveau de bruit relativement élevé, qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc. Des difficultés du même genre se présentent dans le cas où le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exem- pie) provenant d'un appareil sur lequel est branché le casque. Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). Or, le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seu- lement la parole du porteur du casque, mais également les bruits parasi- tes environnants. Le porteur est certes protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environne- ments habituels. L'invention concerne plus particulièrement les techniques de débruitage mettant en oeuvre plusieurs micros, généralement deux micros, pour combiner de façon judicieuse les signaux captés simultanément par ces micros afin d'isoler les composantes de parole utiles des composantes de bruits parasites. Une technique classique consiste à placer et orienter l'un des micros pour qu'il capte principalement la voix du locuteur, tandis que l'autre est disposé de manière à capter une composante de bruit plus importante que le micro principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant par analyse de cohérence spatiale des deux signaux, avec des moyens logiciels relativement simples. Cette technique présente cependant l'inconvénient de nécessiter deux micros distants, l'efficacité étant d'autant plus élevée que les deux micros sont éloignés. De ce fait, cette technique n'est pas applicable à un dispo- sitif dans lequel les deux micros sont rapprochés, par exemple deux micros incorporés à la façade d'un autoradio de véhicule automobile, ou deux micros qui seraient disposés sur l'une des coques d'un écouteur de casque audio. Une autre technique encore, dite beamforming, consiste à créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit du ré-seau ou "antenne" de micros. Toutefois, on estime qu'une telle méthode ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros, les performances étant extrêmement limitées lorsque seulement deux micros sont utilisés.
Le problème général de l'invention est, dans un tel contexte, de procéder à une réduction de bruit efficace permettant de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche (conducteur du véhicule ou porteur du casque), en débarrassant ce signal des composantes parasites de bruit extérieur présentes dans l'environnement de ce locuteur proche. Le problème de l'invention est également, dans une telle situation, de pouvoir mettre en oeuvre un ensemble de micros à la fois en nombre ré-duit (avantageusement deux micros seulement) et relativement rappro- chés (typiquement un écartement de quelques centimètres seulement). Un autre aspect important du problème est la nécessité de restituer un signal de parole naturelle et intelligible, c'est-à-dire non distordu et dont le spectre des fréquences utiles ne soit pas amputé par les traitements de débruitage.
A cet effet, l'invention propose un équipement audio comprenant : un en-semble de deux capteurs microphoniques aptes à recueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ; des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; et des moyens de débruitage d'un si- gnal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement. Les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique. De façon caractéristique de l'invention, le filtre adaptatif est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage. L'équipement comprend en outre des moyens de détection d'activité vocale aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole. Le filtre adaptatif est notamment apte à estimer un filtre optimal Htel que : H=G©F avec : x'(n)=GOO x(n) et G(k)=sinc(k+r/Te),
représentant l'estimée du filtre optimal H, transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire, G représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques, F représentant l'estimée de la réponse acoustique de l'environne-ment, O indiquant une convolution, x(n) étant la série d'échantillons du signal en entrée du filtre H, x'(n) étant la série x(n) décalée d'un retard 'r, Te étant la période d'échantillonnage du signal en entrée du filtre H, i étant ledit délai fractionnaire, égal à un sous-multiple de Te, et sine indiquant la fonction sinus cardinal.
De préférence, le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS. Dans une forme de réalisation, l'équipement comprend une caméra video dirigée vers l'utilisateur de l'équipement et apte à capter une image de celui-ci, et les moyens de détection d'activité vocale comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur. Dans une autre forme de réalisation, l'équipement comprend un capteur physiologique apte à venir en contact avec la tête de l'utilisateur de l'équi- pement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises par conduction osseuse interne, et les moyens de détection d'activité vocale comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur, notamment par évaluation de l'énergie du signal délivré par le capteur physiologique et comparaison à un seuil. L'équipement peut en particulier être un casque audio du type combiné micro/casque, comprenant : des écouteurs comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque pourvue d'un coussinet circumaural ; lesdits deux capteurs microphoniques, disposés sur la coque de l'un des écouteurs ; et ledit capteur physiologique, incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact avec la joue ou la tempe du porteur du casque. Ces deux capteurs microphoniques sont de préférence alignés en un réseau linéaire suivant une direction principale dirigée vers la bouche de l'utilisateur de l'équipement. 0
On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables. La Figure 1 illustre de façon schématique, sous forme de blocs fonctionnels, la manière dont est réalisé le traitement de débruitage selon l'invention. La Figure 2 est une représentation graphique de la fonction sinus cardinal 25 modélisée dans le traitement de débruitage de l'invention. Les Figures 3a et 3b sont des représentations de la fonction sinus cardinal de la Figure 2, respectivement pour les différents points d'une série d'échantillons de signal, et pour la même série décalée dans le temps d'une valeur fractionnaire. 30 La Figure 4 est une représentation de la réponse acoustique de l'environnement, avec en ordonnée l'amplitude et en abscisse les coefficients du filtre représentant ce transfert. La Figure 5 est homologue de la Figure 4, après convolution avec une réponse en sinus cardinal.
La Figure 6 est une représentation schématique d'un mode de réalisation consistant à utiliser une caméra pour assurer la détection d'activité vocale. La Figure 7 illustre de façon générale un ensemble micro/casque combiné auquel peuvent être appliqués les enseignements de l'invention.
La Figure 8 est un schéma d'ensemble qui illustre sous forme de blocs fonctionnels la manière dont peut être réalisé le traitement du signal pour délivrer en sortie un signal débruité représentatif de la parole émise par le porteur du casque de la Figure 7. La Figure 9 illustre deux chronogrammes correspondant respectivement à 10 un exemple de signal brut recueilli par les micros, et de signal recueilli par un capteur physiologique permettant de distinguer les périodes de parole et les périodes de silence du locuteur.
0 15 La Figure 1 illustre de façon schématique, sous forme de blocs, les différentes fonctions mises en oeuvre par l'invention. Le processus de l'invention est mis en oeuvre par des moyens logiciels, schématisés par un certain nombre de blocs fonctionnels correspondant à 20 des algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, les différentes fonctions soient présentées sous forme de modules distincts, el-les mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même 25 logiciel. Le signal que l'on souhaite débruiter est issu d'un réseau de capteurs microphoniques qui, dans la configuration minimale illustrée, peut être simplement un réseau de deux capteurs disposés selon une configuration prédéterminée, chaque capteur étant constitué d'un micro respectif cor- 30 respondant 10, 12. L'invention peut toutefois être généralisée à un réseau de plus de deux capteurs microphoniques, et/ou à des capteurs microphoniques dont chaque capteur est constitué d'une structure plus complexe qu'un simple micro, par exemple une combinaison de plusieurs micros et/ou autres 35 capteurs de parole.
Les micros 10, 12 sont des micros qui captent le signal émis par la source de signal utile (le signal de parole du locuteur), et la différence de position entre les deux micros induit un ensemble de déphasages et variations d'amplitude dans l'enregistrement des signaux émis par la source de si- gnal utile. En pratique, les deux micros 10, 12, sont des micros omnidirectionnels disposés à quelques centimètres l'un de l'autre sur le plafonnier d'un habitacle de voiture, sur la façade d'un autoradio ou d'un emplacement approprié de la planche de bord, ou bien sur la coque d'un des écouteurs d'un casque audio, etc. Comme on le verra, la technique de l'invention permet d'assurer un dé-bruitage efficace même pour des micros très rapprochés, c'est-à-dire espacés entre eux d'un écartement d tel que le retard de phase maximal d'un signal capté par un micro puis par l'autre soit inférieur à la période d'échantillonnage du convertisseur de numérisation des signaux. Ceci correspond à une distance maximale d de l'ordre de 4,7 cm pour une fréquence d'échantillonnage Fe de 8 kHz (et un écartement d moitié moindre pour une fréquence double, etc.). Un signal de parole émis par un locuteur proche atteindra l'un des micros avant l'autre, et présentera donc un retard, et donc un déphasage 9, sensiblement constant. Pour du bruit, il peut certes exister également un déphasage entre les deux micros 10 et 12. En revanche, la notion de déphasage étant liée à la notion de direction d'onde incidente, on peut s'attendre à ce que ce déphasage soit différent de celui de la parole. Par exemple, si un bruit directif est dirigé dans le sens opposé à celui de la bouche, son déphasage sera de -9 si le déphasage pour la voix est de (p. Dans le cas de l'invention, la réduction de bruit sur les signaux captés par les micros 10 et 12 n'est pas opérée dans le domaine fréquentiel (comme cela est souvent le cas avec les techniques conventionnelles de débrui- tage) mais dans le domaine temporel. Cette réduction de bruit est opérée au moyen d'un algorithme recherchant la fonction de transfert entre l'un des micros (par exemple le micro 10) et l'autre micro (le micro 12) au moyen d'un combineur adaptatif 14 mettant en oeuvre un filtre prédictif 16 de type LMS (Least Mean Squares, moin- dres carrés moyens). La sortie du filtre 16 est soustraite en 18 du signal du micro 10 pour donner un signal S débruité, appliqué en retour au filtre 16 pour permettre son adaptation itérative en fonction de l'erreur de pré-diction. II est ainsi possible de prédire à partir du signal capté par le micro 12 la composante de bruit contenue dans le signal capté par le micro 10 (la fonction de transfert identifiant le transfert du bruit). La recherche adaptative de la fonction de transfert entre les deux micros n'est opérée que pendant les phases d'absence de parole. Pour cela, l'adaptation itérative du filtre 16 n'est activée que lorsqu'un détecteur 20 d'activité vocale VAD (Voire Activity Detector) piloté par un capteur 22 in- digue que le locuteur proche n'est pas en train de parler. Cette fonction est schématisée par le commutateur 24 : en l'absence de signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 cherche à optimiser la fonction de transfert entre les deux micros 10 et 12 de manière à réduire la composante de bruit (position fermée du commuta- teur 24, comme illustré sur la figure) ; en revanche, en présence d'un signal de parole avéré par le détecteur d'activité vocale 20, le combineur adaptatif 14 fige les paramètres du filtre 16 à la valeur à laquelle ils se trouvaient juste avant que la parole ne soit détectée (ouverture du commutateur 24), ce qui évite toute dégradation du signal de parole du locu- teur proche. On notera que cette manière de procéder n'est pas gênante même en présence d'un environnement bruyant évolutif, car les mises à jour des paramètres du filtre 16 sont très fréquentes puisqu'elles interviennent à chaque fois que le locuteur proche cesse de parler.
De façon caractéristique de l'invention, le filtrage du combineur adaptatif 14 est un filtrage à délai fractionnaire, c'est-à-dire qu'il permet d'appliquer un filtrage entre les signaux captés par les deux micros en tenant compte d'un délai inférieur à la durée d'un échantillon de numérisation des si-g naux.
On sait qu'un signal temporel x(t) de bande passante [0,Fe/2] peut être reconstitué de manière parfaite à partir de la série discrète x(k), où les échantillons x(k) correspondent aux valeurs de x(t) aux instants k.Te (Te = 1/Fe étant la période d'échantillonnage).
L'expression mathématique est la suivante : x(t) = x(k).sinc t-k.Te Te La fonction sinus cardinal sine étant définie par : sine(t) = sin(pi *0 pi*t La Figure 2 donne un représentation graphique de cette fonction sine (t).
Comme on peut le constater, cette fonction décroît rapidement, avec pour conséquence qu'un nombre fini et relativement faible de coefficients k dans la somme donne une très bonne approximation du résultat réel. Pour un signal numérisé avec une période d'échantillonnage Te, l'intervalle ou décalage entre deux échantillons correspond de manière tempo- relie à une durée de Te seconde. La série x(n) des n échantillons successifs numérisés du signal capté peut ainsi être représentée par l'expression suivante, pour tout n entier : x(n.Te) _ 1x(k).sinc n.Te - k .Te 1 k Te On notera que dans la somme le terme en sine est nul pour tout k, sauf pour k = n. La Figure 3a donne un représentation graphique de cette fonction. Si l'on veut calculer cette même série x(n) décalée d'une valeur fractionnaire T, c'est-à-dire d'un délai inférieur à la durée d'un échantillon de numérisation Te, l'expression ci-dessus devient : x(n.Te - r) = E x(k).sinc((n - k).Te - k Te j La Figure 3b donne un représentation graphique de cette fonction, pour un exemple de valeur fractionnaire ti = 0,5 (un demi-échantillon).20 La série x'(n) (décalée de T) peut être vue comme la convolution de x(n) par un filtre non causal G tel que :
x' (n) = G OO x(n)
Il s'agit donc de déterminer une estimée Ôd'un filtre optimal G tel que : H=GOF et G(k)=sinc(k+v/Te),
H étant l'estimée du transfert de bruit entre les deux micros, incluant un délai fractionnaire, et F étant l'estimée de la réponse acoustique de l'environnement. Pour l'estimation du filtre de transfert de bruit entre les deux micros, l'estimée H correspond à un filtre qui minimise une erreur : = Mi teant(r - e(n')
MicAvant(n) et MicArrière(n) étant les valeurs respectives des signaux is-15 sus des capteurs microphoniques 10 et 12. Ce filtre a pour caractéristique d'être non causal, c'est-à-dire qu'il se sert des échantillons futurs. En pratique, cela signifie que l'on introduit un retard dans le délai de traitement algorithmique. Comme il est non causal, il peut modéliser un délai fractionnaire et peut donc s'écrire H = G O F . 20 (dans le cas classique d'un filtre causal, on aurait H = F ). Concrètement, dans l'algorithme, l'estimation de H a lieu directement, par la minimisation de l'erreur e(n) ci-dessus, sans qu'il y a ait besoin d'estimer séparément G et fi' . Dans le cas classique causal (par exemple pour un filtre d'annulation 25 d'écho), l'erreur e(n) à minimiser s'écrit, sous forme développée : = MicA nt( )
L étant la longueur du filtre. Dans le cas de la présente invention (filtre non causal) l'erreur devient : e(n) = Mic i nt(3 - 'nér'e ( - rkJ.10 On notera que la longueur du filtre est doublée, pour tenir compte des échantillons futurs. La prédiction du filtre H donne un filtre à délai fractionnaire qui, idéale- ment et en l'absence de parole, annule le bruit du micro 10 en ayant pour 5 référence le micro 12 (comme on l'a indiqué plus haut, en période de pa- role le filtre est toutefois figé pour éviter toute dégradation de la parole lo- cale). Concrètement, le filtre H calculé par l'algorithme adaptatif qui estime le transfert de bruit entre le micro 10 et le micro 12, peut être vu comme la 10 convolution H = G O F de deux filtres G et fi' où : - G correspond à la partie fractionnaire (avec la forme en sinus cardinal), et - F correspond au transfert acoustique entre les deux micros, c'est-à-dire à la partie "environnementale" du système, représentative de 15 l'acoustique du volume dans lequel opère celui-ci. La Figure 4 illustre un exemple de réponse acoustique entre les deux micros, sous forme d'une caractéristique donnant l'amplitude A en fonction des coefficients k du filtre F. Les différentes réflexions du son qui peuvent intervenir en fonction de l'environnement, par exemple sur les vitres ou 20 autres parois d'un habitacle de voiture, créent des pics visibles sur cette caractéristique de réponse acoustique. La Figure 5 illustre un exemple du résultat de la convolution GOF des deux filtres G (réponse en sinus cardinal) et F (environnement d'utilisation), sous forme d'une caractéristique donnant l'amplitude A en fonction 25 des coefficients k du filtre convolué. L'estimée H peut être calculée par un algorithme LMS itératif cherchant à minimiser l'erreur y(n) - 1-10 x(n) pour converger vers le filtre optimal. Les algorithmes de type LMS - ou NLMS (Normalized LMS) qui est une version normalisée du LMS - sont des algorithmes relativement simples et 30 peu exigeants en termes de ressources de calcul. II s'agit d'algorithmes en eux-mêmes connus, décrits par exemple par : [1) B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R. E. Kalman and N. De Claris Eds., New York: Holt, Rinehart and Winston, pp. 563-587, 1970 ; [2] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applica- tions, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975. [3] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.
Comme on l'a indiqué plus haut, pour que le traitement précédent soit possible, il est nécessaire de disposer d'un détecteur d'activité vocale permettant de discriminer entre les phases d'absence de parole (où l'adaptation du filtre permet d'optimiser l'évaluation du bruit) et de présence de parole (où les paramètres du filtre sont figés à leur dernière va- leur trouvée). Plus précisément, le détecteur d'activité vocale est ici de préférence un détecteur "parfait", c'est-à-dire qu'il délivre un signal binaire (absence vs. présence de parole). II se distingue ainsi de la plupart des détecteurs d'activité vocale utilisés dans les systèmes de débruitage connus, qui délivrent seulement une probabilité de présence de parole variable entre 0 et 100 % de façon continue ou par pas successifs. Avec de tels détecteurs basés seulement sur une probabilité de présence de parole, les fausses détections peuvent être importantes dans des environnements bruités. Pour être "parfait", le détecteur d'activité vocale ne peut pas se baser uni- quement sur le signal capté par les micros ; il doit disposer d'une information additionnelle permettant de discriminer les phases de parole et de silence du locuteur proche. Un premier exemple d'un tel détecteur est illustré par la Figure 6, où le détecteur d'activité vocale 20 opère en réponse au signal produit par une 25 caméra. Cette caméra est par exemple une caméra 26 installée dans l'habitacle d'un véhicule automobile, et orientée de manière que son angle de champ 28 englobe en toutes circonstances la tête 30 du conducteur, considéré comme le locuteur proche. Le signal délivré par la caméra 26 est analysé 30 pour déterminer d'après le mouvement de la bouche et des lèvres si le locuteur parle ou non. On peut utiliser à cet effet des algorithmes de détection de la région de la bouche dans une image d'un visage, et de suivi du mouvement des lèvres (/ip contour tracking) telle que ceux exposés notamment par : [4] G. Potamianos et al., Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing, G. Bailly et al. Eds., MIT Press, pp. 1-30, 2004. Ce document décrit, de façon générale, l'apport d'une information visuelle en complément d'un signal audio pour notamment faire de la reconnaissance vocale dans des conditions acoustiques dégradées. Les données vidéo viennent ainsi s'ajouter aux données audio conventionnelles pour améliorer l'information vocale (speech enhancement). Ce traitement pourra être utilisé dans le cadre de la présente invention pour distinguer entre les phases de parole et les phases de silence du locuteur. Pour tenir compte du fait que dans un habitacle automobile les mouvements de l'utilisateur sont lents tandis que les mouvements de la bouche sont rapides, on peut par exemple, une fois localisée la bouche, comparer deux images consécutives et évaluer le décalage sur un même pixel. L'avantage de cette technique d'analyse d'image est de disposer d'une in-formation complémentaire totalement indépendante de l'environnement de bruit acoustique. Un autre exemple de capteur utilisable pour la détection d'activité vocale "parfaite" est un capteur physiologique susceptible de détecter certaines vibrations vocales du locuteur qui ne soient pas ou peu corrompues par le bruit environnant. Un tel capteur peut être notamment constitué d'un accéléromètre ou d'un capteur piézoélectrique appliqué contre la joue ou la tempe du locuteur.
En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cor-des vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. La bouche, le voile du palais, le pharynx, les sinus et les fosses na- sales servent ensuite de caisse de résonance à ce son voisé et, leur paroi étant élastique, elles vibrent à leur tour et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe. Ces vibrations au niveau de la joue et de la tempe présentent la caracté-35 ristique d'être, par nature, très peu corrompues par le bruit environnant : en effet, en présence de bruits extérieurs, même importants, les tissus de la joue et de la tempe ne vibrent quasiment pas, et ceci quelle que soit la composition spectrale du bruit extérieur. Un capteur physiologique qui recueille ces vibrations vocales dépourvues de bruit donne un signal représentatif de la présence ou de l'absence de sons voisés émis par le locuteur, permettant donc de discriminer très bien les phases de parole et les phases de silence du locuteur. Un tel capteur physiologique peut être notamment incorporé à un ensemble combiné micro/casque tel qu'illustré sur la Figure 7.
Sur cette figure, la référence 32 désigne de façon générale le casque selon l'invention, qui comporte deux oreillettes 34 réunies par un arceau. Chacune des oreillettes est de préférence constituée d'une coque fermée 36, logeant un transducteur de reproduction sonore, appliquée autour de l'oreille de l'utilisateur avec interposition d'un coussinet 38 isolant l'oreille de l'extérieur. Le capteur physiologique 40 servant à la détection d'activité vocale est par exemple un accéléromètre intégré dans le coussinet 38 de manière à venir s'appliquer contre la joue ou la tempe de l'utilisateur avec un couplage le plus étroit possible. Ce capteur physiologique 40 peut notamment être placé sur la face intérieure de la peau du coussinet 38 de sorte que, une fois le casque mis en place, le capteur soit appliqué contre la joue ou la tempe de l'utilisateur sous l'effet d'une légère pression résultant de l'écrasement du matériau du coussinet, avec seulement interposition de la peau extérieure de ce coussinet.
Le casque porte également les micros 10, 12 du circuit de recueil et de débruitage de la parole du locuteur. Ces deux micros sont des micros omnidirectionnels placés sur la coque 36, et ils sont disposés avec le micro 10 placé en avant (plus proche de la bouche du porteur du casque) et le micro 12 placé plus en arrière. D'autre part la direction d'alignement 42 des deux micros 10, 12 est approximativement dirigée vers la bouche 44 du porteur du casque. La Figure 8 est un schéma par blocs montrant les différentes fonctions mises en oeuvre par le combiné micro/casque de la Figure 7. On retrouve sur cette figure les deux micros 10 et 12, ainsi que le détec-35 teur d'activité vocale 20. Le micro avant 10 est le micro principal et le micro arrière 12 sert d'entrée au filtre adaptatif 16 du combineur 14. Le détecteur d'activité vocale 20 est contrôlé par le signal délivré par le capteur physiologique 40, avec par exemple lissage de la puissance du signal délivré par ce capteur 40 : .CC.eeca teu,-(a-1)+ (_-C. cr étant une constante de lissage proche de 1. Il suffit alors de fixer un seuil Ç tel que ce seuil soit dépassé dès que le locuteur parle. La Figure 9 illustre l'allure des signaux recueillis : le signal S10 du chronogramme du haut correspond à ce qui est capté 10 par le micro avant 10 : on voit qu'il est impossible d'opérer à partir de ce signal (bruité) une discrimination efficace entre les phases de présence et d'absence de parole. le signal S40 du chronogramme du bas correspond à ce que délivre concurremment le capteur physiologique 40 : les phases successives 15 de présence et d'absence de parole y sont marquées de façon bien plus apparente. Le signal binaire désigné VAD correspond à l'indication délivrée par le détecteur d'activité vocale 20 ('1' = présence de parole ; '0' = absence de parole), après évaluation de la puissance du signal S40 et comparaison par rapport au seuil prédéfini. 20 Le signal délivré par le capteur physiologique 40 peut être utilisé non seulement comme signal d'entrée d'un détecteur d'activité vocale, mais également pour enrichir le signal capté par les micros 10 et 12, notamment dans le bas du spectre. Bien sûr, les signaux délivrés par le capteur physiologique, qui correspon- 25 dent aux sons voisés, ne sont pas à proprement parler de la parole puis-que la parole n'est pas seulement formée de sons voisés, elle contient des composantes qui ne naissent pas au niveau des cordes vocales : le contenu fréquentiel est par exemple beaucoup plus riche avec le son pro-venant de la gorge et émis par la bouche. De plus, la conduction osseuse 30 interne et la traversée de la peau a pour effet de filtrer certaines compo- santes vocales. Par ailleurs, en raison du filtrage dû à la propagation des vibrations jus-qu'à la tempe ou la joue, le signal recueilli par le capteur physiologique est 2 utilisable uniquement dans les basses fréquences, principalement dans la région inférieure du spectre sonore (typiquement 0-1500 Hz). Mais comme les bruits généralement rencontrés dans un environnement habituel (rue, métro, train, ...) sont majoritairement concentrés dans les basses fréquences, le signal d'un capteur physiologique présente I"avantage considérable d'être naturellement dépourvu de composante parasite de bruit il sera donc possible d'utiliser ce signal dans le bas du spectre, en le complétant dans le haut du spectre (au-dessus de 1500 Hz) par les signaux (bruités) recueillis par les micros 10 et 12, après avoir soumis ces signaux à une réduction de bruit opérée par le combineur adaptatif 14. Le spectre complet est reconstruit au moyen du bloc de mixage 46 qui reçoit parallèlement : le signal du capteur physiologique 40 pour le bas du spectre, et le signal des micros 10 et 12 après débruitage par le combineur adaptatif 14 pour le haut du spectre. Cette reconstruction est opérée par sommation des signaux, qui sont appliqués en synchronisme au bloc de mixage 46 de manière à éviter toute déformation. Le signal résultant délivré par le bloc 46 peut être soumis à une réduction de bruit finale par le circuit 48, opérée dans le domaine fréquentiel selon une technique conventionnelle comparable à celle décrite par exemple dans le WO 2007/099222 Al (Parrot), pour donner en sortie le signal dé- bruité final S. La mise en oeuvre de cette technique est toutefois fortement simplifiée par rapport à ce qui est enseigné par exemple dans le document précité. En effet, dans le cas présent il n'est plus nécessaire d'évaluer une probabilité de présence de parole à partir du signal recueilli, puisque cette information peut être directement obtenue par le bloc de détection d'activité vo-cale 20 en réponse à la détection de l'émission de son voisé détecté par le capteur physiologique 40. L'algorithme peut être ainsi simplifié et rendu plus efficace et plus rapide.
La réduction de bruit fréquentielle est avantageusement opérée de façon différente en présence et en l'absence de parole (information donnée par le détecteur d'activité vocale parfait 20) : - en l'absence de parole, la réduction de bruit est maximale sur toutes les bandes de fréquences, c'est-à-dire que le gain correspondant au 35 débruitage maximum est appliqué de la même façon sur toutes les composantes du signal (puisque l'on est certain dans ce cas que celui-ci ne contient pas de composante utile) ; - en revanche, en présence de parole, la réduction de bruit est une réduction fréquentielle, appliquée de façon différenciée sur chaque bande de fréquences selon le schéma classique. Le système que l'on vient de décrire permet d'obtenir d'excellentes performances globales, typiquement de l'ordre de 30 à 40 dB de réduction de bruit sur le signal de parole du locuteur proche. Le combineur adaptatif 14 opérant sur les signaux captés par les micros 10 et 12 permet en particu- lier, avec le filtrage à délai fractionnaire, d'obtenir de très bonnes performances de débruitage dans les hautes fréquences. Grâce à l'élimination de tous les bruits parasites, cela donne l'impression au locuteur distant (celui avec lequel le porteur du casque est en communication) que son interlocuteur (le porteur du casque) se trouve dans une pièce silencieuse.

Claims (8)

  1. REVENDICATIONS1. Un équipement audio, comprenant : - un ensemble de deux capteurs microphoniques (10, 12) aptes à re- cueillir la parole de l'utilisateur de l'équipement et à délivrer des signaux de parole bruités respectifs ; des moyens d'échantillonnage des signaux de parole délivrés par les capteurs microphoniques ; et - des moyens de débruitage d'un signal de parole, recevant en entrée les échantillons des signaux de parole délivrés par les deux capteurs microphoniques, et délivrant en sortie un signal de parole débruité représentatif de la parole émise par l'utilisateur de l'équipement, dans lequel les moyens de débruitage sont des moyens de réduction de bruit non fréquentielle comprenant un combineur à filtre adaptatif (14) des signaux délivrés par les deux capteurs microphoniques, opérant par recherche itérative visant à annuler le bruit capté par l'un des capteurs microphoniques (10) sur la base d'une référence de bruit donnée par le signal délivré par l'autre capteur microphonique (12) ; équipement caractérisé en ce que : le filtre adaptatif (16) est un filtre à délai fractionnaire, apte à modéliser un retard inférieur à la période d'échantillonnage des moyens d'échantillonnage ; l'équipement comprend en outre des moyens de détection d'activité vo-cale (20, 22) aptes à délivrer un signal représentatif de la présence ou de l'absence de parole par l'utilisateur de l'équipement, et le filtre adaptatif reçoit également en entrée le signal de présence ou d'absence de parole, de manière à, sélectivement : i) soit opérer une recherche adaptative des paramètres du filtre en l'absence de parole, ii) soit figer ces paramètres du filtre en présence de parole.
  2. 2. L'équipement audio de la revendication 1, dans lequel le filtre adaptatif (16) est apte à estimer un filtre optimal Htel que : H=G®Favec : x'(n)=G©x(n) et G(k)=sinc(k+z/Te), H représentant l'estimée du filtre optimal H, transfert de bruit entre les deux capteurs microphoniques pour une réponse impulsionnelle incluant un délai fractionnaire, G représentant l'estimée du filtre à délai fractionnaire G entre les deux capteurs microphoniques, F représentant l'estimée de la réponse acoustique de l'environne- ment, O indiquant une convolution, x(n) étant la série d'échantillons du signal en entrée du filtre H, x'(n) étant la série x(n) décalée d'un retard 'r, Te étant la période d'échantillonnage du signal en entrée du filtre H, i étant ledit délai fractionnaire, égal à un sous-multiple de Te, et sinc indiquant la fonction sinus cardinal.
  3. 3. L'équipement audio de la revendication 1, dans lequel le filtre adaptatif est un filtre à algorithme de prédiction linéaire de type moindres carrés 20 moyens LMS.
  4. 4. L'équipement audio de la revendication 1, dans lequel : - l'équipement comprend en outre une caméra video (26) dirigée vers l'utilisateur (30) de l'équipement et apte à capter une image de celui-ci, 25 et - les moyens de détection d'activité vocale (20) comprennent des moyens d'analyse video aptes à analyser l'image produite par la caméra et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur. 30
  5. 5. L'équipement audio de la revendication 1, dans lequel : - l'équipement comprend en outre un capteur physiologique (40) apte à venir en contact avec la tête de l'utilisateur de l'équipement pour y être couplé afin de capter les vibrations vocales non acoustiques transmises 35 par conduction osseuse interne, et 19 les moyens de détection d'activité vocale (20) comprennent des moyens aptes à analyser le signal délivré par le capteur physiologique et à délivrer en réponse ledit signal de présence ou d'absence de parole par ledit utilisateur.
  6. 6. L'équipement audio de la revendication 5, dans lequel les moyens de détection d'activité vocale comprennent des moyens d'évaluation de l'énergie du signal délivré par le capteur physiologique, et des moyens à seuil. 10
  7. 7. L'équipement audio de la revendication 6, dans lequel l'équipement est un casque audio du type combiné micro/casque, comprenant : des écouteurs (34) comportant chacun un transducteur de reproduction sonore d'un signal audio logé dans une coque (36) pourvue d'un cous- 15 sinet (38) circumaural ; - lesdits deux capteurs microphoniques (10, 12), disposés sur la coque de l'un des écouteurs ; et - ledit capteur physiologique (40), incorporé au coussinet de l'un des écouteurs et placé dans une région de celui-ci apte à venir en contact 20 avec la joue ou la tempe du porteur du casque.
  8. 8. L'équipement audio de la revendication 7, dans lequel les deux capteurs microphoniques (10, 12) sont alignés en un réseau linéaire suivant une direction principale (42) dirigée vers la bouche (44) de l'utilisateur de 25 l'équipement.5
FR1154825A 2011-06-01 2011-06-01 Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" Expired - Fee Related FR2976111B1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR1154825A FR2976111B1 (fr) 2011-06-01 2011-06-01 Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
US13/475,431 US8682658B2 (en) 2011-06-01 2012-05-18 Audio equipment including means for de-noising a speech signal by fractional delay filtering, in particular for a “hands-free” telephony system
ES12170407T ES2430121T3 (es) 2011-06-01 2012-06-01 Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario
CN201210179601.4A CN103002170B (zh) 2011-06-01 2012-06-01 包括通过分数延迟过滤来去噪语音信号的装置的音频设备
EP12170407.6A EP2530673B1 (fr) 2011-06-01 2012-06-01 Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire
JP2012125653A JP6150988B2 (ja) 2011-06-01 2012-06-01 特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1154825A FR2976111B1 (fr) 2011-06-01 2011-06-01 Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"

Publications (2)

Publication Number Publication Date
FR2976111A1 true FR2976111A1 (fr) 2012-12-07
FR2976111B1 FR2976111B1 (fr) 2013-07-05

Family

ID=44533268

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1154825A Expired - Fee Related FR2976111B1 (fr) 2011-06-01 2011-06-01 Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"

Country Status (6)

Country Link
US (1) US8682658B2 (fr)
EP (1) EP2530673B1 (fr)
JP (1) JP6150988B2 (fr)
CN (1) CN103002170B (fr)
ES (1) ES2430121T3 (fr)
FR (1) FR2976111B1 (fr)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2974655B1 (fr) * 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
FR3002679B1 (fr) * 2013-02-28 2016-07-22 Parrot Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement
US9185199B2 (en) 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US20150199950A1 (en) * 2014-01-13 2015-07-16 DSP Group Use of microphones with vsensors for wearable devices
FR3021180B1 (fr) * 2014-05-16 2016-06-03 Parrot Casque audio a controle actif de bruit anc avec prevention des effets d'une saturation du signal microphonique "feedback"
AU2015271665B2 (en) 2014-06-05 2020-09-10 Interdev Technologies Systems and methods of interpreting speech data
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN106157963B (zh) * 2015-04-08 2019-10-15 质音通讯科技(深圳)有限公司 一种音频信号的降噪处理方法和装置及电子设备
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3147896B1 (fr) * 2015-09-25 2023-05-31 Harman Becker Automotive Systems GmbH Système de contrôle actif du bruit de la route avec détection de surcharge du signal de détection primaire
JP6732944B2 (ja) * 2016-12-16 2020-07-29 日本電信電話株式会社 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
WO2018119467A1 (fr) * 2016-12-23 2018-06-28 Synaptics Incorporated Traitement de signal audio à entrées multiples et sorties multiples (mimo) afin d'exécuter une dé-réverbération de la parole
US10311889B2 (en) * 2017-03-20 2019-06-04 Bose Corporation Audio signal processing for noise reduction
US10366708B2 (en) * 2017-03-20 2019-07-30 Bose Corporation Systems and methods of detecting speech activity of headphone user
JP6821126B2 (ja) * 2017-05-19 2021-01-27 株式会社Jvcケンウッド ノイズ除去装置、ノイズ除去方法およびノイズ除去プログラム
CN108810692A (zh) * 2018-05-25 2018-11-13 会听声学科技(北京)有限公司 主动降噪系统、主动降噪方法及耳机
US10455319B1 (en) * 2018-07-18 2019-10-22 Motorola Mobility Llc Reducing noise in audio signals
JP2020144204A (ja) * 2019-03-06 2020-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 信号処理装置及び信号処理方法
CN110049395B (zh) * 2019-04-25 2020-06-05 维沃移动通信有限公司 耳机控制方法及耳机设备
EP3994867A4 (fr) 2019-07-03 2023-07-26 The Board Of Trustees Of The University Of Illinois Séparation de signaux espace-temps avec des réseaux déplaçables et asynchrones
US11227587B2 (en) * 2019-12-23 2022-01-18 Peiker Acustic Gmbh Method, apparatus, and computer-readable storage medium for adaptive null-voice cancellation
CN112822592B (zh) * 2020-12-31 2022-07-12 青岛理工大学 一种可定向聆听的有源降噪耳机及控制方法
CN115914910A (zh) 2021-08-17 2023-04-04 达发科技股份有限公司 适应性主动噪声消除装置以及使用其的声音播放系统
TWI777729B (zh) * 2021-08-17 2022-09-11 達發科技股份有限公司 適應性主動雜訊消除裝置以及使用其之聲音播放系統
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法
CN113744735A (zh) * 2021-09-01 2021-12-03 青岛海尔科技有限公司 一种分布式唤醒方法及系统
CN115132220B (zh) * 2022-08-25 2023-02-28 深圳市友杰智新科技有限公司 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070165879A1 (en) * 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
US20080280653A1 (en) * 2007-05-09 2008-11-13 Motorola, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672665A (en) * 1984-07-27 1987-06-09 Matsushita Electric Industrial Co. Ltd. Echo canceller
US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
DE69628618T2 (de) * 1995-09-26 2004-05-13 Nippon Telegraph And Telephone Corp. Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US7062049B1 (en) * 1999-03-09 2006-06-13 Honda Giken Kogyo Kabushiki Kaisha Active noise control system
JP2000312395A (ja) * 1999-04-28 2000-11-07 Alpine Electronics Inc マイクロホンシステム
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
JP3568922B2 (ja) * 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
JP3579047B2 (ja) * 2002-07-19 2004-10-20 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
CA2473195C (fr) * 2003-07-29 2014-02-04 Microsoft Corporation Systeme multisensoriel d'entree audio monte sur la tete
JP4496379B2 (ja) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
US7533017B2 (en) * 2004-08-31 2009-05-12 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Method for recovering target speech based on speech segment detection under a stationary noise
US7844059B2 (en) * 2005-03-16 2010-11-30 Microsoft Corporation Dereverberation of multi-channel audio streams
FR2898209B1 (fr) * 2006-03-01 2008-12-12 Parrot Sa Procede de debruitage d'un signal audio
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070165879A1 (en) * 2006-01-13 2007-07-19 Vimicro Corporation Dual Microphone System and Method for Enhancing Voice Quality
US20080280653A1 (en) * 2007-05-09 2008-11-13 Motorola, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DJENDI M ET AL: "Noise Cancellation using Two Closely Spaced Microphones: Experimental Study witha Specific Model and Two Adaptive Algorithms", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2006. ICASSP 2006 PROCEEDINGS . 2006 IEEE INTERNATIONAL CONFERENCE ON TOULOUSE, FRANCE 14-19 MAY 2006, PISCATAWAY, NJ, USA,IEEE, PISCATAWAY, NJ, USA, 14 May 2006 (2006-05-14), pages III, XP031386771, ISBN: 978-1-4244-0469-8 *

Also Published As

Publication number Publication date
CN103002170B (zh) 2016-01-06
JP6150988B2 (ja) 2017-06-21
EP2530673B1 (fr) 2013-07-10
US20120310637A1 (en) 2012-12-06
FR2976111B1 (fr) 2013-07-05
CN103002170A (zh) 2013-03-27
EP2530673A1 (fr) 2012-12-05
JP2012253771A (ja) 2012-12-20
US8682658B2 (en) 2014-03-25
ES2430121T3 (es) 2013-11-19

Similar Documents

Publication Publication Date Title
EP2530673B1 (fr) Equipement audio comprenant des moyens de débruitage d&#39;un signal de parole par filtrage à délai fractionnaire
EP2518724B1 (fr) Combiné audio micro/casque comprenant des moyens de débruitage d&#39;un signal de parole proche, notamment pour un système de téléphonie &#34;mains libres&#34;
EP2680262B1 (fr) Procédé de débruitage d&#39;un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
WO2008049982A1 (fr) Procédé de réduction de l&#39;écho acoustique résiduel après suppression d&#39;écho dans un dispositif &#39;mains libres&#39;
FR2950461A1 (fr) Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique &#34;mains libres&#34; pour vehicule automobile
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
EP0752181A1 (fr) Annuleur d&#39;echo acoustique a filtre adaptatif et passage dans le domaine frequentiel
EP0884926B1 (fr) Procédé et dispositif de traitement optimisé d&#39;un signal perturbateur lors d&#39;une prise de son
WO2002030099A1 (fr) Procede et dispositif de reduction d&#39;echo
EP3123740B1 (fr) Appareil acoustique comprenant au moins un microphone électroacoustique, un microphone ostéophonique et des moyens de calcul d&#39;un signal corrigé, et équipement de tête associé
FR2722631A1 (fr) Procede et systeme de filtrage adaptatif par egalisation aveugle d&#39;un signal telephonique numerique et leurs applications
FR2906070A1 (fr) Reduction de bruit multi-reference pour des applications vocales en environnement automobile
FR3009121A1 (fr) Procede de suppression de la reverberation tardive d&#39;un signal sonore
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
EP0989544A1 (fr) Dispositif et procédé de filtrage d&#39;un signal de parole, récepteur et système de communications téléphonique
FR3051959A1 (fr) Procede et dispositif pour estimer un signal dereverbere
FR2790342A1 (fr) Procede et systeme de traitement d&#39;antenne
WO2008037925A1 (fr) Reduction de bruit et de distorsion dans une structure de type forward
WO2022207994A1 (fr) Estimation d&#39;un masque optimise pour le traitement de donnees sonores acquises
EP4229636A1 (fr) Procédé et dispositif pour une annulation d&#39;écho à pas variable

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 5

TP Transmission of property

Owner name: PARROT AUTOMOTIVE, FR

Effective date: 20151201

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

ST Notification of lapse

Effective date: 20210205