FR3052319A1 - Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise. - Google Patents

Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise. Download PDF

Info

Publication number
FR3052319A1
FR3052319A1 FR1655019A FR1655019A FR3052319A1 FR 3052319 A1 FR3052319 A1 FR 3052319A1 FR 1655019 A FR1655019 A FR 1655019A FR 1655019 A FR1655019 A FR 1655019A FR 3052319 A1 FR3052319 A1 FR 3052319A1
Authority
FR
France
Prior art keywords
signals
acoustic
speech
headset
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1655019A
Other languages
English (en)
Inventor
Guillaume Vitte
Fabien Remond
Nicolas Renard
Alexandre Briot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot Drones SAS
Original Assignee
Parrot Drones SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot Drones SAS filed Critical Parrot Drones SAS
Priority to FR1655019A priority Critical patent/FR3052319A1/fr
Priority to PCT/EP2017/061931 priority patent/WO2017207286A1/fr
Publication of FR3052319A1 publication Critical patent/FR3052319A1/fr
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Le casque supporte un réseau de détecteurs acoustiques et non-acoustiques délivrant des signaux respectifs (TopL, BotL, TopR, BotR, Acc) comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque. Une pluralité de n traitements d'analyse distincts (104, 106, 110, 112, 116, 118, 120, 126, 128, 130) de détection d'activité vocale sont effectués sur les signaux captés et/ou des combinaisons de ces signaux, traitements qui délivrent en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant chacun une probabilité différente de présence de parole. Des moyens classifieurs du vecteur d'observation formé par les n indicateurs élémentaires comparent ces n indicateurs élémentaires à un ensemble de seuils successifs prédéfinis (144) hiérarchisés selon une configuration booléenne d'arbre de décision (142), et génèrent en réponse un indicateur global de présence /absence de parole (Psupervised(k,l) ; VADsupervised(k,l)).

Description

L'invention concerne un ensemble de type "micro-casque", comprenant un casque audio, combiné avec un ensemble microphonique apte à capter la voix du porteur du casque.
Le casque comprend généralement deux écouteurs réunis par un arceau, chaque écouteur comprenant une coque fermée logeant un transducteur de reproduction sonore. Cette coque entoure l'oreille (casque "circum-aural") ou est en appui sur celle-ci (casque "supra-aural"), avec interposition d'un coussinet isolant. Il existe également des écouteurs de type dit "intra-auriculaire" ou "intra-conque" avec un élément à placer dans le conduit auditif et débordant dans le creux du pavillon de l'oreille au-delà du conduit auditif, sans coussinet entourant ou recouvrant l'oreille. Dans la suite, on fera indifféremment référence à des écouteurs réunis par un arceau, où le transducteur est logé dans une coque entourant l'oreille (casque "circum-aural") ou en appui sur celle-ci (casque "supra-aural") ou avec des écouteurs de type "intra-auriculaire" ou analogue.
Dans tous les cas, le casque peut être utilisé pour l'écoute d'une source audio (musique par exemple) provenant d'un appareil tel qu'un lecteur MP3, radio, smartphone, etc. auquel il est relié par une liaison filaire ou bien par une liaison sans fil, notamment de type Bluetooth. Grâce à l'ensemble microphonique, il est également possible, en complément de l'écoute de la source audio d'utiliser ce casque pour des fonctions de communication telles que des fonctions de téléphonie "mains libres" et/ou de fonctions de reconnaissance vocale. Le transducteur du casque reproduit alors la voix du locuteur distant avec lequel le porteur du casque (locuteur proche) est en conversation.
Un tel ensemble combiné micro-casque est par exemple décrit dans les EP 2 518 724 A1, EP 2 930 942 A1 et EP 2 945 399 A1 (tous trois au nom de Parrot).
Lorsque le microphone est utilisé par le porteur du casque, il convient que le niveau du bruit d'environnement (d'origine acoustique) présent sur le signal capté par l'ensemble microphonique soit le plus faible possible, de manière à préserver la qualité subjective de la voix du porteur du casque (locuteur proche) sur ce signal, afin de transmettre au locuteur distant un signal fidèle et intelligible au travers de la communication téléphonique.
Le paramètre de référence pour évaluer cet impératif est le rapport signal sur bruit, ci-après "SNR", qui est le rapport du signal utile (correspondant à la voix du porteur du casque), sur le bruit qui l'entoure, d'origine essentiellement acoustique.
Il s'agit d'un paramètre important pour évaluer notamment l'efficacité d'un algorithme de débruitage appliqué au signal de voix du porteur du casque (locuteur proche). Un tel algorithme est mis en oeuvre pour réduire le bruit d'environnement, d'origine acoustique, présent sur ce signal, mais doit aussi préserver la qualité subjective de la voix du porteur du casque, de façon à transmettre au locuteur distant un signal fidèle et intelligible dans toutes les conditions de bruit auxquelles le porteur du casque pourra être exposé.
En premier lieu, lors d'une conversation téléphonique, le réflexe consistant à parler plus fort dans un environnement bruyant (effet Lombard) agit déjà sur le niveau de la voix et sur le contenu fréquentiel de la voix (élévation de la hauteur et aplatissement du spectre) en fonction du bruit perçu.
De plus, divers effets psycho-acoustiques et de positionnement des capteurs microphoniques ont une influence notable sur le niveau du SNR. A cet égard plusieurs configurations peuvent ainsi être utilement comparées.
La configuration la plus favorable est celle d'un "kit filaire", où le microphone est monté sur un fil reliant le casque au smartphone du porteur du casque. Ce placement est avantageux pour la captation de la voix car le microphone est alors positionné juste au-dessous du menton, donc près de la bouche, avec au surplus la possibilité pour le porteur du casque de rapprocher le microphone de sa bouche dans une situation bruyante. Cette configuration est comparable, du point de vue du SNR, à celle d'un téléphone porté contre la joue (smartphone avec microphone intégré).
Pour une situation typique de communication téléphonique nomade, en contexte urbain, on observe généralement un SNR de l'ordre de +3 dB avec un téléphone porté contre la joue ou un kit filaire.
Par comparaison, la configuration d'un combiné micro-écouteur de type "oreillette Bluetooth", où le microphone est alors proche de l'oreille, présente une dégradation du SNR, de l'ordre de -3 dB.
Une configuration encore plus défavorable est celle d'un casque sans fil fermé de type circumaural, où le microphone est situé sur l'oreillette et le casque isole les deux oreilles du porteur du casque. Le SNR est alors typiquement de l'ordre de -7 à -9 dB.
En effet, outre l'éloignement du microphone (introduisant une dégradation "géométrique" du SNR de l'ordre de 6 dB par rapport à un kit filaire), le comportement typique d'un porteur de casque, évalué sur un panel de personnes, montre que, d'une part, le niveau de voix, fort ou faible, qu'une personne adopte spontanément quand elle parle est modifié sensiblement lorsqu'elle porte un casque audio (par rapport à une situation où elle ne porte aucun casque) et que, d'autre part, ce niveau de voix dépend aussi du type de casque porté (circum-aural, supra-aural ou intra-auriculaire), plus ou moins isolant.
Dans le cas d'une oreillette Bluetooth, le niveau de voix du porteur du casque pendant la conversation téléphonique est assez peu affecté par le port de cet appareil, car une seule oreille est obstruée alors que la seconde reste libre, ce qui permet au porteur du casque de percevoir à la fois le bruit environnant et sa propre voix de façon quasiment naturelle. En revanche, lorsque le porteur du casque porte un casque audio assez isolant du point de vue acoustique, il adopte généralement un niveau de voix notablement plus faible que la normale dans les situations bruyantes. Ainsi, dans un contexte urbain de rue passante, le niveau de voix adopté peut être si faible qu'il en devient quasiment imperceptible pour une personne se trouvant à proximité (par exemple à un mètre), car le porteur du casque se perçoit comme étant dans une "bulle" et n'a plus le réflexe d'élever le niveau de sa voix pour la placer au-dessus du bruit ambiant de façon à être bien compris. Cette dégradation "comportementale" du SNR peut être estimée à environ 4 à 6 dB de déficit acoustique dans les situations les plus typiques d'utilisation d'un casque nomade en contexte urbain.
Enfin, le niveau de voix du porteur du casque peut être affecté par le contexte "social" dans lequel il se trouve : en effet, dans une situation de promiscuité (métro, bureau,...) le niveau de voix du porteur du casque est modulé, par discrétion ou politesse, pour éviter de ne pas trop gêner les personnes à proximité. Cette diminution naturelle du niveau de voix vient s'ajouter aux déficits décrits plus haut, ce qui peut aboutir à un SNR acoustique très dégradé, voisin de -10 dB, en entrée de l'algorithme de débruitage (on notera que cette dégradation "sociale" du SNR n'est pas spécifique à un casque audio, à la différence des deux autres dégradations mentionnées plus haut ("géométrique" et "comportementale"), mais elle vient aggraver un SNR déjà fortement dégradé).
De fait, à titre illustratif, le déficit cumulé de SNR est dans une situation typique compris entre 10 et 12 dB entre un système classique (kit filaire) et un casque fermé de type sans fil.
Le problème de l'invention est lié notamment à l'utilisation d'un casque d'écoute sans fil qui utilise une technologie Bluetooth pour son couplage avec un téléphone portable, car cette caractéristique rend impossible l'intégration du microphone au sein d'un câble comme cela se fait traditionnellement sur les casques filaires - donc sans bénéficier de ce placement avantageux pour la captation de la voix, et sans possibilité offerte au porteur du casque de rapprocher le microphone de sa bouche dans une situation bruyante.
Cette configuration fait dès lors apparaître une situation acoustique initiale dégradée, avec une dégradation "géométrique" du SNR acoustique de l'ordre de 6 dB environ, qui devra être rattrapée par l'algorithme de débruitage pour obtenir un niveau qualitatif de sortie similaire, voire supérieur, à celui d'un kit filaire. D'autre part, le casque peut être muni d’un système dit de "contrôle actif de bruit" ou ANC (Active Noise Control), agissant sur le signal reproduit par les transducteurs du casque (que celui-ci soit ou non pourvu d'un microphone). Le principe de l'ANC consiste à capter la composante de bruit ambiant et à superposer, temporellement et spatialement, à cette composante de bruit une onde acoustique qui est idéalement la copie inversée de l'onde de pression de la composante de bruit. Il s'agit de créer de cette manière une interférence destructive avec la composante de bruit et réduire, idéalement neutraliser, les variations de pression de l'onde acoustique parasite. Le EP 2 597 889 A1 (Parrot) décrit un casque muni d'un tel système ANC. L'activation de l'ANC modifie le comportement du porteur du casque, en ce qu'il renforce l'effet "bulle" par une atténuation supplémentaire du bruit environnant perçu, avec une légère dégradation du SNR d'entrée par rapport au port d'un casque passif (sans ANC). Cette dégradation additionnelle reste toutefois modérée, de l'ordre de 1 dB environ, car l'activation de l'ANC a aussi pour effet secondaire d'atténuer le niveau perçu par le porteur du casque sur sa propre voix, en particulier dans les basses fréquences qui seront beaucoup moins sourdes, et de l'inciter à parler plus fort. L'activation d'une autre technique, dite "anti-occlusion", ci-après "AOC", est également de nature à dégrader le SNR d'entrée par rapport au port d'un casque passif. L'AOC (Active Occlusion Cancellation) est un mode de contrôle actif, différent de l'ANC, qui vise à effacer à la fois le phénomène d'occlusion entendu sur la voix et l'effet d'isolation du casque. L'occlusion est le phénomène d'augmentation des basses fréquences, autour de 200 Hz, dans la perception de sa propre voix par l'utilisateur lorsque celui-ci porte un casque, la voix apparaissant beaucoup plus sourde qu'au naturel, ce qui crée une réelle gêne. En effet, en l'absence de casque, lorsque l'oreille n'est pas obstruée les sons de voix conduits par conduction osseuse au canal auditif sont très faiblement perçus, car ils sont évacués vers l'extérieur de l'oreille, qui présente l'impédance acoustique la plus faible par rapport à celle de la membrane tympanique. En revanche, lorsqu'un casque est porté, ce casque obstrue totalement ou partiellement le canal auditif, c'est-à-dire qu'il introduit une impédance acoustique importante à l'extrémité externe du canal auditif : cette impédance entraîne la mise en résonance au sein du canal auditif des sons transmis par conduction osseuse, et ainsi une amplification de la partie basse fréquence du signal de voix par rapport à une situation où le conduit auditif est ouvert, avec une élévation du niveau de l'ordre de 20 dB au-dessous de 500 Hz. Le porteur du casque perçoit alors sa voix de manière beaucoup plus sourde.
Le but du traitement AOC est précisément de reproduire une perception des sons au plus proche du naturel, comme lorsqu'aucun casque n'est porté. En particulier, le porteur du casque souhaite parfois percevoir de manière naturelle sa propre voix, par exemple il souhaite pouvoir converser avec le locuteur distant dans une conversation téléphonique "mains-libres", ou avec une personne physiquement présente près de lui, en percevant sa propre voix de la même manière que s'il ne portait pas de casque. Dans d'autres situations, le porteur du casque souhaite percevoir parfaitement son environnement afin d'entendre par exemple la circulation automobile, évaluer la distance des véhicules ou entendre un signal d'alarme, un message diffusé par le conducteur d'un transport en commun, etc.
En d'autres termes, l'activation de l'AOC a pour but de transformer virtuellement, par des moyens purement électroniques et numériques, un casque de type "fermé" pour simuler un casque "ouvert" avec suppression apparente du phénomène d'occlusion lorsque le porteur du casque parle et suppression active, à volonté, de l'isolation passive du casque.
En ce qui concerne le SNR, l'activation de la fonction AOC anti-occlusion induit une légère augmentation du niveau de voix du locuteur, de l'ordre de +1 à +2 dB. L'AOC efface en effet en partie l'effet "bulle" de l'ANC et remet le porteur du casque en contact avec son environnement, ce qui se traduit typiquement par une augmentation du SNR d'entrée, c'est d'ailleurs une raison pour laquelle le mode AOC, lorsqu'il est présent, est activé par défaut lors d'une communication téléphonique.
Toutefois, cette augmentation du niveau de voix du locuteur ne compense que très partiellement la dégradation "comportementale" du SNR décrite plus haut, et certains porteurs de casque préfèrent "rester dans leur bulle", c'est-à-dire en mode ANC sans AOC, et ne pas activer le mode AOC lors d'une communication téléphonique. L'un dans l'autre, compte tenu des divers phénomènes exposés ci-dessus, on constate généralement, comme indiqué plus haut, un déficit cumulé du SNR compris entre -10 et -12 dB entre un système conventionnel dans la configuration la plus favorable (kit filaire) et un casque fermé de type sans fil tel que décrit plus haut, susceptible de mettre en œuvre des fonctions de type ANC/AOC.
Un but général de l'invention est de proposer une technique permettant, avec un tel casque, d'améliorer le SNR du signal capté par l'ensemble microphonique du casque, tout en préservant la qualité subjective du signal de voix du porteur de ce casque, de façon à délivrer en sortie un signal fidèle et intelligible transmis pour la communication téléphonique à un interlocuteur distant. Il s'agit également d'obtenir cette amélioration du SNR quelle que soit la situation de bruit dans laquelle se trouve le porteur du casque (bruit de rue, métro, train, bureau...) prise en compte par l'algorithme de traitement ANC.
Plus particulièrement, les algorithmes de débruitage du signal recueilli par le microphone du casque et destiné à être transmis au locuteur distant mettent en œuvre un "détecteur d'activité vocale" ou VAD (Voice Activity Detector) destiné à discriminer les périodes où le porteur du casque parle (donc avec un débruitage adapté pour ne pas déformer la voix et lui conserver toute son intelligibilité), et celles où il ne parle pas (où l’on peut alors appliquer un débruitage beaucoup plus agressif).
Mais la difficulté vient du fait que cette détection d'activité vocale est opérée par une analyse du signal, et que dans nombre de situations elle est difficile à opérer ou conduit à des résultats imprécis. C'est d'ailleurs pour ces raisons que le résultat de l'analyse VAD n'est généralement pas donnée sous forme binaire (parole présente ou parole absente), mais en termes de probabilité de présence de parole ou SPP (Speech Presence Probability), variant de façon continue sur un intervalle [0,1].
Plus précisément, la détermination de cette probabilité de présence de parole est effectuée sur d'étroites plages de fréquence, ou "bins fréquen-tiels", du signal recueilli, par exemple sur 256 bins fréquentiels d'une trame temporelle de signal après numérisation de celui-ci et analyse dans le domaine fréquentiel après transformation de Fourier. On dispose ainsi, pour une trame de signal donnée, de 256 valeurs de probabilité de présence de parole différentes, correspondant chacune à l'analyse de pré-sence/absence de parole effectuée pour un bin fréquentiel spécifique.
De nombreuses techniques de détermination de probabilité de présence de parole ont été proposées, mais aucune ne permet d'obtenir des résultats de qualité constante quelles que soient les situations de bruit environnant susceptibles d'être rencontrées dans la réalité (la qualité des résultats peut être notamment quantifiée en termes de taux de vrais positifs par rapport au taux de faux positifs).
Le but de l'invention est de proposer une nouvelle technique de détection d'activité vocale permettant de pallier ces différents inconvénients et délivrer des résultats avec en toutes circonstances une fiabilité très supérieure à ce qui a pu être obtenu jusqu'à présent.
Un autre but est de proposer un circuit amélioré de débruitage du signal, adapté pour utiliser spécifiquement les résultats du détecteur d'activité vocale de l'invention. À cet effet, l'invention propose, plus précisément, un combiné microcasque comprenant, de manière en elle-même connue : - deux écouteurs comportant chacun un transducteur de reproduction d'un signal audio logé dans une cavité acoustique d'oreille ; et - un réseau de détecteurs aptes à délivrer des signaux captés respectifs, chaque signal capté comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque, le réseau de détecteurs comprenant : • une pluralité de détecteurs acoustiques de type microphonique placés à l'extérieur de la cavité acoustique ; et éventuellement au moins un détecteur non acoustique de type physiologique, apte à capter des vibrations vocales non acoustiques transmises par conduction osseuse interne du porteur du casque. De façon caractéristique de l'invention, ce combiné micro-casque comprend en outre : - des moyens d'analyse des signaux captés, recevant en entrée les signaux captés et/ou des combinaisons desdits signaux captés, opérant sur ces signaux et/ou combinaisons une pluralité de n traitements d'analyse distincts de détection d'activité vocale, et délivrant en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant une probabilité de présence de parole, l'ensemble des n indicateurs élémentaires formant un vecteur d'observation ; et - des moyens classifieurs du vecteur d'observation, aptes à comparer les n indicateurs élémentaires à un ensemble de seuils successifs prédéfinis hiérarchisés selon une configuration booléenne d'arbre de décision, et à générer en réponse en sortie de l'arbre de décision un indicateur global de présence/absence de parole.
Selon diverses caractéristiques subsidiaires avantageuses : - l'indicateur global de présence/absence de parole est un indicateur global quantifié, quantifiant une probabilité de présence de parole comprise entre deux extrema correspondant respectivement à une situation d'activité vocale avérée et à une situation d'absence d'activité vocale avérée. Il peut notamment être prévu à cet effet un comparateur à seuil, recevant en entrée l'indicateur global quantifié de pré-sence/absence de parole et délivrant en sortie un indicateur global binaire de présence/absence de parole ; - les signaux captés sont des signaux numérisés en trames successives avec, pour chaque trame, une décomposition en bins fréquentiels, et dans lequel les moyens d'analyse des signaux captés, les détecteurs d'activité vocale et les moyens classifieurs sont des moyens mis en œuvre pour chaque bin de chaque trame des signaux ; - les moyens d'analyse comprennent des moyens d'analyse dans le domaine fréquentiel des signaux captés par tout ou partie des détecteurs acoustiques ou non-acoustiques du réseau de détecteurs, du groupe formé par : des moyens d'analyse de cohérence spatiale entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens de quantification du déphasage entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens d'estimation du rapport signal sur bruit des signaux captés et/ou combinaisons de signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens probabilistes de détection d'activité vocale à partir des signaux captés par les détecteurs acoustiques ; et des moyens d'estimation du rapport signal sur bruit des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs ; - les moyens d'analyse comprennent des moyens d'analyse dans le domaine temporel des trames successives des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs ; - le casque comprend en outre des moyens de réduction de bruit, recevant en entrée les signaux captés et/ou des combinaisons desdits signaux captés et opérant sur ces signaux et/ou combinaisons de signaux un traitement paramétrable fonction de la valeur de l'indicateur global de présence/absence de parole délivré par les moyens classifieurs. Le traitement paramétrable peut notamment comprendre un traitement d'estimation d'une densité spectrale de bruit, sélectivement mis en œuvre, ou non, en fonction d'une valeur booléenne de l'indicateur global de présence/absence de parole. 0
On va maintenant décrire un exemple de mise en œuvre de la présente invention, en référence aux dessins annexés où les mêmes références désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.
La Figure 1 est une vue de face d'un premier type de micro-casque auquel est applicable l'invention, à savoir un micro-casque muni d'écouteurs de type circumaural.
La Figure 2 est une vue en perspective du micro-casque de la Figure 1.
La Figure 3 est une vue de côté du casque de la Figure 1 en position sur la tête d'un porteur de ce casque, montrant plus précisément l'orientation des axes de directivité du réseau de microphones par rapport à la bouche du porteur du casque.
La Figure 4 est une vue de face d'un second type de micro-casque auquel est applicable l'invention, à savoir un micro-casque de type sportif, muni d'écouteurs de type intra-auricuiaire.
La Figure 5 est une vue de côté du casque de la Figure 4 en position sur la tête d'un porteur de ce casque, montrant plus précisément l'orientation des axes de directivité du réseau de microphones par rapport à la bouche du porteur du casque.
La Figure 7 est une vue générale, sous forme de schéma par blocs, montrant et explicitant la manière dont les signaux issus des divers détecteurs acoustiques (microphoniques) et non acoustiques (accélérométriques) du micro-casque sont analysés, pour produire un certain nombre d'indicateurs élémentaires combinés par un classifieur de type arbre de décision, afin d'obtenir en sortie un indicateur global, quantifié ou binaire, de présence/absence de parole.
La Figure 8 est un diagramme de type ROC (taux de vrais positifs en fonction du taux de faux positifs) illustrant l'efficacité procurée par le classifieur de l'invention.
La Figure 9 illustre, sous forme de schéma par blocs, un réducteur de bruit utilisant les indicateurs globaux produits par l'arbre de décision de la Figure 7. 0
On va maintenant décrire un exemple de mise en œuvre de la technique de l'invention.
De façon générale, l'invention est mise en œuvre par des moyens principalement logiciels, au moyen d'algorithmes appropriés exécutés par exemple par des microcontrôleurs ou processeurs numériques de signal. Pour la clarté de l'exposé, les divers traitements appliqués seront décomposés et schématisés par un certain nombre de blocs fonctionnels distincts présentés sous forme de circuits interconnectés, mais cette représentation n'a toutefois qu'un caractère illustratif, ces circuits comprenant des éléments communs et correspondant en pratique à une pluralité de fonctions globalement exécutées au sein d'un même logiciel.
Sur les Figures 1 à 3 on a représenté un combiné micro-casque comportant, de manière en elle-même classique, deux écouteurs 10, 10' réunis par un arceau de maintien 12. Chaque écouteur comprend une coque extérieure 14, 14' venant s'appliquer sur le contour de l'oreille du porteur du casque avec interposition d'un coussinet souple circumaural 16, 16' destiné à assurer une étanchéité satisfaisante, du point de vue acoustique, entre la région de l'oreille et l'environnement sonore extérieur.
Le micro-casque est muni d'un réseau formé d'une pluralité de microphones (ci-après également dénommés "détecteurs acoustiques"), dans l'exemple illustré au nombre de quatre, à savoir : - un microphone 18 disposé en partie haute de l'écouteur gauche 10, délivrant un signal ci-après référencé TopL ; - un microphone 18' situé en partie haute de l'écouteur droit 10', délivrant un signal désigné par la suite TopR ; - un microphone 20 disposé en partie basse de l'écouteur gauche 10, délivrant un signal ci-après désigné BotL ; et - un microphone 20' situé en partie basse de l'écouteur droit 10', délivrant un signal ci-après désigné BotR.
Les microphones 18 et 20 disposés sur l'écouteur gauche 10 (et de même les microphones 18' et 20' disposés sur l'écouteur droit 10') sont disposés l'un par rapport à l'autre, à une distance de l'ordre de 2 à 3 cm, de manière que l'axe Δ passant par les deux points où se trouvent ces microphones 18 et 20 soit dirigé vers la bouche du porteur du casque, en formant avec la direction D idéale passant par cette bouche un angle aussi réduit que possible.
Les microphones 18, 18', 20 et 20' sont avantageusement des microphones omnidirectionnels, qui seront donc amenés à capter aussi bien les ondes acoustiques produites par la bouche du porteur du casque lorsque celui-ci parle, que le bruit ambiant parasite qu'il s'agira d'éliminer dans les meilleures conditions possibles pour rendre intelligible le signal utile de voix du porteur du casque.
Le combiné micro-casque comprend également au moins un détecteur physiologique 22 de type accélérométrique ou autre (ci-après également dénommés "détecteur non acoustique"), par exemple disposé au niveau du coussinet 16' de manière à être appliqué contre la joue ou la tempe du porteur du casque avec un couplage le plus étroit possible. Il s'agit de recueillir au moyen de ce détecteur un signal transmis directement par voie osseuse (et non par voie acoustique aérienne comme dans le cas des détecteurs microphoniques), qui présente la caractéristique d'être, par nature, très peu corrompu par le bruit environnant. De manière en elle-même connue, le signal ainsi recueilli par ce détecteur non acoustique 22 permet, après filtrage et combinaison avec les signaux captés par les détecteurs acoustiques constitués par les microphones 18, 18', 20 et 20', de délivrer au système de communication un signal de parole du locuteur proche (le porteur du casque) dont l'intelligibilité aura été grandement améliorée.
Cette technique, ainsi que d'autres avantages procurés par le capteur physiologique (en particulier la possibilité d'utiliser le signal qu'il délivre pour calculer une fréquence de coupure d'un filtre dynamique), sont exposés notamment dans le EP 2 518 724 A1 (Parrot), auquel on pourra se référer pour de plus amples détails.
Les Figures 4 à 6 sont homologues des Figures 1 à 3 décrites ci-dessus, et montrent à titre illustratif un second type de micro-casque auquel est applicable l'invention, à savoir un micro-casque de type sportif, muni d'écouteurs de type intra-auriculaire. Les mêmes références y désignent des éléments identiques ou fonctionnellement semblables au microcasque muni d'écouteurs de type circumaural des Figures 1 à 3.
La configuration d'ensemble d'un tel micro-casque de type sportif est par exemple celle du casque Zik Sport qui a été récemment présenté par la société Parrot, Paris, France.
En référence à la Figure 7, on va maintenant décrire la manière dont les signaux issus des divers détecteurs acoustiques (microphoniques) et non acoustiques (accélérométriques) du micro-casque sont analysés selon la technique spécifique de l'invention, pour produire un certain nombre d'indicateurs élémentaires combinés par un classifieur de type arbre de décision, afin d'obtenir en sortie un indicateur global, quantifié ou binaire, de présence/absence de parole.
Les signaux TopL, BotL, TopR et BotR produits par les N = 4 détecteurs acoustiques (les microphones 18, 18', 20 et 20') sont soumis à un filtrage passe-haut (HPF, blocs 100) de manière à en éliminer les composantes parasites de plus basse fréquence.
Les signaux TopL, BotL, TopR et BotR peuvent être combinés en paires, de manière à réaliser un certain nombre d'analyses spécifiques tenant compte de la position géométrique particulière sur le casque des microphones de la paire considérée.
Ainsi, un bloc 102 combine les signaux issus des microphones TopL et BotL pour une analyse de cohérence axiale côté gauche (L). Il s'agit d'une paire "axiale" en ce sens qu'elle regroupe deux microphones situés sur un même écouteur du casque (l'écouteur gauche en l'espèce) et dont l'axe commun Δ est orienté vers la bouche du porteur du casque (cf. Figures 3 et 6).
Les signaux combinés de la paire axiale {TopL, BotL} sont soumis par exemple à un traitement de quantification du déphasage du signal capté, évalué entre le microphone TopL et le microphone BotL (bloc 104), et à un autre traitement d'estimation du rapport signal/bruit (bloc 106) sur cette paire axiale de microphones situés du côté gauche.
En ce qui concerne le traitement opéré par le bloc 106, on pourra notamment se référer aux algorithmes décrits dans le WO 2007/099222 A1 (Parrot SA), qui sont basés sur une estimation du bruit via l'utilisation d'un algorithme MCRA {Minima Controlled Recursive Averaging), moyennage récursif par contrôle des minima, par exemple décrit par I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1, pp. 12-15, Jan. 2002), avec une hypothèse de bruit stationnaire pour déduire une probabilité de présence/absence de parole. Le SNR est calculé a posteriori comme le ratio de la norme du signal bruité capté par les microphones et de l'estimation du bruit délivré par l'algorithme MCRA. On pourra se référer au document précité pour de plus amples détails sur la manière d'opérer ce traitement.
Outre les paires axiales, il est également possible de considérer des paires "transverses" de microphones, correspondant à des microphones symétriques dont l'un se situe côté gauche et l'autre côté droit, par exemple la paire {TopL, TopR} et/ou la paire {BotL, BotR}.
Les signaux de ces paires, combinés par le bloc 108, font l'objet par exemple d'un traitement d'analyse de quantification du déphasage du signal capté, évalué entre le côté gauche et le côté droit (bloc 110), et d'un autre traitement d'estimation du rapport signal/bruit (bloc 112) à partir des signaux recueillis par ces paires transverses.
Il est également prévu de combiner (bloc 114) les signaux de la paire axiale {TopR, BotR}, par un traitement de quantification du déphasage du signal capté, évalué entre le microphone TopR et le microphone BotR (bloc 116), et un autre traitement d'estimation du rapport signal/bruit (bloc 118) sur cette paire axiale de microphones situés du côté droit.
Les traitements de signal opérés côté droit par les blocs 116 et 118 sont les mêmes que ceux, décrits plus hauts, opérés côté gauche par les blocs 104 e 106.
Enfin, les signaux TopL, BotL, TopR et BotR issus des quatre microphones 18, 18', 20 et 20' sont également appliqués ensemble à un circuit 120 du type détecteur d'activité vocale probabiliste, par exemple mettant en œuvre un algorithme de type MCRA.
Une telle détection, en elle-même connue, est basée sur l'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans les signaux captés par les microphones, qui est évaluée par un algorithme du type MCRA.
En ce qui concerne le capteur physiologique (accéléromètre 22), après traitement par un filtre passe-haut 122, le signal délivré est soumis à divers traitements d'analyse (bloc 124) comprenant par exemple : - un traitement d'estimation du rapport signal/bruit du signal accéléromé-trique dans les basses fréquences correspondant à la gamme de fonctionnement utile de l'accéléromètre, à savoir les fréquences inférieures à 1500 Hz (bloc 126) ; - un traitement d'estimation du rapport signal/bruit du signal accéléromé-trique en bande étendue (bloc 128) ; et - une analyse temporelle des trames successives (bloc 130).
En ce qui concerne le bloc 126, on notera que le traitement qu'il opère de mesure du SNR du signal accélérométrique est principalement une mesure de SNR vis-à-vis d'un bruit électrique, du fait que le bruit présent sur le signal accélérométrique est essentiellement un bruit de souffle électrique lié au capteur (bruit thermique) et à la numérisation du signal (bruit de quantification). Ce bruit électrique étant stationnaire, il est aisé d'obtenir une évaluation du SNR.
Toutefois, lorsque le bruit acoustique environnant est très élevé (par exemple un bruit de marteau-piqueur dans l'environnement immédiat du porteur du casque) et qu'il entraîne une légère vibration physique de la joue du locuteur, on peut observer une composante de bruit acoustique parasite qui dépasse le bruit de souffle électrique. Pour tenir compte de cette éventuelle situation, l'algorithme d'évaluation du SNR prévoit de mettre à jour l'estimation du plancher de bruit pour tenir compte de l'élévation de ce même plancher de bruit en cas de bruit acoustique fort. On obtient ainsi en sortie du bloc 126 une détection d'activité dans la plage de fonctionnement de l'accéléromètre, à savoir pour des fréquences inférieures à 1500 Hz.
En ce qui concerne le bloc 128, le traitement qu’il opère tient compte du fait qu'il est possible d'étendre artificiellement la gamme de fonctionnement du capteur accélérométrique au-delà de la limite de 1500 Hz, dans une plage correspondant aux harmoniques de rang faible de la voix, par une technique d'extension de bande, notamment par l'application d'une fonction non linéaire de génération d'harmoniques.
Dans le cas présent, cette technique d'extension de bande est applicable car le niveau de bruit est faible sur le capteur, et l'on peut atteindre une extension typiquement jusqu'à une fréquence de 3 kHz. L'estimation du SNR est ensuite opérée de la même manière que précédemment dans le domaine des basses fréquences. On dispose ainsi d'un détecteur d'activité vocale supplémentaire, dont le domaine d'analyse est étendu dans le médium.
En ce qui concerne le bloc 130, on notera que le traitement qu'il effectue est une analyse opérée dans le domaine temporel, à la différence des analyses opérées par les blocs 104, 106, 110, 112, 116, 118, 120, 126 et 128, qui sont toutes opérées dans le domaine fréquentiel.
Cette analyse dans le domaine temporel répartit les trames de signal successives reçues en deux classes, selon que l'algorithme détecte : i) un signal de parole voisé présent dans le signal capté (les signaux voi-sés sont ceux qui impliquent une vibration des cordes vocales, qui est transmise vers la joue, à la différence des signaux vocaux non voisés correspondant à des émissions sonores fricatives ou plosives), ou ii) du bruit seul ou bien un mélange de bruit et de signal de parole non voisé.
Cette discrimination en deux classes est en particulier utile dans les basses fréquences, où l'on peut observer un SNR très faible. L'absence de parole voisée permet à l'algorithme de mettre à jour son estimation de bruit de façon réactive, et sans risque sur la parole. Cette analyse est basée sur l'hypothèse que si l'on détecte des signaux vocaux dans les fréquences basses, il est très probable qu'on en retrouve également dans les fréquences plus élevées.
En résumé : - on dispose d'un réseau de N détecteurs acoustiques et M détecteurs non acoustiques délivrant simultanément des signaux respectifs tous différents. Dans l’exemple illustré on a N = 4 détecteurs acoustiques, à savoir les microphones 18, 18', 20 et 20' délivrant les signaux TopL, BotL, TopR et BotR, et M = 1 détecteur non acoustique, à savoir le capteur physiologique accélérométrique 22 délivrant le signal Acc ; et - sur ces N+M signaux on opère parallèlement n traitements d'analyse différents. Dans l'exemple illustré, on a n= 10 traitements différents, correspondant aux blocs 104, 106, 110, 112, 116, 118, 120, 126, 128 et 130.
On notera que ces n traitements d'analyse sont opérés distinctement et simultanément sur chaque bande de fréquence ou "bin" fréquentiel de chaque trame successive de signal (une trame comprenant typiquement 256 bins).
Ces n traitements différents produisent une batterie de n indicateurs élémentaires respectifs donnant chacun, pour le bin considéré, une valeur correspondante de probabilité de présence de parole (n détections d'activité vocale schématisées par les blocs 140).
On évalue ainsi, pour chaque bin de chaque trame, une pluralité d’indicateurs de présence/absence de parole différents, indicateurs : - qui sont tous complémentaires, car ils sont établis chacun à partir de caractéristiques différentes et de traitements différents : analyse de cohérence axiale ou transversale de détecteurs acoustiques, estimations du SNR selon différentes techniques et à partir d'informations différentes, analyses d'un signal non acoustique selon plusieurs aspects différents etc., - mais qui sont tous imparfaits, et ne peuvent donc être utilisés individuellement pour décider en toutes circonstances et avec un degré élevé de vraisemblance de la présence ou non d'un signal de parole à un instant donné dans un bin fréquentiel donné.
Dans l'exemple illustré, on a n = 10 informations différentes pour chaque bin fréquentiel de chaque trame temporelle, ces informations étant issues des signaux provenant de quatre microphones et d'un accéléromètre. Ces informations auront une fiabilité variable selon le contexte de bruit présent. En effet, certains détecteurs permettent de distinguer efficacement la voix d'un bruit directif par des propriétés de direction d'arrivée, d'autres détecteurs sont spécialisés pour détecter voix et bruit dans les basses fréquences à SNR faible, d'autres encore sont spécialisés pour séparer la voix d'un champ de bruits diffus, etc. De fait, les détecteurs s'appuient sur des hypothèses distinctes et leur pertinence est variable selon la situation de bruit et les hypothèses qui sont effectivement vérifiées.
Le but de l'invention est, à partir de ces n indicateurs élémentaires tous complémentaires et tous imparfaits, de produire un indicateur global unique de fiabilité élevée, c'est-à-dire présentant un très faible taux de faux positifs. L'idée de base de l'invention consiste à appliquer concurremment ces n indicateurs élémentaires de probabilité de présence de parole à un classifieur supervisé de type arbre de décision 142, pour obtenir in fine un indicateur global unique de présence/absence de parole, pour chaque bin fréquentiel et chaque trame du signal recueilli. L'arbre de décision 142 utilise comme information d'entrée le "vecteur d'observation" constitué des n indicateurs élémentaires de probabilité de présence de parole produits par les n traitements décrits plus haut. On notera que ces informations d'entrée sont obtenues par des traitements en eux-mêmes connus (traitements des blocs 102 à 130).
La classification supervisée par un arbre de décision 142 permet de réduire la détection de l'activité vocale à une cascade de comparaisons à des seuils 144 prédéfinis respectifs, la classification étant opérée entre deux classes (Classe 1 = voix absente ; Classe 2 = voix présente).
Ce procédé de classification supervisée peut également permettre de sélectionner parmi les n traitements d'analyse différents ceux qui sont les plus pertinents sur chaque bande de fréquence, évitant ainsi d'exécuter la totalité de ces traitements sur la totalité des bins fréquentiels. On peut ainsi obtenir des sous-ensembles classifieurs différenciés et spécialisés selon le domaine fréquentiel. L'arbre de décision est une méthode, en elle-même bien connue dans d'autres domaines, basés sur un algorithme dans lequel une multiplicité de données d'entrées (dans le cas présent, les n indicateurs élémentaires de probabilité de présence de parole délivrés par les n détecteurs d'activité vocale 140 en sortie des n traitements d'analyse respectifs différents) sont comparées à des seuils respectifs hiérarchisés entre eux.
Un tel algorithme peut être formalisé par une équation booléenne comprenant une succession de termes (correspondant aux comparaisons des différents paramètres par rapport aux seuils respectifs) qui sont combinés par une suite de ET logiques, et dont le résultat est un résultat global unique.
Dans le cas présent, les différents seuils 144 de l'arbre de décision 142 sont des seuils déterminés préalablement à partir d'une base d'apprentissage comprenant notamment une base de bruits réels captés dans des conditions représentatives de l'usage possible du micro-casque. Des enregistrements sont réalisés avec l'ensemble des capteurs acoustiques et non acoustiques, puis mixés à des signaux de voix obtenus en l'absence de bruit (dans une salle anéchoïque) pour une diversité d'utilisateurs possibles, et avec différents niveaux de SNR.
Une fois l'apprentissage statistique ainsi réalisé, les valeurs des seuils obtenues sont introduites dans l’arbre de décision, où ces seuils sont conservés dans une mémoire et figés.
On notera que l'on utilise un arbre de décision indépendant, et de profondeur différente, pour chaque bin fréquentiel.
On dispose ainsi d'autant d'arbres de décision que de bins fréquentiels, par exemple 256 arbres indépendants dans le cas où chaque trame est divisée en 256 bins.
Chaque arbre de décision délivre en sortie 146 une valeur 148 d'indicateur global de probabilité de présence de parole
pour le bin / de la trame de rang k. La valeur
de cet indicateur global (ci- après dénommé "indicateur global quantifié" de présence de parole) est une probabilité à valeur continue sur l'intervalle [0,1], la valeur 0 correspondant à une absence certaine de parole et la valeur 1 correspondant à une présence certaine de parole.
La valeur
(probabilité à valeur continue) donnée par l'arbre de décision est appliquée à un comparateur à seuil 150 pour délivrer en sortie 152 une valeur binaire
de probabilité de présence de parole, ci-après dénommée "indicateur global binaire" de présence de parole), ceci pour chaque bin de chaque trame successive. Le seuil P1 du comparateur est paramétrable (le paramètre étant prédéterminé et conservé dans une mémoire, ce paramètre étant éventuellement réajustable par le porteur du casque), typiquement P1 = 0,5.
La Figure 8 illustre les performances du détecteur d'activité vocale de l'invention, basé sur une probabilité supervisée par classifieur à arbre de décision.
Cette Figure 8 et une représentation de type ROC (Receiver Operating Characteristic) quantifiant la performance sous forme d'une courbe caractéristique taux de vrais positifs/taux de faux positifs, la performance étant d'autant meilleure que l'aire sous la courbe est élevée (à comparer à une décision purement aléatoire, correspondant à la courbe A).
On a reporté sur ce diagramme ROC en B1 et B2 les résultats respectifs obtenus par deux détecteurs individuels d'activité vocale (correspondant à deux types de traitements distincts) opérant indépendamment, et en C le résultat obtenu par fusion de ces deux détecteurs au moyen du classifieur à arbre de décision selon l'invention.
Cet exemple, donné pour deux détecteurs élémentaires, montre une amélioration significative (forte diminution du taux de faux positifs) par rapport à l'un ou l'autre des détecteurs pris isolément. On comprendra que, pour un plus grand nombre de détecteurs (jusqu'à dix détecteurs dans l'exemple illustré Figure 7), cette amélioration sera d'autant plus élevée que le nombre de détecteurs élémentaires différents est important, chacun étant susceptible de prendre en compte une situation particulière d'environnement de bruit rencontrée par le porteur du micro-casque.
Sur la Figure 9, on a illustré une application particulière du détecteur d'activité vocale de l'invention à un traitement amélioré de débruitage du signal, adapté pour utiliser spécifiquement les résultats du détecteur d'activité vocale de l'invention.
Le but du traitement illustré Figure 9 est d'améliorer le SNR d'un signal d'entrée y(t) 154, par exemple un signal microphonique destiné à être utilisé comme signal de locuteur proche dans le cadre d'une conversation téléphonique, tout en apportant beaucoup de soin à la préservation d'une qualité d'écoute subjectivement satisfaisante.
Le signal d'entrée y(t) est segmenté en trames temporelles successives (bloc 156), et chaque trame temporelle y(k) est analysée dans le domaine fréquentiel par transformation rapide de Fourier (bloc 158), pour donner une série de signaux y(k,f) correspondant à / bins fréquentiels, par exemple 1= 256 bins, pour chaque trame de rang k. Le signal y(k,l) obtenu fait l'objet (branche 160) d'un traitement d'évaluation de la norme du signal (bloc 162), dont la sortie 164 est appliquée à un estimateur de bruit (bloc 168).
De façon caractéristique, la probabilité supervisée estimée en sortie de l'arbre de décision (valeur
à valeur continue 148 et valeur
binaire 152 de probabilité de présence de parole) et appliquée au réducteur de bruit de la Figure 9 est utilisée en entrée d'un étage de réduction de type MMSE-OMLSA (Minimum Mean-Squared Error - Optimally-Modified Log Spectral Amplitude) en lui-même de type connu, et par exemple décrit dans les WO 2007/099222 A1 (Parrot SA) ou EP 2 772 916 A1 (Parrot SA), auxquels on pourra se référer pour de plus amples détails.
Plus précisément, dans la structure classique de débruitage OM-LSA, une grandeur essentielle est l’estimation de la densité spectrale de puissance du bruit PSDNoise(k,l), car cette densité est utilisée pour estimer le SNR a priori SNRjprio(k,i) et le SNR a posteriori SNR_post(k,l), grandeurs qui sont au cœur de l’algorithme OM-LSA (la densité spectrale de bruit intervenant au dénominateur de ces deux grandeurs).
Du fait de la fiabilité de la probabilité de parole supervisée obtenue par la mise en ouvre de l'invention, il est possible d'élaborer un nouveau modèle d’estimation de PSDNoise(k,l). En effet, la précision accrue de la probabilité de présence de parole, issue des N+M détecteurs d’activité vocale et de leur fusion supervisée, par rapport à une probabilité de présence plus classique (monocanal ou déduite de capteurs acoustiques uniquement) remet en cause le calcul de PSDNoise(k,l). Concrètement, on peut effectuer une mise à jour plus directe de PSDNoise(k,l) sur la base de la probabilité supervisée, et ainsi éliminer certains mécanismes classiques de protection et de lissage, afin d’obtenir le maximum de fidélité et de détail dans l’estimation du bruit.
On commence par définir, pour chaque bin fréquentiel et chaque trame, un facteur de lissage
est la probabilité supervisée à valeur continue et a est un facteur de lissage fixe compris entre 0 et 1 (typiquement 0,85). apsd est donc grand si la probabilité est élevée, ce qui permet de ne pas tenir compte de la norme courante du signal utile. A contrario, si la probabilité est faible, on met à jour l’estimation du bruit sur la norme courante, en appliquant la formule :
Normlnput(k,l) étant la norme lissée de la transformée de Fourier du signal acoustique d’entrée lnput(t).
De façon caractéristique de l'invention, la valeur binaire de probabilité de présence de parole VADsupenisedKl) est également prise en compte. En effet, cette valeur est très fiable (taux de faux positifs compris entre 1 % et 5 %), ce qui permet de réaliser une mise à jour intégrale de l’estimation du bruit sur la norme courante du signal d’entrée lorsque VADSupervised(k,l) = 0 (absence de parole). Ceci revient à forcer
à zéro dans la formule précédente. Ainsi, si VADSupervised(k,l) = 0, alors
et PSDNoise(k,l) = Normlnput(k,l).
Cette modification simple a beaucoup d’impact, car concrètement les valeurs continues de PSupervised(k,l) ne seront utilisées que lorsque le seuil P1 sera dépassé ; dans le cas inverse, on peut effectuer une mise à jour instantanée qui permet de récupérer tous les détails du bruit et de son "grain".
Il faut signaler qu’il peut toutefois être avantageux d’appliquer un lissage fréquentiel sur Psupemsed(k,l) avant le calcul de VADSupervised(k,l), de façon à renforcer encore la robustesse de ce détecteur (ceci n’ayant pas d’impact sur le caractère instantané de la mise à jour décrite ci-dessus).
La manière de procéder, particulière à l'invention, que l'on vient de décrire est schématisée sur la Figure 9 par le fait que, selon la valeur de l'indicateur global binaire VADSUpervised(k,i), on met en oeuvre l'estimation du bruit de façon conventionnelle par calcul de la densité spectrale (sortie 170 du bloc 168), ou non, comme cela est schématisé par le commutateur 172 commandé par la valeur binaire VADSupen/ised(k,l). Si VADSUpervised(k,f) = 0, alors le traitement du bloc 168 est remplacé par l'application du signal 164 directement issu du bloc 162 de calcul de la norme du signal utile. En effet, dans la mesure où l'algorithme retient l'hypothèse qu'il n'y a pas de parole dans le signal recueilli, il peut décider que le spectre du bruit correspond au spectre du signal d'entrée 164, et qu'il n'est pas nécessaire de procéder à une estimation de ce bruit par le bloc 168.
Les étapes suivantes du débruitage sont réalisées de manière en elle-même conventionnelle, avec un étage de calcul de gain OM-LSA (bloc 174) recevant d'une part le signal y(k,l) (branche 176) et d’autre part l'estimation du bruit PSDNoise{k,l) calculée de la façon que l'on a décrite plus haut, c'est-à-dire en tirant avantageusement parti de l'indicateur global binaire VADSupervised(k,I) en sus de l'indicateur quantifié Psupervisée! (k,l).
De façon en elle-même connue, un algorithme OM-LSA améliore le calcul du gain LSA (Log-Spectral Amplitude) en le pondérant par la probabilité de présence de parole, la réduction de bruit appliquée étant d'autant plus importante que la probabilité de présence de parole est faible, c'est-à-dire que le gain appliqué sera d'autant plus faible que la probabilité de présence de parole est faible.
On pourra se référer pour de plus amples détails à la description du EP 2 772 916 A1 (Parrot) qui décrit un procédé de débruitage mettant en œuvre un tel type de traitement de réduction du bruit avec un algorithme OM-LSA.
Une autre donnée d'entrée du traitement opéré par l'étage 174 de calcul du gain OM-LSA est un paramètre Gmin dénommé "dureté de débruitage", déterminé en fonction de critères subjectifs obtenus lors de tests d'écoute. Il peut être avantageux de disposer, comme illustré en 178, de deux réglages différents de dureté de débruitage, selon que la fréquence d'échantillonnage est de type narrowband à 8 kHz ou wideband à 16 kHz. Dans le premier cas (narrowband) l’expérience montre qu’un débruitage agressif, typiquement de -21 dB, est indispensable pour faire ressortir la voix d'une quantité de bruit élevée et valoriser l'intelligibilité, au prix d'une distorsion sur le timbre sur ce signal qui aura de toute façon une fidélité de restitution limitée par la fréquence d'échantillonnage moindre. Le problème se pose de façon différente en mode wideband, car le signal d'entrée est naturellement de meilleure qualité et plus intelligible, même en présence de bruit, en raison de l'ajout de la partie des fréquences les plus élevées dans le domaine 4 khz-8 kHz, qui comporte souvent moins de bruit et apporte beaucoup de détails dans la voix. Dans ce mode, un débruitage plus modéré, typiquement de -15 dB, est plus approprié, car les défauts introduits par le débruitage sur la fidélité du timbre seront moins bien tolérés par le locuteur distant qu'en mode narrowband.
Le gain GoMLSA(k,i) calculé par l'étage 174 est appliqué à un étage 182 recevant le signal y(k,f) (branche 184), pour donner un signal débruité 186.
Ce signal est soumis à une transformation rapide de Fourier inverse 188 pour reconstituer le signal 190 dans le domaine temporel, puis les trames initialement segmentées sont synthétisées (bloc 192) pour donner le signal de sortie 194 reflétant le signal initial d'entrée 154 après traitement de débruitage.

Claims (8)

  1. REVENDICATIONS
    1. Un casque audio de type combiné micro-casque, comprenant : - deux écouteurs (10, 10') comportant chacun un transducteur de reproduction d'un signal audio logé dans une cavité acoustique d'oreille ; et - un réseau de détecteurs aptes à délivrer des signaux captés respectifs, chaque signal capté comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque, le réseau de détecteurs comprenant : • une pluralité de détecteurs acoustiques (18, 18', 20, 20') de type microphonique placés à l'extérieur de la cavité acoustique ; et éventuellement au moins un détecteur non acoustique (22) de type physiologique, apte à capter des vibrations vocales non acoustiques transmises par conduction osseuse interne du porteur du casque, caractérisé en ce qu'il comprend en outre : - des moyens d'analyse des signaux captés (TopL, BotL, TopR, BotR, Acc), recevant en entrée les signaux captés et/ou des combinaisons desdits signaux captés, opérant sur ces signaux et/ou combinaisons une pluralité de n traitements d'analyse distincts (104, 106, 110, 112, 116, 118, 120, 126, 128, 130) de détection d'activité vocale, et délivrant en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant une probabilité de présence de parole, l'ensemble des n indicateurs élémentaires formant un vecteur d'observation ; et - des moyens classifieurs (142, 144) du vecteur d'observation, aptes à comparer les n indicateurs élémentaires à un ensemble de seuils successifs prédéfinis (144) hiérarchisés selon une configuration booléenne d'arbre de décision (142), et à générer en réponse en sortie de l'arbre de décision un indicateur global de présence/absence de parole (148).
  2. 2. Le casque de la revendication 1, dans lequel l'indicateur global de présence/absence de parole est un indicateur global quantifié (Psupervised(kJ)), quantifiant une probabilité de présence de parole comprise entre deux ex- tréma correspondant respectivement à une situation d'activité vocale avérée et à une situation d'absence d'activité vocale avérée.
  3. 3. Le casque de la revendication 2, comprenant en outre : - un comparateur (150) à seuil (P1), recevant en entrée l'indicateur global quantifié de présence/absence de parole (148) et délivrant en sortie un indicateur global binaire
    ,de présence/absence de parole .
  4. 4. Le casque de la revendication 1, dans lequel les signaux captés sont des signaux numérisés en trames successives avec, pour chaque trame, une décomposition en bins fréquentiels, et dans lequel les moyens d'analyse des signaux captés, les détecteurs d'activité vocale et les moyens classifieurs sont des moyens mis en œuvre pour chaque bin de chaque trame des signaux.
  5. 5. Le casque de la revendication 1, dans lequel les moyens d'analyse comprennent des moyens d'analyse dans le domaine fréquentiel des signaux captés par tout ou partie des détecteurs acoustiques ou non-acoustiques du réseau de détecteurs, du groupe formé par : des moyens (102-118) d'analyse de cohérence spatiale entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (104, 110, 116) de quantification du déphasage entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (106, 118) d'estimation du rapport signal sur bruit des signaux captés et/ou combinaisons de signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (120) probabilistes de détection d'activité vocale à partir des signaux captés par les détecteurs acoustiques ; et des moyens (126, 128) d'estimation du rapport signal sur bruit des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs.
  6. 6. Le casque de la revendication 1, dans lequel les moyens d'analyse comprennent des moyens (130) d'analyse dans le domaine temporel des trames successives des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs.
  7. 7. Le casque de la revendication 1, comprenant en outre : - des moyens de réduction de bruit (156-192), recevant en entrée les signaux captés et/ou des combinaisons desdits signaux captés et opérant sur ces signaux et/ou combinaisons de signaux un traitement paramétrable fonction de la valeur de l'indicateur global de pré-sence/absence de parole
    (152)) délivré par les moyens classifieurs.
  8. 8. Le casque de la revendication 7, dans lequel ledit traitement paramétrable comprend un traitement d'estimation d'une densité spectrale de bruit (168), sélectivement mis en oeuvre, ou non, en fonction d'une valeur booléenne de l'indicateur global de présence/absence de parole
FR1655019A 2016-06-02 2016-06-02 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise. Pending FR3052319A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1655019A FR3052319A1 (fr) 2016-06-02 2016-06-02 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise.
PCT/EP2017/061931 WO2017207286A1 (fr) 2016-06-02 2017-05-18 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1655019A FR3052319A1 (fr) 2016-06-02 2016-06-02 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise.

Publications (1)

Publication Number Publication Date
FR3052319A1 true FR3052319A1 (fr) 2017-12-08

Family

ID=56896704

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1655019A Pending FR3052319A1 (fr) 2016-06-02 2016-06-02 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise.

Country Status (2)

Country Link
FR (1) FR3052319A1 (fr)
WO (1) WO2017207286A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933140B (zh) * 2020-08-27 2023-11-03 恒玄科技(上海)股份有限公司 检测耳机佩戴者的语音的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHOU P A: "OPTIMAL PARTITIONING FOR CLASSIFICATION AND REGRESSION TREES", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 13, no. 4, 1 April 1991 (1991-04-01), pages 340 - 354, XP000214961, ISSN: 0162-8828, DOI: 10.1109/34.88569 *
WON-HO SHIN ET AL: "Speec/non-speech classification using multiple features for robust endpoint detection", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2000. ICASSP '00. PROCEEDING S. 2000 IEEE INTERNATIONAL CONFERENCE ON 5-9 JUNE 2000, PISCATAWAY, NJ, USA,IEEE, vol. 3, 5 June 2000 (2000-06-05), pages 1399 - 1402, XP010507610, ISBN: 978-0-7803-6293-2 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2017207286A1 (fr) 2017-12-07

Similar Documents

Publication Publication Date Title
EP2518724B1 (fr) Combiné audio micro/casque comprenant des moyens de débruitage d'un signal de parole proche, notamment pour un système de téléphonie "mains libres"
US11710473B2 (en) Method and device for acute sound detection and reproduction
EP3171612A1 (fr) Casque audio à contrôle actif de bruit, contrôle anti-occlusion et annulation de l'atténuation passive, en fonction de la présence ou de l'absence d'une activité vocale de l'utilisateur de casque
EP2530673B1 (fr) Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire
EP2930942A1 (fr) Casque audio à contrôle actif de bruit anc avec réduction du souffle électrique
FR3021180A1 (fr) Casque audio a controle actif de bruit anc avec prevention des effets d'une saturation du signal microphonique "feedback"
US10586552B2 (en) Capture and extraction of own voice signal
CN112087701B (zh) 用于风检测的麦克风的扬声器仿真
KR101961998B1 (ko) 즉각적인 바람 잡음을 감소시키는 것
EP2772916A1 (fr) Procédé de débruitage d'un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
CN110364175B (zh) 语音增强方法及系统、通话设备
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise
WO2022036761A1 (fr) Procédé de réduction de bruit par apprentissage profond qui utilise un microphone intraauriculaire et un microphone supraauriculaire, et dispositif
US11750984B2 (en) Machine learning based self-speech removal
FR3040522B1 (fr) Procede et systeme de rehaussement d'un signal audio
WO2009077665A1 (fr) Baladeur audio ou audio-video comprenant des moyens de capture d'un signal audio externe
FR3085784A1 (fr) Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel
FR3073694A1 (fr) Procede de sonorisation live, au casque, tenant compte des caracteristiques de perception auditive de l’auditeur
FR2921747A1 (fr) Procede de traitement d'un signal audio dans un dispositif portable
Ohlenbusch et al. Speech-dependent Data Augmentation for Own Voice Reconstruction with Hearable Microphones in Noisy Environments
FR3109050A1 (fr) Réduction de la consommation électrique d’un équipement de restitution audio
FR3050897A1 (fr) Appareil et systeme d'assistance a l'audition
FR2921746A1 (fr) Baladeur audio ou audio-video comprenant des moyens de capture d'un signal audio externe

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20171208