FR3136096A1 - Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés - Google Patents

Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés Download PDF

Info

Publication number
FR3136096A1
FR3136096A1 FR2205151A FR2205151A FR3136096A1 FR 3136096 A1 FR3136096 A1 FR 3136096A1 FR 2205151 A FR2205151 A FR 2205151A FR 2205151 A FR2205151 A FR 2205151A FR 3136096 A1 FR3136096 A1 FR 3136096A1
Authority
FR
France
Prior art keywords
signal
voice
noise
module
hybrid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2205151A
Other languages
English (en)
Inventor
Henri LACROIX Arthur
Jean-Baptiste Albert Clément
Clément Nicolas DEXHEIMER Mathieu
Pierre François GAIFFE Thierry
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elno SAS
Original Assignee
Elno SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elno SAS filed Critical Elno SAS
Priority to FR2205151A priority Critical patent/FR3136096A1/fr
Priority to KR1020230066945A priority patent/KR20230166920A/ko
Priority to US18/202,240 priority patent/US20230388704A1/en
Priority to EP23175647.9A priority patent/EP4287648A1/fr
Publication of FR3136096A1 publication Critical patent/FR3136096A1/fr
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/46Special adaptations for use as contact microphones, e.g. on musical instrument, on stethoscope
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R11/00Transducers of moving-armature or moving-core type
    • H04R11/02Loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electromagnetism (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Dispositif électronique et procédé de traitement , appareil acoustique et programme d’ordinateur associés Ce dispositif électronique de traitement (20) pour un appareil acoustique (10) comportant un premier microphone (12) aérien et un deuxième microphone (14) ostéophonique, est configuré pour être connecté aux premier et deuxième microphones (12,14), pour recevoir en entrée des premier, et respectivement deuxième, signaux analogiques issus des premier, et respectivement deuxième, microphones (12,14) et pour délivrer en sortie un signal corrigé. Le dispositif de traitement (20) comprend : - un module d’hybridation (30) configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques ; - un module d’estimation (32) configuré pour estimer un bruit dans le signal hybride ; - un module de réduction de bruit (34) configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé. Figure pour l'abrégé : Figure 1

Description

Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés
La présente invention concerne un dispositif électronique de traitement pour un appareil acoustique.
L’invention concerne également un appareil acoustique comprenant un premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; un deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique ; et un tel dispositif électronique de traitement connecté aux premier et deuxième microphones, le dispositif de traitement étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques, puis pour délivrer en sortie un signal corrigé.
Le dispositif électronique de traitement comprend un module d’hybridation configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques.
L’invention concerne aussi un procédé de traitement mis en œuvre par un tel dispositif électronique de traitement ; ainsi qu’un programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un tel procédé de traitement.
On connaît du document FR 3 019 422 B1 un appareil acoustique du type précité. L’appareil acoustique comprend le premier microphone avec un tel transducteur électroacoustique, également appelé transducteur aérien ; le deuxième microphone avec un tel transducteur à excitation mécanique osseuse, également appelé transducteur solidien ; des moyens de calcul d’un signal électrique corrigé en fonction du premier signal électrique et du deuxième signal électrique, le signal électrique corrigé étant propre à être délivré en sortie de l'appareil acoustique ; et un dispositif de réduction du bruit connecté en sortie du transducteur électroacoustique pour réduire le bruit dans le premier signal électrique ; les moyens de calcul étant connectés, d’une part, en sortie du dispositif de réduction du bruit, et d’autre part, en sortie du transducteur à excitation mécanique osseuse.
Toutefois, avec un tel appareil acoustique, la réduction de bruit n’est pas toujours optimale, et il subsiste parfois du bruit de fond relativement élevé dans le signal délivré en sortie de l’appareil acoustique.
Le but de l’invention est alors de proposer un dispositif électronique de traitement, et un procédé de traitement associé, permettant d’améliorer encore la réduction du bruit dans le signal délivré en sortie de l’appareil acoustique, c’est-à-dire de réduire la présence de bruit dans ledit signal.
A cet effet, l’invention a pour objet un dispositif électronique de traitement pour un appareil acoustique,
l’appareil acoustique comprenant un premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; et un deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique,
le dispositif électronique de traitement étant configuré pour être connecté aux premier et deuxième microphones, pour recevoir en entrée les premier et deuxième signaux analogiques et pour délivrer en sortie un signal corrigé,
le dispositif électronique de traitement comprenant :
- un module d’hybridation configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques ;
- un module d’estimation connecté au module d’hybridation et configuré pour estimer un bruit dans le signal hybride ; et
- un module de réduction de bruit connecté au module d’hybridation et au module d’estimation, le module de réduction de bruit étant configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
Avec le dispositif électronique de traitement selon l’invention, le fait d’estimer le bruit dans le signal hybride calculé à partir des premier et deuxième signaux analogiques, c’est-à-dire dans le signal hybride obtenu à partir des signaux issus d’une part du transducteur électroacoustique, ou aérien, et d’autre part du transducteur à excitation mécanique osseuse, également appelé transducteur ostéophonique, ou encore solidien, permet d’avoir une estimation plus précise du bruit, puis ensuite d’obtenir - via le module de réduction du bruit - un meilleur signal corrigé en appliquant l’algorithme de soustraction spectrale généralisée au signal de hybride et en fonction du bruit ainsi estimé.
De préférence, le signal hybride comporte plusieurs tronçons successifs, chaque tronçon correspondant au signal hybride au cours d’une période temporelle, et le dispositif de traitement comporte en outre un module de détection d’activité vocale apte à déterminer si chaque tronçon du signal hybride comporte une présence de voix ou non, le module d’estimation étant alors configuré pour estimer le bruit dans le signal hybride seulement à partir de chaque tronçon sans voix.
La présence ou l’absence de voix est de préférence encore déterminée à partir du deuxième signal issu du transducteur ostéophonique, la présence ou l’absence de voix étant mieux détectable dans un signal provenant d’un microphone ostéophonique, plutôt que dans un signal provenant d’un microphone aérien.
Suivant d’autres aspects avantageux de l’invention, le dispositif électronique de traitement comprend une ou plusieurs des caractéristiques suivantes, prises isolément ou suivant toutes les combinaisons techniquement possibles :
- le signal hybride comporte plusieurs tronçons successifs, et le dispositif comprend en outre un module de détection d’activité vocale connecté au module d’hybridation et configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride ; le module d’estimation étant alors configuré pour estimer le bruit dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix ;
- le module de détection d’activité vocale est configuré pour déterminer la présence de voix ou l’absence de voix à partir du deuxième signal issu du transducteur à excitation mécanique osseuse ;
le module de détection d’activité vocale étant de préférence configuré pour déterminer la présence de voix ou l’absence de voix uniquement à partir du deuxième signal, sans prise en compte du premier signal ;
- le deuxième signal comporte plusieurs tronçons successifs, et le module de détection d’activité vocale est configuré pour calculer une valeur RMS pour chaque tronçon du deuxième signal, puis pour déterminer la présence de voix ou l’absence de voix en fonction de valeur(s) RMS respective(s) ;
- le module de détection d’activité vocale est configuré pour déterminer la présence de voix ou l’absence de voix en fonction d’une valeur moyenne de M dernière(s) valeur(s) RMS calculée(s) et/ou d’une variation de valeur RMS entre une valeur RMS courante et une valeur RMS précédente, M étant un nombre entier supérieur ou égal à 1 ;
le module de détection d’activité vocale étant de préférence configuré pour déterminer la présence de voix si ladite valeur moyenne est supérieure ou égale à un seuil prédéfini de moyenne ou si ladite variation de valeur RMS est supérieure ou égale à un seuil prédéfini de variation ;
- le module d’hybridation est configuré pour convertir le premier signal analogique en un premier signal numérique, au fur et à mesure de la réception du premier signal analogique, et pour générer des premiers tronçons successifs à partir du premier signal numérique, chaque nouveau premier tronçon généré comportant des échantillons d’un premier tronçon précédent et de nouveaux échantillons du premier signal numérique ; et
le module d’hybridation est configuré pour convertir le deuxième signal analogique en un deuxième signal numérique, au fur et à mesure de la réception du deuxième signal analogique, et pour générer des deuxièmes tronçons successifs à partir du deuxième signal numérique, chaque nouveau deuxième tronçon généré comportant des échantillons d’un deuxième tronçon précédent et de nouveaux échantillons du deuxième signal numérique ;
des tronçons hybrides du signal hybride étant alors calculés au fur et à mesure à partir des premiers et deuxièmes tronçons générés ; le signal corrigé étant ensuite calculé à partir desdits tronçons hybrides ;
- le module d’hybridation est configuré pour obtenir un premier signal filtré en appliquant au premier signal un premier filtre associé à une première plage de fréquences ; pour obtenir un deuxième signal filtré en appliquant au deuxième signal un deuxième filtre associé à une deuxième plage de fréquences ; puis pour calculer le signal hybride en sommant le premier signal filtré et le deuxième signal filtré, la deuxième plage de fréquences étant distincte de la première plage de fréquences ;
la première plage de fréquences comportant de préférence des fréquences supérieures à celles de la deuxième plage de fréquences ;
les première et deuxième plages de fréquences étant de préférence encore disjointes.
L’invention concerne également un appareil acoustique comprenant :
- un premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ;
- un deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique ;
- un dispositif électronique de traitement connecté aux premier et deuxième microphones, le dispositif électronique de traitement étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques, puis pour délivrer en sortie un signal corrigé ; le dispositif électronique de traitement étant tel que défini ci-dessus.
Suivant un autre aspect avantageux de l’invention, l'appareil acoustique comprend en outre deux modules acoustiques latéraux en appui sur les flancs latéraux du crâne et propres à transmettre un signal sonore au nerf auditif.
L’invention concerne aussi un équipement de tête pour opérateur comprenant un casque de protection, et un appareil acoustique tel que défini ci-dessus.
L’invention a également pour objet un procédé de traitement, le procédé étant mis en œuvre par un dispositif électronique de traitement connecté à des premier et deuxième microphones, le premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; et le deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique, le dispositif électronique de traitement étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques et pour délivrer en sortie un signal corrigé,
le procédé de traitement comprenant :
- une étape d’hybridation comportant le calcul d’un signal hybride à partir des premier et deuxième signaux analogiques ;
- une étape d’estimation d’un bruit dans le signal hybride ; et
- une étape de réduction de bruit comportant le calcul du signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
L’invention concerne également un programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé de traitement tel que défini ci-dessus.
Ces caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
la est une vue d'ensemble en perspective d'un appareil acoustique selon l'invention, l'appareil acoustique comprenant un premier microphone aérien, un deuxième microphone ostéophonique, et un dispositif électronique de traitement à délivrer un signal électrique corrigé à partir des signaux électriques issus des premier et deuxième microphones ;
la est une représentation schématique sous forme d’un synoptique du dispositif de traitement de la , connecté au premier microphone aérien et au deuxième microphone ostéophonique ;
la est une représentation schématique d’une génération de tronçons chevauchés, effectuée par le dispositif de traitement de la ;
la est un organigramme d’un procédé de traitement selon l’invention, le procédé étant mis en œuvre par le dispositif de traitement de la ;
la est une vue représentant, en partie supérieure, un signal de voix bruité enregistré par un microphone aérien de l’état de la technique ; et en partie inférieure, un signal hybride obtenu avec les premier et deuxième microphones, et après réduction de bruit via le dispositif de traitement de la ;
la est une vue avec plusieurs courbes illustrant une détection d’activité vocale de l’état de la technique, via un microphone aérien et pour un seuil de détection bas ;
la est une vue analogue à celle de la , pour un seuil de détection plus élevé ; et
la est une vue analogue à celles des figures 6 et 7, illustrant une détection d’activité vocale selon l’invention, via un microphone ostéophonique.
Dans la suite de la description, l’expression « sensiblement égal(e) à » définit une relation d’égalité à plus ou moins 20%, de préférence encore à plus ou moins 10%, de préférence encore à plus ou moins 5%.
Sur la , un appareil acoustique 10 comprend un premier microphone 12, également appelé microphone aérien, apte à recevoir des ondes sonores acoustiques et à les transformer en un premier signal électrique, tel qu’un premier signal analogique, et un deuxième microphone 14, également appelé microphone ostéophonique ou encore microphone solidien, apte à recevoir par conduction osseuse des oscillations vibratoires et à les transformer en un deuxième signal électrique, tel qu’un deuxième signal analogique.
L'appareil acoustique 10 comprend un boîtier de protection 18 et un dispositif de traitement 20 disposé à l’intérieur du boîtier de protection 18, le dispositif de traitement 20 étant connecté au premier microphone 12 et au deuxième microphone 14, et configuré pour recevoir en entrée les premier et deuxième signaux analogiques et délivrer en sortie un signal corrigé dans lequel le bruit a été réduit.
En complément, l’appareil acoustique 10 comprend également deux modules acoustiques 22 latéraux, un arceau supérieur 24, un arceau arrière 26 de liaison des modules acoustiques et un câble de connexion 27, le câble de connexion 27 étant équipé à son extrémité d'un connecteur, non représenté. Les modules acoustiques latéraux 22, l’arceau supérieur 24, l’arceau arrière 26 et le câble de connexion 27 sont connus en soi, par exemple du document FR 3 019 422 B1.
Le premier microphone 12 est connu, par exemple du document FR 3 019 422 B1, et comporte un transducteur électroacoustique, non représenté, apte à recevoir des ondes sonores acoustiques d'un signal sonore issu des cordes vocales et à transformer lesdites ondes acoustiques en le premier signal électrique. Le premier microphone 12 est connecté en entrée du dispositif de traitement 20.
Le deuxième microphone 14 est également connu, par exemple du document FR 3 019 422 B1, et comporte un transducteur à excitation mécanique osseuse, non représenté, apte à recevoir par conduction osseuse, notamment à travers un os correspondant du crâne, les ondes vibratoires du signal sonore issu des cordes vocales de l'utilisateur et à le transformer en le deuxième signal électrique. Le transducteur à excitation mécanique osseuse est également appelé transducteur ostéophonique, ou encore transducteur solidien. Le deuxième microphone 14 est aussi connecté en entrée du dispositif de traitement 20.
Dans l’exemple de la , le premier microphone 12 et le deuxième microphone 14 ne sont pas disposés dans le boîtier de protection 18, mais sont disposés dans un boîtier additionnel 28, le boîtier additionnel 28 étant relié à l’un des deux modules acoustique 22 par deux bras de liaison 29. Le transducteur électroacoustique et le transducteur à excitation mécanique osseuse sont alors chacun disposés dans le boîtier additionnel 28. Ce boîtier additionnel 28 est de préférence destiné à être appliqué au contact du côté droit du crâne de l’utilisateur, et est alors de préférence relié au module acoustique 22 droit.
En variante, comme illustré dans l’exemple de la figure 13 du document FR 3 019 422 B1, le deuxième microphone 14 n’est pas disposé dans le boîtier de protection 18, mais est disposé dans un autre boîtier additionnel, l’autre boîtier additionnel étant relié à l’un des deux modules acoustique 22 par deux bras de liaison. Le transducteur à excitation mécanique osseuse du deuxième microphone est alors disposé dans l’autre boîtier additionnel. Cet autre boîtier additionnel est de préférence destiné à être appliqué au contact du côté droit du crâne de l’utilisateur, et est alors de préférence relié au module acoustique 22 droit.
En variante encore, comme illustré dans l’exemple de la du document FR 3 019 422 B1, le premier microphone 12 comporte une protubérance, par exemple venue de matière avec le boîtier de protection 18. Selon cette variante, le deuxième microphone 14, en particulier son transducteur à excitation mécanique osseuse, est disposé à l’intérieur du boîtier de protection 18.
Le dispositif électronique de traitement 20 comprend un module d’hybridation 30 connecté au premier microphone 12 et au deuxième microphone 14 ; un module d’estimation 32 connecté au module d’hybridation 30 ; et un module de réduction de bruit 34 connecté au module d’hybridation 30 et au module d’estimation 32, comme représenté sur la .
En complément facultatif, le dispositif électronique de traitement 20 comprend en outre un module de détection d’activité vocale 36 connecté au module d’hybridation 30.
Dans l’exemple de la , le dispositif électronique de traitement 20 comprend une unité de traitement d’informations 40 formée par exemple d’une mémoire 42 et d’un processeur 44 associé à la mémoire 42.
Dans l’exemple de la , le module d’hybridation 30, le module d’estimation 32, le module de réduction de bruit 34, ainsi qu’en complément facultatif le module de détection d’activité vocale 36, sont réalisés chacun sous forme d’un logiciel, ou d’une brique logicielle, exécutable par le processeur 44. La mémoire 42 du dispositif de traitement 20 est alors apte à stocker un logiciel d’hybridation des premier et deuxième signaux analogiques en un signal hybride, un logiciel d’estimation du bruit dans le signal hybride, et un logiciel de réduction du bruit dans le signal hybride, ainsi qu’en complément facultatif un logiciel de détection d’activité vocale dans le signal hybride. Le processeur 44 est alors apte à exécuter chacun des logiciels parmi le logiciel d’hybridation, le logiciel d’estimation et le logiciel de réduction de bruit, ainsi qu’en complément facultatif le logiciel de détection d’activité vocale.
En variante non représentée, le module d’hybridation 30, le module d’estimation 32, le module de réduction de bruit 34, ainsi qu’en complément facultatif le module de détection d’activité vocale 36, sont réalisés chacun sous forme d’un composant logique programmable, tel qu’un FPGA (de l’anglaisField Programmable Gate Array), ou encore d’un circuit intégré, tel qu’un ASIC (de l’anglaisApplication Specific Integrated Circuit).
Lorsque le dispositif électronique de traitement 20 est réalisé sous forme d’un ou plusieurs logiciels, c’est-à-dire sous forme d’un programme d’ordinateur, également appelé produit programme d’ordinateur, il est en outre apte à être enregistré sur un support, non représenté, lisible par ordinateur. Le support lisible par ordinateur est par exemple un medium apte à mémoriser des instructions électroniques et à être couplé à un bus d’un système informatique. A titre d’exemple, le support lisible est un disque optique, un disque magnéto-optique, une mémoire ROM, une mémoire RAM, tout type de mémoire non-volatile (par exemple EPROM, EEPROM, FLASH, NVRAM), une carte magnétique ou une carte optique. Sur le support lisible est alors mémorisé un programme d’ordinateur comprenant des instructions logicielles.
Le module d’hybridation 30 est configuré pour calculer le signal hybride à partir des premier et deuxième signaux analogiques.
Le module d’hybridation 30 est par exemple configuré pour obtenir un premier signal filtré en appliquant au premier signal un premier filtre associé à une première plage de fréquences ; pour obtenir un deuxième signal filtré en appliquant au deuxième signal un deuxième filtre associé à une deuxième plage de fréquences ; puis pour calculer le signal hybride en sommant le premier signal filtré et le deuxième signal filtré, la deuxième plage de fréquences étant distincte de la première plage de fréquences.
La première plage de fréquences comporte typiquement des fréquences supérieures à celles de la deuxième plage de fréquences ; les première et deuxième plages de fréquences étant par exemple disjointes.
Le premier filtre est typiquement un filtre passe-haut avec une fréquence de coupure fcsensiblement égale à 1000 Hz, le filtre passe-haut étant par exemple un filtre passe-haut gaussien. Le deuxième filtre est typiquement un filtre passe-bas avec une fréquence de coupure également sensiblement égale à 1000 Hz, le filtre passe-bas étant par exemple un filtre passe-bas gaussien. Autrement dit, la première plage de fréquences est alors la plage des fréquences supérieures à 1000 Hz, et la deuxième plage de fréquence est celle des fréquences inférieures à 1000 Hz.
En complément, le module d’hybridation 30 est configuré pour convertir le premier signal analogique en un premier signal numérique, au fur et à mesure de la réception du premier signal analogique, et pour générer des premiers tronçons successifs à partir du premier signal numérique.
Selon ce complément, le module d’hybridation 30 est également configuré pour convertir le deuxième signal analogique en un deuxième signal numérique, au fur et à mesure de la réception du deuxième signal analogique, et pour générer des deuxièmes tronçons successifs à partir du deuxième signal numérique.
Selon ce complément facultatif, le module d’hybridation 30 est alors configuré pour calculer des tronçons hybrides du signal hybride au fur et à mesure, à partir des premiers et deuxièmes tronçons générés ; le signal corrigé étant ensuite calculé à partir desdits tronçons hybrides.
Dans l’exemple de la , le module d’hybridation 30 comporte un premier convertisseur analogique-numérique 50, connecté au premier microphone 12 aérien et configuré pour convertir le premier signal analogique issu du premier microphone 12 en un premier signal numérique xk aer, avec une fréquence d’échantillonnage fepar exemple sensiblement égale à 22 kHz. En complément, le premier convertisseur analogique-numérique 50 est configuré pour découper le premier signal numérique xk aer, converti et échantillonné, en premiers tronçons successifs, chaque premier tronçon comportant par exemple un nombre N d’échantillons. Le nombre N d’échantillons dans chaque premier tronçon est par exemple sensiblement égal à 512. L’homme du métier observera alors qu’avec la fréquence d’échantillonnage fesensiblement égale à 22 kHz et le nombre N d’échantillons sensiblement égal à 512, la durée de chaque premier tronçon est d’environ 20 ms, et typiquement sensiblement égale à 23 ms.
Dans l’exemple de la figure 2, le module d’hybridation 30 comporte en outre un premier convertisseur temporel-fréquentiel 52, connecté en sortie du premier convertisseur analogique-numérique 50 et configuré pour calculer un premier spectre du premier signal numérique xk aer, typiquement via une transformée de Fourier, telle qu’une transformée de Fourier rapide, également notée FFT (de l’anglaisFast Fourier Transform). Le module hybridation 30 comporte ensuite une première unité de filtrage 54, connectée en sortie du premier convertisseur temporel-fréquentiel 52 et configurée pour appliquer le premier filtre, typiquement le filtre passe-haut gaussien de fréquence de coupure fcsensiblement égale à 1000 Hz, pour obtenir le premier signal filtré .
Dans l’exemple de la , le module d’hybridation 30 comporte un deuxième convertisseur analogique-numérique 60, connecté au deuxième microphone 14 ostéophonique et configuré pour convertir le deuxième signal analogique issu du deuxième microphone 14 en un deuxième signal numérique xk ost, avec la fréquence d’échantillonnage fe. En complément, le deuxième convertisseur analogique-numérique 60 est configuré pour découper le deuxième signal numérique xk ost, converti et échantillonné, en deuxièmes tronçons successifs, chaque deuxième tronçon comportant par exemple le nombre N d’échantillons. L’homme du métier observera alors qu’avec la fréquence d’échantillonnage fesensiblement égale à 22 kHz et le nombre N d’échantillons sensiblement égal à 512, la durée de chaque deuxième tronçon est d’environ 20 ms, et typiquement sensiblement égale à 23 ms.
Dans l’exemple de la figure 2, le module d’hybridation 30 comporte en outre un deuxième convertisseur temporel-fréquentiel 62, connecté en sortie du deuxième convertisseur analogique-numérique 60 et configuré pour calculer un deuxième spectre du deuxième signal numérique xk ost, typiquement via une transformée de Fourier, telle que la transformée de Fourier rapide, ou FFT. Le module hybridation 30 comporte ensuite une deuxième unité de filtrage 64, connectée en sortie du deuxième convertisseur temporel-fréquentiel 62 et configurée pour appliquer le deuxième filtre, typiquement le filtre passe-bas gaussien de fréquence de coupure fcsensiblement égale à 1000 Hz, pour obtenir le deuxième signal filtré .
Par convention, dans la présente description, pour un signal noté x, sa forme continue dans le temps est notée x(t), et sa forme discrétisée est notée x[n] où n est un entier naturel, n formant alors une variable représentant le temps discrétisé. Dans le domaine fréquentiel, m représente la variable de fréquence discrète, comprise entre 0 et N/2, où N représente le nombre d’échantillons par tronçon, par exemple égal à 512.
La forme discrétisée de chaque signal vérifie alors l’équation suivante :
où n est la variable entière représentant le temps discrétisé, et
Teest un pas de discrétisation temporelle vérifiant l’équation suivante :
où feest la fréquence d’échantillonnage, par exemple sensiblement égale à 22 kHz.
La variable de fréquence discrète m est typiquement associée à un vecteur fréquence f[m] vérifiant l’équation suivante :
où N est le nombre d’échantillons compris dans un tronçon,
m est la variable de fréquence discrète, et
feest la fréquence d’échantillonnage.
La fréquence varie alors typiquement entre 0 Hz et fe/2 Hz, avec un pas fréquentiel égal à fe/N.
Par convention, le kèmetronçon du signal x est noté xkou xk[n], et dans le domaine fréquentiel avec :
où FFT représente l’opérateur numérique permettant d’estimer la transformée de Fourier discrète d’un signal, par exemple mis en œuvre via le convertisseur temporel-fréquentiel 52, 62 respectif.
La soustraction spectrale décrite par la suite ne nécessite de travailler que sur le spectre en amplitude du signal, la phase étant conservée et inchangée tout au long du processus, avec représentant le spectre en amplitude et représentant le spectre en phase de respectivement. Par convention, le spectre sans autre précision désignera alors par la suite le spectre en amplitude.
Dans l’exemple de la figure 2, le module hybridation 30 comporte également un sommateur 70, également appelé additionneur, connecté en sortie d’une part de la première unité de filtrage 54, et d’autre part de la deuxième unité de filtrage 64, et configuré pour sommer le premier signal filtré et le deuxième signal filtré afin d’obtenir le signal hybride .
Le module hybridation 30 est alors par exemple configuré pour calculer le signal hybride en sommant le premier signal filtré et le deuxième signal filtré via l’équation suivante :
où α et β sont des constantes.
Les valeurs des constantes α et β sont de préférence réglables permettant d’avoir un signal de sortie au niveau équivalent à celui d’entrée du premier microphone 12 aérien. En outre, cela permet de donner une éventuelle prépondérance au signal aérien, ou respectivement au signal ostéophonique.
En complément facultatif, le module d’hybridation 30 est configuré, lors de la génération des premiers tronçons successifs, pour générer chaque nouveau premier tronçon avec des échantillons d’un premier tronçon précédent et de nouveaux échantillons du premier signal numérique.
Selon ce complément facultatif, le module d’hybridation 30 est configuré de manière analogue, lors de la génération des deuxièmes tronçons successifs, pour générer chaque nouveau deuxième tronçon avec des échantillons d’un deuxième tronçon précédent et de nouveaux échantillons du deuxième signal numérique.
Il y a alors un chevauchement entre les premiers tronçons successifs ainsi générés, c’est-à-dire d’un premier tronçon généré au suivant ; et de manière analogue entre les deuxièmes tronçons successifs ainsi générés, c’est-à-dire d’un deuxième tronçon généré au suivant.
Un taux de chevauchement correspond alors à un ratio, au sein de chaque nouveau premier tronçon, entre le nombre d’échantillons du premier tronçon précédent utilisés et le nombre total d’échantillons du premier tronçon, c’est-à-dire du nouveau premier tronçon généré ; ou respectivement au ratio, au sein de chaque nouveau deuxième tronçon, entre le nombre d’échantillons du deuxième tronçon précédent utilisés et le nombre total d’échantillons du deuxième tronçon. Le taux de chevauchement est par exemple compris entre 50 % et 75 %, c’est-à-dire entre 0,5 et 0,75. Autrement dit, au sein de chaque nouveau premier tronçon, entre la moitié et trois-quarts des derniers échantillons du premier tronçon précédent sont utilisés ; et de manière analogue au sein de chaque nouveau deuxième tronçon, entre la moitié et trois-quarts des derniers échantillons du deuxième tronçon précédent sont utilisés. Ce chevauchement entre tronçons est illustré à la .
Sur la , les tronçons qui seraient obtenus par un simple découpage (i.e. sans chevauchement) du signal issu du premier convertisseur analogique–numérique 50, respectivement du deuxième convertisseur analogique–numérique 60, sont notés xi, qu’il s’agisse des premiers ou des deuxièmes tronçons, où i est un indice prenant les valeurs successives k-2, k-1 et k dans cet exemple. Ces tronçons xiqui seraient obtenus par simple découpage et sans chevauchement sont également appelés tronçons physiques. Les autres tronçons, représentés à la et illustrant ce chevauchement, sont également appelés tronçons chevauchés et notés x’i, avec i égal à k-1 ou k dans cet exemple.
Dans l’exemple de la , l’homme du métier observera que le taux de chevauchement est sensiblement égal à 50 %, et que le tronçon x’k-1comporte alors 50 % d’échantillons issus du tronçon précédent, correspondant à la dernière moitié du tronçon
xk-2dans cet exemple ; et 50 % de nouveaux échantillons, correspondant à la première moitié du tronçon xk-1dans cet exemple.
Sur la , les tronçons obtenus après réduction de bruit par le module de réduction de bruit 34 sont notés yilorsqu’ils résultent de tronçons physiques xi, et respectivement y’ilorsqu’ils résultent de tronçons chevauchés x’i, avec i égal à k-1 ou k dans cet exemple.
Dans le cas d’un chevauchement à 50% le tronçon de sortie yk outvérifie alors typiquement l’équation suivante :
où N représente le nombre d’échantillons par tronçon, par exemple égal à 512,
yireprésente un tronçon obtenu après réduction de bruit à partir d’un tronçon physique xi, et
y’ireprésente un tronçon obtenu après réduction de bruit à partir d’un tronçon chevauché x’i.
Le module d’estimation 32 est configuré pour estimer un bruit dans le signal hybride.
Lorsqu’en complément facultatif, le module de détection d’activité vocale 36 est configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride, le module d’estimation 32 est alors configuré pour estimer le bruit dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix.
Autrement dit, lorsque le module de détection d’activité vocale 36 détermine une présence de voix dans un tronçon donné, le spectre du bruit n’est pas mis à jour. Au contraire, lorsque le module de détection d’activité vocale 36 détermine une présence de voix dans un tronçon donné, le spectre du bruit de fond est mis à jour. Cette mise à jour du spectre du bruit de fond est alors effectuée lorsque le tronçon n’est pas de la voix et que la probabilité que cela soit du bruit est élevée. La robustesse du module de détection d’activité vocale 36 permettra d’avoir autant plus de précision sur l’estimation et la poursuite du bruit.
Selon ce complément facultatif, le module d’estimation 32 est typiquement configuré pour mettre à jour le spectre du bruit de fond selon l’équation suivante :
où p est un facteur d’oubli, de valeur par exemple égale à 0,95 ;
DAV est un indicateur d’activité vocale issu du module de détection d’activité vocale 36, DAV étant égal à 1 si une présence de voix est déterminée, et à 0 sinon, i.e. si une absence de voix est déterminée ;
représente le spectre du signal hybride
, et resp. , représentent les spectres du bruit de fond pour le tronçon d’indice k-1, et resp. d’indice k.
Le module de réduction de bruit 34 est configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
Dans l’exemple de la , le module de réduction de bruit 34 comporte une unité de soustraction spectrale généralisée 80, également appelée unité SSG 80, apte à mettre en œuvre l’algorithme de soustraction spectrale généralisée.
L’algorithme de soustraction spectrale généralisée vérifie par exemple l’équation suivante :
représente le spectre du signal débruité pour le tronçon d’indice k ;
représente le spectre du signal hybride pour le tronçon d’indice k ;
représente le spectre du bruit de fond pour le tronçon d’indice k ;
αkreprésente un coefficient de surestimation du bruit pour le tronçon d’indice k ;
δ représente un coefficient de correction ;
β représente un coefficient de réintroduction du bruit ; et
γ représente un coefficient de puissance, typiquement égal à 1 ou 2.
L’algorithme de soustraction spectrale généralisée se calcule par exemple en amplitude, et le coefficient de puissance γ est alors égal à 1 ; ou encore en puissance, et le coefficient de puissance γ est alors égal à 2.
Dans le cas d’un calcul en amplitude de la soustraction spectrale généralisée, avec γ=1, peu de bruit musical sera produit, mais le signal de voix estimé pourra être plus ou moins distordu en fonction du rapport signal sur bruit. Le bruit musical est un ensemble d’artefacts produits lors de la soustraction spectrale, constitué de tonales courtes en temps et produisant un bruit relativement désagréable.
Dans le cas d’un calcul en puissance de la soustraction spectrale généralisée, avec γ =2, peu de distorsion sera créée, mais une quantité non négligeable de bruit musical pourra être générée.
Le coefficient de surestimation de bruit α est de préférence recalculé à chaque tronçon d’indice k, et est alors noté αk. Ce coefficient permet d’éviter la génération d’une quantité trop importante de bruit musical. Pour maximiser son efficacité, son calcul s’effectue par bandes de fréquences et dépend du rapport signal sur bruit sur chacune de ces bandes.
Les spectres et sont d’abord découpés en sous-spectres notés et , où j représente le numéro de la bande de fréquence. Ainsi, j valeurs du rapport signal sur bruit, notées RSBk j, chacune associée à une bande de fréquence d’indice j, sont typiquement calculées selon l’équation suivante :
où RSBk jreprésente le rapport signal sur bruit pour le tronçon d’indice k et la bande de fréquence d’indice j,
Nj représente le nombre d’échantillons fréquentiels contenus dans la bande d’indice j ;
représente le spectre du signal hybride pour le tronçon d’indice k ; et
représente le spectre du bruit de fond pour le tronçon d’indice k.
Puis, pour chaque valeur de rapport signal sur bruit, le coefficient de surestimation du bruit αkvérifie par exemple l’équation suivante :
Globalement, ce calcul du coefficient de surestimation de bruit α permet de surestimer le bruit lorsque le rapport signal sur bruit est faible, et de réduire l’introduction d’artefacts de type bruit musical.
Le coefficient de surestimation du bruit αk jest ensuite converti pour pouvoir être réintroduit dans l’équation (8), par exemple selon l’équation suivante :
où l’intervalle correspond à toutes les fréquences de la jèmebande de fréquences. Typiquement, à chaque tronçon la fonction αk[m] sera une fonction constante par morceaux, où chaque morceau correspondra à une bande de fréquences déterminée par l’utilisateur.
Le coefficient de correction δ est un coefficient de correction fréquentiel calculé une seule fois, typiquement au début de l’algorithme, et n’évoluant pas au cours du temps.
Ce coefficient est un simple pré-facteur dépendant de la fréquence, afin de maximiser certaines bandes de fréquences de manière adaptée à la captation de voix.
Le coefficient de correction δ est par exemple une fonction constante par morceaux, vérifiant l’équation suivante :
Compte tenu des calculs effectués avec les spectres en amplitude, il ne faut pas que l’estimation soit négative car cela n’aurait pas de sens mathématiquement. C’est pourquoi l’équation (8) comporte une condition pour éviter les valeurs négatives.
Le coefficient de réintroduction du bruit β permet alors de choisir si l’on réintroduit du bruit ou non en cas de valeurs potentiellement négatives. Lorsque le coefficient de réintroduction du bruit β est choisi égal à , toute soustraction conduisant à une valeur négative est remplacée par la valeur nulle En revanche pour toute valeur supérieure à 0, on réintroduit du bruit. Cela permet de conserver une partie du bruit qui peut être perçu comme un bruit de confort masquant une partie du bruit musical lorsqu’il y en a qui est créé.
Le coefficient de réintroduction du bruit β vaut généralement quelques pourcents. Le coefficient de réintroduction du bruit β est par exemple sensiblement égal à 0,05, soit une réintroduction de 5% du bruit de fond dans le signal de sortie. Cette valeur est un paramètre prédéfini.
Il est à noter que plus le rapport signal sur bruit est faible ou mauvais, moins l’estimation du signal débruité est efficace et plus la voix sera altérée. Il est donc intéressant de mettre une valeur du coefficient de réintroduction du bruit β plus élevée dans le cas d’un mauvais rapport signal sur bruit, afin de recapter quelques harmoniques de la voix dans le bruit de fond qui seraient perdues dans la soustraction spectrale autrement.
Dans l’exemple de la , le module de réduction de bruit 34 comporte en outre un convertisseur fréquentiel-temporel 82, connecté en sortie de l’unité de soustraction spectrale généralisée 80, et configuré pour calculer un signal temporel à partir du signal fréquentiel issu de l’unité SSG 80, typiquement via une transformée de Fourier inverse, telle qu’une transformée de Fourier rapide inverse, également notée IFFT (de l’anglaisInverseFast Fourier Transform).
Comme indiqué précédemment, les calculs dans le domaine fréquentiel ont été effectués avec l’amplitude du spectre du signal du tronçon. La phase de celui-ci, qui demeure non modifiée, est alors réintégrée au signal avant la transformée de Fourier inverse permettant de revenir dans le domaine temporel, par exemple selon l’équation suivante :
où yk[n] représente le signal de sortie débruité pour le tronçon d’indice k ;
IFFT représente l’opérateur numérique de transformée de Fourier inverse ;
, et resp. , représentent le spectre en amplitude, et resp. en phase, du signal débruité pour le tronçon d’indice k.
Dans l’exemple de la , le module de réduction de bruit 34 comporte ensuite un convertisseur numérique-analogique 84, connecté en sortie du convertisseur fréquentiel-temporel 82 et configuré pour fournir le signal corrigé y(t) sous forme analogique. Le signal débruité yk hybissu du convertisseur fréquentiel-temporel 82 est alors resynthétisé en le signal corrigé y(t) via le convertisseur numérique-analogique 84, avec synthèse des tronçons chevauchés le cas échéant, puis délivré en sortie du dispositif de traitement 20.
Le module de détection d’activité vocale 36 est configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride.
Le module de détection d’activité vocale 36 est par exemple configuré pour déterminer la présence de voix ou l’absence de voix à partir du deuxième signal issu du transducteur à excitation mécanique osseuse ; et de préférence uniquement à partir dudit deuxième signal, sans prise en compte du premier signal.
Le deuxième microphone 14, ostéophonique ou solidien, est apte à mesurer les vibrations de la peau et du visage liée à la sollicitation des cordes vocales, et permet de capter la partie voisée d’un signal vocal tout en étant très peu sensible au bruit de fond (quia priorine fait pas suffisamment vibrer la peau de l’utilisateur pour être captée).
L’intérêt d’utiliser le deuxième microphone 14 ostéophonique réside dans son immunité au bruit de fond. Cette immunité est encore plus grande dans la partie basse fréquence du signal acquis.
Avantageusement, la détection d’activité vocale est alors effectuée après un filtrage dans le domaine fréquentiel (fonctionnant également dans le domaine temporel) du signal solidien. Le module de détection d’activité vocale 36 est alors de préférence configuré pour déterminer la présence de voix ou l’absence de voix à partir du deuxième signal filtré issu du deuxième signal filtré issu de la deuxième unité de filtrage 64.
En complément facultatif, le module de détection d’activité vocale 36 est configuré pour calculer une valeur RMS pour chaque tronçon du deuxième signal, i.e. pour chaque deuxième tronçon ; puis pour déterminer la présence de voix ou l’absence de voix en fonction de valeurs RMS respectives.
Le traitement est basé sur le calcul de l’énergie du signal tronçon par tronçon. Cependant ici, grâce au caractère immune au bruit du signal du microphone solidien filtré, l’énergie de la voix émergera tout le temps de l’énergie plancher du bruit. Le calcul du niveau RMS permet alors de connaître l’énergie du signal.
Comme connu en soi, la valeur efficace, dite aussi valeur RMS (de l'anglaisRoot Mean Square, signifiant moyenne quadratique), d'un signal périodique est la racine carrée de la moyenne du carré de cette grandeur, sur un intervalle de temps donné ou la racine carrée du moment d'ordre deux (ou variance) du signal.
Pour un tronçon temporel xk[n] de N échantillons, le calcul de la valeur RMS s’effectue alors typiquement via l’équation suivante :
où RMSkreprésente la valeur RMS pour le tronçon d’indice k ;
xk[n] représente le signal pour le tronçon d’indice k ;
N représente le nombre d’échantillons dudit tronçon.
Or, dans le domaine fréquentiel, grâce à l’identité de Parseval selon laquelle l’énergie est égale dans les domaines fréquentiel et temporel, on obtient l’équation suivante :
où RMSkreprésente la valeur RMS pour le tronçon d’indice k ;
représente le spectre du signal hybride pour le tronçon d’indice k ; et
N représente le nombre d’échantillons dudit tronçon.
Cette valeur du niveau RMS est optionnellement convertie en une valeur dBFS à partir de l’équation suivante :
où log10représente l’opérateur logarithme décimal, ou encore logarithme de base 10.
Cette valeur dBFS est typiquement comprise entre -94 dBFS au minimum (dans le cas d’une résolution dynamique de 16 bits) et 0 dBFS au maximum (pour un signal constant qui vaudrait 1).
En complément facultatif encore, le module de détection d’activité vocale 36 est configuré pour déterminer la présence de voix ou l’absence de voix en fonction d’une valeur moyenne de M dernières valeurs RMS calculées, également appelée RMS lissé, et/ou d’une variation de valeur RMS entre une valeur RMS courante et une valeur RMS précédente, également appelée taux de variation du niveau RMS, avec M un nombre entier supérieur ou égal à 1.
Selon ce complément facultatif encore, le module de détection d’activité vocale 36 est par exemple configuré pour déterminer la présence de voix si ladite valeur moyenne est supérieure ou égale à un seuil prédéfini de moyenne A ou si ladite variation de valeur RMS est supérieure ou égale à un seuil prédéfini de variation B.
La valeur du niveau RMS est susceptible de varier dans le temps, et de subir des brusques variations lorsque le microphone concerné, en particulier le deuxième microphone 14, capte une vibration importante. Ce complément facultatif permet alors d’améliorer la précision et de réduire les erreurs de l’algorithme, avec un moyennage sur les M dernières valeurs calculées du niveau RMS (lors des M derniers tronçons). Ceci est par exemple mis en œuvre via un buffer circulaire qui à chaque nouveau tronçon vient ajouter la nouvelle valeur RMS calculée, supprime la Mièmedernière, puis moyenne l’ancienne. Le niveau RMS lissé au k metronçon, noté , vérifie par exemple l’équation suivante :
Le suivi de la valeur de au cours du temps permet de repérer les zones de voix lorsque celui-ci dépasse un certain seuil. Néanmoins, dû au lissage, ce niveau peut dépasser le seuil choisi légèrement en retard. Avantageusement, une deuxième métrique liée au niveau au RMS, à savoir le taux de variation du niveau RMS noté ΔRMSk dB, est alors calculée pour mieux détecter l’apparition de la voix, par exemple via l’équation suivante :
où ΔRMSk dBreprésente le taux de variation du niveau RMS pour le tronçon d’indice k ;
resp. , représente le niveau RMS lissé pour le tronçon d’indice k-1, et resp. d’indice k ;
dt représente un delta de temps entre deux tronçons successifs.
La valeur dt peut correspondre exactement au delta de temps entre deux tronçons successifs, et la variation du niveau RMS sera alors exprimée en dB.s-1, mais celui-ci peut prendre des valeurs très importantes.
En variante, et par commodité, la valeur dt est choisie égale à 1. Le cas échéant, ΔRMSk dBest un taux de variation exprimé en dB.tronçon-1. Cette grandeur est pertinente car au moment où un interlocuteur se met à parler, le niveau RMS augmente brutalement, se traduisant par un ΔRMSk dBpositif et supérieur à 1 dB.tronçon-1. Cette grandeur variant vite, elle permet de détecter la voix très rapidement, évitant ainsi de louper le début d’une phrase.
La prise de décision pour la détection d’activité vocale instantanée est alors définie par exemple par l’équation suivante :
représente le niveau RMS lissé pour le tronçon d’indice k ;
ΔRMSk dBreprésente taux de variation du niveau RMS pour le tronçon d’indice k ;
DAVkest un indicateur d’activité vocale pour le tronçon d’indice k, cet indicateur étant égal à 1 si une présence de voix est déterminée, et à 0 sinon ;
A représente le seuil prédéfini de moyenne et B représente le seuil prédéfini de variation, correspondant respectivement aux seuils de niveau et du taux de variation à dépasser pour considérer que le tronçon est parlé.
Ces valeurs de seuil A et B sont prédéfinies en fonction de la dynamique de l’appareil acoustique 10, par exemple en fonction du gain du microphone concerné, en particulier du deuxième microphone 14, etc.
Le calcul de la détection d’activité vocale décrit ci-dessus donne une valeur instantanée pour chaque tronçon successif (qu’il soit chevauché ou non). Se baser uniquement sur une valeur instantanée peut conduire à des erreurs, par exemple un micro-silence dans la voix pourrait créer un passage à 0 non souhaité de l’indicateur d’activité vocale DAV. Au contraire, un bruit impulsionnel très court peut conduire à un indicateur d’activité vocale DAV égal à 1 pour un seul tronçon, avant de repasser à 0. En fonction de l’utilisation du module de détection d’activité vocale 36 (avec un mode où le canal n’est ouvert que si DAV = 1 par exemple), ce comportement peut provoquer des artefacts désagréables. C’est pourquoi le calcul de la détection d’activité vocale est avantageusement lissé afin d’éviter ces artefacts.
Ce lissage est par exemple réalisé à partir de l’utilisation d’un temps d’attaque et d’un temps de relâche. Lorsqu’un indicateur d’activité vocale DAV instantané DAVinst kest égal à 1 au moins aussi longtemps que le temps d’attaque (ou le nombre de tronçon(s) équivalent), alors un indicateur d’activité vocale DAV lissé DAVlisse kdevient égal à 1. Au contraire, lorsque l’indicateur d’activité vocale DAV instantané DAVinst kest égal à 0 au moins aussi longtemps que le temps de relâche, alors l’indicateur d’activité vocale DAV lissé DAVlisse krepasse à 0. Dans tous les autres cas, l’indicateur d’activité vocale DAV lissé DAVlisse kconserve la valeur qu’il avait au tronçon précédent. Pour la mise en œuvre de ce lissage, un compteur Ckest par exemple utilisé. La modification de ce compteur Ckest typiquement régie par le tableau 1 ci-après pour chaque tronçon courant d’indice k, en fonction de l’indicateur d’activité vocale DAV instantané DAVinst ket de la valeur du compteur Ck-1au tronçon précédent d’indice k-1 :
ET Ck-1≥ 0 Ck-1< 0
DAVinst k= 0 Réinitialisation du compteur : Ck= 0 Ck= Ck-1-1
DAVinst k= 1 Ck= Ck-1+1 Réinitialisation du compteur : Ck= 0
La prise de décision pour la détection d’activité vocale lissée est alors définie par exemple par l’équation suivante :
où DAVlisse kest l’indicateur d’activité vocale lissé pour le tronçon d’indice k, cet indicateur étant égal à 1 si une présence de voix est déterminée, et à 0 sinon ;
Ckest le compteur pour le tronçon d’indice k ;
tatkreprésente le temps d’attaque ; et
trelreprésente le temps de relâche.
Le fonctionnement de l’appareil acoustique 10, et en particulier du dispositif de traitement 20, selon l’invention va être à présent décrit en regard de la représentant un organigramme du procédé de traitement selon l’invention.
Le traitement appliqué au signal pour réduire le bruit est effectué de manière numérique et en temps réel. En effet, lorsque l’opérateur utilise l’appareil acoustique 10, le signal doit être débruité et envoyé à son interlocuteur le plus rapidement possible, en cherchant à diminuer au maximum la latence, avec une valeur souhaitée de 20 à 30 ms. Pour permettre un débruitage qualitatif, il faut disposer d’un minimum d’informations à analyser avant de pouvoir réduire le bruit efficacement. Le traitement effectué est alors un traitement par bloc, appliqué tronçon par tronçon au signal d’entrée. Comme indiqué précédemment, les tronçons sont typiquement chacun d’une durée d’environ 20 ms. En effet, sur cette durée, la voix a un comportement quasi stationnaire, alors que le bruit l’est sur des durées bien plus importantes.
Afin d’optimiser la consommation électrique, la fréquence d’échantillonnage est de préférence inférieure à 22 050 Hz, permettant une bande passante comprise dans l’intervalle [0 ; 11 025 Hz]. En conséquence pour avoir des tronçons de signal d’environ 20 ms à cette fréquence d’échantillonnage, ceux-ci devront contenir typiquement 512 échantillons.
Le traitement appliqué au signal pour réduire le bruit est en grande partie effectué dans le domaine fréquentiel, qui est plus adapté au débruitage du fait que le but est de réduire le niveau dans les bandes de fréquences contenant le plus de bruit. Néanmoins, du fait de travailler par tronçons en fréquentiel, des problèmes de discontinuités et d’imprécisions peuvent apparaître d’un tronçon à un autre, et un chevauchement des tronçons, avec un taux de chevauchement de préférence supérieur à 50%, idéalement égal à 75%, tel que décrit ci-dessus, est alors avantageusement mis en œuvre pour les atténuer.
Lors d’une étape initiale 100, le dispositif de traitement 20 calcule alors, via son module d’hybridation 30, le signal hybride à partir des premier et deuxième signaux analogiques, issus des premier et deuxième microphones 12, 14, de la manière décrite précédemment.
Lors d’une étape optionnelle suivante 110, le dispositif de traitement 20 détermine, via son module de détection d’activité vocale 36, une présence de voix ou une absence de voix dans chaque tronçon du signal hybride, de la manière décrite précédemment.
Le dispositif de traitement 20 estime ensuite, lors de l’étape suivante 120 et via son module d’estimation 32, le bruit dans le signal hybride, obtenu précédemment lors de l’étape d’hybridation 100, de la manière décrite précédemment.
Lorsqu’optionnellement une présence de voix ou une absence de voix dans chaque tronçon du signal hybride a été déterminée lors de l’étape de détection d’activité vocale 110, le bruit est alors, lors de l’étape d’estimation 120, estimé dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix, de la manière décrite précédemment.
Enfin, lors de l’étape suivante 130, le dispositif de traitement 20 applique, via son module de réduction de bruit 34, l’algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé, afin de calculer le signal corrigé.
Comme indiqué précédemment, le procédé de traitement est en temps réel ou en quasi-temps réel, avec une latence d’environ 20 à 30 ms, et un traitement par bloc, appliqué tronçon par tronçon au signal d’entrée.
Aussi, à l’issue de l’étape 130, le procédé de traitement retourne à l’étape initiale 100, et plus généralement, chacune des étapes 100, optionnellement 110, 120 et 130 est réitérée régulièrement afin d’être mise en œuvre pour chaque tronçon successif de signal.
Sur la , la courbe 200 représente alors un exemple avec un signal provenant d’un enregistrement aérien d’un locuteur s’exprimant dans un environnement fortement bruité (bruit véhicule à plus de 90 db(A)). La courbe 250 à la présente le même signal après la mise en œuvre du dispositif de traitement 20 selon l’invention. On constate que le bruit est fortement atténué avec le dispositif de traitement 20 selon l’invention, tout en observant que les parties correspondant à la voix sont bien visibles et présentent alors une bonne intelligibilité.
La présente un exemple de détection d’activité vocale utilisée sur un signal de voix enregistré par un microphone aérien classique pour différentes phases successives de bruit, d’une absence de bruit jusqu’à un bruit fort. La courbe 300 est la représentation temporelle de ce signal sur laquelle est superposée la décision prise par la détection d’activité vocale, où les zones grisées 310 correspondent à des zones pour lesquelles une présence de voix a été déterminée, i.e. DAV = 1 ; les autres zones, non grisées ou blanches, correspondant à des zones pour lesquelles une absence de voix a été déterminée, i.e. DAV = 0. Sur la , la courbe 320 représente le niveau RMS de ce signal issu du microphone aérien au cours du temps avec le niveau seuil à dépasser pour la prise de décision, le niveau seuil étant représenté par la droite horizontale 330 en trait pointillé. La courbe 340 correspond à l’estimation par l’algorithme du niveau RMS du bruit de fond dans les phases où la détection d’activité vocale a déterminé une absence de voix.
Dans cet exemple de la , le niveau seuil a été choisi volontairement bas, avec une valeur sensiblement égale à -40 dBFS pour permettre une bonne détection de la voix en l’absence de bruit. En effet, on constate que dans la phase sans bruit, pour la période temporelle comprise entre les instants temporels 0s et 15s, la voix émerge bien du bruit et le niveau RMS moyenné dépasse bien le seuil à chaque fois que l’utilisateur parle. La détection d’activité vocale classique est donc correcte sur la partie silencieuse. Cependant, dès que le bruit présente un niveau modéré, le niveau RMS moyenné est systématiquement au-dessus du seuil fixé, puisque trop bas. En conséquence, cela aboutit à une détermination erronée d’une présence de voix pendant toute la suite du signal : la détection d’activité vocale devient alors inopérante, car incapable de séparer la contribution du bruit de celle de la voix. La détection d’activité vocale donnant une réponse toujours positive, l’estimation du niveau RMS du bruit est par la même également totalement faussée, et reste sur la valeur prise lors de l’absence de bruit.
La est analogue à la , à la différence que le seuil de détection a été remonté à une valeur sensiblement égale à -20 dBFS. La courbe 400 est la représentation temporelle de ce signal sur laquelle est superposée la décision prise par la détection d’activité vocale, où les zones grisées 410 correspondent à des zones pour lesquelles une présence de voix a été déterminée, i.e. DAV = 1 ; les autres zones, non grisées ou blanches, correspondant à des zones pour lesquelles une absence de voix a été déterminée, i.e. DAV = 0. Sur la , la courbe 420 représente le niveau RMS de ce signal issu du microphone aérien au cours du temps avec le niveau seuil à dépasser pour la prise de décision, le niveau seuil étant représenté par la droite horizontale 430 en trait pointillé. La courbe 440 correspond à l’estimation par l’algorithme du niveau RMS du bruit de fond dans les phases où la détection d’activité vocale a déterminé une absence de voix.
Sur la , l’homme du métier constatera alors que la détection de voix dans la partie à bruit modéré, entre les instants temporels 15s et 30s environ, est plutôt correcte. Le niveau RMS, aux moments où il y a de la voix, permet de discriminer celle-ci du bruit. Cependant, dès que l’on augmente encore le niveau de bruit, ce seuil ne permet plus de bien distinguer la voix du bruit, et de nombreuses zones sont considérées comme exclusivement parlées, entre les instants temporels 34s et 42s par exemple, alors qu’il y a en réalité des moments d’absence de voix dans ces zones. Pire encore, en raison du seuil trop haut, dans la partie sans bruit, la détection d’activité vocale de l’état de la technique confond plusieurs fois la voix avec du bruit et manque certaines détections ou les coupe trop tôt. Cela détériore alors gravement le signal de voix. De plus, cela fausse totalement l’estimation du niveau de bruit, correspondant à la courbe 440, qui est artificiellement augmentée lorsque la personne parle.
Finalement, au travers de ces deux exemples des figures 6 et 7 illustrant l’état de la technique, l’homme du métier comprendra qu’il faudrait que le seuil varie automatiquement (bas pour les phases de silence, plus haut pour les phases de bruit) pour permettre de bons résultats de la détection d’activité vocale de l’état de la technique avec un microphone aérien. En effet, avec la détection d’activité vocale classique, un réglage fixe du seuil ne peut correspondre correctement à la fois à un environnement bruité et à un environnement calme, notamment en raison de la forte sensibilité des microphones aérien à l’environnement.
La illustre la mise en œuvre du dispositif de traitement 20 selon l’invention, et notamment la détection d’activité vocale selon l’invention à partir du deuxième signal issu du transducteur à excitation mécanique osseuse, ceci sur le même enregistrement que celui utilisé pour les exemples des figures 6 et 7, mais avec le deuxième microphone 14 ostéophonique, et ensuite l’utilisation de l’algorithme de soustraction spectrale généralisée.
La courbe 500 est la représentation temporelle de ce signal sur laquelle est superposée la décision prise par la détection d’activité vocale, où les zones grisées 510 correspondent à des zones pour lesquelles une présence de voix a été déterminée, i.e. DAV = 1 ; les autres zones, non grisées ou blanches, correspondant à des zones pour lesquelles une absence de voix a été déterminée, i.e. DAV = 0. Sur la , la courbe 520 représente le niveau RMS de ce signal issu du deuxième microphone 14 ostéophonique au cours du temps avec le niveau seuil à dépasser pour la prise de décision, le niveau seuil étant représenté par la droite horizontale 530 en trait pointillé. La courbe 540 correspond à l’estimation par l’algorithme du niveau RMS du bruit de fond dans les phases où la détection d’activité vocale a déterminé une absence de voix.
Avec le dispositif de traitement 20 selon l’invention, un premier élément marquant est que la forme d’onde associée à cet enregistrement ostéophonique filtré (filtre passe-bas) est beaucoup moins marquée par le bruit. Quel que soit le niveau de bruit, la voix émerge très facilement de celui-ci. Cet effet est encore plus visible sur la représentation du niveau RMS du signal filtré au cours du temps, il y a près de 40 dB de différence entre les pics liés à la voix et le bruit de fond. En conséquence, le choix de la valeur seuil devient plus aisé et offre une plus grande latitude qu’avec le dispositif de traitement de l’état de la technique. Ce seuil a par exemple été fixé arbitrairement ici à -35dBFS, tout en observant qu’une valeur de seuil à -25dBFS ou à -45dBFS aurait donné des résultats semblables. Grâce à cette émergence naturelle, l’algorithme de soustraction spectrale généralisée est particulièrement efficace et repère aussi bien la voix dans trois zones de bruits différents.
Enfin, grâce à ses performances, le dispositif de traitement 20 selon l’invention est capable de détecter précisément les périodes temporelles en présence de bruit uniquement. De cette façon, le moyennage du niveau RMS du microphone aérien uniquement aux moments où DAV = 0, permet d’obtenir une bonne estimation du niveau du bruit de fond, représenté par la courbe 540.
Ces résultats montrent bien l’intérêt du dispositif de traitement 20 selon l’invention de par le gain important en performance et en coût de calcul, par rapport au dispositif de traitement de l’état de la technique.
Ainsi, lorsque l’utilisateur se trouve dans un environnement bruité, et qu’il utilise l’appareil acoustique 10, par exemple avec une radio, pour communiquer avec un interlocuteur à distance, le signal envoyé à l’interlocuteur serait, sans mise en œuvre de l’invention, altéré par la captation non souhaitée d’une portion de bruit de fond. Le dispositif électronique de traitement 20 selon l’invention permet de réduire la présence de ce bruit de fond dans le signal envoyé à l’interlocuteur, et en particulier de filtrer la voix de ce bruit, afin de viser à n’envoyer que le signal utile à l’interlocuteur via la radio.
Les résultats obtenus avec le dispositif électronique de traitement 20 selon l’invention, notamment ceux présentés ci-dessus en regard des figures 5 et 8, montrent en outre la synergie entre la détection d’activité vocale basée sur la captation d’un signal via le deuxième microphone 14 ostéophonique et la réduction de bruit via l’algorithme de soustraction spectrale généralisée. Cette synergie permet d’avoir une très bonne précision quant à l’activité vocale, ce qui permet de mettre à jour le spectre du bruit de façon efficace. Les résultats obtenus avec l’algorithme de soustraction spectrale généralisée sont alors améliorés, tout en utilisant un nombre limité d’opérations de calcul.
On conçoit ainsi que le dispositif électronique de traitement 20, et le procédé de traitement associé, permettent d’améliorer encore la réduction du bruit dans le signal délivré en sortie de l’appareil acoustique 10.

Claims (10)

  1. Dispositif électronique de traitement (20) pour un appareil acoustique (10),
    l’appareil acoustique (10) comprenant un premier microphone (12) comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; et un deuxième microphone (14) comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique,
    le dispositif électronique de traitement (20) étant configuré pour être connecté aux premier et deuxième microphones (12,14), pour recevoir en entrée les premier et deuxième signaux analogiques et pour délivrer en sortie un signal corrigé,
    le dispositif électronique de traitement (20) comprenant :
    - un module d’hybridation (30) configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques ;
    caractérisé en ce qu’il comprend en outre :
    - un module d’estimation (32) connecté au module d’hybridation (30) et configuré pour estimer un bruit dans le signal hybride ;
    - un module de réduction de bruit (34) connecté au module d’hybridation (30) et au module d’estimation (32), le module de réduction de bruit (34) étant configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
  2. Dispositif (20) selon la revendication 1, dans lequel le signal hybride comporte plusieurs tronçons successifs, et le dispositif (20) comprend en outre un module de détection d’activité vocale (36) connecté au module d’hybridation (30) et configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride ; le module d’estimation (32) étant alors configuré pour estimer le bruit dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix.
  3. Dispositif (20) selon la revendication 2, dans lequel le module de détection d’activité vocale (36) est configuré pour déterminer la présence de voix ou l’absence de voix à partir du deuxième signal issu du transducteur à excitation mécanique osseuse ;
    le module de détection d’activité vocale (36) étant de préférence configuré pour déterminer la présence de voix ou l’absence de voix uniquement à partir du deuxième signal, sans prise en compte du premier signal.
  4. Dispositif (20) selon la revendication 3, dans lequel le deuxième signal comporte plusieurs tronçons successifs, et le module de détection d’activité vocale (36) est configuré pour calculer une valeur RMS pour chaque tronçon du deuxième signal, puis pour déterminer la présence de voix ou l’absence de voix en fonction de valeur(s) RMS respective(s).
  5. Dispositif (20) selon la revendication 4, dans lequel le module de détection d’activité vocale (36) est configuré pour déterminer la présence de voix ou l’absence de voix en fonction d’une valeur moyenne de M dernière(s) valeur(s) RMS calculée(s) et/ou d’une variation de valeur RMS entre une valeur RMS courante et une valeur RMS précédente, M étant un nombre entier supérieur ou égal à 1 ;
    le module de détection d’activité vocale (36) étant de préférence configuré pour déterminer la présence de voix si ladite valeur moyenne est supérieure ou égale à un seuil prédéfini de moyenne (A) ou si ladite variation de valeur RMS est supérieure ou égale à un seuil prédéfini de variation (B).
  6. Dispositif (20) selon l’une quelconque des revendications précédentes, dans lequel le module d’hybridation (30) est configuré pour convertir le premier signal analogique en un premier signal numérique, au fur et à mesure de la réception du premier signal analogique, et pour générer des premiers tronçons successifs à partir du premier signal numérique, chaque nouveau premier tronçon généré comportant des échantillons d’un premier tronçon précédent et de nouveaux échantillons du premier signal numérique ; et
    le module d’hybridation (30) est configuré pour convertir le deuxième signal analogique en un deuxième signal numérique, au fur et à mesure de la réception du deuxième signal analogique, et pour générer des deuxièmes tronçons successifs à partir du deuxième signal numérique, chaque nouveau deuxième tronçon généré comportant des échantillons d’un deuxième tronçon précédent et de nouveaux échantillons du deuxième signal numérique ;
    des tronçons hybrides du signal hybride étant alors calculés au fur et à mesure à partir des premiers et deuxièmes tronçons générés ; le signal corrigé étant ensuite calculé à partir desdits tronçons hybrides.
  7. Dispositif (20) selon l’une quelconque des revendications précédentes, dans lequel le module d’hybridation (30) est configuré pour obtenir un premier signal filtré en appliquant au premier signal un premier filtre associé à une première plage de fréquences ; pour obtenir un deuxième signal filtré en appliquant au deuxième signal un deuxième filtre associé à une deuxième plage de fréquences ; puis pour calculer le signal hybride en sommant le premier signal filtré et le deuxième signal filtré, la deuxième plage de fréquences étant distincte de la première plage de fréquences ;
    la première plage de fréquences comportant de préférence des fréquences supérieures à celles de la deuxième plage de fréquences ;
    les première et deuxième plages de fréquences étant de préférence encore disjointes.
  8. Appareil acoustique (10) comprenant :
    - un premier microphone (12) comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ;
    - un deuxième microphone (14) comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique ;
    - un dispositif électronique de traitement (20) connecté aux premier et deuxième microphones (12,14), le dispositif électronique de traitement (20) étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques, puis pour délivrer en sortie un signal corrigé ;
    caractérisé en ce que le dispositif électronique de traitement (20) est selon l’une quelconque des revendications précédentes.
  9. Procédé de traitement, le procédé étant mis en œuvre par un dispositif électronique de traitement (20) connecté à des premier et deuxième microphones (12,14), le premier microphone (12) comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d’un signal sonore issu de cordes vocales d’un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; et le deuxième microphone (14) comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique, le dispositif électronique de traitement (20) étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques et pour délivrer en sortie un signal corrigé,
    le procédé de traitement comprenant :
    - une étape d’hybridation (100) comportant le calcul d’un signal hybride à partir des premier et deuxième signaux analogiques ;
    caractérisé en ce qu’il comprend en outre :
    - une étape d’estimation (120) d’un bruit dans le signal hybride ; et
    - une étape de réduction de bruit (130) comportant le calcul du signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
  10. Programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé selon la revendication précédente.
FR2205151A 2022-05-30 2022-05-30 Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés Pending FR3136096A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR2205151A FR3136096A1 (fr) 2022-05-30 2022-05-30 Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés
KR1020230066945A KR20230166920A (ko) 2022-05-30 2023-05-24 전자처리장치와 처리 방법, 관련 음향기기 및 컴퓨터 프로그램
US18/202,240 US20230388704A1 (en) 2022-05-30 2023-05-25 Electronic processing device and processing method, associated acoustic apparatus and computer program
EP23175647.9A EP4287648A1 (fr) 2022-05-30 2023-05-26 Dispositif électronique et procédé de traitement, appareil acoustique et programme d'ordinateur associés

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2205151 2022-05-30
FR2205151A FR3136096A1 (fr) 2022-05-30 2022-05-30 Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés

Publications (1)

Publication Number Publication Date
FR3136096A1 true FR3136096A1 (fr) 2023-12-01

Family

ID=83188676

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2205151A Pending FR3136096A1 (fr) 2022-05-30 2022-05-30 Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés

Country Status (4)

Country Link
US (1) US20230388704A1 (fr)
EP (1) EP4287648A1 (fr)
KR (1) KR20230166920A (fr)
FR (1) FR3136096A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270231A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
FR3019422B1 (fr) 2014-03-25 2017-07-21 Elno Appareil acoustique comprenant au moins un microphone electroacoustique, un microphone osteophonique et des moyens de calcul d'un signal corrige, et equipement de tete associe
US20220150627A1 (en) * 2019-09-12 2022-05-12 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270231A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
FR3019422B1 (fr) 2014-03-25 2017-07-21 Elno Appareil acoustique comprenant au moins un microphone electroacoustique, un microphone osteophonique et des moyens de calcul d'un signal corrige, et equipement de tete associe
US20220150627A1 (en) * 2019-09-12 2022-05-12 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation

Also Published As

Publication number Publication date
US20230388704A1 (en) 2023-11-30
EP4287648A1 (fr) 2023-12-06
KR20230166920A (ko) 2023-12-07

Similar Documents

Publication Publication Date Title
EP1016072B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
JP4256280B2 (ja) ウィンドノイズを抑圧するシステム
CA2436318C (fr) Procede et dispositif de reduction de bruit
KR101034831B1 (ko) 윈드 노이즈를 억제하는 시스템
EP2518724A1 (fr) Combiné audio micro/casque comprenant des moyens de débruitage d&#39;un signal de parole proche, notamment pour un système de téléphonie &#34;mains libres&#34;
WO2008085703A2 (fr) Approche à variations spectro-temporelles pour améliorer la parole
FR3012928A1 (fr) Modificateurs reposant sur un snr estime exterieurement pour des calculs internes de mmse
EP2772916A1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
EP1849157B1 (fr) Procede de mesure de la gene due au bruit dans un signal audio
EP1016071B1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
FR2894707A1 (fr) Procede de mesure de la qualite percue d&#39;un signal audio degrade par la presence de bruit
EP1016073B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
FR3136096A1 (fr) Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
EP2515300B1 (fr) Procédé et système de réduction du bruit
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
WO2020049263A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
WO2006032751A1 (fr) Procede et dispositif d&#39;evaluation de l&#39;efficacite d&#39;une fonction de reduction de bruit destinee a etre appliquee a des signaux audio
FR3051958A1 (fr) Procede et dispositif pour estimer un signal dereverbere
FR2751776A1 (fr) Procede d&#39;extraction de la frequence fondamentale d&#39;un signal de parole
Adrian et al. An acoustic noise suppression system with reduced musical artifacts

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20231201

PLFP Fee payment

Year of fee payment: 3