FR3012929A1 - Modificateur de la presence de probabilite de la parole perfectionnant les performances de suppression du bruit reposant sur le log-mmse - Google Patents

Modificateur de la presence de probabilite de la parole perfectionnant les performances de suppression du bruit reposant sur le log-mmse Download PDF

Info

Publication number
FR3012929A1
FR3012929A1 FR1402422A FR1402422A FR3012929A1 FR 3012929 A1 FR3012929 A1 FR 3012929A1 FR 1402422 A FR1402422 A FR 1402422A FR 1402422 A FR1402422 A FR 1402422A FR 3012929 A1 FR3012929 A1 FR 3012929A1
Authority
FR
France
Prior art keywords
spp
value
noise
signal
warped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1402422A
Other languages
English (en)
Other versions
FR3012929B1 (fr
Inventor
Guillaume Lamy
Jianming Song
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Systems Inc
Original Assignee
Continental Automotive Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Systems Inc filed Critical Continental Automotive Systems Inc
Publication of FR3012929A1 publication Critical patent/FR3012929A1/fr
Application granted granted Critical
Publication of FR3012929B1 publication Critical patent/FR3012929B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Abstract

Dispositif de réduction du bruit dans un signal reçu, comprenant un déterminateur (802) de probabilité de la parole pour calculer une première présence (SPP) de probabilité de la parole en utilisant une erreur (MMSE) quadratique moyenne minimum, un modificateur (806) de SPP pour procurer un facteur (810) de modification de la SPP et un multiplicateur (804) pour recevoir la SPP et le facteur (810) et pour multiplier la SPP par le facteur (810).

Description

MODIFICATEUR DE LA PRÉSENCE DE PROBABILITÉ DE LA PAROLE PERFECTIONNANT LES PERFORMANCES DE SUPPRESSION DU BRUIT REPOSANT SUR LE LOG-MMSE RÉFÉRENCE À DES DEMANDES APPARENTÉES Cette demande est en relation avec les demandes suivantes : modificateur reposant sur un rapport signal à bruit estimé extérieurement pour des calculs internes de MMSE, dont l'inventeur est Guillaume Lamy et qui est déposée le même jour que la présente demande et estimation précise du rapport signal à bruit par progression reposant sur une probabilité de la présence de la parole MMSE, dont les inventeurs sont Guillaume Lamy et Bijal Joshi et qui est déposée le même jour que la présente demande. ARRIÈRE-PLAN TECHNOLOGIQUE On amis au point de nombreux procédés et dispositifs pour supprimer ou éliminer du bruit de signaux portant de l'information. Un procédé bien connu de suppression du bruit utilise une estimation du bruit obtenue en utilisant un calcul d'une erreur quadratique moyenne minimum ou "MMSE". La MMSE est décrite dans la littérature. Voir par exemple Alan V. Oppenheim et George C. Verghese "Estimation With Minimum Mean Square Error," MIT Open Course Ware, http.//ocw.mit.edu, dernièrement modifié, printemps 2010, auquel on se rapportera.
Bien que la Log-MMSE soit une méthodologie établie de suppression du bruit, des perfectionnements lui ont été apportés au cours du temps. Un perfectionnement consiste en l'utilisation de la présence de probabilité de la parole ou "SPP" sous la forme d'un exposant à l'estimateur de log-MMSE, q qui est connu comme étant l'estimateur reposant sur l'amplitude log-spectral optimum ou solution "OLSA", qui fait que l'algorithme de la MMSE atteint effectivement la quantité d'atténuation maximum autorisée. La modification OLSA de l'estimation du bruit par Log- MMSE souffre de deux problèmes connus. L'un des problèmes est qu'elle augmente ce que l'on appelle le bruit musical dans des situations de petits rapports de signal à bruit. Un autre problème plus significatif est qu'elle sur-supprime aussi de la parole faible dans des conditions bruyantes. Une estimation du bruit reposant sur la MMSE, qui réduit ou résout les problèmes dont on sait qu'ils existent avec l'art antérieur, la modification OLSE d'une détermination d'une estimation du bruit reposant sur la MMSE, serait un perfectionnement de l'état de la technique. L'invention y parvient par un procédé de réduction du bruit dans un signal reçu, caractérisé en ce qu'on calcule un facteur de présence (SPP) de probabilité de la parole en utilisant un calcul d'erreur (MMSE) quadratique moyenne minimum, le facteur de SPP ayant une valeur comprise entre une première valeur minimum et une deuxième valeur maximum et on modifie le facteur de SPP par une fonction ayant une valeur de sortie comprise entre une troisième valeur minimum et une quatrième valeur maximum pour obtenir une SPP gauchie. De préférence : - le stade de modification de la fonction de SPP comprend les stades de multiplication du facteur de SPP par une valeur obtenue en évaluant une fonction sigmoïde déterminée à l'avance ; - on configure la fonction sigmoïde en réaction à une détermination d'un rapport signal à bruit ; - la première et la troisième valeurs minimum sont égales ; - la deuxième et la quatrième valeurs maximum sont égales ; - le signal reçu comprend une pluralité de bandes de fréquences et on effectue les stades de calcul d'une SPP et de modification de la SPP sur chaque bande de fréquences, bande de fréquences par bande de fréquences et, pour obtenir un nombre correspondant de valeurs de SPP gauchies, on compare, en outre, chaque valeur de SPP gauchie à une valeur de seuil, si une valeur de SPP gauchie est supérieure à la valeur de seuil, on remplace la valeur de la valeur de la SPP gauchie par une valeur moyenne de toutes les valeurs de SPP gauchies ; - la valeur de seuil est sensiblement égale à une somme de la valeur moyenne des SPP gauchies et d'au moins un écart type de toutes les valeurs de SPP gauchies ; - on détermine une estimation du bruit dans le signal reçu en utilisant la valeur de la SPP gauchie dans un deuxième stade de la structure de MMSE, on détermine un rapport signal à bruit pour le signal reçu en utilisant l'estimation du bruit dans le signal reçu, on détermine une première fonction de gain à appliquer au signal reçu en utilisant le calcul/structure de MMSE et le rapport déterminé de signal à bruit, on détermine un gain minimum, on élève la première fonction de gain à une puissance égale à la SPP gauchie pour produire une première fonction de gain modifié ; et on multiplie la première fonction de gain modifié par le gain minimum élevé à une puissance, qui est égale à un moins la SPP ie pour obtenir un facteur de :H_ appliquer au signal reçu. L'invention vise également un dispositif de réduction du bruit dans un signal reçu, caractérisé en ce qu'il comprend un déterminateur de probabilité de la parole configuré pour calculer une première présence SPP de probabilité de la parole, en utilisant une erreur MMSE quadratique moyenne minimum, la SPP ayant une valeur comprise entre une première valeur minimum et une 5 deuxième valeur maximum, un modificateur de SPP configuré pour procurer un facteur de modification de la SPP, et un multiplicateur configuré pour recevoir la SPP et le facteur de modification de la SPP et pour multiplier la SPP par le facteur de modification de la SPP, le 10 multiplicateur procurant en sortie une SPP gauchie. De préférence : - le déterminateur de probabilité de la parole comprend un processeur numérique de signal ; - le modificateur de SPP est configuré pour procurer le 15 facteur de modification de la SPP en évaluant une fonction non linéaire déterminée à l'avance ; - la fonction non linéaire déterminée à l'avance comprend une fonction sigmoïde ; - le modificateur de SPP est configuré pour modifier une 20 forme de la fonction sigmoïde en réaction à une détermination d'un rapport signal à bruit. DESCRIPTION SUCCINCTE DES DESSINS La figure 1 est une courbe d'une forme d'onde unique représentative d'un signal de parole claire ;. 25 la figure 2 est une courbe d'un signal de bruit acoustique de fond ;. la fige rn u- courbe représentant un signal parole perturbé, c'est-à-dire une signal de parole propre tel que celui représenté à la figure 1 et un signal de 30 bruit acoustique de fond tel que celui représenté à la figure 2 ; la figure 4 représente des exemples du signal de parole perturbé représenté à la figure 3 ; la figure 5A représente une première trame d'échantillons de données qui, dans un mode de réalisation, comprend dix échantillons consécutifs d'un signal de parole perturbé ; la figure 5B représente une deuxième trame d'échantillons de données qui comprend dix échantillons qui sont produits après les dix premiers représentés à la figure 5A ;. les figures 6A et 6B représentent les amplitudes relatives de bandes ou de plages multiples de composantes 10 de fréquence qui représentent respectivement les première et deuxième trames dans le domaine fréquentiel ; la figure 7 est un schéma fonctionnel d'un dispositif de communication sans fil configuré pour avoir un déterminateur de MMSE perfectionné ; 15 la figure 8A est un schéma fonctionnel d'un déterminateur de MMSE perfectionné ; la figure 8B est un schéma fonctionnel d'un mode de réalisation préféré d'un déterminateur de MMSE ; la figure 9 est une représentation organigramme/schéma 20 fonctionnel du fonctionnement du déterminateur de MMSE perfectionné ; les figures 10A et 10B représentent des première et deuxième parties respectivement d'un organigramme décrivant des stades d'un procédé de gauchissement ou de 25 modification d'une probabilité (SPP) de présence de la parole et de suppression du bruit d'une SPP gauchie ; la figure 11 représente quatre courbes sigmoïdes ; et la figure 12 reps ùJ -u. ades d'un procédé de détermination d'un rapport signal à bruit. 30 DESCRIPTION DÉTAILLÉE On considère ici que le bruit est un signal intempestif ne portant pas d'information dans un système de communication. Du bruit blanc ou du bruit aléatoire est de l'énergie aléatoire, qui a une répartition uniforme d'énergie. Il est produit le plus communément par un mouvement d'électrons, tel qu'un courant passant dans un semiconducteur, dans une résistance ou dans un conducteur. Le bruit de grenaille est un type de bruit non aléatoire, qui peut être produit lorsqu'un courant électrique passe brusquement dans une jonction ou dans une connexion. Le bruit acoustique est soit un son intempestif ou un son qui n'est pas souhaitable. Dans un véhicule à moteur, le bruit acoustique comprend, mais sans limitation, le bruit du vent, le bruit des pneumatiques, le bruit du moteur et le bruit de la route. On détecte facilement le bruit acoustique par des microphones, qui doivent être utilisés avec un équipement de communication. Le bruit acoustique est ainsi "additionné" à des signaux de parole portant de l'information, qui sont détectés par un microphone. Supprimer le bruit acoustique exige ainsi d'atténuer sélectivement des signaux de fréquence audio, qui sont déterminés comme étant, ou qui sont considérés comme étant, des signaux intempestifs ou indésirables ne portant pas d'information. Malheureusement, de nombreux bruits acoustiques ne sont pas continus et peuvent être difficiles à supprimer. Telle qu'utilisée dans le présent mémoire, l'expression "limité en bande" se rapporte à un signal, dont la densité spectrale de puissance est zéro ou "coupée" au-dessus d'une certaine fréquence déterminée à l'avance. La fréquence déterminée à l'avance est, pour la plupart des systèmes de télécommunications comprenant à la fois une ligne cellulaire et une ligne filaire, de huit mille hertz (8 KHz).
La figure 1 est une représentation d'une période courte d'un signal 100 audio unique propre et limité en bande, tel que de la voix ou de la parole, qui varie en fonction du temps t. Par souci de clarté et de simplicité, on a 5 représenté seulement une forme d'onde correspondant à un seul signal. Comme le sait l'homme du métier, le signal 100 audio est quelque peu "sporadique" sur de courtes durées se mesurant en millisecondes. Le signal 100 comprend ainsi de manière inhérente de courte durées 102 10 pendant lesquelles le signal audio est manquant. Le signal 100 représenté à la figure 1 varie en amplitude avec le temps. Le signal 100 comprenant les durées de silence ou de calme 102 est ainsi connu par l'homme du métier comme étant un signal qui est dans le domaine 15 temporel. La figure 2 représente quelques centaines de millisecondes d'un signal 200 de bruit acoustique. A la différence du signal 100 audio représenté à la figure 1, le signal 200 de bruit est représenté comme sensiblement constant sur 20 au moins les quelques centaines de millisecondes représentées à la figure 2. Mais le signal 200 de bruit pourrait être constant sur de longues durées, comme cela se produira lorsque le signal de bruit provient du bruit du vent, du bruit de la route, et analogue. 25 Comme il est bien connu, dan un véhicule à moteur, la parole et le bruit coexistent habituellement, c'est-à-dire que, lorsqu'un signal 100 de parole et un signal 200 de bruit acoustique sont détectés en même temps par le même microphone, comme cela se produit lorsqu'une 30 personne utilise un microphone dans un véhicule alors que le véhicule se déplace à une vitesse relativement grande et alors que la fenêtre du conducteur est ouverte, le microphone additionnera la parole 100 et le bruit 200.
La figure 3 est une représentation simplifiée du signal 100 de parole de la figure 1, lorsque le signal 200 de bruit représenté à la figure 2 est additionné à la parole, comme cela se produit lorsqu'un microphone transforme à la fois un signal 100 de parole et un bruit 200 acoustique de fond. Comme le montre la figure 3, le signal 300 qui s'ensuit est un signal 300 audio "perturbé" et limité en bande, qui est une combinaison d'un signal 102 audio propre et limité en bande, tel que celui représenté à la figure 1, et d'un signal 104 de bruit acoustique, tel que celui représenté à la figure 2. Le signal 200 de bruit peut être considéré comme ayant été "additionné" au signal 100 de parole propre. On notera aussi qu'à la figure 3 les durées de calme 100 relatif ou d'absence 102 de parole sont "garnies" de bruit 200 de fond. A la figure 3, la durée identifiée par le repère 302 montre où le signal de bruit de fond représenté à la figure 2 occupe la durée 102 sinon calme du signal représenté à la figure 1.
Les communications vocales ou audio procurées par la plupart des systèmes de communications, y compris les systèmes cellulaires, sont présentement fournies par la transmission et la réception de données numériques, qui représentent des signaux variant dans le temps, ou analogiques, tels que ceux représentés aux figures 1 et 2. L'opération de transformation d'un signal analogique en une forme numérique est bien connue et exige d'échantillonner un signal limité en bande à un débit qui est au moj*-,7 ,7)11 le double, de la fréquence la plus haute qui est présente dans le signal limité en bande. Après que les échantillons d'un signal analogique ont été pris, les échantillons sont transformés en valeurs numériques ou "mots", qui représentent les échantillons. Les valeurs numériques représentant un échantillon d'un signal analogique sont transmises à une destination où les valeurs numériques sont utilisées pour recréer des échantillons d'un signal analogique, dont les échantillons d'origine ont été pris. Les échantillons recréés sont alors utilisés pour recréer le signal analogique d'origine à la destination. La figure 4 représente des échantillons 400 du signal 300 audio limité en bande et perturbé représenté à la figure 3. Certains des échantillons 404 d'un signal 300 perturbé seront des échantillons de seulement le bruit 200 acoustique, qui a été "additionné" par un microphone. D'autres échantillons 403 représenteront un signal 100 audio portant de l'information et du bruit 200. Que les échantillons 400 représentent un signal 100 propre et du bruit 200 ou seulement du bruit 200, tous les échantillons 400 sont transformés en des valeurs binaires pour transmission à une destination. Mais, comme indiqué ci-dessous, au moins un peu du bruit 200 dans le signal 300 perturbé peut être supprimé ou éliminé si l'on supprime des composantes du signal 300 perturbé dues au bruit 200. Il est ainsi souhaitable d'identifier ou de déterminer si un échantillon d'un signal perturbé représente présentement ou au moins représente probablement un signal 100 ou du bruit 200.
L'expression transformée de Fourier rapide (FFT) se rapporte à une opération bien connue de l'homme du métier dans la technique de traitement du signal numérique, par laquelle un signal dans le domaine temporel, y compris des signaux numériques, peut être transformé dans le domaine fréquentiel. Autrement dit, la FFT procure un procédé par lequel un signal dans le domaine temporel est représenté mathématiquement en utilisant un ensemble de signaux individuels de nombreuses fréquences différentes, qui, lorsqu'ils sont combinés ensemble, reformeront ou reconstruiront le signal dans le domaine temporel. Dit simplement, un signal dans le domaine fréquentiel est simplement une représentation numérique de divers signaux sinusoïdaux, chacun d'une fréquence différente, qui, lorsqu'ils sont additionnés les uns aux autres, reconstitueront le signal dans le domaine temporel. L'homme du métier dans la technique du traitement des signaux numériques sait que la manipulation et le traitement à la fois de signaux analogiques et numériques s'effectuent de préférence dans le domaine fréquentiel. L'homme du métier dans la technique du traitement des signaux numériques sait aussi que des échantillons d'un signal analogique et des représentations numériques de signaux de ce genre peuvent être aussi transformés et traités dans le domaine fréquentiel en utilisant la FFT. On omettra donc de décrire davantage les techniques FFT par souci de brièveté. La figure 5A représente les dix premiers échantillons 400 consécutifs représentés à la figure 4 et qui comprennent une première trame d'échantillons, trame 0, représentant un signal audio perturbé, tel que le signal 300 perturbé représenté à la figure 3. En tant que tel, la trame d'échantillons représentée à la figure 5A comprend des échantillons d'un signal 100 propre, qui ont été combinés à du bruit 200. La figure 5B représente un deuxième groupe de dix échantillons 404 consécutifs représentés à la figure 4 pris pendant l'intervalle identifié par le repère 402 et qui comprend une deuxième trame d'échantillons, trame 1, représentant seulement du bruit 200. Les figures 6A et 6B représentent les amplitudes relatives de diverses fréquences différentes dans des bandes B1 à B8 de fréquences différentes des dix échantillons représentés aux figures 5A et 5B. Les composantes de fréquence représentées aux figures 6A et 6B représentent les résultats d'une transformation des trames du domaine temporel au domaine fréquentiel. Des bandes différentes de fréquences, B1 à B8, de composantes, qui comprennent une FFT des dix échantillons de chaque trame, sont représentées sur les axes verticaux de chaque graphique ; l'amplitude relative, Amp, de 10 chaque composante de bandes B1 à B8 de fréquence, présente dans la FFT d'une trame est indiquée le long de l'axe "x". Les figures 6A et 6B représentent ainsi comment dix échantillons consécutifs ou une trame d'un signal peut être représenté dans le domaine fréquentiel 15 par les amplitudes relatives de fréquences différentes. L'audio plus le bruit ainsi que le bruit seul peuvent ainsi être représentés par des fréquences différentes d'amplitudes qui diffèrent. L'homme du métier de la technique de traitement des 20 signaux numériques sait qu'il existe des méthodes par lesquelles des trames dans le domaine temporel d'échantillons d'un signal 300 perturbé, telles que les trames représentées aux figures 5A et 5B, peuvent être transformées dans le domaine fréquentiel et y être 25 traitées numériquement. Après avoir mis les échantillons dans le domaine fréquentiel, les fréquences représentant les échantillons dans le domaine temporel, qui représentent le signal 300 perturbé d'origine, peuvent êtLe aLLenuees sélectivement afin de supprimer ou 30 d'atténuer des composantes de fréquence identifiées comme étant du bruit 200 ou dont au moins on pense qu'elles en sont. Autrement dit, lorsqu'on fait passer une trame d'échantillons 402 du domaine temporel au domaine fréquentiel et lorsqu'on traite sélectivement des représentations FFT de la trame pour déterminer si la trame contient probablement de la voix ou du bruit, les fréquences individuelles représentant le bruit 200 peuvent être atténuées dans le domaine fréquentiel, de manière à ce que, lorsque le signal d'origine dans le domaine temporel est reconstruit, le bruit 302 contenu dans le signal 300 d'origine perturbé sera réduit ou éliminé. Pour l'efficacité du calcul, le dispositif et le procédé décrits dans le présent mémoire évaluent des représentations numériques d'échantillons de signaux, dix à la fois. Dix représentations de ce genre, sont désignées ici comme étant une "trame". On effectue de préférence le traitement par un processeur (DSP) de signaux numériques, mais on peut effectuer aussi par un processeur tout usage, programmé d'une manière appropriée. La figure 7 est schéma fonctionnel simplifié d'un dispositif 700 de communication sans fil. Le dispositif 700 comprend un microphone 702 classique, qui transforme des signaux à fréquence audio, qui comprennent un signal 704 de parole et un signal 706 de bruit acoustique de fond, en un signal 708 analogique électrique. Le signal 708 de sortie du microphone 702 est ainsi un signal 704 de parole portant de l'information, qui est combiné à du bruit 706 de fond que capte aussi le microphone 702. La sortie de parole 708 perturbée du microphone 702 est transformée en un signal 714 de format numérique par un convertisseur 712 classique analogique à numérique (A/D).
Comme il est bien connu, le convertisseur 712 A/D échantillonne le signal analogique à un débit déterminé à l'avance et transforme les échantillons en valeurs binaires, c'est-à-dire en valeurs numériques.
Les valeurs numériques du convertisseur 712 A/D, qui sont des représentations 714 des échantillons du signal 708 de parole perturbé, sont filtrées numériquement dans un filtre 716 passe bande numérique classique, qui limite en bande le signal 714 numérique et ainsi limite en bande efficacement des signaux du microphone 702. Le filtrage numérique est bien connu de l'homme du métier. Les représentations 718 numériques limitées en bande du signal 708 de parole perturbé sont transformées dans le domaine 722 fréquentiel par un convertisseur 720 FFT classique. Plusieurs procédés de calcul d'une transformée (FFT) de Fourier rapide sont bien connus de l'homme du métier dans la technique de traitement des signaux numériques. On omettra ainsi une description des déterminations FFT par souci de brièveté. Les signaux 722 dans le domaine fréquentiel du convertisseur 720 FFT sont fournis à un déterminateur 740 de MMSE. Le déterminateur 740 MMSE traite des représentations dans le domaine fréquentiel d'échantillons de trame, c'est-à-dire dix échantillons à la fois, pour déterminer si les trames représentent probablement de la parole ou du bruit. Le déterminateur 740 de MMSE atténue des trames qui sont probablement du bruit. Des trames provenant du déterminateur 740 de MMSE sont fournies à un convertisseur 750 classique de transformée (iFT) de Fourier rapide inverse. Il reconstruit des représentations numériques des échantillons d'origine moins au moins un peu du bruit de fond capté par le microphone 702. Un co-vertisseur 760 classique numérique analogique (D/A) reconstruit le signal audio perturbé d'origine, mais sous la forme d'un signal 762 à bruit réduit, qui est transmis par un émetteur 770 classique. Une suppression du bruit a lieu ainsi dans le traitement dans le domaine fréquentiel effectué par le déterminateur 740 de MMSE. Comme décrit ci-dessous, un traitement du signal numérique dans le domaine fréquentiel par le déterminateur 740 de MMSE fournit des probabilités contemporaines et adaptatives ou des estimations du point de savoir si le ou les signaux venant du microphone 702 sont de la parole ou du bruit. Le déterminateur 740 de MMSE fournit également des facteurs d'atténuation qui sont utilisés pour atténuer sélectivement des composantes de chaque sous-bande, dont des exemples sont les sous-bandes B1 à B8 représentées aux figures 6A et 6B. Il est donc important d'estimer avec précision si une représentation dans le domaine fréquentiel d'un signal est une représentation qui représente de la parole ou du bruit. Tel qu'utilisé dans le présent mémoire "temps réel" désigne un mode de fonctionnement dans lequel un calcul est effectué pendant le temps où se produit une opération extérieure, afin que les résultats du calcul puissent être utilisés pour commander, surveiller ou répondre à temps à l'opération extérieure. Déterminer si une représentation dans le domaine fréquentiel d'un échantillon de signal peut représenter de la voix ou du bruit est bien connu, mais n'est pas trivial, et exige des calculs nombreux à faire en temps réel, ou presque en temps réel. A des fins d'efficacité du calcul, la détermination du point de savoir si un échantillon peut contenir ou représenter de la parole ou bruit n'est pas c_L-Lectuée sur une base d'échantillon par écflantilion, mais, au contraire, est effectuée sur de multiples échantillons consécutifs constituant une trame. Dans un mode de réalisation préféré, la détermination du point de savoir si des signaux d'un microphone contiennent de la parole ou du bruit repose sur des analyses de données représentant de multiples bandes de fréquences différentes dans dix échantillons consécutifs, les dix échantillons étant désignés ici comme étant une trame de données.
Dit simplement, pour analyser fréquentiel de trames d'une donnée de perturbé pour déterminer une probabilité probabilité, qu'il représente un signal Telle qu'utilisée dans le présent mémoire, de la présence de la parole ou SPP et le le déterminateur de MMSE est configuré des représentations dans le domaine signal audio améliorée, ou ou un bruit. la probabilité symbole q sont utilisés indifféremment. Le déterminateur 740 de MMSE comprend ainsi un perfectionnement de l'opération de la technique antérieure pour déterminer une probabilité de présence de la parole ou "SPP" décrite par Ephraim et Cohen, "Recent Advancements in Speech Processing", 17 mai 2004, désigné ci-apîès par "Ephraim et Cohen", auquel on se reportera. Voir aussi Y. Ephraim et D. Malah, "Speech enhancement using a minimum mean square error short time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Processing, volume 32, pages 1109 à 1121, décembre 1984 ; P.J. Wolfe et S.J. Godsill, "Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement", EURASIP Journal on Applied Signal Processing, volume 2003, Issue 10, pages 1043 à 1051, 2003 ; Y. Ephraim et D. Malah, "Speech enhancement using a minimum mean square error Log-spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Procc ` ,imr- 33, pages 443 à 445, décembre 193), auxquels on se reportera. Tel qu'utilisé dans le présent mémoire, le mot gain désigne une atténuation. Tel que le mot est utilisé dans le présent mémoire, un gain est donc négatif. Dans Ephraim et Cohen et dans les figures, le gain est représenté par la variable "G" comme dans Gmm'. Le déterminateur 740 de MMSE détermine une SPP, qui, comme décrit ci-dessus, est une estimation ou une probabilité qu'une trame contienne de la parole. Le déterminateur 740 de MMSE détermine aussi une atténuation ou un facteur de gain à appliquer aux composantes de chacune des diverses sous-bandes de fréquences de chaque trame, comme décrit par Ephraim et Cohen. La SPP ou ê et l'atténuation Grnm' fournies par la méthodologie MMSE adoptée par Ephraim et Cohen sont déterminées d'une manière adaptative trame par trame. On utilise la SPP déterminée pour une première trame dans la détermination d'une SPP pour une trame suivante. La MMSE adoptée par Ephraim et Cohen exige aussi une estimation d'un rapport (SNR) signal à bruit. Malheureusement, lorsque la valeur du SNR utilisé par la méthode MMSE d'Ephraim et Cohen devient petite, les valeurs qui résultent de la SPP et de Gmmse seront incorrectes. Il s'ensuit que le bruit et donc la voix accompagnée par le bruit seront supprimés de plus en plus. Autrement dit, le calcul de MMSE tel que décrit par Ephraim et Cohen s'en remet à une estimation (SNR) signal à bruit qui est typiquement imprécise. Dans le mode de réalisation préféré du déterminateur 740 25 de MMSE décrit dans le présent mémoire, la SPP déterminée en utilisant la méthode d'Ephraim et Cohen est modifiée après avoir été calculée. La modification est effectuée en réaction à f7,')-rt signal à bruit fourni extérieurement et déterminé extérieurement, afin de 30 réduire ou d'éliminer la sur-atténuation de la parole lorsqu'un rapport signal à bruit est petit, c'est-à-dire est inférieur à 1,5:1. Dans un mode de réalisation préféré et comme décrit ci-dessous, dans certaines conditions de SNR, la modification de la SPP n'est pas linéaire et, dans d'autres conditions de SNR, la modification de la SPP est linéaire. La figure 8A est un schéma fonctionnel d'un déterminateur 800 perfectionné de MMSE à utiliser dans un dispositif de communication, tel que le dispositif représenté à la figure 7. Le déterminateur 800 de MMSE comprend un déterminateur 802 de probabilité (SPP) de la parole, un multiplicateur 804 et un modificateur 806 de la SPP.
Le déterminateur 802 de la SPP fournit une SPP 806 comme décrit par Ephraim et Cohen. Le multiplicateur 804 modifie la SPP 806 par un facteur 810 de modification de la SPP, qui est une valeur entre zéro et un nombre obtenu à partir du modificateur 806 de la SPP. La sortie 812 du multiplicateur 804 est une "SPP gauchie", ainsi dénommée parce que le facteur 810 de modification obtenu à partir du modificateur 806 de la SPP est une valeur qui varie non linéairement. Dans le mode de réalisation préféré, le modificateur de la SPP procure un facteur 810 de modification de la SPP en évaluant une fonction non linéaire, de préférence une fonction sigmoïde, dont les paramètres représentent un rapport (SNR) signal à bruit fourni extérieurement et déterminé de préférence en temps réel et à partir des valeurs présentes du signal. Le déterminateur 800 perfectionné de MMSE fournit ainsi une SPP, qui, de manière inhérente, est plus précise que cela n'est possible en utilisant Ephraim et Cohen, parce que la SPP provenant du déterminateur 800 de MMSE est déterminée en réaction à un SNR en temps réel. Comme on peut le voir à la figure 8B, le déterminateur 800 de MMSE est incorporé de préférence sous la forme d'un processeur 850 de signal numérique (DSP), qui est couplé à un dispositif 860 de mémoire non transitoire, qui mémorise des instructions pouvant être exécutées. Le DSP 850 est couplé au dispositif 860 de mémoire par l'intermédiaire d'un bus 870 classique. Le DSP sort des valeurs de la SPP et des trames de données représentant dix échantillons de voix consécutifs, dont les composantes de fréquence sont atténuées comme décrit ici, afin de réduire ou d'éliminer le bruit 200 dans un signal 200 audio perturbé.
Les instructions qui peuvent être exécutées dans la mémoire non transitoire font que le DSP effectue des opérations sur des trames de données, comme représenté à la figure 9, qui est un schéma fonctionnel décrivant un procédé préféré d'amélioration d'une suppression de bruit reposant sur une log-MMSE par la détermination d'une SPP à partir d'un SNR en temps réel, ou en temps presque réel, obtenu à partir d'une source extérieure, c'est-à-dire qui n'est pas la MMSE soi-même. En se reportant maintenant à la figure 9, qui représente le fonctionnement du déterminateur 800 de la MMSE au stade 902, des échantillons d'un signal perturbé, qui constituent une "trame" et qui sont donc considérés comme étant d'un temps t d'apparition identique, sont traités par le déterminateur 802 de la probabilité de la parole pour fournir une SPP pour chacune des bandes k de fréquence pour une trame. Le traitement prévu au stade 902 fournit une SPP ou (^/ en évaluant l'équation 3.11 comme enseigné par Ephraim et Cohen, dont une copie est donnée ci-dessous. q 1- (2tk t-1 k (1+ XP galt-1 Equation 3.11 Dans l'équation 3.11 et dans le déterminateur 800 de MMSE, "k" est une sous-bande de fréquences, c'est-à-dire une plage de fréquences fournie par une évaluation d'une transformée de Fourier rapide ; "t" est une trame de données, c'est-à-dire dix ou plus représentations consécutives dans le domaine fréquentiel d'échantillons pris dans un signal de voix perturbé, qui sont "agglomérées" ensemble, est une estimation du rapport signal à bruit (SNR) d'une première trame ; d est une estimation du SNR d'une trame suivante, SPP ou q est ainsi déterminée d'une manière adaptative, trame après trame. Voir Ephraim et Cohen, page 10. Comme on peut le voir dans l'équation 3.11, la valeur de q pour une trame particulière de données est obtenue en 15 utilisant un ê déterminé précédemment, c'est-à-dire un pour une trame précédente, qui est dénommée La SPP change en fonction du temps en réaction aux variations de la valeur de et de d, qui dépendent d'un SNR. La précision de la SPP dépendra ainsi d'un SNR. 20 La SPP, ou q, provenant d'un calcul de l'équation 3.11 est un scalaire, dont la valeur est comprise entre zéro et un, y compris zéro et des valeurs intermédiaires. Un zéro indique une probabilité zéro qu'une bande particulière de fréquences donnée de trame contienne une 25 donnée de parole ; un indique une certitude virtuelle qu'une bande correspondante de fréquences d'une trame de données contienne de la parole. Comme on p=t ,.dans l'équation 3.11, lorsque un rapport signal à bruit, est petit, c'est-à-dire proche 30 de 1:1, comme cela se produira lorsqu'un canal est perturbé, la SPP sera en conséquence petite aussi. Une SPP évaluée comme petite signifie qu'il est improbable qu'un échantillon représente de la parole, ce qui déclenchera une atténuation de fréquence d'une composante de trame. L'équation 3.11 donne ainsi au moins une caractéristique malheureuse de la MMSE adoptée par Ephraim et Cohen, qui est une sur-atténuation intempestive de la parole, lorsqu'un SNR tend vers un. Des valeurs incorrectes du SNR peuvent donner une atténuation inacceptable de la parole. Afin de réduire, ou d'éliminer, la sur-suppression de signaux de parole dans des conditions bruyantes, le déterminateur 800 de MMSE représenté à la figure 8 est configuré pour modifier la valeur de q, qui est déterminé à partir de l'équation 3:11 en réaction à la réception d'un SNR, trame par trame. Comme représenté à la figure 8 et à la figure 9, le q fourni par l'équation 3:11 d'Ephraim et Cohen est modifié en "multipliant" cette valeur de q par un nombre obtenu par l'évaluation d'une fonction non linéaire, de préférence une fonction sigmoïde, dont la forme est : 1 Y = 1+ e-c(x+b) Equation 1 dont la forme générale est fournie à la figure 11, qui représente trois courbes 1102, 1104, 1106 sigmoïdes, dont les formes sont sensiblement les mêmes. En général, une courbe sigmoïde a deux caractéristiques : une pente ou non linéarité c et un point milieu b. La sortie de la fonction sigmoïde, y, est considérée ici comme étant un facteur de gauchissement. La valeur de y, qui est obtenue lorsque des valeurs de "x" sont loin du point milieu b et dans les régions 1108 non linéaires des courbes, change non linéairement, ou gauchit, une SPP déterminée en utilisant la MMSE obtenue en utilisant la méthodologie d'Ephraim et Cohen.
Dans une équation sigmoïde, "b" est le point milieu de la courbe sigmoïde. Dans le mode de réalisation préféré de l'invention, la valeur de "x" est un rapport de signal à bruit ou SNR. A la différence du SNR utilisé dans la méthodologie MMSE classique, dans un mode de réalisation préféré suivant l'invention, un SNR est obtenu de préférence à partir d'une source extérieure comme décrit ci-dessous. Le point milieu b est déterminé aussi par le SNR fourni extérieurement.
Les valeurs du point milieu b, de la courbe sigmoïde, de la pente, c, et de x ou le SNR déterminent la valeur de y, valeur qui peut être désignée comme étant un facteur de gauchissement. La valeur du facteur de gauchissement, y, détermine le degré auquel la SSP déterminée par le 15 déterminateur 802 de SSP est gauchie ou modifiée. Pour un SNR et une pente, c, donnés, changer le point, b, milieu changera l'agressivité de la fonction sigmoïde. Dans un mode de réalisation préféré de l'invention, le gauchissement tend à diminuer lorsque du bruit devient 20 prépondérant, c'est-à-dire lorsque le SNR est petit. Il est donc souhaitable de réduire le gauchissement sigmoïde pour qu'il soit moins agressif dans des situations de grand bruit, afin de maintenir une présence de probabilité de parole, même si elle peut ne pas être 25 fiable. Modifier le gauchissement sigmoïde et donc son agressivité s'effectue en "décalant" la courbe sigmoïde à droite et à gauche le long de l'axe x. Ce faisant, on décale aussi le point milieu de la coure: sigmoïde. Inversement, décaler le point milieu d'une courbe 30 sigmoïde décalera aussi la sigmoïde à gauche et à droite et changera l'agressivité du gauchissement sigmoïde. En se reportant à la figure 11, qui représente quatre courbes 1102, 1104, 1106 et 1108 sigmoïdes, la détermination d'un point milieu P pour une courbe sigmoïde évaluée par le modificateur 662 de SPP est faite selon l'équation suivante : Teal-Pfactor (SNR actuel) - 1 SNR actuel S SNR SNR2 < SNR actuel < SNR0 SNR actuel > SNRo SNR actuel - SNR0 SNR1 - SNR0 Equation 2 Dans l'équation ci-dessus, SNR0 et SNR1 sont des constantes déterminées expérimentalement, de préférence d'environ 2,0(1,6dB) et 10,0(10dB), respectivement. Warpfactor(SNR actuel) varie entre 0, 0 et 1, 0 . On explique la détermination du SNR actuel ci-dessous.
En utilisant un Warpfactor déterminé à l'avance, ou souhaité, on calcule le midP pour les courbes représentées à la figure 11, qui est aussi le b dans une fonction sigmoïde : midP = Warpfactor. (midPmin midPmax) midPmax Equation 3 Les limites, midPmax et midPmin, sont des limites déterminées expérimentalement de midP, de préférence d'environ 0,5 et d'environ 0,3, respectivement. Elles limitent ou définissent la plage de valeurs que le facteur de gauchissement peut atteindre. Dans l'équation 3 ci-dessus, sélectionner des valeurs pour midPmin, midPmax et Warpfactor déplacera la valeur du point milieu b le long de l'axe x. En déplaçant la valeur de mie vers ia ciroite en direction de mienax, on réduit re gauchissement non linéaire, ou on le minimise, lorsque le SNR devient petit. Déplacer le point milieu midP vers la gauche en direction de midPmin augmente le gauchissement non linéaire (plus d'effet), lorsque le SNR devient grand, afin de maintenir de la parole dans des conditions perturbées Lout en supprimant du bruit musical dans des conditions moins bruyante. La pente c des courbes sigmoïdes peut être rendue sélectivement très agressive ou neutre, c'est-à-dire linéaire ou presque linéaire. A la figure 11, les courbes identifiées par les repères 1102, 1104 et 1106 ont des points milieu différents et des pentes qui sont sensiblement les mêmes. La courbe identifiée par le repère 1108 a toutefois le même point milieu que la courbe identifiée par le repère 1104, mais une pente réduite ou moins agressive. Lorsqu'une pente de courbe sigmoïde est agressive, telle que la courbe identifiée par le repère 1108, la valeur de la SPP devient plus discriminante entre des parties de bruit et des parties de parole du spectre de trame présent. Lorsque la pente de la courbe sigmoïde est linéaire, ou presque linéaire, la SPP telle que calculée par la MMSE est sensiblement inchangée. Dans un mode de réalisation préférée, la pente c et le point milieu sont déterminés par des rapports signal à bruit. Un but ou un objectif, dans la sélection de la forme d'une courbe sigmoïde, est de rendre la SPP neutre dans des conditions de NCR petit, afin de maintenir autant de parole que possible et de rendre la SPP plus discriminante lorsqu'un SNR est relativement grand, c'est à dire qu'une suppression maximum de bruit Gmin est réalisée. La pente c(Warpjactor) de gauchissement sigmoïde est une 30 fonction linéaire du Warp factor : c(Warn = a.W Warp n factor,) factor b Equation 4 Mais, comme indiqué ci-dessus, un facteur de gauchissement est une fonction du SNR. On calcule les coefficients "a" et "b" par : a = eviliv- CMAX), b = CmIN - a Equation 5 CMIN = 1 et CMAX = 15 sont déterminés, ou sélectionnés, expérimentalement et définissent des degrés maximum et minimum de gauchissement non linéaires. Il a été déterminé expérimentalement que le point b milieu doit être maintenu entre une valeur b',' maximum égale à environ 0,8 et une valeur bmin minimum égale à environ 0,3, afin de limiter le degré dont la SPP 806 peut être atténuée ou gauchie en réaction à un SNR. En se reportant à nouveau à la figure 8, le produit de obtenu en utilisant l'équation 3.11 et fourni par le déterminateur 802 de la SPP, par la valeur d'une fonction sigmoïde, telle qu'indiquée ci-dessus, est une SPP gauchie. C'est aussi la valeur de remplacement de q dans le calcul de q pour la trame suivante de données.
Comme représenté à la figure 9, on détermine la SPP gauchie en utilisant deux SNR. Autrement dit, le procédé et le dispositif suivant l'invention mettent à jour d'une manière adaptative le calcul d'une SPP ou ê en utilisant une fonction sigmoïde dont la forme est commandée ou déterminée en réaction à un rapport signal à bruit, afin de lisser, ou de réduire, l'atténuation de la voix quand le SNR est petit et d'augrr.L., l'EO:ténuation lorsque la valeur de q de l'équation 3.11 est grande. En se reportant encore à la figure 9, on effectue la 30 détermination d'une SPP et d'une SPP gauchie pour toutes les bandes de fréquences d'une trame. Dans le mode de réalisation préféré, après avoir calculé les SPP gauchies au stade 904 pour toutes les bandes de fréquences d'une trame, on "débruite" les SPP au stade 906, les détails en étant représentés à la figure 10, qui représente des stades d'un procédé 1000 de débruitage de SPP gauchies.
En un premier stade 1002, décrit ci-dessus, on calcule une SPP ou q par l'évaluation de l'équation 3.11 d'Ephraim et Cohen. Après qu'un SNR tel que décrit dans le présent mémoire est reçu au stade 1004, il est déterminé au stade 1006 un modificateur de SPP, qui, dans le mode de réalisation préféré, est une valeur obtenue par l'évaluation d'une fonction sigmoïde dont la forme est déterminée par le SNR reçu au stade 1004. Au stade 1008, la SPP déterminée au stade 1002 est modifiée pour produire une SPP' gauchie ou q gauchi.
Après avoir déterminé des SPP gauchies pour toutes les bandes de fréquences comprises dans une trame de données, on détermine une moyenne des valeurs des q gauchis au stade 1010. Après avoir déterminé la moyenne de toutes les valeurs de q gauchies au stade 1010, on compare au stade 1012 chacune des SPP gauchies calculées précédemment à un premier seuil TH1 minimum de SPP gauchies pour identifier les valeurs de SPP gauchies qui peuvent être aberrantes. TH1 est déterminé à l'avance et est de préférence une valeur égale à la valeur moyenne de toutes les valeurs (..) des q gauchis augmentée de deux écarts type de q. On effectue une comparaison arithmétique au stade 1014, 1. valeur d'une SPP gauchie étant comparé à TP1 i la valeur d'une SPP gauchie est déterminée comme étant plus grande que TH1, on considère que la SPP gauchie est une aberration. Aux stades 1016 et 1018, on remplace des valeurs aberrantes de SPP gauchies par la moyenne SPP (1) pour obtenir un jeu de SPP gauchies, la valeur de chacune indiquant la probabilité que de la parole soit présente dans une bande de fréquences correspondante d'une trame correspondante obtenue à partir d'un signal variable dans le temps.
Au stade 1020, on modifie une estimation de SNR pour chaque bande de fréquences, telle qu'adoptée par Ephraim et Cohen, en utilisant la valeur de SPP gauchie. On calcule un rapport SNR' révisé de signal à bruit au stade 1022, dont le résultat au stade 1024 donne une première fonction Gmmse de gain, qui doit être multipliée par la donnée de trame dans le domaine fréquentiel. Un facteur Gmin de gain minimum est déterminé au stade 1026. Dans le dernier stade 1028, un facteur de gain final est déterminé en multipliant la première fonction de gain modifié par le gain minimum portée à une puissance égale à un moins la SPP gauchie pour obtenir un facteur de gain final qui est appliqué au signal reçu, ce qui signifie qu'il est appliqué à la composante de fréquence du signal reçu.
Dans un mode de réalisation préféré, le facteur de présence de probabilité de la parole qui est produit par évaluation du premier stade du calcul de MMSE est compris entre une première valeur minimum égale à zéro et 1,0. Le facteur de SPP est modifié par une sortie d'une fonction sigmoïde dont la valeur va de préférence de zéro à un. Dans un mode de réalisation en variante, la valeur du facteur de présence de la probabilité de la parole pro-,7nFipt (lu (7;31-11.1 de la MMSE peut être des autres que zéro et un, pour autant qu'elles sont toutes inférieures à un. De même, les valeurs entre lesquelles le facteur de gain de SPP est modifié peuvent être des valeurs comprises entre zéro et un pourvu que les valeurs soient inférieures à un.
Les rapports de signal à bruit utilisés pour déterminer la forme de la fonction sigmoïde et ainsi les facteurs de gauchissement et les SPP gauchies sont déterminés de préférence en utilisant une méthodologie représentée graphiquement à la figure 12. Dans un mode de réalisation préféré, déterminer une estimation du rapport signal à bruit s'en remet en fait à deux estimations de SNR et à une mesure nouvelle de fiabilité de la présence de probabilité de la parole. On désigne la première estimation de SNR, dans le présent mémoire, comme un "SNR provisoire". C'est une estimation de SNR qui tend vers 0dB très rapidement en fonction du temps, lorsqu'un signal audio est accompagné d'un niveau haut de bruit acoustique, comme cela se produira dans des environnements bruyants. Un compartiment de passager d'un véhicule à moteur roulant à une vitesse relativement grande, alors que les fenêtres sont abaissées, est un environnement bruyant. La deuxième estimation de SNR est désignée ici par "SNR actuel", qui est une estimation du SNR plutôt précise, qui tend à être fiable, même dans des environnements bruyants. La mesure nouvelle de la fiabilité de la présence de la probabilité de la parole est désignée, dans le présent mémoire, par "eel". La figure 12 montre comment ces composantes SNR provisoire, SNR actuel et ciRel interagissent les unes avec les autres et se traduisent par la détermination d'un SNR présent plutôt précis, qui est utilisé pour déterminer la forme de la fonction sigmoïde par laquelle la ué.ermlnation d'Ephraim et Cohen de la SPP est gauchie. La figure 12 montre que diverses déterminations sont faites simultanément ou en parallèle avec d'autres déterminations. Autrement dit, la méthodologie représentée à la figure 12 n'est pas entièrement séquentielle.
Aux stades 1202 et 1204, on calcule une SPP ou q pour une première trame de données en utilisant le procédé de la technique antérieure d'Ephraim et Cohen. On évalue une fonction sigmoïde de la forme indiquée ci-dessus, on détermine le point P milieu et un facteur de gauchissement est produit aux stades 1206 et 1208. Au stade 1210, on modifie le facteur de gauchissement produit au stade 1208. Mais, le facteur de gauchissement du stade 1210 reste entre des valeurs de seuil du facteur de gauchissement reçu au stade 1212. On calcule maintenant les seuils par Denoisemax Denoisethresh __ Denoisemax Denoisethresh = -21 (1 - ciRet) Denoisemin < Denoisethresh < Denoisemax Denoisemin Denoisethresh < Denoisemh, Equation 6 gRel est un facteur de fiabilité de la présence d'une 15 probabilité de la parole. eel tend vers 0, lorsqu'on s'attend à une grande fiabilité, et vers 1, en cas de manque de fiabilité. Denoise max et Denoise min sont des constantes déterminées expérimentalement typiquement d'environ 0,3 20 et d'environ 0,0, respectivement, et sont des valeurs maximum et minimum pour les facteurs de gauchissement de SPP. Le seuil Denoise, Denoisethresh tend donc vers Denoise max lorsque la fiabilité de la SPP, eel, est grande et tend vers Denoise min lorsque la 25 fiabilité,eel, est petite. Après avoir ajusté la SPP au stade _LL 0, une SPP "regauchie" est sortie au stade 1212 en vue d'être utilisée dans le calcul de la SPP pour la trame suivante de données. Au stade 1214, on utilise une SPP "regauchie" pour calculer 30 un "SNR provisoire" et un "SNR actuel history modifier", a.
Dans la détermination d'un rapport signal à bruit, il est utile de considérer un historique des valeurs de signal à bruit sur une durée récente relativement courte. Dans la détermination d'un SNR provisoire et d'un SNR actuel, on introduit un modificateur ahig d'historique de SPP. On calcule sa valeur sur la base de la moyenne et de l'écart type de la présence d'une probabilité de la parole, telle que calculée ci-dessus. Le modificateur ahie d'historique est calculé en deux stades. Le premier stade est la transformation linéaire de la moyenne et de l'écart type de la SPP, limitée entre deux valeurs, k_l et k2, puis expansée à nouveau entre 0 et 1, tel que : k1 «hist} k1 whist= 4r) moyen 2 * std(q) k2 <ochist< k2 «hist-5- k2 °chie- k2 c(hist= k2 Equation 7 Dans l'équation ci-dessus, kl et k2 sont des constantes déterminées expérimentalement et typiquement d'environ 0,2 et d'environ 0,8, respectivement. Compressé et expansé amplifie empiriquement une différenciation entre la parole et le bruit et accélère les changements de valeur du SNR ou le "mouvement" du SNR. Le modificateur othie historique tend ainsi vers la valeur de 1,0 quand la parole, pour la grande partie, est présente et tend vers la valeur de 0,0 quand on détecte du bruit pour la plus grande partie. Un calcul de SNR provisoire exige le calcul d'une énergie de la parole à long terme, ltSpeechEnergy, qui est mise à jour de préférence à chaque trame, et le calcul d'une énergie de long terme, ltNoiseEnergy. La cadence de mise à jour repose sur un facteur de diminution de façon exponentielle. ItSpeechEnergy = ALPHALT ItSpeechEnergy + (1 - ALPHALT Equation 8 ItNoiseEnergy = ALPHALT(I- ItNoiseEnergy + (1 - ALPHALT(I- ahist)).mic Equation 9 Dans les équations ci-dessus, "Mic" est l'énergie en joules, sortant d'un microphone qui détecte de la parole et du bruit acoustique de fond. Les équations ci-dessus représentent de l'énergie de parole et de bruit en fonction de la sortie du microphone et d'ALPHA LT, qui est une constante déterminée expérimentalement dont la valeur est typiquement de 0,93, qui correspond à une vitesse d'adaptation relativement rapide du microphone. Lorsque ainsi tend vers 1, comme cela se produira lorsque pour la plus grande partie de la parole est présente, l'énergie de parole à long ItSpeechEnergy, est mise à jour suivant un facteur normal de décroissance de façon exponentielle, tandis que ItNoiseEnergy tend à conserver sa valeur historique. Lorsque allie tend vers 0, l'inverse est vrai. Au stade 1218, on détermine un "SNR provisoire" à partir de l'énergie de parole à long terme et de l'énergie de bruit à long terme. Le SNR provisoire est ainsi déterminé en utilisant l'énergie de parole à long terme et l'énergie de bruit à lona- t,rme, qui sont déterminées à partir des équations 8 et 9 indiquées ci-dessus. Le SNR provisoire peut ainsi être exprimé par : SNR provisoire ItSpeechEnergy ItNoiseEnergy Equation 10 La valeur de SNR, SNRp rovisoirer est ainsi appelée parce que sa valeur n'est pas fixée ou rigide. Ce qui signifie qu'elle est mise à jour continuellement et qu'elle tend à atteindre OdB, lorsque la parole n'est pas présente en raison d'une estimation de probabilité de la parole qui n'est pas fiable dans des ambiances très bruyantes. Au stade 1218, on calcule la quantité neer', qui est une estimation de fiabilité de la présence d'une probabilité de parole. eel a une relation linéaire directe avec la valeur de SNR provisoire telle qu'indiqué dans l'équation suivante. 1 SNR provisoire Ç SNR SNR1 < SNR provisoire < SNRo SNR provisoire SNRo ciRel (SNR provisoire) -- SNR - SNR, SNRI. - SNR0 0 Equation 11 La forme de l'équation 11 ci-dessus est identique à l'équation 3, bien que son but soit différent. Suivant l'équation 11, lorsque SNR provisoire devient petit, le facteur eel de fiabilité tend vers 1 ; lorsque SNR provisoire devient grand, le facteur eel de fiabilité tend vers O. Au stade 1220, on calcule un "indicateur de décision" 25 pour un SNR actuel. L'indicateur de décision, qui est utilisé pour mettre à jour le SNR actuel, est en fait la même variable que celle utilisée comme seuil de diminution que l'on a vu à l'équation 6 pour Denoisemmsh. Lorsque Denoisethresh est plus petit que Denoise max r la 30 fiabilité de l'estimateur i SEI montre qu'il n'est pas "sûr" de mettre à jour l'énergie de parole à long terme. Mais il est "sûr" de mettre à jour l'énergie de bruit, parce que lorsqu'il y a beaucoup de bruit, l'énergie du signal plus l'énergie du bruit est égale 35 approximativement à l'énergie du bruit elle-même.
Finalement, au stade 1222, on calcule le SNR actuel. De manière semblable au SNR provisoire, le SNR actuel utilise le même modificateur d'historique sur sa constante exponentielle, mais une logique dure est maintenant en place pour mettre en oeuvre la mise à jour seulement lorsque cela est exigé, comme le montre la séquence logique de la figure 12, le calcul de l'énergie de la parole et du bruit s'effectuant suivant ces équations : ItSpeechEng = ALPHALTreal ItSpeechEng + (1 - ALPHALTreaI ah's`).Mic Equation 12 ItNoiseEng = ALPHALTreal(1- ah", ItNoiseEng + (1 - ALPHALTreal(1-e").Mic Equation 13 Le calcul de cchis, s'effectue comme représenté à l'équation 15 7 ci-dessus. "Mic" est une énergie du microphone. ALPHA LT real est une constante déterminée expérimentalement typiquement d'environ 0,99 (vitesse d'adaptation lente). Le SNR actuel, qui est utilisé pour déterminer la forme 20 de la fonction sigmoïde, est calculé en utilisant l'énergie de la parole à long terme et l'énergie du bruit à long terme, calculé en utilisant les équations 12 et 13 respectivement. Le SNR actuel peut ainsi être exprimé par : 25 ItSpeechEng SNR actuel ItNoiseEng Equation 14 Il est important de noter que les valeLi::; iniLIJ es sont affectées au SNR provisoire et au SNR actuel. Tous deux 30 sont fixés initialement à environ 20dB. De même, l'énergie de la parole à long terme, ItSpeechEng, est fixée initialement à 100. L'énergie du bruit à long terme, ItNoiseEng, est fixée aussi à 1,0.

Claims (13)

  1. REVENDICATIONS1. Procédé de réduction du bruit dans un signal reçu, caractérisé en ce que : on calcule un facteur de présence (SPP) de probabilité de la parole en utilisant un calcul d'erreur (MMSE) quadratique moyenne minimum, le facteur de SPP ayant une valeur comprise entre une première valeur minimum et une deuxième valeur maximum ; et on modifie le facteur de SPP par une fonction ayant une valeur de sortie comprise entre une troisième valeur minimum et une quatrième valeur maximum pour obtenir une SPP gauchie.
  2. 2. Procédé suivant la revendication 1, caractérisé en ce que le stade de modification de la fonction de SPP comprend les stades de multiplication du facteur de SPP par une valeur obtenue en évaluant une fonction sigmoïde déterminée à l'avance.
  3. 3. Procédé suivant la revendication 2, caractérisé en ce qu'on configure la fonction sigmoïde en réaction à une détermination d'un rapport signal à bruit.
  4. 4. Procédé suivant l'une des revendications précédentes, caractérisé en ce que la première et la troisième valeurs minimum sont égales.
  5. 5. Procédé suivant l'une des revendications précédentes, caractérisé en ce que la deuxième et la quatrième valeurs maximum sont égales.
  6. 6. Procédé suivant l'une des revendications précédentes, caractérisé en ce que le signal reçu comprend une pluralité de bandes de fréquences et dans lequel on effectue les stades de calcul d'une SPP de modification de la SPP sur chaque bande de fréquences sur une base de 10 bande de fréquences par bande de fréquences et pour obtenir un nombre correspondant de valeurs de SPP gauchies, procédé dans lequel, en outre : on compare chaque valeur de SPP gauchie à une valeur de seuil ; 15 si une valeur de SPP gauchie est supérieure à la valeur de seuil, on remplace la valeur de la valeur de la SPP gauchie par une valeur moyenne de toutes les valeurs de SPP gauchies. 20
  7. 7. Procédé suivant la revendication 6, caractérisé en ce que la valeur de seuil est sensiblement égale à une somme de la valeur moyenne des SPP gauchies et d'au moins un écart type de toutes les valeurs de SPP gauchies. 25
  8. 8. Procédé suivant la revendication 6 ou 7, caractérisé en ce que : on détermine une estimation du bruit dans le signal reçu en utilisant la valeur de la SPP gauchie dans un deuxième étage de la structure de MMSE ; 30 on détermine un rapport signal à bruit pour le signal reçu en utilisant l'estimation du bruit dans le signal reçu ;on détermine une première fonction de gain à appliquer au signal reçu en utilisant le calcul/structure de MMSE et le rapport déterminé de signal à bruit ; on détermine un gain minimum ; on élève la première fonction de gain à une puissance égale à la SPP gauchie pour produire une première fonction de gain modifié ; et on multiplie la première fonction de gain modifié par le gain minimum élevé à une puissance, qui est égale 10 à un moins la SPP gauchie pour obtenir un facteur de gain final à appliquer au signal reçu.
  9. 9. Dispositif de réduction du bruit dans un signal reçu, caractérisé en ce qu'il comprend : 15 un déterminateur (802) de probabilité de la parole configuré pour calculer une première présence (SPP) de probabilité de la parole en utilisant une erreur (MMSE) quadratique moyenne minimum, la SPP ayant une valeur comprise entre une première valeur minimum et une 20 deuxième valeur maximum ; un modificateur (806) de SPP configuré pour procurer un facteur (810) de modification de la SPP ; et un multiplicateur (804) configuré pour recevoir la SPP et le facteur (810) de modification de la SPP et pour 25 multiplier la SPP par le facteur (810) de modification de la SPP, le multiplicateur (804) procurant en sortie une SPP gauchie.
  10. 10. Dispositif suivant la revendication 9, caractérisé 30 en ce que le déterminateur (804) de probabilité de la parole comprend un processeur numérique de signal.
  11. 11. Dispositif suivant la revendication 9 ou 10, caractérisé en ce que le modificateur (804) de SPP estconfiguré pour procurer le facteur (810) de modification de la SPP en évaluant une fonction non linéaire déterminée à l'avance.
  12. 12. Dispositif suivant la revendication 11, caractérisé en ce que la fonction non linéaire déterminée à l'avance comprend une fonction sigmoïde.
  13. 13. Dispositif suivant la revendication 12, caractérisé 10 en ce que le modificateur de SPP est configuré pour modifier une forme de la fonction sigmoïde en réaction à une détermination d'un rapport signal à bruit.
FR1402422A 2013-11-07 2014-10-27 Modificateur de la presence de probabilite de la parole perfectionnant les performances de suppression du bruit reposant sur le log-mmse Active FR3012929B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14/074,495 US9449610B2 (en) 2013-11-07 2013-11-07 Speech probability presence modifier improving log-MMSE based noise suppression performance

Publications (2)

Publication Number Publication Date
FR3012929A1 true FR3012929A1 (fr) 2015-05-08
FR3012929B1 FR3012929B1 (fr) 2016-05-06

Family

ID=50114722

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1402422A Active FR3012929B1 (fr) 2013-11-07 2014-10-27 Modificateur de la presence de probabilite de la parole perfectionnant les performances de suppression du bruit reposant sur le log-mmse

Country Status (5)

Country Link
US (2) US9449610B2 (fr)
CN (1) CN104637493B (fr)
DE (1) DE102014221810A1 (fr)
FR (1) FR3012929B1 (fr)
GB (1) GB201322971D0 (fr)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895084B (zh) * 2016-03-30 2019-09-17 Tcl集团股份有限公司 一种应用于语音识别的信号增益方法和装置
CN108074582B (zh) * 2016-11-10 2021-08-06 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
US10043531B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using MinMax follower to estimate noise
US10043530B1 (en) 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
CN112969130A (zh) * 2020-12-31 2021-06-15 维沃移动通信有限公司 音频信号处理方法、装置和电子设备
CN115424635B (zh) * 2022-11-03 2023-02-10 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082328A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Method for estimating priori SAP based on statistical model

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001511267A (ja) * 1997-12-12 2001-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声パターン認識用のモデル特殊因子の決定方法
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
US20050091049A1 (en) * 2003-10-28 2005-04-28 Rongzhen Yang Method and apparatus for reduction of musical noise during speech enhancement
CA2454296A1 (fr) * 2003-12-29 2005-06-29 Nokia Corporation Methode et dispositif d'amelioration de la qualite de la parole en presence de bruit de fond
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
EP1760696B1 (fr) * 2005-09-03 2016-02-03 GN ReSound A/S Méthode et dispositif pour l'estimation améliorée du bruit non-stationnaire pour l'amélioration de la parole
KR20080075362A (ko) 2007-02-12 2008-08-18 인하대학교 산학협력단 잡음 환경에서 음성 신호의 추정치를 구하는 방법
JP4970596B2 (ja) 2007-09-12 2012-07-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 雑音レベル推定値の調節を備えたスピーチ強調
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
US8160271B2 (en) * 2008-10-23 2012-04-17 Continental Automotive Systems, Inc. Variable noise masking during periods of substantial silence
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
CN101777349B (zh) * 2009-12-08 2012-04-11 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
WO2012070670A1 (fr) * 2010-11-25 2012-05-31 日本電気株式会社 Dispositif, procédé et programme de traitement de signaux
KR101726737B1 (ko) * 2010-12-14 2017-04-13 삼성전자주식회사 다채널 음원 분리 장치 및 그 방법
WO2012097148A2 (fr) * 2011-01-12 2012-07-19 Personics Holdings, Inc. Système de rapport signal sur bruit constant d'automobile pour une meilleure perception de la situation
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
WO2013138747A1 (fr) * 2012-03-16 2013-09-19 Yale University Système et procédé pour détection et extraction d'anomalie
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
BR112015004625B1 (pt) * 2012-09-03 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada.
US9368116B2 (en) * 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082328A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Method for estimating priori SAP based on statistical model

Also Published As

Publication number Publication date
US20170069337A1 (en) 2017-03-09
US9449610B2 (en) 2016-09-20
DE102014221810A1 (de) 2015-05-07
GB201322971D0 (en) 2014-02-12
FR3012929B1 (fr) 2016-05-06
CN104637493B (zh) 2020-03-31
US20150127331A1 (en) 2015-05-07
CN104637493A (zh) 2015-05-20
US9773509B2 (en) 2017-09-26

Similar Documents

Publication Publication Date Title
FR3012928A1 (fr) Modificateurs reposant sur un snr estime exterieurement pour des calculs internes de mmse
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
CA2436318C (fr) Procede et dispositif de reduction de bruit
FR3012929A1 (fr) Modificateur de la presence de probabilite de la parole perfectionnant les performances de suppression du bruit reposant sur le log-mmse
EP2057835B1 (fr) Procédé de réduction de l&#39;écho acoustique résiduel après suppression d&#39;écho dans un dispositif &#34;mains libres&#34;
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
FR3012927A1 (fr) Estimation precise du rapport signal a bruit par progression reposant sur une probabilite de la presence de la parole mmse
EP2936488B1 (fr) Atténuation efficace de pré-échos dans un signal audionumérique
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
EP2515300B1 (fr) Procédé et système de réduction du bruit
FR2767941A1 (fr) Suppresseur d&#39;echo par transformation de sens et procede associe
FR2878399A1 (fr) Dispositif et procede de debruitage a deux voies mettant en oeuvre une fonction de coherence associee a une utilisation de proprietes psychoacoustiques, et programme d&#39;ordinateur correspondant

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20151120

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10