FR3085784A1 - Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel - Google Patents

Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel Download PDF

Info

Publication number
FR3085784A1
FR3085784A1 FR1858058A FR1858058A FR3085784A1 FR 3085784 A1 FR3085784 A1 FR 3085784A1 FR 1858058 A FR1858058 A FR 1858058A FR 1858058 A FR1858058 A FR 1858058A FR 3085784 A1 FR3085784 A1 FR 3085784A1
Authority
FR
France
Prior art keywords
sound signal
segment
module
vector
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1858058A
Other languages
English (en)
Inventor
Daniel PRESSNITZER
Manuel Pariente
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Urgotech
Centre National de la Recherche Scientifique CNRS
Ecole Normale Superieure
Original Assignee
Urgotech
Centre National de la Recherche Scientifique CNRS
Ecole Normale Superieure
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Urgotech, Centre National de la Recherche Scientifique CNRS, Ecole Normale Superieure filed Critical Urgotech
Priority to FR1858058A priority Critical patent/FR3085784A1/fr
Priority to PCT/FR2019/052060 priority patent/WO2020049263A1/fr
Publication of FR3085784A1 publication Critical patent/FR3085784A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Abstract

L'invention concerne un dispositif de rehaussement de la parole, comprenant : - un microphone, adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore comprenant un segment de signal sonore cible et d'un bruit interférant, et - une unité de traitement adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.

Description

DISPOSITIF DE REHAUSSEMENT DE LA PAROLE PAR IMPLEMENTATION
D’UN RESEAU DE NEURONES DANS LE DOMAINE TEMPOREL
DOMAINE DE L’INVENTION
L’invention concerne un dispositif de rehaussement de la parole, adapté pour isoler et rehausser un signal sonore cible d’un bruit interférant dans un signal sonore. Un tel dispositif de rehaussement peut être intégré dans une prothèse auditive ou dans un téléphone mobile. L’invention concerne également un procédé de rehaussement de la parole mis en œuvre par un tel dispositif.
ETAT DE LA TECHNIQUE
On appelle « l’effet cocktail party » la capacité pour un individu à diriger son attention pour suivre une source sonore particulière dans une ambiance bruyante, en séparant la scène auditive en un avant-plan et un arrière-plan.
Le syndrome du banquet, à l’inverse, concerne une incapacité chronique, pour un individu, à percevoir de façon audible une source sonore particulière au milieu d’un bruit interférant jugé parasitaire.
Afin de permettre aux individus atteints de ce type de dysfonctionnement de recouvrer une audition satisfaisante, de nombreux dispositifs d’aide auditive mettant en œuvre des méthodes d’apprentissage profond ont été développés.
De façon plus générale, dans le traitement du signal sonore, des dispositifs mettant en œuvre des réseaux de neurones ont été développés et entraînés spécialement pour réaliser des tâches spécifiques. Ainsi un dispositif de reconnaissance vocale est configuré et entraîné pour arriver à retranscrire ce qu’un locuteur a pu dire à partir d’un fichier audio d’entrée propre ou bruité. Un dispositif de séparation est quant à lui configuré pour réaliser une séparation de sources de sorte à permettre l’extraction de plusieurs fichiers audio retranscrivant séparément la parole de chacun des locuteurs d’intérêt, sans être spécifique à l’un ou l’autre. Un dispositif de rehaussement est quant à lui configuré pour améliorer l’intelligibilité du signal sonore cible de parole perceptible entouré d’un bruit parasitaire.
Or, la mesure de l’intelligibilité du signal sonore cible rehaussé par un dispositif de rehaussement implique de faire appel à un sujet humain, ce qui la rend difficile à mettre en œuvre sur des masses de données importantes. Il n’existe pas à ce jour de moyen satisfaisant de mesure d’intelligibilité par la mise en œuvre d’un traitement du signal.
Par conséquent, à défaut d’évaluer les performances d’un dispositif de rehaussement par une mesure directe de l’intelligibilité du signal sonore produit, on peut évaluer des performances à partir de deux indicateurs qui sont le rapport signal sur bruit (SNR) et le rapport signal sur distorsion (SDR).
Le rapport signal sur bruit est une mesure qui sert à caractériser la puissance relative d’un signal (ici le signal cible de la parole) par rapport à un bruit (ici le bruit interférant) en décibels. En notant s(t) et n(t) respectivement le signal et le bruit, le rapport signal sur bruit est défini par :
Æs2(t)\ SNR = 10“ΉΣ77ω)
Le rapport signal sur distorsion permet quant à lui de caractériser la puissance relative d’un signal (ici le signal cible de parole) par rapport à une distorsion (pour un dispositif de rehaussement, une distorsion induite par le débruitage) en décibel. En effet le signal débruité peut inclure certaines distorsions en plus du signal cible.
En notant s(t) le signal cible de parole et s (t)e signal débruité, le rapport signal sur distorsion est défini par :
SDR = Wlogw l „ J \Et(s(i)-s (t))/
Un indicateur de performances d’un dispositif de rehaussement peut donc être la différence SDR-SNR, où SDR est évalué sur le signal de sortie du dispositif de rehaussement et SNR est évalué sur le signal d’entrée du dispositif de rehaussement.
Outre la dépendance de l’architecture du réseau de neurones à la tâche à laquelle doit répondre le dispositif, l’architecture en question doit également être choisie et adaptée de sorte à garantir au dispositif de présenter un temps de latence le plus faible possible (idéalement aux environs de 10 millisecondes) afin qu’il n’y ait pas de décalage ressenti par l’utilisateur entre le son bruité qui lui parvient directement depuis l’environnement, et le même son débruité par le dispositif de rehaussement.
La demande de brevet US 2017/061978 met en œuvre une méthode de rehaussement de la parole comprenant une étape de capture d’un signal sonore cible de parole compris dans un bruit de fond, une étape d’extraction du signal sonore cible segmenté en fenêtres de 20 ms, au moyen d’un réseau de neurones, et une étape de synthèse du signal sonore cible de parole indépendamment du bruit interférant.
Dans ce document, une conversion temps-fréquence est effectuée en amont du réseau de neurones, lequel est donc appliqué sur un signal fréquentiel pour isoler la source sonore du bruit.
Le fait que cette conversion ait lieu en dehors du réseau implique qu’elle n’a aucune garantie d’optimalité par rapport à la tâche.
Le document US 2016/111108 traite également d’une méthode de rehaussement de la parole par la mise en œuvre d’un réseau de neurones produisant un masque multipliant la transformée de Fourier à court-terme du signal bruité pour obtenir une estimation de la transformée de Fourier à court-terme du signal débruité.
Dans ce document, l’utilisation d’une transformée de Fourier à court-terme implique une décomposition du signal en composantes fréquentielles qui n’est pas optimisée pour la tâche de rehaussement, et donc le filtrage du signal n’est pas optimisé.
De plus, l’utilisation d’une transformée de Fourier à court-terme pour la séparation entre la parole et le bruit ambiant nécessite une bonne résolution fréquentielle, ce qui implique de traiter des segments temporels assez longs, de l’ordre de 30 ms, ce qui accroît le temps de latence entre l’acquisition du signal à traiter et l’extraction de la parole isolée du bruit, et rend difficile une implémentation en temps-réel du rehaussement de la parole.
Le document de S. Venkataramani et al., « End-to-end Source Separation with adaptive front-ends » publié sur le site www.arxiv.org (arXiv :1705.02514v2) le 6 mai 2017, décrit un procédé de séparation de source dans lequel la transformée de Fourier est remplacée par une décomposition fréquentielle optimisée pour la tâche et mise en œuvre par un réseau de neurones.
Néanmoins la structure du réseau de neurones proposé ne permet pas une mise en œuvre en temps-réel de la séparation de source du fait d’un temps de latence trop important. En effet, la section 4.1 décrit l’utilisation de fenêtres d’analyse de 64 ms (1024 échantillons à 16kHz), auxquelles s’ajoute une fenêtre de lissage de 5 ms, ce qui implique un temps de latence d’au minimum 69 ms pour le traitement d’un signal d’entrée, et donc une impossibilité d’utiliser ce dispositif en temps réel.
On connaît enfin la publication de Y. Luo et al « TasNet : Time-Domain Audio Separation Network for Real-Time, Single Channel Speech Separation”, parue sur le site internet www.arxiv.org (arXiv : 1711.0054v2) le 1er novembre 2017, qui traite d’une méthode de séparation vocale dans un contexte audio multi-locuteurs.
Cette méthode met en œuvre des réseaux de neurones récurrents dans le domaine temporel pour permettre la séparation vocale de chaque locuteur présent dans l’environnement. Cette méthode remplace la transformée de Fourier par une décomposition fréquentielle optimisée pour la tâche et opérant sur de courtes fenêtres temporelles sans chevauchement (overlap), permettant ainsi une mise en œuvre en temps réel. Néanmoins cette méthode n’est pas adaptée à la réalisation de tâches de rehaussement de la parole.
PRESENTATION DE L’INVENTION
Compte-tenu de ce qui précède, l’invention a pour but de proposer un dispositif de rehaussement de la parole présentant une bonne intelligibilité du signal sonore rendu, et présentant un temps de latence entre l’acquisition du signal sonore bruité et sa retranscription débruitée suffisamment faible pour pouvoir être utilisé pour le traitement en temps réel d’un flux sonore audio sans gêne de l’auditeur.
Un autre objectif de l’invention est d’améliorer la valeur d’un indicateur formé par la différence entre le rapport signal sur distorsion du signal de sortie du dispositif de rehaussement et le rapport signal-sur-bruit du signal d’entrée du dispositif.
A cet égard, l’invention a pour objet un dispositif de rehaussement de la parole, comprenant :
un microphone, adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore comprenant un segment de signal sonore cible et un bruit interférant, et une unité de traitement adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.
Dans un mode de réalisation, le réseau de neurones comprend :
un module de transformation adapté pour générer un vecteur de poids à partir d’un segment de signal sonore, un module de rehaussement adapté pour générer, à partir d’un vecteur de poids, un unique vecteur de masque, le vecteur de poids wk et le vecteur de masque mk étant tels que :
= mkÇ)wk où dk est un vecteur de décomposition d’une estimation du segment du signal sonore cible contenu dans le segment de signal sonore dans une base de signaux sonores élémentaires, et un module de synthèse, adapté pour synthétiser une estimation du segment du signal sonore cible contenu dans le segment de signal sonore à partir du vecteur de décomposition.
Dans un mode de réalisation, le réseau de neurones comprend en outre :
un module de normalisation en amont du module de transformation, adapté pour normaliser l’énergie de chaque segment de signal sonore, et un module de remise à l’échelle en sortie du module de synthèse, adapté pour mettre en œuvre sur une estimation du segment de signal sonore cible généré par le module de synthèse une opération inverse à celle mise en œuvre par le module de normalisation sur le segment correspondant de signal sonore.
Dans un mode de réalisation, le module de transformation est configuré pour : mettre en œuvre sur chaque segment de signal sonore deux couches densément connectées en parallèle, appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids, les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et étant de préférence choisies comme la fonction sigmoïde pour la sortie d’une couche de densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
Avantageusement, mais facultativement, une fonction d’activation est la fonction unité linéaire rectifiée et l’autre fonction d’activation est la fonction sigmoïde, et le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :
mettre en œuvre une couche densément connectée sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent, appliquer une fonction sigmoïde en sortie de ladite couche densément connectée, et multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids.
Dans un mode de réalisation, le module de rehaussement met en œuvre une pluralité de couches récurrentes successives de type LSTM, et chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.
Avantageusement, mais facultativement, le module de rehaussement est adapté pour mettre en œuvre une normalisation du vecteur de poids qu’il reçoit en entrée.
Dans des modes de réalisation, le dispositif de rehaussement de la parole peut comprendre en outre un haut-parleur adapté pour diffuser chaque segment du signal sonore cible.
Dans un mode de réalisation, l’unité de traitement comprend en outre une mémoire dans laquelle sont mémorisées plusieurs configurations de réseaux de neurones adaptés respectivement à plusieurs locuteurs, et le dispositif de rehaussement comprend en outre une interface configurée pour permettre la sélection d’une configuration de réseau de neurones.
L’invention a également pour objet un procédé de rehaussement de la parole, comprenant l’acquisition par un microphone d’un flux audio et sa conversion en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones à chaque segment de signal sonore dans le domaine temporel.
Dans un mode de réalisation, le procédé de rehaussement de la parole comprend la mise en œuvre, par une unité de traitement adaptée pour implémenter le réseau de neurones, d’étapes de :
génération, à partir d’un segment du signal sonore, d’un vecteur de poids, génération, à partir du vecteur de poids généré, d’un unique vecteur de masque, le vecteur de poids wk et le vecteur de masque mk étant tels que :
dk = mkQwk où dk est un vecteur de décomposition d’une estimation du segment du signal sonore cible contenu dans le segment de signal sonore dans une base de signaux sonores élémentaires, et synthèse de l’estimation du segment du signal sonore cible à partir du vecteur de poids et du vecteur de masque.
Le dispositif selon l’invention met en œuvre un réseau de neurones dans le domaine temporel pour réaliser le rehaussement de la parole. Le réseau de neurones prend en entrée un signal sonore dans le domaine temporel et effectue une décomposition en composantes fréquentielles qui est optimisée en fonction de la tâche à accomplir, et qui permet donc un filtrage optimal.
De plus, la structure du réseau de neurones employé permet d’obtenir un temps de latence voisin de 10 ms, ce qui permet une mise en œuvre en temps réel du rehaussement de la parole sans susciter de décalage perceptible pour un auditeur entre le signal rehaussé et le signal provenant directement du locuteur.
DESCRIPTION DES FIGURES
D’autres caractéristiques, buts et avantages de l’invention ressortiront de la description qui suit, qui est purement illustrative et non limitative, et qui doit être lue en regard des dessins annexés sur lesquels :
La figure 1 représente un exemple de dispositif de rehaussement selon un mode de réalisation de l’invention.
La figure 2 représente schématiquement l’architecture d’un réseau de neurones mis en œuvre par le dispositif de rehaussement,
Les figures 3a et 3b représentent schématiquement deux variantes de mise en œuvre du module de transformation du réseau de neurones.
La figure 4 représente schématiquement les principales étapes du procédé selon un mode de réalisation de l’invention.
La figure 5 représente la variation de la fonction de coût du réseau de neurones en fonction de son architecture.
La figure 6 représente la variation de l’indicateur SDR-SNR du réseau de neurones en fonction de son architecture.
DESCRIPTION DETAILLEE D’AU MOINS UN MODE DE REALISATION DE L’INVENTION
Dans la suite, on entend par « rehaussement de signal » le fait, à partir d’un signal sonore comprenant un signal sonore cible (typiquement de parole) et un bruit environnant, d’isoler le signal sonore cible pour améliorer son intelligibilité.
En référence à la figure 1, on a représenté schématiquement un dispositif de rehaussement 1 de la parole selon un mode de réalisation de l’invention. Le dispositif de rehaussement comporte une unité de traitement 10 apte à recevoir un signal sonore enregistré par un capteur tel qu’un microphone 11 à partir d’un flux audio.
Le microphone est avantageusement un composant du dispositif de rehaussement 1 comme sur la figure 1. En variante, l’unité de traitement 10 peut recevoir le signal sonore enregistré par un microphone distant, ne faisant pas partie du dispositif, par chargement à partir d’une mémoire où le signal sonore est enregistré, ou via une interface de connexion avec le microphone distant.
L’unité de traitement 10 peut comporter avantageusement au moins un calculateur 12, par exemple un processeur, microprocesseur, microcontrôleur, etc., et une mémoire 13 dans laquelle sont enregistrées des instructions de code exécutables par le calculateur pour la mise en œuvre du procédé de rehaussement de la parole décrit ci-après.
L’unité de traitement 10 est configurée pour implémenter un réseau de neurones décrit ci-après pour mettre en œuvre le procédé de rehaussement de la parole. Le réseau de neurones est un ensemble d’opérations mathématiques mises en œuvre de manière analogique ou logicielle, de préférence de manière logicielle. On peut parier de neurones artificiels pour distinguer ces neurones de neurones biologiques.
Avantageusement, mais facultativement, le dispositif de rehaussement peut en outre comprendre un émetteur 14, par exemple un haut-parleur, adapté pour convertir le signal traité par l’unité de traitement 10 en un flux audio audible pour un auditeur.
Le dispositif de rehaussement est avantageusement adapté pour traiter en temps réel un flux audio adressé à un auditeur, pour retourner à l’auditeur le signal sonore cible contenu dans ce flux audio. Par « en temps réel », on comprend que le dispositif de rehaussement est adapté pour retourner, au fur et à mesure de l’acquisition d’un flux audio par un microphone, le signal source de parole débruité contenu dans ce signal, avec un temps de latence entre l’acquisition par le microphone et l’obtention du signal source de parole, voisin de, ou inférieur à 10 ms.
Dans un mode de réalisation, le dispositif de rehaussement de la parole est un dispositif intégré contenant un microphone, l’unité de traitement, un haut-parleur, ainsi qu’une source d’alimentation électrique de ces composants (batterie, pile - la source d’alimentation n’est pas représentée sur les figures), le dispositif pouvant par exemple prendre la forme d’une oreillette portée par l’auditeur.
En référence aux figures 2, 3a, 3b et 4, on va maintenant décrire le procédé de rehaussement de la parole contenue dans un signal sonore, mis en œuvre par l’unité de traitement 10.
Dans toute la suite, on appelle signal sonore l’enregistrement par un capteur ou un microphone d’un flux audio, le flux audio étant une vibration de l’air perceptible par l’humain.
Le signal sonore sur lequel est mis en œuvre le procédé de rehaussement est constitué d’un signal sonore cible et un bruit interférant. Le signal sonore cible est l’enregistrement d’un flux audio de parole correspondant à une personne qui parle. Le bruit interférant peut être composé de bruits ambiants divers tels que de la parole, de la musique ou encore des sons ou bruits d’autres natures.
De préférence, un flux audio acquis par le microphone 11 est converti lors d’une étape 100, par le microphone, au fur et à mesure de l’acquisition du flux audio, en segments de signal sonore d’une durée constante et déterminée, avantageusement inférieure à 10 ms, et de préférence égale à 5 ms.
L’unité de traitement 10 est configurée pour traiter successivement chaque segment de signal sonore transmis depuis le microphone.
Chaque segment de signal sonore contient donc un segment de signal sonore cible et du bruit interférant.
On note dans la suite xk e IRLxl un segment de signal sonore parvenant en entrée de l’unité de traitement, où L est la durée d’un segment (par exemple 5 ms, soit 80 échantillons à 16kHz). xk comprend donc un nombre L d’échantillons.
On note également ske lRlxL un segment de signal sonore cible contenu dans le segment xk.
Dans la suite on cherche à estimer sken déterminant une estimation sk de sk représentée comme une somme pondérée de N signaux sonores élémentaires B = [blt ...,bw] e mNxL, où les signaux sonores élémentaires ne sont pas prédéfinis mais sont optimisés lors de la phase d’apprentissage du réseau de neurones.
On note:
dkB
Où dke ΙΚ1χΛ/ est un vecteur de décomposition de l’estimation sk dans la base des signaux sonores élémentaires B.
Dans la suite, on cherche à déterminer dk pour pouvoir synthétiser la source isolée du bruit interférant. Pour ce faire, on détermine un vecteur de masque mke HRlxW et un vecteur wk e GRlxiV de poids du segment de signal initial tels que : dk = mk0wk
Où Θ désigne la multiplication terme à terme.
Le procédé comprend donc ensuite l’estimation pour chaque segment de signal sonore initial entrant xk d’un vecteur de poids wket d’un vecteur de masque mk correspondant pour obtenir dk. Cela est mis en œuvre par le réseau de neurones implémenté par l’unité de traitement.
En référence à la figure 2, le réseau de neurones 2 comprend un module de transformation 20, un module de rehaussement 21 et un module de synthèse 22.
Avantageusement, le réseau de neurones 2 comprend également un module de normalisation 23 en amont du module de transformation 20, et un module de remise à l’échelle 24 en aval du module de synthèse 22.
Le module de normalisation 23 est adapté pour mettre en œuvre lors d’une étape 200 une normalisation des segments de signal sonore pour réduire la variabilité des données d’entrée et permettre un apprentissage plus efficace du réseau de neurones.
Avantageusement, le module de normalisation 23 met en œuvre la normalisation suivante sur chaque segment de signal sonore :
Xk xnormk = |yL x2
Où xnormk est est le segment normalisé correspondant au segment xk, et xksi est le ieme échantillon du segment xk.
Le module de remise à l’échelle 24 est configuré pour mettre en œuvre sur le signal de sortie (étape 600 décrite ci-après) du module de synthèse 22 une opération inverse à celle mise en œuvre par le module de normalisation 23 pour que le signal de sortie soit d’une intensité comparable à celle du segment d’entrée correspondant.
Pour reprendre l’exemple qui précède, le module de remise à l’échelle 24 réalise avantageusement l’opération suivante sur le segment Yk du signal de sortie du module de synthèse :
Σ % i
Dans la suite de la description du traitement on considérera que l’entrée du module de transformation 20 est normalisée même si la notation xnormk n’est pas utilisée, ceci afin de ne pas alourdir les notations.
ydenormk = yk.
Le module de transformation est adapté pour générer lors d’une étape 300, à partir du segment xk un vecteur de poids wk du segment.
Pour ce faire, le module de transformation 20 est adapté pour :
mettre en œuvre sur chaque segment xk deux couches densément connectées en parallèle U et V, appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids.
Avantageusement, les fonctions d’activation sont choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée.
Selon un mode de réalisation préférée, une fonction d’activation est la fonction sigmoïde définie par :
Et l’autre fonction d’activation est de préférence la fonction unité linéaire rectifiée, notée ReLU et définie par :
ReLU(x) = x+ = max(0,x)
Ainsi selon un premier mode de réalisation le vecteur de poids wk est obtenu par le module de transformation par :
wk = ReLUÇU.x^QaÇV.Xk)
Où U et V sont des matrices de taille N*L qui sont optimisées lors de l’entrainement du réseau de neurones. N peut par exemple être égal à 1000.
Dans un mode de réalisation préféré, le module de transformation 20 comprend en outre une cellule récurrente préfiltrante appliquant une autre couche densément connectée U2 (également optimisée lors de l’entrainement du réseau de neurones) à une entrée formée de la concaténation de la sortie de la fonction ReLU appliquée au segment courant et au segment précédent. La sortie de cette couche densément connectée est appliquée à une fonction sigmoïde et le résultat est également multiplié aux sorties des autres fonctions d’activation pour l’obtention de wk.
En notant Ak la sortie de la fonction Relu appliquée au segment xk :
Ak = ReLU(U.xk)
Le vecteur de poids wk est alors déterminé par :
wk = AkQa(U2. [A^A^ÏÏQafV.x^
L’ajout de la cellule récurrente préfiltrante permet de tenir compte des similarités de décomposition dans la base de signaux élémentaires de deux segments successifs et de réaliser un préfiltrage en conséquence grâce à la fonction sigmoïde.
De retour à la figure 4, le procédé comprend ensuite une étape 420, mise en œuvre par le module de rehaussement, de génération, à partir du vecteur de poids wk, d’un unique vecteur de masque mk unique.
Pour ce faire, le module de rehaussement 21 du réseau de neurones est de préférence configuré pour effectuer en premier lieu (étape 410) une normalisation du vecteur de poids wk, telle que :
g wk=-(wk- μ) + b σ
Où :
wk est le vecteur de poids normalisé, μ est une moyenne précalculée, avantageusement pendant ou à l’issue de l’entrainement du réseau de neurones, il peut s’agir d’une valeur moyenne de vecteur de poids générés pendant l’entrainement, σ un écart-type précalculé, avantageusement pendant ou à l’issue de l’entrainement du réseau de neurones ; il peut s’agir d’un écart-type de vecteurs de poids générés pendant l’entrainement, ge IKlxW et be HRlxW sont respectivement des gains additif et multiplicatif optimisés lors de l’entrainement du réseau de neurones.
Pour l’extraction du vecteur de masque à partir du vecteur de poids (avantageusement normalisé), le module de rehaussement comporte un réseau profond de type à longue mémoire à court-terme, également connu sous l’acronyme LSTM (de l’anglais Long Short-Term Memory), suivi d’une couche densément connectée dont la fonction d’activation est la fonction sigmoïde, afin d’avoir pour le masque des valeurs comprises entre 0 et 1.
Avantageusement, le réseau profond LSTM comporte quatre couches successivement connectées, où, à partir de la troisième couche, chaque couche prend en entrée une combinaison de la couche précédente et de la couche encore précédente. On note skip la combinaison appliquée à la couche précédente et à la couche qui la précède.
En notant L1sk, . ..L4kles couches LSTM pour le vecteur wk on a :
Llik = LSTMfwA
L2ik = LSTM(Llik)
L3ik = LSTM(skip(Llik,L2ik))
Kk = bSTM(skip(L2ik,L3ik))
Dans un mode de réalisation, la fonction skip est définie par la somme des résultats des deux couches :
skip\L2k,L3k) = L2k + L3k
Selon une variante avantageuse, la fonction skip retourne la concaténation des deux couches, ce qui permet de donner aux troisième et quatrième couches LSTM un accès aux résultats des deux couches précédentes pour améliorer l’estimation du masque :
skip(L2k,L3k) = [L2k,L3k]
Cette variante permet d’améliorer la propagation du gradient lors de l’entrainement du réseau de neurones, ce qui permet une meilleure optimisation au moins du module de transformation et du module de rehaussement.
Selon encore une autre variante, la fonction skip retourne la concaténation de toutes les couches récurrentes précédentes :
skipi — ,
En référence à la figure 5, on a représenté la fonction de coût du réseau de neurones en fonction du son architecture et notamment en fonction des principales variantes décrites ci-avant pour le module de transformation et le module de rehaussement. La fonction de coût du réseau de neurones est calculée comme l’erreur carrée moyenne entre la prédiction du réseau de neurones et le signal cible.
Sur la figure 5 :
la première colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip définie par la somme des résultats des deux couches précédentes ;
la deuxième colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches précédentes ;
la troisième colonne correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une somme des résultats des deux couches ;
la quatrième colonne, qui présente les meilleurs résultats, correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des résultats des deux couches.
La sortie de la couche densément connectée est un masque mk correspondant à chaque segment xk:
mk = Dense(Lkf)
Ce masque est appliqué par le module de rehaussement 21 lors d’une étape 430 au vecteur wk de poids pour obtenir un vecteur de décomposition dk du segment du signal sonore cible dans la base des signaux sonores élémentaires, ce vecteur dk formant l’entrée du module de synthèse 22 :
dk = mkQwk
En variante le module de synthèse 22 peut recevoir en entrées le masque mk et le vecteur de poids wk (du module de rehaussement, et éventuellement du module de transformation pour wk) et mettre en œuvre l’étape 430 pour obtenir le vecteur de décomposition dk.
Enfin, le module de synthèse 22 détermine lors d’une étape de synthèse 500 une estimation sk du segment de signal cible sk contenu dans le segment xk par multiplication matricielle entre le vecteur de décomposition du segment du signal cible et les signaux élémentaires :
s j. dkB
Cette estimation sk du segment signal cible correspond au signal de sortie du module de synthèse 22, également notée yk dans la description qui précède des modules de normalisation 23 et de remise à l’échelle 24, et fait ensuite l’objet d’une remise à l’échelle dans le module 24 correspondant lors d’une étape 600.
Le segment signal cible ainsi obtenu peut ensuite être diffusé par le hautparleur, en temps-réel pendant le traitement du segment suivant, le cas échéant.
A défaut de pouvoir mesurer l’intelligibilité du signal cible reconstitué en sortie du réseau de neurones, on a mesuré l’indicateur SDR-SNR (SDR : rapport signal sur distorsion et SNR : rapport signal sur bruit - les définitions données en introduction sont applicables ici) pour les différentes configurations du réseau de neurones indiquées ci-avant.
Sur la figure 6, on a représenté les différentes valeurs de cet indicateur :
la première colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip définie par la somme des résultats des deux couches ;
la deuxième colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches la troisième colonne correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une somme des résultats des deux couches ;
la quatrième colonne, qui présente les meilleurs résultats, correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des résultats des deux couches.
On constate que l’utilisation, soit d’un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches, soit d’un module de transformation comprenant une cellule récurrente préfiltrante permet d’améliorer cet indicateur.
En revanche, si l’utilisation de ces deux caractéristiques combinées permet d’optimiser les performances du réseau en termes d’erreur, elle ne permet pas d’optimiser l’indicateur SDR-SNR, bien qu’elle apporte tout de même une amélioration par rapport à la structure de base dépourvue de ces deux caractéristiques.
Pour l’entrainement du réseau de neurones, un corpus de signaux initiaux est avantageusement créé comprenant un ensemble d’apprentissage et un ensemble de validation disjoints, représentant respectivement de l’ordre de 70 à 80% du corpus, et de 20 à 30% du corpus.
Chaque ensemble est obtenu à partir d’une bibliothèque d’enregistrements de paroles, et d’une bibliothèque d’enregistrements de bruits ambiants supplémentaires correspondant à des bruits réalistes (fond sonore d’une rue, d’un restaurant, etc.), qui sont avantageusement ajoutés de bruits supplémentaires composés de plusieurs locuteurs parlant en même temps sans lien entre eux (« babble noise »). Chaque échantillon d’un ensemble est créé par appairage d’un enregistrement de parole et d’un bruit.
L’entrainement du réseau de neurones permet d’optimiser les couches U, U2, V, les coefficients de normalisation g et b, les couches LSTM, ainsi que la base B des signaux élémentaires, ce qui permet d’adapter la décomposition du segment de signal sonore de la meilleure façon en fonction de la tâche à réaliser, contrairement à d’une transformée de Fourier pour décomposer et filtrer le signal.
Avantageusement, l’entrainement du réseau de neurones peut être mené de telle sorte à rendre le réseau de neurones spécifique à un locuteur particulier.
Dans ce cas-îà, le dispositif de rehaussement doit avantageusement permettre de sélectionner le locuteur dont le signal doit être rehaussé.
Pour ce faire, selon un premier mode de réalisation, le microphone 11 peut être directionnel et l’unité de traitement 10 peut être configurée pour sélectionner, en tant que locuteur dont la parole doit être isolée du bruit, celui qui présente une puissance moyenne de signal la plus élevée (acquise par le microphone directionnel).
En variante, le réseau de neurones peut être entraîné pour plusieurs locuteurs correspondant à des interlocuteurs habituels de l’auditeur, et les différentes configurations du réseau de neurones sont enregistrées dans une mémoire (non représentée) de l’unité de traitement.
Le dispositif de rehaussement peut alors avantageusement comprendre une interface, par exemple une interface graphique qui peut être d’une application logicielle installée sur un téléphone mobile ou une tablette tactile de l’utilisateur du dispositif de rehaussement, l’interface graphique permettant de sélectionner la configuration du réseau de neurones adaptée à l’interlocuteur en train de parler. Dans ce cas l’unité de traitement 10 comprend avantageusement une interface de 5 connexion adaptée pour échanger des instructions avec le téléphone mobile ou la tablette tactile, telle que par exemple une interface de connexion Bluetooth ou filaire, ou à internet.

Claims (11)

  1. REVENDICATIONS
    1. Dispositif (1 ) de rehaussement de la parole, comprenant :
    un microphone (11), adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment (xk) de signal sonore comprenant un segment de signal sonore cible (sk) et un bruit interférant, et une unité de traitement (10) adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.
  2. 2. Dispositif (1) de rehaussement de la parole selon la revendication 1, dans lequel le réseau de neurones (2) comprend :
    un module de transformation (20) adapté pour générer (300) un vecteur de poids (wk) à partir d’un segment de signal sonore (xk), un module de rehaussement (21) adapté pour générer (420), à partir d’un vecteur de poids (wk), un unique vecteur de masque (mk), le vecteur de poids et le vecteur de masque étant tels que :
    dk = mkQwk où dk est un vecteur de décomposition d’une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk) dans une base de signaux sonores élémentaires (B), et un module de synthèse (22), adapté pour synthétiser (500) une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk), à partir du vecteur de décomposition (dk).
  3. 3. Dispositif (1) de rehaussement de la parole selon la revendication 2, dans lequel le réseau de neurones (2) comprend en outre :
    un module de normalisation (23) en amont du module de transformation (20), adapté pour normaliser l’énergie de chaque segment (xk) de signal sonore, et un module de remise à l’échelle (24) en sortie du module de synthèse (22), adapté pour mettre en œuvre sur une estimation du segment de signal sonore cible (sk, yk) généré par le module de synthèse une opération inverse à celle mise en œuvre par le module de normalisation sur le segment correspondant de signal sonore.
  4. 4. Dispositif (1) de rehaussement de la parole selon l’une des revendications 2 ou 3, dans lequel le module de transformation (20) est configuré pour :
    mettre en œuvre sur chaque segment (xk) de signal sonore deux couches densément connectées (U, V) en parallèle, appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids (wk), les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et étant de préférence choisies comme la fonction sigmoïde pour la sortie d’une couche densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
  5. 5. Dispositif (1) de rehaussement de la parole selon la revendication 4, dans lequel une fonction d’activation est la fonction unité linéaire rectifiée et l’autre fonction d’activation est la fonction sigmoïde, et le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :
    mettre en œuvre une couche densément connectée (U2) sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent, appliquer une fonction sigmoïde en sortie de ladite couche densément connectée (U2), et multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids (wk).
  6. 6. Dispositif (1) de rehaussement de la parole selon l’une des revendications 2 à 5 dans lequel le module de rehaussement (21) met en œuvre une pluralité de couches récurrentes successives de type LSTM, et dans lequel chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.
  7. 7. Dispositif (1) de rehaussement de la parole selon l’une des revendications 2 à 6, dans lequel le module de rehaussement (21) est adapté pour mettre en œuvre une normalisation (410) du vecteur de poids qu’il reçoit en entrée.
  8. 8. Dispositif (1) de rehaussement de la parole selon l’une des revendications précédentes, comprenant en outre un haut-parleur (14) adapté pour diffuser chaque segment du signal sonore cible.
  9. 9. Dispositif (1) de rehaussement de la parole selon l’une des revendications précédentes, dans lequel l’unité de traitement (10) comprend en outre une mémoire (13) dans laquelle sont mémorisées plusieurs configurations de réseaux de neurones (2) adaptées respectivement à plusieurs locuteurs, et le dispositif (1) de rehaussement comprend en outre une interface configurée pour permettre la sélection d’une configuration de réseau de neurones.
  10. 10. Procédé de rehaussement de la parole, comprenant l’acquisition par un microphone d’un flux audio et sa conversion (100) en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones (2) à chaque segment de signal sonore dans le domaine temporel.
  11. 11. Procédé de rehaussement de la parole selon la revendication précédente, comprenant la mise en œuvre, par une unité de traitement (10) adaptée pour implémenter le réseau de neurones (2), d’étapes de :
    génération (300), à partir d’un segment du signal sonore (xk), d’un vecteur de poids (wk), génération (420), à partir du vecteur de poids généré, d’un unique vecteur de masque (mk), le vecteur de poids et le vecteur de masque étant tels que :
    dk = mkQwk où dk est un vecteur de décomposition d’une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk) dans une base de signaux sonores élémentaires (B), et
    5 - synthèse (500) de l’estimation du segment du signal sonore cible (sk) à partir du vecteur de poids et du vecteur de masque.
FR1858058A 2018-09-07 2018-09-07 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel Pending FR3085784A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1858058A FR3085784A1 (fr) 2018-09-07 2018-09-07 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel
PCT/FR2019/052060 WO2020049263A1 (fr) 2018-09-07 2019-09-06 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1858058A FR3085784A1 (fr) 2018-09-07 2018-09-07 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel

Publications (1)

Publication Number Publication Date
FR3085784A1 true FR3085784A1 (fr) 2020-03-13

Family

ID=65201327

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1858058A Pending FR3085784A1 (fr) 2018-09-07 2018-09-07 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel

Country Status (2)

Country Link
FR (1) FR3085784A1 (fr)
WO (1) WO2020049263A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241091B (zh) * 2021-05-28 2022-07-12 思必驰科技股份有限公司 声音分离的增强方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160111108A1 (en) 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Audio Signal using Phase Information
US20170061978A1 (en) 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3007467T3 (da) * 2014-10-06 2017-11-27 Oticon As Høreapparat, der omfatter en lydkildeadskillelsesenhed med lav latenstid

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160111108A1 (en) 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Audio Signal using Phase Information
US20170061978A1 (en) 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHEN JIANMING ET AL: "The Application of Deep Neural Network in Speech Enhancement Processing", 2018 5TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING (ICISCE), IEEE, 20 July 2018 (2018-07-20), pages 1263 - 1266, XP033501883, DOI: 10.1109/ICISCE.2018.00257 *
DARIO RETHAGE ET AL: "A Wavenet for Speech Denoising", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 June 2017 (2017-06-22), XP080771751 *
LUO YI ET AL: "Real-time Single-channel Dereverberation and Separation with Time-domain Audio Separation Network", INTERSPEECH 2018, 2 September 2018 (2018-09-02) - 6 September 2018 (2018-09-06), ISCA, pages 342 - 346, XP055586461, DOI: 10.21437/Interspeech.2018-2290 *
LUO YI ET AL: "TaSNet: Time-Domain Audio Separation Network for Real-Time, Single-Channel Speech Separation", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 15 April 2018 (2018-04-15), pages 696 - 700, XP033401435, DOI: 10.1109/ICASSP.2018.8462116 *
S. VENKATARAMANI ET AL.: "End-to-end Source Séparation with adaptive front-ends", ARXIV :1705.02514V2, 6 May 2017 (2017-05-06), Retrieved from the Internet <URL:www.arxiv.org>
SANTIAGO PASCUAL ET AL: "SEGAN: Speech Enhancement Generative Adversarial Network", INTERSPEECH 2017, 9 June 2017 (2017-06-09), ISCA, pages 3642 - 3646, XP055579756, DOI: 10.21437/Interspeech.2017-1428 *
Y. LUO ET AL.: "TasNet : Time-Domain Audio Séparation Network for Real-Time, Single Channel Speech Separation", ARXIV : 1711.0054V2, 1 November 2017 (2017-11-01), Retrieved from the Internet <URL:www.arxiv.org>

Also Published As

Publication number Publication date
WO2020049263A1 (fr) 2020-03-12

Similar Documents

Publication Publication Date Title
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
US10504539B2 (en) Voice activity detection systems and methods
Karthik et al. Efficient speech enhancement using recurrent convolution encoder and decoder
WO2021196905A1 (fr) Procédé et appareil de traitement de déréverbération de signal vocal, dispositif informatique et support de stockage
Tu et al. Speech enhancement based on deep neural networks with skip connections
JP2019191558A (ja) 音声を増幅する方法及び装置
Liu et al. Bone-conducted speech enhancement using deep denoising autoencoder
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
Monaghan et al. Auditory inspired machine learning techniques can improve speech intelligibility and quality for hearing-impaired listeners
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
EP1849157B1 (fr) Procede de mesure de la gene due au bruit dans un signal audio
FR3002679A1 (fr) Procede de debruitage d&#39;un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
Wang et al. TeCANet: Temporal-contextual attention network for environment-aware speech dereverberation
FR2894707A1 (fr) Procede de mesure de la qualite percue d&#39;un signal audio degrade par la presence de bruit
Bhat et al. Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information
FR3085784A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
Chi et al. Spectro-temporal modulation energy based mask for robust speaker identification
Ding et al. UltraSpeech: Speech Enhancement by Interaction between Ultrasound and Speech
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
Zheng et al. Low-latency monaural speech enhancement with deep filter-bank equalizer
Gaultier Design and evaluation of sparse models and algorithms for audio inverse problems
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
Chhetri et al. Speech Enhancement: A Survey of Approaches and Applications

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

EXTE Extension to a french territory

Extension state: PF

PLSC Publication of the preliminary search report

Effective date: 20200313

PLFP Fee payment

Year of fee payment: 3

RX Complete rejection

Effective date: 20210819