FR3085784A1

FR3085784A1 - Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel

Info

Publication number: FR3085784A1
Application number: FR1858058A
Authority: FR
Inventors: Daniel PRESSNITZER; Manuel Pariente
Original assignee: Urgotech; Centre National de la Recherche Scientifique CNRS; Ecole Normale Superieure
Current assignee: Urgotech; Centre National de la Recherche Scientifique CNRS; Ecole Normale Superieure
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-13
Also published as: WO2020049263A1

Abstract

L'invention concerne un dispositif de rehaussement de la parole, comprenant : - un microphone, adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore comprenant un segment de signal sonore cible et d'un bruit interférant, et - une unité de traitement adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.

Description

DISPOSITIF DE REHAUSSEMENT DE LA PAROLE PAR IMPLEMENTATION

D’UN RESEAU DE NEURONES DANS LE DOMAINE TEMPOREL

DOMAINE DE L’INVENTION

L’invention concerne un dispositif de rehaussement de la parole, adapté pour isoler et rehausser un signal sonore cible d’un bruit interférant dans un signal sonore. Un tel dispositif de rehaussement peut être intégré dans une prothèse auditive ou dans un téléphone mobile. L’invention concerne également un procédé de rehaussement de la parole mis en œuvre par un tel dispositif.

ETAT DE LA TECHNIQUE

On appelle « l’effet cocktail party » la capacité pour un individu à diriger son attention pour suivre une source sonore particulière dans une ambiance bruyante, en séparant la scène auditive en un avant-plan et un arrière-plan.

Le syndrome du banquet, à l’inverse, concerne une incapacité chronique, pour un individu, à percevoir de façon audible une source sonore particulière au milieu d’un bruit interférant jugé parasitaire.

Afin de permettre aux individus atteints de ce type de dysfonctionnement de recouvrer une audition satisfaisante, de nombreux dispositifs d’aide auditive mettant en œuvre des méthodes d’apprentissage profond ont été développés.

De façon plus générale, dans le traitement du signal sonore, des dispositifs mettant en œuvre des réseaux de neurones ont été développés et entraînés spécialement pour réaliser des tâches spécifiques. Ainsi un dispositif de reconnaissance vocale est configuré et entraîné pour arriver à retranscrire ce qu’un locuteur a pu dire à partir d’un fichier audio d’entrée propre ou bruité. Un dispositif de séparation est quant à lui configuré pour réaliser une séparation de sources de sorte à permettre l’extraction de plusieurs fichiers audio retranscrivant séparément la parole de chacun des locuteurs d’intérêt, sans être spécifique à l’un ou l’autre. Un dispositif de rehaussement est quant à lui configuré pour améliorer l’intelligibilité du signal sonore cible de parole perceptible entouré d’un bruit parasitaire.

Or, la mesure de l’intelligibilité du signal sonore cible rehaussé par un dispositif de rehaussement implique de faire appel à un sujet humain, ce qui la rend difficile à mettre en œuvre sur des masses de données importantes. Il n’existe pas à ce jour de moyen satisfaisant de mesure d’intelligibilité par la mise en œuvre d’un traitement du signal.

Par conséquent, à défaut d’évaluer les performances d’un dispositif de rehaussement par une mesure directe de l’intelligibilité du signal sonore produit, on peut évaluer des performances à partir de deux indicateurs qui sont le rapport signal sur bruit (SNR) et le rapport signal sur distorsion (SDR).

Le rapport signal sur bruit est une mesure qui sert à caractériser la puissance relative d’un signal (ici le signal cible de la parole) par rapport à un bruit (ici le bruit interférant) en décibels. En notant s(t) et n(t) respectivement le signal et le bruit, le rapport signal sur bruit est défini par :

Æs²(t)\ ^SNR = ¹⁰“ΉΣ77ω)

Le rapport signal sur distorsion permet quant à lui de caractériser la puissance relative d’un signal (ici le signal cible de parole) par rapport à une distorsion (pour un dispositif de rehaussement, une distorsion induite par le débruitage) en décibel. En effet le signal débruité peut inclure certaines distorsions en plus du signal cible.

En notant s(t) le signal cible de parole et s (t)e signal débruité, le rapport signal sur distorsion est défini par :

SDR = Wlog_w l „ J \Et(s(i)-s (t))/

Un indicateur de performances d’un dispositif de rehaussement peut donc être la différence SDR-SNR, où SDR est évalué sur le signal de sortie du dispositif de rehaussement et SNR est évalué sur le signal d’entrée du dispositif de rehaussement.

Outre la dépendance de l’architecture du réseau de neurones à la tâche à laquelle doit répondre le dispositif, l’architecture en question doit également être choisie et adaptée de sorte à garantir au dispositif de présenter un temps de latence le plus faible possible (idéalement aux environs de 10 millisecondes) afin qu’il n’y ait pas de décalage ressenti par l’utilisateur entre le son bruité qui lui parvient directement depuis l’environnement, et le même son débruité par le dispositif de rehaussement.

La demande de brevet US 2017/061978 met en œuvre une méthode de rehaussement de la parole comprenant une étape de capture d’un signal sonore cible de parole compris dans un bruit de fond, une étape d’extraction du signal sonore cible segmenté en fenêtres de 20 ms, au moyen d’un réseau de neurones, et une étape de synthèse du signal sonore cible de parole indépendamment du bruit interférant.

Dans ce document, une conversion temps-fréquence est effectuée en amont du réseau de neurones, lequel est donc appliqué sur un signal fréquentiel pour isoler la source sonore du bruit.

Le fait que cette conversion ait lieu en dehors du réseau implique qu’elle n’a aucune garantie d’optimalité par rapport à la tâche.

Le document US 2016/111108 traite également d’une méthode de rehaussement de la parole par la mise en œuvre d’un réseau de neurones produisant un masque multipliant la transformée de Fourier à court-terme du signal bruité pour obtenir une estimation de la transformée de Fourier à court-terme du signal débruité.

Dans ce document, l’utilisation d’une transformée de Fourier à court-terme implique une décomposition du signal en composantes fréquentielles qui n’est pas optimisée pour la tâche de rehaussement, et donc le filtrage du signal n’est pas optimisé.

De plus, l’utilisation d’une transformée de Fourier à court-terme pour la séparation entre la parole et le bruit ambiant nécessite une bonne résolution fréquentielle, ce qui implique de traiter des segments temporels assez longs, de l’ordre de 30 ms, ce qui accroît le temps de latence entre l’acquisition du signal à traiter et l’extraction de la parole isolée du bruit, et rend difficile une implémentation en temps-réel du rehaussement de la parole.

Le document de S. Venkataramani et al., « End-to-end Source Separation with adaptive front-ends » publié sur le site www.arxiv.org (arXiv :1705.02514v2) le 6 mai 2017, décrit un procédé de séparation de source dans lequel la transformée de Fourier est remplacée par une décomposition fréquentielle optimisée pour la tâche et mise en œuvre par un réseau de neurones.

Néanmoins la structure du réseau de neurones proposé ne permet pas une mise en œuvre en temps-réel de la séparation de source du fait d’un temps de latence trop important. En effet, la section 4.1 décrit l’utilisation de fenêtres d’analyse de 64 ms (1024 échantillons à 16kHz), auxquelles s’ajoute une fenêtre de lissage de 5 ms, ce qui implique un temps de latence d’au minimum 69 ms pour le traitement d’un signal d’entrée, et donc une impossibilité d’utiliser ce dispositif en temps réel.

On connaît enfin la publication de Y. Luo et al « TasNet : Time-Domain Audio Separation Network for Real-Time, Single Channel Speech Separation”, parue sur le site internet www.arxiv.org (arXiv : 1711.0054v2) le 1er novembre 2017, qui traite d’une méthode de séparation vocale dans un contexte audio multi-locuteurs.

Cette méthode met en œuvre des réseaux de neurones récurrents dans le domaine temporel pour permettre la séparation vocale de chaque locuteur présent dans l’environnement. Cette méthode remplace la transformée de Fourier par une décomposition fréquentielle optimisée pour la tâche et opérant sur de courtes fenêtres temporelles sans chevauchement (overlap), permettant ainsi une mise en œuvre en temps réel. Néanmoins cette méthode n’est pas adaptée à la réalisation de tâches de rehaussement de la parole.

PRESENTATION DE L’INVENTION

Compte-tenu de ce qui précède, l’invention a pour but de proposer un dispositif de rehaussement de la parole présentant une bonne intelligibilité du signal sonore rendu, et présentant un temps de latence entre l’acquisition du signal sonore bruité et sa retranscription débruitée suffisamment faible pour pouvoir être utilisé pour le traitement en temps réel d’un flux sonore audio sans gêne de l’auditeur.

Un autre objectif de l’invention est d’améliorer la valeur d’un indicateur formé par la différence entre le rapport signal sur distorsion du signal de sortie du dispositif de rehaussement et le rapport signal-sur-bruit du signal d’entrée du dispositif.

A cet égard, l’invention a pour objet un dispositif de rehaussement de la parole, comprenant :

un microphone, adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore comprenant un segment de signal sonore cible et un bruit interférant, et une unité de traitement adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.

Dans un mode de réalisation, le réseau de neurones comprend :

un module de transformation adapté pour générer un vecteur de poids à partir d’un segment de signal sonore, un module de rehaussement adapté pour générer, à partir d’un vecteur de poids, un unique vecteur de masque, le vecteur de poids w_k et le vecteur de masque m_k étant tels que :

= m_kÇ)w_k où d_k est un vecteur de décomposition d’une estimation du segment du signal sonore cible contenu dans le segment de signal sonore dans une base de signaux sonores élémentaires, et un module de synthèse, adapté pour synthétiser une estimation du segment du signal sonore cible contenu dans le segment de signal sonore à partir du vecteur de décomposition.

Dans un mode de réalisation, le réseau de neurones comprend en outre :

un module de normalisation en amont du module de transformation, adapté pour normaliser l’énergie de chaque segment de signal sonore, et un module de remise à l’échelle en sortie du module de synthèse, adapté pour mettre en œuvre sur une estimation du segment de signal sonore cible généré par le module de synthèse une opération inverse à celle mise en œuvre par le module de normalisation sur le segment correspondant de signal sonore.

Dans un mode de réalisation, le module de transformation est configuré pour : mettre en œuvre sur chaque segment de signal sonore deux couches densément connectées en parallèle, appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids, les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et étant de préférence choisies comme la fonction sigmoïde pour la sortie d’une couche de densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.

Avantageusement, mais facultativement, une fonction d’activation est la fonction unité linéaire rectifiée et l’autre fonction d’activation est la fonction sigmoïde, et le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :

mettre en œuvre une couche densément connectée sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent, appliquer une fonction sigmoïde en sortie de ladite couche densément connectée, et multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids.

Dans un mode de réalisation, le module de rehaussement met en œuvre une pluralité de couches récurrentes successives de type LSTM, et chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.

Avantageusement, mais facultativement, le module de rehaussement est adapté pour mettre en œuvre une normalisation du vecteur de poids qu’il reçoit en entrée.

Dans des modes de réalisation, le dispositif de rehaussement de la parole peut comprendre en outre un haut-parleur adapté pour diffuser chaque segment du signal sonore cible.

Dans un mode de réalisation, l’unité de traitement comprend en outre une mémoire dans laquelle sont mémorisées plusieurs configurations de réseaux de neurones adaptés respectivement à plusieurs locuteurs, et le dispositif de rehaussement comprend en outre une interface configurée pour permettre la sélection d’une configuration de réseau de neurones.

L’invention a également pour objet un procédé de rehaussement de la parole, comprenant l’acquisition par un microphone d’un flux audio et sa conversion en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones à chaque segment de signal sonore dans le domaine temporel.

Dans un mode de réalisation, le procédé de rehaussement de la parole comprend la mise en œuvre, par une unité de traitement adaptée pour implémenter le réseau de neurones, d’étapes de :

génération, à partir d’un segment du signal sonore, d’un vecteur de poids, génération, à partir du vecteur de poids généré, d’un unique vecteur de masque, le vecteur de poids w_k et le vecteur de masque m_k étant tels que :

d_k = m_kQw_k où d_k est un vecteur de décomposition d’une estimation du segment du signal sonore cible contenu dans le segment de signal sonore dans une base de signaux sonores élémentaires, et synthèse de l’estimation du segment du signal sonore cible à partir du vecteur de poids et du vecteur de masque.

Le dispositif selon l’invention met en œuvre un réseau de neurones dans le domaine temporel pour réaliser le rehaussement de la parole. Le réseau de neurones prend en entrée un signal sonore dans le domaine temporel et effectue une décomposition en composantes fréquentielles qui est optimisée en fonction de la tâche à accomplir, et qui permet donc un filtrage optimal.

De plus, la structure du réseau de neurones employé permet d’obtenir un temps de latence voisin de 10 ms, ce qui permet une mise en œuvre en temps réel du rehaussement de la parole sans susciter de décalage perceptible pour un auditeur entre le signal rehaussé et le signal provenant directement du locuteur.

DESCRIPTION DES FIGURES

D’autres caractéristiques, buts et avantages de l’invention ressortiront de la description qui suit, qui est purement illustrative et non limitative, et qui doit être lue en regard des dessins annexés sur lesquels :

La figure 1 représente un exemple de dispositif de rehaussement selon un mode de réalisation de l’invention.

La figure 2 représente schématiquement l’architecture d’un réseau de neurones mis en œuvre par le dispositif de rehaussement,

Les figures 3a et 3b représentent schématiquement deux variantes de mise en œuvre du module de transformation du réseau de neurones.

La figure 4 représente schématiquement les principales étapes du procédé selon un mode de réalisation de l’invention.

La figure 5 représente la variation de la fonction de coût du réseau de neurones en fonction de son architecture.

La figure 6 représente la variation de l’indicateur SDR-SNR du réseau de neurones en fonction de son architecture.

DESCRIPTION DETAILLEE D’AU MOINS UN MODE DE REALISATION DE L’INVENTION

Dans la suite, on entend par « rehaussement de signal » le fait, à partir d’un signal sonore comprenant un signal sonore cible (typiquement de parole) et un bruit environnant, d’isoler le signal sonore cible pour améliorer son intelligibilité.

En référence à la figure 1, on a représenté schématiquement un dispositif de rehaussement 1 de la parole selon un mode de réalisation de l’invention. Le dispositif de rehaussement comporte une unité de traitement 10 apte à recevoir un signal sonore enregistré par un capteur tel qu’un microphone 11 à partir d’un flux audio.

Le microphone est avantageusement un composant du dispositif de rehaussement 1 comme sur la figure 1. En variante, l’unité de traitement 10 peut recevoir le signal sonore enregistré par un microphone distant, ne faisant pas partie du dispositif, par chargement à partir d’une mémoire où le signal sonore est enregistré, ou via une interface de connexion avec le microphone distant.

L’unité de traitement 10 peut comporter avantageusement au moins un calculateur 12, par exemple un processeur, microprocesseur, microcontrôleur, etc., et une mémoire 13 dans laquelle sont enregistrées des instructions de code exécutables par le calculateur pour la mise en œuvre du procédé de rehaussement de la parole décrit ci-après.

L’unité de traitement 10 est configurée pour implémenter un réseau de neurones décrit ci-après pour mettre en œuvre le procédé de rehaussement de la parole. Le réseau de neurones est un ensemble d’opérations mathématiques mises en œuvre de manière analogique ou logicielle, de préférence de manière logicielle. On peut parier de neurones artificiels pour distinguer ces neurones de neurones biologiques.

Avantageusement, mais facultativement, le dispositif de rehaussement peut en outre comprendre un émetteur 14, par exemple un haut-parleur, adapté pour convertir le signal traité par l’unité de traitement 10 en un flux audio audible pour un auditeur.

Le dispositif de rehaussement est avantageusement adapté pour traiter en temps réel un flux audio adressé à un auditeur, pour retourner à l’auditeur le signal sonore cible contenu dans ce flux audio. Par « en temps réel », on comprend que le dispositif de rehaussement est adapté pour retourner, au fur et à mesure de l’acquisition d’un flux audio par un microphone, le signal source de parole débruité contenu dans ce signal, avec un temps de latence entre l’acquisition par le microphone et l’obtention du signal source de parole, voisin de, ou inférieur à 10 ms.

Dans un mode de réalisation, le dispositif de rehaussement de la parole est un dispositif intégré contenant un microphone, l’unité de traitement, un haut-parleur, ainsi qu’une source d’alimentation électrique de ces composants (batterie, pile - la source d’alimentation n’est pas représentée sur les figures), le dispositif pouvant par exemple prendre la forme d’une oreillette portée par l’auditeur.

En référence aux figures 2, 3a, 3b et 4, on va maintenant décrire le procédé de rehaussement de la parole contenue dans un signal sonore, mis en œuvre par l’unité de traitement 10.

Dans toute la suite, on appelle signal sonore l’enregistrement par un capteur ou un microphone d’un flux audio, le flux audio étant une vibration de l’air perceptible par l’humain.

Le signal sonore sur lequel est mis en œuvre le procédé de rehaussement est constitué d’un signal sonore cible et un bruit interférant. Le signal sonore cible est l’enregistrement d’un flux audio de parole correspondant à une personne qui parle. Le bruit interférant peut être composé de bruits ambiants divers tels que de la parole, de la musique ou encore des sons ou bruits d’autres natures.

De préférence, un flux audio acquis par le microphone 11 est converti lors d’une étape 100, par le microphone, au fur et à mesure de l’acquisition du flux audio, en segments de signal sonore d’une durée constante et déterminée, avantageusement inférieure à 10 ms, et de préférence égale à 5 ms.

L’unité de traitement 10 est configurée pour traiter successivement chaque segment de signal sonore transmis depuis le microphone.

Chaque segment de signal sonore contient donc un segment de signal sonore cible et du bruit interférant.

On note dans la suite x_k e IR^Lxl un segment de signal sonore parvenant en entrée de l’unité de traitement, où L est la durée d’un segment (par exemple 5 ms, soit 80 échantillons à 16kHz). x_k comprend donc un nombre L d’échantillons.

On note également s_ke lR^lxL un segment de signal sonore cible contenu dans le segment x_k.

Dans la suite on cherche à estimer s_ken déterminant une estimation s_k de s_kreprésentée comme une somme pondérée de N signaux sonores élémentaires B = [b_lt ...,b_w] e m^NxL, où les signaux sonores élémentaires ne sont pas prédéfinis mais sont optimisés lors de la phase d’apprentissage du réseau de neurones.

On note:

d_kB

Où d_ke ΙΚ^1χΛ/ est un vecteur de décomposition de l’estimation s_k dans la base des signaux sonores élémentaires B.

Dans la suite, on cherche à déterminer d_k pour pouvoir synthétiser la source isolée du bruit interférant. Pour ce faire, on détermine un vecteur de masque m_ke HR^lxW et un vecteur wk e GR^lxiV de poids du segment de signal initial tels que : dk = m_k0w_k

Où Θ désigne la multiplication terme à terme.

Le procédé comprend donc ensuite l’estimation pour chaque segment de signal sonore initial entrant x_k d’un vecteur de poids w_ket d’un vecteur de masque m_k correspondant pour obtenir d_k. Cela est mis en œuvre par le réseau de neurones implémenté par l’unité de traitement.

En référence à la figure 2, le réseau de neurones 2 comprend un module de transformation 20, un module de rehaussement 21 et un module de synthèse 22.

Avantageusement, le réseau de neurones 2 comprend également un module de normalisation 23 en amont du module de transformation 20, et un module de remise à l’échelle 24 en aval du module de synthèse 22.

Le module de normalisation 23 est adapté pour mettre en œuvre lors d’une étape 200 une normalisation des segments de signal sonore pour réduire la variabilité des données d’entrée et permettre un apprentissage plus efficace du réseau de neurones.

Avantageusement, le module de normalisation 23 met en œuvre la normalisation suivante sur chaque segment de signal sonore :

X_k xnorm_k = |y^L x²

Où xnorm_k est est le segment normalisé correspondant au segment x_k, et x_ksiest le i^eme échantillon du segment x_k.

Le module de remise à l’échelle 24 est configuré pour mettre en œuvre sur le signal de sortie (étape 600 décrite ci-après) du module de synthèse 22 une opération inverse à celle mise en œuvre par le module de normalisation 23 pour que le signal de sortie soit d’une intensité comparable à celle du segment d’entrée correspondant.

Pour reprendre l’exemple qui précède, le module de remise à l’échelle 24 réalise avantageusement l’opération suivante sur le segment Y_k du signal de sortie du module de synthèse :

Σ % i

Dans la suite de la description du traitement on considérera que l’entrée du module de transformation 20 est normalisée même si la notation xnorm_k n’est pas utilisée, ceci afin de ne pas alourdir les notations.

ydenorm_k = y_k.

Le module de transformation est adapté pour générer lors d’une étape 300, à partir du segment x_k un vecteur de poids w_k du segment.

Pour ce faire, le module de transformation 20 est adapté pour :

mettre en œuvre sur chaque segment x_k deux couches densément connectées en parallèle U et V, appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids.

Avantageusement, les fonctions d’activation sont choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée.

Selon un mode de réalisation préférée, une fonction d’activation est la fonction sigmoïde définie par :

Et l’autre fonction d’activation est de préférence la fonction unité linéaire rectifiée, notée ReLU et définie par :

ReLU(x) = x⁺ = max(0,x)

Ainsi selon un premier mode de réalisation le vecteur de poids w_k est obtenu par le module de transformation par :

w_k = ReLUÇU.x^QaÇV.Xk)

Où U et V sont des matrices de taille N*L qui sont optimisées lors de l’entrainement du réseau de neurones. N peut par exemple être égal à 1000.

Dans un mode de réalisation préféré, le module de transformation 20 comprend en outre une cellule récurrente préfiltrante appliquant une autre couche densément connectée U₂ (également optimisée lors de l’entrainement du réseau de neurones) à une entrée formée de la concaténation de la sortie de la fonction ReLU appliquée au segment courant et au segment précédent. La sortie de cette couche densément connectée est appliquée à une fonction sigmoïde et le résultat est également multiplié aux sorties des autres fonctions d’activation pour l’obtention de w_k.

En notant A_k la sortie de la fonction Relu appliquée au segment x_k :

A_k = ReLU(U.x_k)

Le vecteur de poids w_k est alors déterminé par :

w_k = A_kQa(U₂. [A^A^ÏÏQafV.x^

L’ajout de la cellule récurrente préfiltrante permet de tenir compte des similarités de décomposition dans la base de signaux élémentaires de deux segments successifs et de réaliser un préfiltrage en conséquence grâce à la fonction sigmoïde.

De retour à la figure 4, le procédé comprend ensuite une étape 420, mise en œuvre par le module de rehaussement, de génération, à partir du vecteur de poids w_k, d’un unique vecteur de masque m_k unique.

Pour ce faire, le module de rehaussement 21 du réseau de neurones est de préférence configuré pour effectuer en premier lieu (étape 410) une normalisation du vecteur de poids w_k, telle que :

g w_k=-(w_k- μ) + b σ

Où :

w_k est le vecteur de poids normalisé, μ est une moyenne précalculée, avantageusement pendant ou à l’issue de l’entrainement du réseau de neurones, il peut s’agir d’une valeur moyenne de vecteur de poids générés pendant l’entrainement, σ un écart-type précalculé, avantageusement pendant ou à l’issue de l’entrainement du réseau de neurones ; il peut s’agir d’un écart-type de vecteurs de poids générés pendant l’entrainement, ge IK^lxW et be HR^lxW sont respectivement des gains additif et multiplicatif optimisés lors de l’entrainement du réseau de neurones.

Pour l’extraction du vecteur de masque à partir du vecteur de poids (avantageusement normalisé), le module de rehaussement comporte un réseau profond de type à longue mémoire à court-terme, également connu sous l’acronyme LSTM (de l’anglais Long Short-Term Memory), suivi d’une couche densément connectée dont la fonction d’activation est la fonction sigmoïde, afin d’avoir pour le masque des valeurs comprises entre 0 et 1.

Avantageusement, le réseau profond LSTM comporte quatre couches successivement connectées, où, à partir de la troisième couche, chaque couche prend en entrée une combinaison de la couche précédente et de la couche encore précédente. On note skip la combinaison appliquée à la couche précédente et à la couche qui la précède.

En notant L_1sk, . ..L_4kles couches LSTM pour le vecteur w_k on a :

L_lik = LSTMfwA

L_2ik = LSTM(L_lik)

L_3ik = LSTM(skip(L_lik,L_2ik))

Kk = bSTM(skip(L_2ik,L_3ik))

Dans un mode de réalisation, la fonction skip est définie par la somme des résultats des deux couches :

skip\L_2k,L_3k) = L_2k + L_3k

Selon une variante avantageuse, la fonction skip retourne la concaténation des deux couches, ce qui permet de donner aux troisième et quatrième couches LSTM un accès aux résultats des deux couches précédentes pour améliorer l’estimation du masque :

skip(L_2k,L_3k) = [L_2k,L_3k]

Cette variante permet d’améliorer la propagation du gradient lors de l’entrainement du réseau de neurones, ce qui permet une meilleure optimisation au moins du module de transformation et du module de rehaussement.

Selon encore une autre variante, la fonction skip retourne la concaténation de toutes les couches récurrentes précédentes :

skipi — ,

En référence à la figure 5, on a représenté la fonction de coût du réseau de neurones en fonction du son architecture et notamment en fonction des principales variantes décrites ci-avant pour le module de transformation et le module de rehaussement. La fonction de coût du réseau de neurones est calculée comme l’erreur carrée moyenne entre la prédiction du réseau de neurones et le signal cible.

Sur la figure 5 :

la première colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip définie par la somme des résultats des deux couches précédentes ;

la deuxième colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches précédentes ;

la troisième colonne correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une somme des résultats des deux couches ;

la quatrième colonne, qui présente les meilleurs résultats, correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des résultats des deux couches.

La sortie de la couche densément connectée est un masque m_k correspondant à chaque segment x_k:

m_k = Dense(L_kf)

Ce masque est appliqué par le module de rehaussement 21 lors d’une étape 430 au vecteur w_k de poids pour obtenir un vecteur de décomposition d_k du segment du signal sonore cible dans la base des signaux sonores élémentaires, ce vecteur d_kformant l’entrée du module de synthèse 22 :

d_k = m_kQw_k

En variante le module de synthèse 22 peut recevoir en entrées le masque m_k et le vecteur de poids w_k (du module de rehaussement, et éventuellement du module de transformation pour w_k) et mettre en œuvre l’étape 430 pour obtenir le vecteur de décomposition d_k.

Enfin, le module de synthèse 22 détermine lors d’une étape de synthèse 500 une estimation s_k du segment de signal cible s_k contenu dans le segment x_k par multiplication matricielle entre le vecteur de décomposition du segment du signal cible et les signaux élémentaires :

s j. d_kB

Cette estimation s_k du segment signal cible correspond au signal de sortie du module de synthèse 22, également notée y_k dans la description qui précède des modules de normalisation 23 et de remise à l’échelle 24, et fait ensuite l’objet d’une remise à l’échelle dans le module 24 correspondant lors d’une étape 600.

Le segment signal cible ainsi obtenu peut ensuite être diffusé par le hautparleur, en temps-réel pendant le traitement du segment suivant, le cas échéant.

A défaut de pouvoir mesurer l’intelligibilité du signal cible reconstitué en sortie du réseau de neurones, on a mesuré l’indicateur SDR-SNR (SDR : rapport signal sur distorsion et SNR : rapport signal sur bruit - les définitions données en introduction sont applicables ici) pour les différentes configurations du réseau de neurones indiquées ci-avant.

Sur la figure 6, on a représenté les différentes valeurs de cet indicateur :

la première colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip définie par la somme des résultats des deux couches ;

la deuxième colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches la troisième colonne correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une somme des résultats des deux couches ;

On constate que l’utilisation, soit d’un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches, soit d’un module de transformation comprenant une cellule récurrente préfiltrante permet d’améliorer cet indicateur.

En revanche, si l’utilisation de ces deux caractéristiques combinées permet d’optimiser les performances du réseau en termes d’erreur, elle ne permet pas d’optimiser l’indicateur SDR-SNR, bien qu’elle apporte tout de même une amélioration par rapport à la structure de base dépourvue de ces deux caractéristiques.

Pour l’entrainement du réseau de neurones, un corpus de signaux initiaux est avantageusement créé comprenant un ensemble d’apprentissage et un ensemble de validation disjoints, représentant respectivement de l’ordre de 70 à 80% du corpus, et de 20 à 30% du corpus.

Chaque ensemble est obtenu à partir d’une bibliothèque d’enregistrements de paroles, et d’une bibliothèque d’enregistrements de bruits ambiants supplémentaires correspondant à des bruits réalistes (fond sonore d’une rue, d’un restaurant, etc.), qui sont avantageusement ajoutés de bruits supplémentaires composés de plusieurs locuteurs parlant en même temps sans lien entre eux (« babble noise »). Chaque échantillon d’un ensemble est créé par appairage d’un enregistrement de parole et d’un bruit.

L’entrainement du réseau de neurones permet d’optimiser les couches U, U₂, V, les coefficients de normalisation g et b, les couches LSTM, ainsi que la base B des signaux élémentaires, ce qui permet d’adapter la décomposition du segment de signal sonore de la meilleure façon en fonction de la tâche à réaliser, contrairement à d’une transformée de Fourier pour décomposer et filtrer le signal.

Avantageusement, l’entrainement du réseau de neurones peut être mené de telle sorte à rendre le réseau de neurones spécifique à un locuteur particulier.

Dans ce cas-îà, le dispositif de rehaussement doit avantageusement permettre de sélectionner le locuteur dont le signal doit être rehaussé.

Pour ce faire, selon un premier mode de réalisation, le microphone 11 peut être directionnel et l’unité de traitement 10 peut être configurée pour sélectionner, en tant que locuteur dont la parole doit être isolée du bruit, celui qui présente une puissance moyenne de signal la plus élevée (acquise par le microphone directionnel).

En variante, le réseau de neurones peut être entraîné pour plusieurs locuteurs correspondant à des interlocuteurs habituels de l’auditeur, et les différentes configurations du réseau de neurones sont enregistrées dans une mémoire (non représentée) de l’unité de traitement.

Le dispositif de rehaussement peut alors avantageusement comprendre une interface, par exemple une interface graphique qui peut être d’une application logicielle installée sur un téléphone mobile ou une tablette tactile de l’utilisateur du dispositif de rehaussement, l’interface graphique permettant de sélectionner la configuration du réseau de neurones adaptée à l’interlocuteur en train de parler. Dans ce cas l’unité de traitement 10 comprend avantageusement une interface de 5 connexion adaptée pour échanger des instructions avec le téléphone mobile ou la tablette tactile, telle que par exemple une interface de connexion Bluetooth ou filaire, ou à internet.

Claims

REVENDICATIONS

1. Dispositif (1 ) de rehaussement de la parole, comprenant :

un microphone (11), adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment (x_k) de signal sonore comprenant un segment de signal sonore cible (s_k) et un bruit interférant, et une unité de traitement (10) adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.
2. Dispositif (1) de rehaussement de la parole selon la revendication 1, dans lequel le réseau de neurones (2) comprend :

un module de transformation (20) adapté pour générer (300) un vecteur de poids (w_k) à partir d’un segment de signal sonore (x_k), un module de rehaussement (21) adapté pour générer (420), à partir d’un vecteur de poids (w_k), un unique vecteur de masque (m_k), le vecteur de poids et le vecteur de masque étant tels que :

d_k = m_kQw_k où d_k est un vecteur de décomposition d’une estimation du segment (s_k, y_k) du signal sonore cible contenu dans le segment de signal sonore (x_k) dans une base de signaux sonores élémentaires (B), et un module de synthèse (22), adapté pour synthétiser (500) une estimation du segment (s_k, y_k) du signal sonore cible contenu dans le segment de signal sonore (x_k), à partir du vecteur de décomposition (d_k).
3. Dispositif (1) de rehaussement de la parole selon la revendication 2, dans lequel le réseau de neurones (2) comprend en outre :

un module de normalisation (23) en amont du module de transformation (20), adapté pour normaliser l’énergie de chaque segment (x_k) de signal sonore, et un module de remise à l’échelle (24) en sortie du module de synthèse (22), adapté pour mettre en œuvre sur une estimation du segment de signal sonore cible (s_k, y_k) généré par le module de synthèse une opération inverse à celle mise en œuvre par le module de normalisation sur le segment correspondant de signal sonore.
4. Dispositif (1) de rehaussement de la parole selon l’une des revendications 2 ou 3, dans lequel le module de transformation (20) est configuré pour :

mettre en œuvre sur chaque segment (x_k) de signal sonore deux couches densément connectées (U, V) en parallèle, appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids (w_k), les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et étant de préférence choisies comme la fonction sigmoïde pour la sortie d’une couche densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
5. Dispositif (1) de rehaussement de la parole selon la revendication 4, dans lequel une fonction d’activation est la fonction unité linéaire rectifiée et l’autre fonction d’activation est la fonction sigmoïde, et le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :

mettre en œuvre une couche densément connectée (U₂) sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent, appliquer une fonction sigmoïde en sortie de ladite couche densément connectée (U₂), et multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids (w_k).
6. Dispositif (1) de rehaussement de la parole selon l’une des revendications 2 à 5 dans lequel le module de rehaussement (21) met en œuvre une pluralité de couches récurrentes successives de type LSTM, et dans lequel chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.
7. Dispositif (1) de rehaussement de la parole selon l’une des revendications 2 à 6, dans lequel le module de rehaussement (21) est adapté pour mettre en œuvre une normalisation (410) du vecteur de poids qu’il reçoit en entrée.
8. Dispositif (1) de rehaussement de la parole selon l’une des revendications précédentes, comprenant en outre un haut-parleur (14) adapté pour diffuser chaque segment du signal sonore cible.
9. Dispositif (1) de rehaussement de la parole selon l’une des revendications précédentes, dans lequel l’unité de traitement (10) comprend en outre une mémoire (13) dans laquelle sont mémorisées plusieurs configurations de réseaux de neurones (2) adaptées respectivement à plusieurs locuteurs, et le dispositif (1) de rehaussement comprend en outre une interface configurée pour permettre la sélection d’une configuration de réseau de neurones.
10. Procédé de rehaussement de la parole, comprenant l’acquisition par un microphone d’un flux audio et sa conversion (100) en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones (2) à chaque segment de signal sonore dans le domaine temporel.
11. Procédé de rehaussement de la parole selon la revendication précédente, comprenant la mise en œuvre, par une unité de traitement (10) adaptée pour implémenter le réseau de neurones (2), d’étapes de :

génération (300), à partir d’un segment du signal sonore (x_k), d’un vecteur de poids (w_k), génération (420), à partir du vecteur de poids généré, d’un unique vecteur de masque (m_k), le vecteur de poids et le vecteur de masque étant tels que :

d_k = m_kQw_k où dk est un vecteur de décomposition d’une estimation du segment (s_k, y_k) du signal sonore cible contenu dans le segment de signal sonore (x_k) dans une base de signaux sonores élémentaires (B), et

5 - synthèse (500) de l’estimation du segment du signal sonore cible (s_k) à partir du vecteur de poids et du vecteur de masque.