EP3828886A1

EP3828886A1 - Method and system for separating the voice component and the noise component in an audio flow

Info

Publication number: EP3828886A1
Application number: EP20209511.3A
Authority: EP
Inventors: Félix MATHIEU; Thomas COURTAT; François CAPMAN; François SAUSSET; Shaheen ACHECHE
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2019-11-27
Filing date: 2020-11-24
Publication date: 2021-06-02
Also published as: FR3103619B1; FR3103619A1; SG10202011769TA

Abstract

L'invention concerne un procédé et un système pour séparer en temps réel dans un flux audio la composante voix et la composante bruit.The invention relates to a method and a system for separating in real time in an audio stream the voice component and the noise component.

Description

L'invention concerne un procédé et un système permettant de séparer, en temps réel dans un flux audio, la partie du flux associée à une voix ou à de la parole, d'une autre partie du flux contenant les bruits.The invention relates to a method and a system for separating, in real time in an audio stream, the part of the stream associated with a voice or speech, from another part of the stream containing the noise.

L'invention trouve son application dans un contexte où une ou plusieurs personnes parlent dans un environnement bruité (brouhaha, bruit de moteur, ventilation, etc.). Le signal de la parole superposé aux signaux bruyants est numérisé dans un flux audio par un capteur sonore.The invention finds its application in a context where one or more people are talking in a noisy environment (hubbub, engine noise, ventilation, etc.). The speech signal superimposed on the noisy signals is digitized into an audio stream by a sound sensor.

L'invention concerne aussi un procédé et un système pour rehausser un signal de voix en temps réel dans un flux audio à partir d'un procédé de séparation de sources audio en temps différé.The invention also relates to a method and a system for enhancing a real-time voice signal in an audio stream from a method of separating audio sources in delayed time.

L'état de l'art connu du demandeur se divise en deux catégories, les approches dites classiques et les approches possibles par l'intelligence artificielle connue sous la dénomination anglo-saxonne de « deep learning ».The state of the art known to the applicant is divided into two categories, the so-called conventional approaches and the approaches possible by artificial intelligence known under the Anglo-Saxon name of “deep learning”.

Dans l'approche de « deep learning », des approches traitent directement du problème de séparation voix/bruit de fond, d'autres concernent la séparation signal/signal, voix/voix.In the “deep learning” approach, some approaches directly deal with the problem of voice / background noise separation, others relate to signal / signal, voice / voice separation.

La demande de brevet US 20190066713 divulgue un procédé consistant à obtenir, par un dispositif, un signal sonore combiné pour des signaux combinés provenant de multiples sources sonores dans une zone dans laquelle se trouve une personne. Le traitement mis en œuvre fait appel à des réseaux de neurones profonds.The patent application US 20190066713 discloses a method of obtaining, by a device, a combined sound signal for combined signals from multiple sound sources in an area in which a person is located. The processing implemented uses deep neural networks.

Un exemple de procédé pour séparer plusieurs voix dans un signal audio selon l'art antérieur comporte les étapes décrites ci-après et non représentées pour des raisons de simplification. Le signal audio entrant est noté X, il a pour longueur L. Le signal est transmis à un encodeur M ₁ qui transforme X en un tenseur X ⁽¹⁾de dimensions F × T où T est un diviseur de L et F un nombre de filtres donné par le concepteur. L'encodeur M ₁ consiste en une Convolution 1D à F filtres. Les coefficients des noyaux de convolution sont réglés lors d'une phase d'apprentissage. Le tenseur est transmis d'une part à un multiplicateur pour une utilisation future et d'autre part à un module de séparation. Le module de séparation est divisé en deux sous-modules M ₂ et M ₄. Le premier sous-module M ₂ transforme le tenseur X ⁽¹⁾ en un tenseur X ⁽²⁾ de dimensions F × T. Le premier sous-module M ₂ est constitué d'une couche de normalisation, une convolution 1x1 et un empilement de modules 1D-Conv connus de l'art antérieur et dont les paramètres sont réglés lors d'une phase d'apprentissage.An example of a method for separating several voices in an audio signal according to the prior art comprises the steps described below and not shown for reasons of simplification. The incoming audio signal is denoted by X , it has the length L. The signal is transmitted to an encoder M ₁ which transforms X into a tensor X ⁽¹⁾ of dimensions F × T where T is a divisor of L and F a number of filters given by the designer. The encoder M ₁ consists of a 1D Convolution with F filters. The coefficients of the convolution kernels are adjusted during a learning phase. The tensor is transmitted on the one hand to a multiplier for future use and on the other hand to a separation module. The separation module is divided into two submodules M ₂ and M ₄ . The first submodule M ₂ transforms the tensor X ⁽¹⁾ into a tensor X ⁽²⁾ of dimensions F × T. The first submodule M ₂ consists of a normalization layer, a 1x1 convolution and a stack of 1D-Conv modules known from the prior art and whose parameters are set during a learning phase.

Le deuxième sous-module M ₄ transforme X ⁽²⁾ en X ⁽⁴⁾ tenseur de dimensions 2F × T. Pour cela, le deuxième sous-module M ₄ enchaîne une non-linéarité, une convolution 1x1 et une fonction sigmoîde. Les coefficients de la convolution 1x1 sont réglés lors d'une phase d'apprentissage.The second submodule M ₄ transforms X ⁽²⁾ into an X ⁽⁴⁾ tensor of dimensions 2F × T. For this, the second submodule M ₄ connects a non-linearity, a 1x1 convolution and a sigmoid function. The coefficients of the 1x1 convolution are set during a learning phase.

X ⁽¹⁾ est concaténé à lui-même pour former un tenseur de dimensions 2F x T qui est multiplié à X ⁽⁴⁾ pour former X ⁽⁵⁾. X ⁽¹⁾ is concatenated to itself to form a tensor of dimensions 2F x T which is multiplied by X ⁽⁴⁾ to form X ⁽⁵⁾ .

Le module M ₅ prend pour entrée X ⁽⁵⁾ et donne en sortie deux signaux de longueur L au moyen d'une déconvolution 1D dont les paramètres sont réglés lors d'une phase d'apprentissage.The module M ₅ takes as input X ⁽⁵⁾ and outputs two signals of length L by means of a 1D deconvolution, the parameters of which are adjusted during a learning phase.

Les paramètres numériques définissant les traitements des différents modules sont obtenus dans une phase préalable d'apprentissage sur une base de données.The digital parameters defining the processing of the different modules are obtained in a prior learning phase on a database.

En remplaçant une des voix par du bruit, il est immédiat d'utiliser les méthodes décrites dans l'état de l'art pour séparer la voix du bruit de fond dans un signal audio et, en conservant uniquement la sortie contenant le signal de voix, de rehausser la voix d'un signal bruité.By replacing one of the voices with noise, it is immediate to use the methods described in the state of the art to separate the voice from the background noise in an audio signal and, by keeping only the output containing the voice signal , to enhance the voice with a noisy signal.

La figure 1 illustre une application à la séparation de signaux de différents types, en séparant le canal voix et le canal bruit.The figure 1 illustrates an application to the separation of signals of different types, by separating the voice channel and the noise channel.

Tel que décrit, l'état de l'art ne permet pas directement le traitement en temps réel d'un flux audio.As described, the state of the art does not directly allow real-time processing of an audio stream.

Le document de Mimilakis Stylianos loannis et al, intitulé « A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation », du 25 septembre 2017, pages 1-6, XP 033263882 , divulgue un procédé permettant de séparer la voix d'un fond musical.The document Mimilakis Stylianos loannis et al, entitled “A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation”, September 25, 2017, pages 1-6, XP 033263882 , discloses a method for separating the voice from a musical background.

Dans le domaine technique du « deep learning », les données sont représentées sous forme de tenseurs. Les données sont modifiées par une succession de modules. En sortie de chaque module, les données sont projetées dans un espace abstrait défini en général par ses dimensions.In the technical field of "deep learning", data is represented in the form of tensors. The data is modified by a succession of modules. At the output of each module, the data is projected into an abstract space generally defined by its dimensions.

Pour ce faire la présente invention met en œuvre les traitements suivants :To do this, the present invention implements the following treatments:

Le signal (flux d'entrée X) est découpé en N trames de longueur L, avec X_N la nième trame. Le procédé exécute les traitements suivants :The signal (input stream X ) is split into N frames of length L, with X _N the nth frame. The method carries out the following treatments:

La trame X_N est encodée par un réseau de convolutions 1D. Le résultat est un tenseur $X_{N}^{(1)}$

de dimensions F x T avec F le nombre de filtres donné par le concepteur,The frame X _N is encoded by a network of 1D convolutions. The result is a tensor

X_{NOT}

_{(1)}

of dimensions F x T with F the number of filters given by the designer,

T un diviseur de L dépendant de la taille des filtres F, 100. Le résultat $X_{N}^{(1)}$

est ensuite transformé par un module M_2, 101. Le résultat

X_{N}^{(2)}

est un tenseur de dimensions F x T. Le module M₄ estime, 103, à partir de

X_{N}^{(2)},

un tenseur

X_{N}^{(4)}

de dimensions 2F x T.

X_{N}^{(1)}

est concaténé à lui-même, 104, pour former un tenseur de dimensions 2F x T qui est multiplié à

X_{N}^{(4)}

pour former

X_{N}^{(5)} .

Le module M₅ à partir de

X_{N}^{(5)}

produit un tenseur de dimension 2 x T, 105, à partir duquel on obtient deux sorties de dimensions 1 x T X _N,0 et X _N,1 qui sont respectivement le canal voix et le canal bruit.T a divisor of L depending on the size of the filters F, 100. The result

X_{NOT}

_{(1)}

is then transformed by a module M _2, 101. The result

X_{NOT}^{(2)}

is a tensor of dimensions F x T. The modulus M ₄ estimates, 103, from

X_{NOT}^{},

a tensor

X_{NOT}^{(4)}

of dimensions 2F x T.

X_{NOT}

_{(1)}

is concatenated to itself, 104, to form a tensor of dimensions 2F x T which is multiplied by

X_{NOT}^{(4)}

to train

X_{NOT}^{(5)} .

The M ₅ module from

X_{NOT}^{(5)}

produces a tensor of dimension 2 x T, 105, from which we obtain two outputs of dimensions 1 x T X _{N , 0} and X _{N , 1} which are respectively the voice channel and the noise channel.

Ces étapes sont réitérées sur chaque nouvelle trame. Les paramètres sont appris sur une base de données de sons. L'inconvénient de ce procédé est qu'il n'utilise pas les informations des trames précédentes pour traiter la trame courante. Ceci entraîne notamment une qualité dégradée et une forte latence dans les traitements, du fait de la durée des trames.These steps are reiterated on each new frame. The parameters are learned from a sound database. The disadvantage of this method is that it does not use the information from the previous frames to process the current frame. This leads in particular to degraded quality and high latency in processing, due to the duration of the frames.

L'un des objectifs de la présente invention est d'offrir un procédé et un dispositif permettant de séparer, en temps réel, des voix du bruit de fond dans un flux audio, ou débruitage de la voix dans un flux audio, notamment en tenant compte des informations issues des trames précédentes. Ceci permet d'améliorer les performances et la latence de traitement. Le procédé permet ainsi la propagation de « l'information globale » sur le signal, sa mise à jour et son exploitation de trame en trame.One of the objectives of the present invention is to provide a method and a device making it possible to separate, in real time, voices from the background noise in an audio stream, or denoising of the voice in an audio stream, in particular by taking counts information from previous frames. This improves performance and processing latency. The method thus enables the propagation of “global information” on the signal, its updating and its use from frame to frame.

L'invention concerne un procédé pour séparer en temps réel de la voix du bruit dans un signal audio reçu sur un récepteur équipé d'un capteur audio caractérisé en ce qu'il comporte au moins les étapes suivantes :

On sépare le flux audio reçu en N trames X_N ,
Pour chaque trame X_N on associe un tenseur contenant des informations sur l'ensemble du flux audio,
On transmet la trame X_N à un premier module M₁ qui génère un signal $X_{N}$ $_{(1)},$
Le tenseur I _N-1 obtenu lors de l'étape précédente pour le traitement de la trame X_N - 1 est transmis à un module M₃,
Le module M₃ prend en entrée un signal $X_{N}$ $_{(2)},$
résultat de la transformation du signal $X_{N}$ $_{(1)}$
par un module M₂ et réalise la concaténation de $X_{N}^{}$
et I_N afin de générer un signal $X_{N}^{(3)}$
de dimension 2F x T,
Le signal $X_{N}^{(3)}$
est transmis à un module M₄ afin de générer un signal $X_{N}^{(4)}$
qui est combiné avec le signal $X_{N}$ $_{(1)},$
Le signal résultant de la combinaison est décodé par un décodeur M₅ afin de générer un premier signal de voix X _N,0 et un deuxième signal X _N,1.

The invention relates to a method for separating voice in real time from noise in an audio signal received on a receiver equipped with an audio sensor, characterized in that it comprises at least the following steps:

The audio stream received is separated into N frames X _N ,
For each frame X _N we associate a tensor containing information on the whole audio stream,
The frame X _N is transmitted to a first module M ₁ which generates a signal $X_{NOT}^{(1)},$
The tensor I _{N -1} obtained during the previous step for the processing of the frame X _N - 1 is transmitted to a module M ₃ ,
The M ₃ module takes a signal as input $X_{NOT}$ $_{(2)},$
signal transformation result $X_{NOT}$ $_{(1)}$
by a module M ₂ and performs the concatenation of $X_{NOT}^{}$
and I _{N in} order to generate a signal $X_{NOT}^{(3)}$
of dimension 2F x T,
The signal $X_{NOT}^{(3)}$
is transmitted to a module M _{4 in} order to generate a signal $X_{NOT}^{(4)}$
which is combined with the signal $X_{NOT}^{(1)},$
The signal resulting from the combination is decoded by a decoder M _{5 in} order to generate a first voice signal X _{N , 0} and a second signal X _{N, 1} .

Pour traiter une trame N on suppose que la trame N - 1 a été traitée précédemment et que les quantités résultant de ce traitement ont été stockées. Pour la trame 0, I ₀ est fixé arbitrairement par exemple il est identiquement nul.To process an N frame, it is assumed that the N - 1 frame has been processed previously and that the quantities resulting from this processing have been stored. For frame 0, I ₀ is set arbitrarily, for example it is identically zero.

L'invention concerne aussi un dispositif pour séparer de la voix du bruit dans un signal audio reçu sur un récepteur équipé d'un capteur audio caractérisé en ce qu'il comporte au moins les éléments suivants :

Un premier module M₁ recevant des trames d'un signal contenant de la voix et du bruit,
Le premier module à une sortie reliée à un deuxième module M₂ configuré pour générer un signal transmis à un troisième module M₃ qui reçoit une valeur de tenseur associée à une trame précédente X_N - 1 pour générer un tenseur I_N associé à la trame courante et un signal $X_{N}^{(3)}$
de dimension 2F x T,

The invention also relates to a device for separating voice from noise in an audio signal received on a receiver equipped with an audio sensor characterized in that it comprises at least the following elements:

A first module M ₁ receiving frames of a signal containing voice and noise,
The first module has an output connected to a second module M ₂ configured to generate a signal transmitted to a third module M ₃ which receives a tensor value associated with a previous frame X _N - 1 to generate a tensor I _N associated with the frame current and a signal $X_{NOT}^{(3)}$
of dimension 2F x T,

Le module M₃ inséré entre le module M₂ et le module M₄ prend en entrée un tenseur homogène en dimensions à celui fourni en sortie du module M₂ et fournit en sortie un tenseur homogène en dimensions à celui que prend en entrée le module M₄. Une entrée I_N - 1 supplémentaire est fournie en entrée du module M₃ pour le traitement de la trame numéro N et le module M₃ fournit en sortie additionnelle le tenseur I_N .

Un module M₄ qui combine le signal $X_{N}^{(3)}$
et le signal $X_{N}^{}$
afin de générer un signal $X_{N}^{(4)},$
Un décodeur M₅ configuré pour générer un premier signal de voix X _N,0 et un deuxième signal de bruit X _N,1 à partir du signal $X_{N}^{(4)} .$

The module M ₃ inserted between the module M ₂ and the module M ₄ takes at input a tensor which is homogeneous in dimensions to that supplied at the output of the module M ₂ and provides at the output a homogeneous tensor in dimensions to that which the module M takes at the input ₄ . An additional input I _N - 1 is supplied at the input of the module M ₃ for the processing of the frame number N and the module M ₃ provides the tensor I _{N as an} additional output.

An M ₄ module which combines the signal $X_{NOT}^{(3)}$
and the signal $X_{NOT}^{(1)}$
in order to generate a signal $X_{NOT}^{(4)},$
A decoder M ₅ configured to generate a first voice signal X _{N , 0} and a second noise signal X _{N, 1} from the signal $X_{NOT}^{(4)} .$

D'autres caractéristiques, détails et avantages de l'invention ressortiront à la lecture de la description faite en référence aux dessins annexés donnés à titre d'exemple non limitatifs et qui représentent, respectivement :

[Fig.1], une illustration de l'art antérieur,
[Fig.2], un exemple de système permettant la mise en œuvre du procédé selon l'invention,
[Fig.3] une illustration des étapes mises en œuvre par le procédé selon l'invention.

Other characteristics, details and advantages of the invention will emerge on reading the description given with reference to the appended drawings given by way of non-limiting example and which represent, respectively:

[ Fig. 1 ], an illustration of the prior art,
[ Fig. 2 ], an example of a system allowing the implementation of the method according to the invention,
[ Fig. 3 ] an illustration of the steps implemented by the method according to the invention.

La figure 2 illustre un exemple de dispositif permettant la mise en œuvre du procédé selon l'invention.The figure 2 illustrates an example of a device allowing the implementation of the method according to the invention.

Le signal dont il faut extraire (séparer) la ou les voix du bruit contenu dans le flux audio est reçu sur un capteur audio 10. Le capteur audio est relié à un ensemble d'équipements ou modules Hardware 20 configurés pour séparer la voix du bruit qui seront détaillés à la figure 3.The signal from which it is necessary to extract (separate) the voice (s) from the noise contained in the audio stream is received on an audio sensor 10. The audio sensor is connected to a set of equipment or Hardware modules 20 configured to separate the voice from the noise which will be detailed in figure 3 .

La figure 3 illustre une première variante de réalisation pour séparer une voix du bruit dans un signal audio, les traitements étant effectués au niveau de l'ensemble 20. Cette séparation est réalisée en temps réel. Les modules similaires au schéma de la figure 1 portent les mêmes références. L'ensemble comprend en plus un module M₃ dont la fonction est détaillée ci-après.The figure 3 illustrates a first variant embodiment for separating a voice from the noise in an audio signal, the processing being carried out at the level of the assembly 20. This separation is carried out in real time. Modules similar to the diagram of the figure 1 bear the same references. The assembly also includes a module M ₃ , the function of which is detailed below.

Le signal audio reçu sur le capteur est lors d'une première étape séparé en N trames X ₁ .....X_N . A chaque trame X_N est associé un tenseur I_N qui est de dimension constante, indépendante de l'indice de la trame. Le procédé va mettre à jour la valeur du tenseur I_N de trame en trame et l'utilisation jointe de X_N et I_N pour estimer X _N,0 et X _N,1.The audio signal received on the sensor is during a first step separated into N frames X ₁ . .... X _N. Each frame X _N is associated with a tensor I _N which is of constant dimension, independent of the index of the frame. The method will update the value of the tensor I _N from frame to frame and the joint use of X _N and I _N to estimate X _{N , 0} and X _{N, 1} .

La trame X_N est transmise à un premier module M₁, 100, qui génère un signal $X_{N}^{(1)} .$

Le tenseur I _N-1 obtenu lors de l'étape précédente pour le traitement de la trame X_N - 1 est transmis dans un module M₃, 201.The frame X _N is transmitted to a first module M ₁ , 100, which generates a signal

X_{NOT}

_{(1)} .

The tensor I _{N -1} obtained during the previous step for the processing of the frame X _N - 1 is transmitted in a module M ₃ , 201.

M ₃ génère un tenseur I_N , 202, qui sera utilisé lors du traitement de la trame X _N+1. M ₃ generates a tensor I _N , 202, which will be used during the processing of the frame X _{N +1} .

Le codeur M₃ prend en entrée un signal $X_{N}^{(2)},$

203, résultat de la transformation du signal

X_{N}^{(1)}

par un module M₂ et réalise la concaténation de

X_{N}^{(2)}

et I_N , afin de générer un signal

X_{N}^{(3)}

de dimension 2F x T,

M_{3 :} (X_{N}^{(2)}, I_{N - 1}) - > (X_{N}^{(3)}, I_{N}) .

Encoder M ₃ takes a signal as input

X_{NOT}^{(2)},

203, result of signal transformation

X_{NOT}^{(1)}

by a module M ₂ and performs the concatenation of

X_{NOT}^{(2)}

and I _N , in order to generate a signal

X_{NOT}^{(3)}

of dimension 2F x T,

M_{3 :} (X_{NOT}^{(2)}, I_{NOT - 1}) - > (X_{NOT}^{(3)}, I_{NOT}) .

Le signal $X_{N}^{(3)},$

204, est transmis à un module M₄ afin de générer un signal

X_{N}^{(4)}

qui est combiné, 104, avec le signal

X_{N}^{(1)},

le signal résultant de la combinaison est décodé par un décodeur M₅, 105, afin de générer un premier signal de voix X _N,0 et un deuxième signal de bruit X _N,1.The signal

X_{NOT}^{(3)},

204, is transmitted to a module M _{4 in} order to generate a signal

X_{NOT}^{(4)}

which is combined, 104, with the signal

X_{NOT}^{(1)},

the signal resulting from the combination is decoded by a decoder M ₅ , 105, in order to generate a first voice signal X _{N , 0} and a second noise signal X _{N, 1} .

Dans un mode de réalisation, les étapes mises en œuvre par le procédé selon l'invention sont les suivantes :In one embodiment, the steps implemented by the method according to the invention are as follows:

Pour tout N, I_N est de dimension F x FFor all N, I _N has dimension F x F

A_N est un tenseur F x F défini par $A_{N} = (\frac{X_{N}^{(2)} \cdot {(X_{N}^{(2)})}^{t}}{\sqrt{T}})$

a. $X_{N}^{} \cdot {(X_{N}^{(2)})}^{t}$
est le produit matriciel de $X_{N}^{}$
et de sa transposée
I_N = I _N-1 + λ(A_N - I _N-1) avec λ un facteur de gain 0 et 1 donné par l'utilisateur
B_N = Softmax(I _N-1)
a. La fonction softmax est classique en machine learning ; à un vecteur de K nombres, (v ₁ ...v _K ) elle associe un vecteur de K nombre (w ₁ ... w_K ) avec pour tout $w_{k} = \frac{\exp (v_{k})}{\sum_{l = 1}^{K} \exp (v_{l})},$
b. Pour calculer B_N , la fonction softmax est appliquée indépendamment à toutes les lignes de I_N ,

C_{N} = B_{N} \cdot X_{N}^{}

est le produit matriciel entre B_N

et

X_{N}

_{(2)};

ses dimensions sont F×T,

X_{N}^{(3)}

est de dimension 2F x T, c'est la concaténation de

X_{N}^{}

et C_N . A _N is a tensor F x F defined by

{AT}_{NOT} = (\frac{X_{NOT}^{(2)} \cdot {(X_{NOT}^{(2)})}^{t}}{\sqrt{T}})

at. $X_{NOT}^{(2)} \cdot {(X_{NOT}^{(2)})}^{t}$
is the matrix product of $X_{NOT}^{(2)}$
and its transpose
I _N = I _{N -1} + λ ( A _N - I _{N -1} ) with λ a gain factor 0 and 1 given by the user
B _N = Softmax ( I _{N -1} )
at. The softmax function is classic in machine learning; to a vector of K numbers, ( v ₁ ... v _K ) it associates a vector of K number ( w ₁ ... w _K ) with for all $w_{k} = \frac{\exp (v_{k})}{\sum_{l = 1}^{K} \exp (v_{l})},$
b. To calculate B _N , the softmax function is applied independently to all the lines of I _N ,

{VS}_{NOT} = B_{NOT} \cdot X_{NOT}^{}

is the matrix product between B _N and

X_{NOT}^{(2)};

its dimensions are F × T ,

X_{NOT}^{(3)}

is of dimension 2F x T, it is the concatenation of

X_{NOT}^{(2)}

and C _N.

Le procédé et le dispositif selon l'invention permettent une séparation en temps réel de la voix du bruit dans un signal audio reçu sur un capteur en temps réel et sans dégrader les paramètres propres à la voix.The method and the device according to the invention allow real-time separation of the voice from the noise in an audio signal received on a sensor in real time and without degrading the parameters specific to the voice.

Les paramètres numériques définissant les traitements des différents modules sont réglés dans une phase préalable d'apprentissage sur une base de données.The digital parameters defining the processing of the different modules are set in a prior learning phase on a database.

L'invention permet un fonctionnement en temps réel avec un compromis latence/qualité contrôlable, de ne pas dégrader le signal audio qui ne contient pas de bruit, et permet de rehausser le bruit dans un signal ne contenant pas de paroles (de voix).The invention allows real-time operation with a controllable latency / quality compromise, so as not to degrade the audio signal which does not contain noise, and makes it possible to enhance the noise in a signal which does not contain words (voice).

Le procédé permet notamment de prétraiter le signal audio de la parole pour améliorer la qualité de briques de traitement / valorisation de la voix (compression, analyse).The method makes it possible in particular to preprocess the audio signal of speech to improve the quality of the voice processing / enhancement bricks (compression, analysis).

L'ajout dans la chaîne de traitement d'un module M₃ permet d'améliorer la qualité de mise en place d'une stratégie trame par trame pour la mise en temps réel des traitements.The addition in the processing chain of a module M ₃ makes it possible to improve the quality of implementation of a frame-by-frame strategy for real-time processing.

Claims

Process for separating, in real time, voice from noise in an audio signal received on a receiver equipped with an audio sensor characterized in that it comprises at least the following steps: - We separate the audio stream received into N frames X _N ,

- For each frame X _N we associate a tensor containing information on the whole audio stream,

- The frame X _N is transmitted to a first module M ₁ , (100), which generates a signal

X_{NOT}^{(1)},

- The tensor I _{N -1} obtained during the previous step for the processing of the frame X _N - 1 is transmitted to a module M ₃ , (201),

- The M ₃ module takes a signal as input

X_{NOT}^{(2)},

(203), result of the transformation of the signal

X_{NOT}^{(1)}

by a module M ₂ and performs the concatenation of

X_{NOT}^{(2)}

and I _N , in order to generate a signal

X_{NOT}^{(3)}

of dimension 2F x T,

- The signal

X_{NOT}^{(3)},

(204), is transmitted to a module M _{4 in} order to generate a signal

X_{NOT}^{(4)}

which is combined, (104), with the signal

X_{NOT}^{(1)},

- the signal resulting from the combination is decoded by a decoder M ₅ , (105), in order to generate a first voice signal X _{N , 0} and a second signal X _{N, 1} .

Device for separating, in real time, voice from noise in an audio signal received on a receiver equipped with an audio sensor, characterized in that it comprises at least the following elements: - A first module M ₁ receiving frames of a signal containing the voice and noise,

- The first module has an output connected to a second module M ₂ configured to generate a signal transmitted to a third module M ₃ which receives a tensor value associated with a previous frame X _N - 1 to generate a tensor I _N associated with the current frame and a signal

X_{NOT}^{(3)}

of dimension 2F x T,

- An M ₄ module which combines the signal

X_{NOT}^{(3)}

and the signal

X_{NOT}^{(1)}

in order to generate a signal

X_{NOT}^{(4)},

- A module (104) which combines the signal

X_{NOT}^{(4)}

with the signal

X_{NOT}^{(1)}

in order to generate a signal

X_{NOT}^{(5)}

- A decoder M ₅ , (105) configured to generate a first voice signal X _{N , 0} and a second signal X _{N , 1} from the signal

X_{NOT}^{(5)} .