EP3025342B1 - Method for suppressing the late reverberation of an audible signal - Google Patents

Method for suppressing the late reverberation of an audible signal Download PDF

Info

Publication number
EP3025342B1
EP3025342B1 EP14741619.2A EP14741619A EP3025342B1 EP 3025342 B1 EP3025342 B1 EP 3025342B1 EP 14741619 A EP14741619 A EP 14741619A EP 3025342 B1 EP3025342 B1 EP 3025342B1
Authority
EP
European Patent Office
Prior art keywords
signal
subsampled
frequency
late reverberation
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP14741619.2A
Other languages
German (de)
French (fr)
Other versions
EP3025342A1 (en
Inventor
Nicolas LOPEZ
Gaël RICHARD
Yves Grenier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arkamys SA
Original Assignee
Arkamys SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arkamys SA filed Critical Arkamys SA
Publication of EP3025342A1 publication Critical patent/EP3025342A1/en
Application granted granted Critical
Publication of EP3025342B1 publication Critical patent/EP3025342B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/002Devices for damping, suppressing, obstructing or conducting sound in acoustic devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Definitions

  • the figure 1 shows an omnidirectional sound source 100 positioned in a closed space 110, such as a motor vehicle or a room, and a microphone 120.
  • a sound signal emitted by the omnidirectional sound source 100 propagates in all directions.
  • the signal observed at the microphone is formed by the superposition of several delayed and attenuated versions of the sound signal emitted by the omnidirectional sound source 100.
  • the microphone 120 first captures the source signal 130, also called signal direct 130, but also reflected signals 140 on the walls of the closed space 110.
  • the various reflected signals 140 have traveled acoustic paths of different lengths and have been attenuated by the absorption of the walls of the closed space 110, the phase and the amplitude of the reflected signals 140 picked up by the microphone 120 are therefore different.
  • inverse filtering seeks to identify the impulse response of the closed space 110 to then build an inverse filter to compensate for the effects of reverberation at the sound signal.
  • the reverberation time is a difficult parameter to estimate accurately.
  • the reverberation time estimate is distorted by background noise and other interfering sound signals.
  • this estimate of the reverberation time is time consuming and therefore lengthens the execution time.
  • the methods mentioned require a plurality of microphones to accurately process the reverberation.
  • the microphone 120 captures the reflection signals early with a small delay compared to the source signal 130, of the order of zero milliseconds to fifty milliseconds. Said early reflection signals are temporally and spatially separated from the source signal 130 but the human ear does not perceive these early reflection signals and the source signal 130 separately by virtue of an effect called "precedence effect".
  • the sound signal emitted by the omnidirectional sound source 100 is a speech signal
  • the temporal integration of the early reflection signals by the human ear makes it possible to highlight certain characteristics of the speech, which favors the speech signal. intelligibility of the sound signal.
  • the microphone 120 captures the late reverberation between fifty milliseconds and eighty milliseconds after the arrival of the source signal 130.
  • the late reverb includes many signals reflected close together over time and thus impossible to separate.
  • the set of these reflected signals is therefore considered in a probabilistic framework as a random distribution whose density increases with time.
  • the sound signal emitted by the omnidirectional sound source 100 is a speech signal
  • the late reverberation degrades the quality of said sound signal and its intelligibility. Said late reverberation also affects the performance of speech recognition and sound source separation systems.
  • k is a frequency sampling index of value between 1 and a number K
  • n is a time index of value between 1 and a number N
  • w (m) is a sliding window of analysis
  • m is the index of the elements belonging to a frame
  • M is the length of a frame, that is to say the number of samples of a frame
  • R is the step of advancement of the time-frequency transformation.
  • the estimate of the power spectral density of the late reverberation is performed on the complex time-frequency transform module of the input signal X C , denoted X.
  • the phase of the complex time-frequency transform X C denoted ⁇ X is kept in memory and is used to reconstruct a dereverberated signal in the time domain after application of the dereverberation filter.
  • the module X of the complex time-frequency transform of the input signal X C is then grouped into sub-bands. More precisely, said module X comprises the number K of spectral lines denoted X k .
  • the term "spectral line” here designates all the samples of the module X of the complex time-frequency transform of the input signal X C for the sampling frequency index k and all the time indices n.
  • the sub-banding unit 400 groups the K spectral lines X k into a number J of sub-bands, in order to obtain a sub-sampled module denoted X having a number J of spectral lines denoted X j , where j is a subsampling frequency index between 1 and the number J.
  • the prediction vector ⁇ j, n therefore indicates the columns of the synthesis dictionary that have been selected for estimating the reverberation, as well as the contribution of each of them to the reverberation.
  • the spectrum of late reverberation X l is considered in the rest of the process as a noise signal to be eliminated.
  • a step 913 for each sampling frequency index k and each time index n, the dereverberated signal module Y k, n and the phase ⁇ X k, n of the complex signal X k , not VS are multiplied to create a complex dereverberated signal Y C.

Description

DOMAINE TECHNIQUETECHNICAL AREA

L'invention concerne un procédé de suppression de la réverbération tardive d'un signal sonore. L'invention est plus particulièrement, mais non exclusivement, adaptée au domaine du traitement de la réverbération dans un espace fermé.The invention relates to a method for suppressing the late reverberation of a sound signal. The invention is more particularly, but not exclusively, adapted to the field of the treatment of reverberation in a closed space.

ÉTAT DE LA TECHNIQUESTATE OF THE ART

La figure 1 montre une source sonore omnidirectionnelle 100 positionnée dans un espace fermé 110, tel qu'un véhicule automobile ou une salle, ainsi qu'un microphone 120. Un signal sonore émis par la source sonore omnidirectionnelle 100 se propage dans toutes les directions. Ainsi, le signal observé au niveau du microphone est formé par la superposition de plusieurs versions retardées et atténuées du signal sonore émis par la source sonore omnidirectionnelle 100. En effet, le microphone 120 capte tout d'abord le signal source 130, encore appelé signal direct 130, mais également des signaux réfléchis 140 sur les parois de l'espace fermé 110. Les différents signaux réfléchis 140 ont parcouru des chemins acoustiques de différentes longueurs et ont été atténués par l'absorption des parois de l'espace fermé 110, la phase et l'amplitude des signaux réfléchis 140 captés par le microphone 120 sont donc différentes.The figure 1 shows an omnidirectional sound source 100 positioned in a closed space 110, such as a motor vehicle or a room, and a microphone 120. A sound signal emitted by the omnidirectional sound source 100 propagates in all directions. Thus, the signal observed at the microphone is formed by the superposition of several delayed and attenuated versions of the sound signal emitted by the omnidirectional sound source 100. Indeed, the microphone 120 first captures the source signal 130, also called signal direct 130, but also reflected signals 140 on the walls of the closed space 110. The various reflected signals 140 have traveled acoustic paths of different lengths and have been attenuated by the absorption of the walls of the closed space 110, the phase and the amplitude of the reflected signals 140 picked up by the microphone 120 are therefore different.

Deux types de réflexions existent, les réflexions précoces et la réverbération tardive. Le microphone 120 capte les signaux de réflexion précoce avec un faible retard par rapport au signal source 130, de l'ordre de zéro milliseconde à cinquante millisecondes. Lesdits signaux de réflexion précoce sont séparés temporellement et spatialement du signal source 130, mais l'oreille humaine ne perçoit pas ces signaux de réflexion précoce et le signal source 130 séparément grâce à un effet dit «effet de précédence ». Dans le cas où le signal sonore émis par la source sonore omnidirectionnelle 100 est un signal de parole, l'intégration temporelle des signaux de réflexion précoce par l'oreille humaine permet de mettre en relief certaines caractéristiques de la parole, ce qui favorise l'intelligibilité du signal sonore.Two types of reflections exist, early reflections and late reverberation. The microphone 120 picks up the early reflection signals with a small delay compared to the source signal 130, of the order of zero milliseconds to fifty milliseconds. Said early reflection signals are temporally and spatially separated from the source signal 130, but the human ear does not perceive these early reflection signals and the source signal 130 separately by virtue of an effect called "precedence effect". In the case where the sound signal emitted by the omnidirectional sound source 100 is a speech signal, the temporal integration of the early reflection signals by the human ear makes it possible to highlight certain characteristics of the speech, which favors the speech signal. intelligibility of the sound signal.

Selon la taille de la salle, la frontière entre les réflexions précoces et la réverbération tardive est comprise entre cinquante millisecondes et quatre-vingt millisecondes. La réverbération tardive comprend de nombreux signaux réfléchis rapprochés dans le temps et donc impossibles à séparer. L'ensemble de ces signaux réfléchis est donc considéré dans un cadre probabiliste comme une distribution aléatoire dont la densité augmente avec le temps. Dans le cas où le signal sonore émis par la source sonore omnidirectionnelle 100 est un signal de parole, la réverbération tardive dégrade la qualité dudit signal sonore et son intelligibilité. Ladite réverbération tardive affecte également les performances de systèmes de reconnaissance de la parole et de séparation de sources sonores.Depending on the size of the room, the boundary between early reflections and late reverberation is between fifty milliseconds and eighty milliseconds. The late reverberation includes many signals reflected close together in time and therefore impossible to separate. The set of these reflected signals is therefore considered in a probabilistic framework as a random distribution whose density increases with time. In the case where the sound signal emitted by the omnidirectional sound source 100 is a speech signal, the late reverberation degrades the quality of said sound signal and its intelligibility. Said late reverberation also affects the performance of speech recognition and sound source separation systems.

Selon l'art antérieur, un premier procédé dit « par filtrage inverse » cherche à identifier la réponse impulsionnelle de l'espace fermé 110 pour ensuite construire un filtre inverse permettant de compenser les effets de la réverbération au niveau du signal sonore.According to the prior art, a first method called "inverse filtering" seeks to identify the impulse response of the closed space 110 to then build an inverse filter to compensate for the effects of reverberation at the sound signal.

Ce type de procédé est par exemple décrit dans les publications scientifiques suivantes : « BWGillespie, H S Malvar, and D A F Florêncio, Speech dereverberation via maximum-kurtosis subband adaptive filtering, Proc. International Conference on Acoustics, Speech, and Signal Processing, volume 6 of ICASSP '01, pages 3701-3704. IEEE, 2001 » , « M Wu and D L Wang. A two-stage algorithm for one-microphone reverberant speech enhancement, Audio, Speech, and Language Processing, IEEE Transactions on, 14(3) :774-784, 2006 », « Saeed Mosayyebpour, Abolghasem Sayyadiyan, Mohsen Zareian, and Ali Shahbazi, Single Channel Inverse Filtering of Room Impulse Response by Maximizing Skewness of LP Residual . ». This type of process is described for example in the following scientific publications: " BWGillespie, HS Malvar, and DAF Florencio, Speech dereverberation via maximum-kurtosis subband adaptive filtering, Proc. International Conference on Acoustics, Speech and Signal Processing, Volume 6 of ICASSP '01, pages 3701-3704. IEEE, 2001 » , " Mr. Wu and DL Wang. A two-stage algorithm for one-microphone reverberant speech enhancement, Audio, Speech, and Language Processing, IEEE Transactions on, 14 (3): 774-784, 2006 »,« Saeed Mosayyebpour, Abolghasem Sayyadiyan, Mohsen Zareian, and Ali Shahbazi, Single Channel Inverse Filtering of Impulse Response Room by Maximizing Skewness of LP Residual . ".

Ce procédé exploite dans le domaine temporel des distorsions introduites par la réverbération sur des paramètres d'un modèle de prédiction linéaire du signal sonore. Partant de l'observation que la réverbération modifie surtout le résiduel du modèle de prédiction linéaire du signal sonore, un filtre maximisant les moments d'ordre supérieur dudit résiduel est construit. Ce procédé est adapté pour des réponses impulsionnelles courtes et est surtout utilisé pour compenser les signaux de réflexion précoce.This method exploits in the time domain distortions introduced by the reverberation on parameters of a model of linear prediction of the sound signal. Starting from the observation that the reverberation mainly modifies the residual of the linear prediction model of the sound signal, a filter maximizing the higher order moments of said residual is constructed. This method is suitable for short pulse responses and is mainly used to compensate for early reflection signals.

Cependant, ce procédé suppose que la réponse impulsionnelle de l'espace fermé 110 est invariante dans le temps. De plus, ce procédé ne modélise pas la réverbération tardive. Ledit procédé doit ainsi être combiné à un autre procédé traitant la réverbération tardive. Ces deux procédés combinés nécessitent de nombreuses itérations avant d'obtenir une convergence, de sorte que lesdits procédés ne peuvent être mis en oeuvre pour une application en temps réel. En outre, le filtrage inverse introduit des artéfacts tels que des pré-échos, qui doivent ensuite être compensés.However, this method assumes that the impulse response of the closed space 110 is invariant in time. In addition, this method does not model the late reverberation. This method must thus be combined with another method dealing with late reverberation. These two combined processes require numerous iterations before obtaining convergence, so that said methods can not be implemented for a real-time application. In addition, inverse filtering introduces artifacts such as pre-echoes, which must then be compensated.

Un deuxième procédé dit « cepstral » vise à séparer l'effet de l'espace fermé 110 et du signal sonore dans le domaine cepstral. En effet, la réverbération modifie la moyenne et la variance des cepstres des signaux réfléchis par rapport à la moyenne et la variance des cepstres du signal source 130. Ainsi, lorsque la moyenne et la variance des cepstres sont normalisées, la réverbération est atténuée.A second method called "cepstral" aims to separate the effect of the closed space 110 and the sound signal in the cepstral domain. Indeed, the reverberation modifies the average and the variance of the cepstres of the signals reflected with respect to the average and the variance of the cepstres of the source signal 130. Thus, when the mean and the variance of the cepstres are normalized, the reverberation is attenuated.

Ce type de procédé est par exemple décrit dans la publication scientifique suivante : « D Bees, M Blostein, and P Kabal, Reverberant speech enhancement using cepstral processing, ICASSP '91 Proceedings of the Acoustics, Speech, and Signal Processing, 1991 ». This type of process is described, for example, in the following scientific publication: D Bees, M Blostein, and P Kabal, Reverberant speech enhancement using cepstral processing, ICASSP '91 Proceedings of the Acoustics, Speech, and Signal Processing, 1991 ".

Ce procédé est particulièrement utile pour des problèmes de reconnaissance vocale puisque les bases de données de référence des systèmes de reconnaissance peuvent également être normalisées pour se rapprocher des signaux captés par le microphone 120. Cependant, les effets de l'espace fermé 110 et du signal sonore ne sont pas complètement séparables dans le domaine cepstral. La mise en oeuvre du procédé provoque donc une distorsion du timbre du signal sonore émis par la source sonore omnidirectionnelle 100. En outre, ce procédé traite les réflexions précoces plutôt que la réverbération tardive.This method is particularly useful for speech recognition problems since the reference databases of the recognition systems can also be normalized to approach the signals picked up by the microphone 120. However, the effects of the closed space 110 and the signal sound are not completely separable in the cepstral domain. The implementation of the method thus causes a distortion of the timbre of the sound signal emitted by the omnidirectional sound source 100. In addition, this method processes the early reflections rather than the late reverberation.

Un troisième procédé dit « par estimation de la densité spectrale de puissance de la réverbération tardive » permet d'établir un modèle paramétrique de la réverbération tardive.A third method called "estimating the spectral power density of late reverberation" allows to establish a parametric model of late reverberation.

Ce type de procédé est par exemple décrit dans les publications scientifiques suivantes : « E.A.P Habets, Single- and Multi-Microphone Speech Dereverberation using Spectral Enhancement, PhD thesis, Technische Universiteit Eindhoven, 2007 », « T. Yoshioka, Speech Enhancement, Reverberant Environments, PhD thesis, 2010 ». This type of process is for example described in the following scientific publications: EAP Habets, Single- and Multi-Microphone Speech Dereverberation using Spectral Enhancement, PhD thesis, Technische Universiteit Eindhoven, 2007 »,« T. Yoshioka, Speech Enhancement, Reverberant Environments, PhD Thesis, 2010 ".

Selon ce troisième procédé, une estimation de la densité spectrale de puissance de la réverbération tardive permet de construire un filtre de soustraction spectrale pour la déréverbération. La soustraction spectrale introduit des artéfacts, comme du bruit musical mais lesdits artéfacts peuvent être limités en appliquant des schémas de filtrage plus complexes, utilisés par des procédés de débruitage.According to this third method, an estimate of the spectral density of late reverberation power makes it possible to construct a spectral subtraction filter for the dereverberation. Spectral subtraction introduces artifacts, such as musical noise, but said artifacts can be limited by applying more complex filtering schemes used by denoising methods.

Cependant, un paramètre important pour estimer la densité spectrale de puissance de la réverbération tardive dans le cadre de ce troisième procédé est le temps de réverbération. Or, le temps de réverbération est un paramètre difficile à estimer avec précision. L'estimation du temps de réverbération est faussée par le bruit de fond et d'autres signaux sonores qui interfèrent. En outre, cette estimation du temps de réverbération est chronophage et donc allonge le temps d'exécution.However, an important parameter for estimating the power spectral density of late reverberation in this third method is the reverberation time. However, the reverberation time is a difficult parameter to estimate accurately. The reverberation time estimate is distorted by background noise and other interfering sound signals. In addition, this estimate of the reverberation time is time consuming and therefore lengthens the execution time.

Un quatrième procédé exploite la parcimonie des signaux de parole dans le plan temps/fréquence.A fourth method exploits the parsimony of the speech signals in the time / frequency plane.

Ce type de procédé est par exemple décrit dans la publication scientifique suivante : « T. Yoshioka, Speech Enhancement in Reverberant Environments, PhD thesis, 2010 ». This type of process is described for example in the following scientific publication " T. Yoshioka, Speech Enhancement in Reverberant Environments, PhD Thesis, 2010 ".

Dans cette publication, la réverbération tardive est modélisée comme une version retardée et atténuée de l'observation courante dont le facteur d'atténuation est déterminé par résolution d'un problème de maximum de vraisemblance, avec une contrainte de parcimonie.In this publication, late reverberation is modeled as a delayed and attenuated version of the current observation whose attenuation factor is determined by solving a maximum likelihood problem, with a parsimony constraint.

Ce type de procédé est en outre décrit dans la publication scientifique suivante : « H Kameoka, T Nakatani, and T Yoshioka, Robust speech dereverberation based on nonnegativity and sparse nature of speech spectrograms, Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '09, pages 45-48. IEEE Computer Society, 2009 ». This type of process is further described in the following scientific publication " H Kameoka, T Nakatani, and T Yoshioka, Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '09, pp 45-48. IEEE Computer Society, 2009 ".

La déréverbération est abordée dans cette publication comme un problème de déconvolution par factorisation en matrices non négatives, ce qui permet de séparer la réponse de l'espace fermé 110 et le signal sonore. Cependant, ce procédé introduit beaucoup de bruit et de distorsions. En outre, ledit procédé dépend de l'initialisation des matrices pour la factorisation.Dereverberation is approached in this publication as a problem of deconvolution by factorization in non-negative matrices, which makes it possible to separate the response of the closed space 110 and the sound signal. However, this process introduces a lot of noise and distortions. In addition, said method depends on the initialization of the matrices for the factorization.

De plus, les procédés cités nécessitent une pluralité de microphones pour traiter avec précision la réverbération.In addition, the methods mentioned require a plurality of microphones to accurately process the reverberation.

EXPOSÉ DE L'INVENTIONSTATEMENT OF THE INVENTION

L'invention a notamment pour but de résoudre tout ou partie des problèmes susmentionnés.The invention is intended in particular to solve all or part of the aforementioned problems.

A cette fin, l'invention concerne un procédé de suppression de la réverbération tardive d'un signal sonore caractérisé en ce qu'il comporte les étapes suivantes :

  • captation d'un signal d'entrée formé par la superposition de plusieurs versions retardées et atténuées du signal sonore,
  • application d'une transformation temps-fréquence au signal d'entrée afin d'obtenir une transformée temps-fréquence complexe du signal d'entrée,
  • calcul d'une pluralité de vecteurs de prédiction,
  • création d'une pluralité de vecteurs d'observation à partir du module de la transformée temps-fréquence complexe du signal d'entrée,
  • construction d'une pluralité de dictionnaires de synthèse à partir de la pluralité de vecteurs d'observations,
  • estimation d'un spectre de réverbération tardive à partir de la pluralité de dictionnaires de synthèse et de la pluralité de vecteurs de prédiction,
  • filtrage de la pluralité de vecteurs d'observations afin d'éliminer le spectre de réverbération tardive et d'obtenir un module de signal déréverbéré.
To this end, the invention relates to a method for suppressing the late reverberation of a sound signal characterized in that it comprises the following steps:
  • capture of an input signal formed by the superposition of several delayed and attenuated versions of the sound signal,
  • applying a time-frequency transformation to the input signal to obtain a complex time-frequency transform of the input signal,
  • calculating a plurality of prediction vectors,
  • creating a plurality of observation vectors from the module of the complex time-frequency transform of the input signal,
  • constructing a plurality of synthetic dictionaries from the plurality of observation vectors,
  • estimating a late reverberation spectrum from the plurality of synthetic dictionaries and the plurality of prediction vectors,
  • filtering the plurality of observation vectors to eliminate the late reverberation spectrum and obtain a dereverberated signal module.

Ainsi, le procédé objet de l'invention est rapide et présente une complexité réduite. Ledit procédé est donc utilisable en temps réel. De plus, ce procédé n'introduit pas d'artéfacts et est robuste au bruit de fond. En outre, ledit procédé réduit le bruit de fond et est compatible avec des procédés de réduction de bruit.Thus, the method which is the subject of the invention is rapid and has a reduced complexity. This method is therefore usable in real time. In addition, this method does not introduce artifacts and is robust to background noise. In addition, said method reduces background noise and is compatible with noise reduction methods.

L'invention peut être mise en oeuvre selon les modes de réalisation avantageux exposés ci-après, lesquels peuvent être considérés individuellement ou selon toute combinaison techniquement opérante.The invention can be implemented according to the embodiments advantageous below, which can be considered individually or in any combination technically operative.

Avantageusement, le procédé comporte en outre les étapes suivantes :

  • création d'un module sous échantillonné en fréquence à partir du module de la transformée temps-fréquence complexe du signal d'entrée,
  • création d'une pluralité de vecteurs d'observation sous échantillonnés à partir dudit module sous échantillonné en fréquence,
  • construction d'une pluralité de dictionnaires d'analyse à partir de la pluralité de vecteurs d'observation sous échantillonnés,
  • calcul de la pluralité de vecteurs de prédiction à partir de la pluralité de vecteurs d'observation sous échantillonnés et de la pluralité de dictionnaires d'analyse.
Advantageously, the method further comprises the following steps:
  • creating a subsampled frequency module from the module of the complex time-frequency transform of the input signal,
  • creating a plurality of subsampled observation vectors from said subsampled frequency module,
  • constructing a plurality of analysis dictionaries from the plurality of subsampled observation vectors,
  • calculating the plurality of prediction vectors from the plurality of subsampled observation vectors and the plurality of analysis dictionaries.

Avantageusement, l'étape de calcul de la pluralité de vecteurs de prédiction est effectuée en minimisant, pour chaque vecteur de prédiction, l'expression ∥X̃v - Daα2, qui est la norme euclidienne de la différence entre le vecteur d'observation sous échantillonné associé audit vecteur de prédiction et du dictionnaire d'analyse associé audit vecteur de prédiction multiplié par ledit vecteur de prédiction, en tenant compte de la contrainte ∥α1λ, selon laquelle la norme 1 dudit vecteur de prédiction est inférieure ou égale à un paramètre d'intensité maximale de la réverbération tardive.Advantageously, the step of calculating the plurality of prediction vectors is performed by minimizing, for each prediction vector, the expression ∥ Xv-D a α2 , which is the Euclidean norm of the difference between the vector of subsampled observation associated with said prediction vector and the analysis dictionary associated with said prediction vector multiplied by said prediction vector, taking into account the stress ∥ α1λ , according to which the norm 1 of said prediction vector is lower or equal to a maximum intensity parameter of the late reverberation.

Avantageusement, la valeur du paramètre d'intensité maximale de la réverbération tardive est comprise entre 0 et 1.Advantageously, the value of the maximum intensity parameter of the late reverberation is between 0 and 1.

Avantageusement, le procédé comporte en outre l'étape suivante :

  • création d'un signal complexe déréverbéré à partir du module de signal déréverbéré et de la phase de la transformée temps-fréquence complexe du signal d'entrée.
Advantageously, the method further comprises the following step:
  • creating a dereverberated complex signal from the dereverberated signal module and the phase of the complex time-frequency transform of the input signal.

Avantageusement, le procédé comporte en outre l'étape suivante :

  • application d'une transformation fréquence-temps au signal complexe déréverbéré afin d'obtenir un signal temporel déréverbéré.
Advantageously, the method further comprises the following step:
  • applying a frequency-time transformation to the complex dereverberated signal in order to obtain a dereverberated temporal signal.

Avantageusement, le procédé comporte en outre une étape de construction d'un filtre de déréverbération selon le modèle G = ξ 1 + ξ exp υ e t t dt ,

Figure imgb0001
ξ est le rapport signal à bruit a priori, et où la borne d'intégration υ est calculée selon le modèle υ = γ ξ 1 + ξ
Figure imgb0002
γ est le rapport signal à bruit a postériori.Advantageously, the method further comprises a step of constructing a dereverberation filter according to the model BOY WUT = ξ 1 + ξ exp υ e - t t dt ,
Figure imgb0001
where ξ is the signal-to-noise ratio a priori, and where the integration bound υ is calculated according to the model υ = γ ξ 1 + ξ
Figure imgb0002
where γ is the signal-to-noise ratio a posteriori.

L'invention concerne également un dispositif de suppression de la réverbération tardive d'un signal sonore caractérisé en ce qu'il comporte des moyens pour :

  • capter un signal d'entrée formé par la superposition de plusieurs versions retardées et atténuées du signal sonore,
  • appliquer une transformation temps-fréquence au signal d'entrée afin d'obtenir une transformée temps-fréquence complexe du signal d'entrée,
  • calculer une pluralité de vecteurs de prédiction,
  • créer une pluralité de vecteurs d'observation à partir du module de la transformée temps-fréquence complexe du signal d'entrée,
  • construire une pluralité de dictionnaires de synthèse à partir de la pluralité de vecteurs d'observations,
  • estimer un spectre de réverbération tardive à partir de la pluralité de dictionnaires de synthèse et de la pluralité de vecteurs de prédiction,
  • filtrer la pluralité de vecteurs d'observations afin d'éliminer le spectre de réverbération tardive et d'obtenir un module de signal déréverbéré.
The invention also relates to a device for suppressing the late reverberation of a sound signal characterized in that it comprises means for:
  • capture an input signal formed by the superposition of several delayed and attenuated versions of the sound signal,
  • applying a time-frequency transformation to the input signal to obtain a complex time-frequency transform of the input signal,
  • calculate a plurality of prediction vectors,
  • creating a plurality of observation vectors from the module of the complex time-frequency transform of the input signal,
  • constructing a plurality of synthetic dictionaries from the plurality of observation vectors,
  • estimating a late reverberation spectrum from the plurality of synthetic dictionaries and the plurality of prediction vectors,
  • filtering the plurality of observation vectors to eliminate the late reverberation spectrum and obtain a dereverberated signal module.

PRÉSENTATION DES FIGURESPRESENTATION OF FIGURES

L'invention sera mieux comprise à la lecture de la description suivante, donnée à titre d'exemple nullement limitatif, et faite en se référant aux figures qui représentent :

  • Figure 1 (déjà décrite) : une représentation schématique d'une source sonore omnidirectionnelle et d'un microphone positionnés dans un espace fermé selon un exemple de réalisation de l'invention ;
  • Figure 2 : une représentation schématique d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention ;
  • Figure 3 : une représentation schématique d'une unité de déréverbération d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention ;
  • Figure 4 : une représentation schématique d'une unité d'estimation de la réverbération tardive d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention ;
  • Figure 5 : une représentation schématique d'un regroupement en sous bandes d'un module d'une transformée temps-fréquence complexe d'un signal d'entrée selon un exemple de réalisation de l'invention ;
  • Figure 6 : une représentation schématique d'une unité de calcul de vecteurs de prédiction d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention ;
  • Figure 7 : une représentation schématique d'une unité de calcul de vecteurs de prédiction d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention ;
  • Figure 8 : une représentation schématique d'une unité d'évaluation de la réverbération d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention ;
  • Figure 9 : un diagramme fonctionnel montrant différentes étapes du procédé selon un exemple de réalisation de l'invention.
The invention will be better understood on reading the following description, given by way of non-limiting example, and with reference to the figures which represent:
  • Figure 1 (already described): a schematic representation of an omnidirectional sound source and a microphone positioned in a closed space according to an exemplary embodiment of the invention;
  • Figure 2 : a schematic representation of a device for dereverberation of a sound signal according to an exemplary embodiment of the invention;
  • Figure 3 : a schematic representation of a dereverberation unit of a device for dereverbating a sound signal according to an exemplary embodiment of the invention;
  • Figure 4 : a schematic representation of a unit for estimating the late reverberation of a device for the dereverberation of a sound signal according to an exemplary embodiment of the invention;
  • Figure 5 : a schematic representation of a grouping in sub-bands of a module of a complex time-frequency transform of an input signal according to an exemplary embodiment of the invention;
  • Figure 6 : a schematic representation of a prediction vector calculation unit of a sound signal dereverberation device according to an exemplary embodiment of the invention;
  • Figure 7 : a schematic representation of a prediction vector calculation unit of a sound signal dereverberation device according to an exemplary embodiment of the invention;
  • Figure 8 : a schematic representation of a unit for evaluating the reverberation of a device for the dereverberation of a sound signal according to an exemplary embodiment of the invention;
  • Figure 9 : a functional diagram showing different steps of the method according to an exemplary embodiment of the invention.

Dans ces figures, des références identiques d'une figure à une autre désignent des éléments identiques ou analogues. Pour des raisons de clarté, les éléments représentés ne sont pas à l'échelle, sauf mention contraire.In these figures, identical references from one figure to another designate identical or similar elements. For the sake of clarity, the elements shown are not to scale unless otherwise stated.

DESCRIPTION DÉTAILLÉE DE MODES DE RÉALISATIONDETAILED DESCRIPTION OF EMBODIMENTS

L'invention met en oeuvre un dispositif de déréverbération d'un signal sonore émis par une source sonore omnidirectionnelle 100 positionnée dans un espace fermé 110, tel qu'un véhicule automobile ou une salle, et capté par un microphone 120. Ledit dispositif de déréverbération est inséré dans la chaîne de traitement audio d'un appareil tel qu'un téléphone. Ce dispositif de déréverbération comporte une unité d'application d'une transformée temps-fréquence 200, une unité de déréverbération 210 et une unité d'application d'une transformée fréquence-temps 220 (cf. figure 2). L'unité de déréverbération 210 comporte une unité d'estimation de la réverbération tardive 300 et une unité de filtrage 310 (cf. figure 3). L'unité d'estimation de la réverbération tardive 300 comporte une unité de regroupement en sous bandes 400, une unité de calcul de vecteurs de prédiction 410 et une unité d'évaluation de la réverbération 420 (cf. figure 4). L'unité de calcul de vecteurs de prédiction 410 comporte une unité de construction d'observations 700, une unité de construction de dictionnaires d'analyse 710 et une unité de résolution du LASSO 720 (cf. figure 7). L'unité d'évaluation de la réverbération 420 comporte une unité de construction de dictionnaires de synthèse 800 (cf. figure 8).The invention uses a device for the dereverberation of a sound signal emitted by an omnidirectional sound source 100 positioned in a closed space 110, such as a motor vehicle or a room, and picked up by a microphone 120. Said device for dereverberation is inserted into the audio processing chain of a device such as a telephone. This dereverberation device comprises a unit for applying a time-frequency transform 200, a dereverberation unit 210 and a unit for applying a frequency-time transform 220 (cf. figure 2 ). The dereverberation unit 210 comprises a unit for estimating the late reverberation 300 and a filtering unit 310 (cf. figure 3 ). The late reverberation estimation unit 300 comprises a subband consolidation unit 400, a prediction vector calculation unit 410 and a reverberation evaluation unit 420 (see FIG. figure 4 ). The prediction vector calculation unit 410 comprises an observation construction unit 700, an analysis dictionary construction unit 710 and a resolution unit of the LASSO 720 (cf. figure 7 ). The reverberation evaluation unit 420 comprises a synthesis dictionary construction unit 800 (cf. figure 8 ).

Dans une étape 900, un microphone 120 capte un signal d'entrée x(t) formé par la superposition de plusieurs versions retardées et atténuées du signal sonore émis par la source sonore omnidirectionnelle 100. En effet, le microphone 120 capte tout d'abord le signal source 130, encore appelé signal direct 130, mais également des signaux réfléchis 140 sur les parois de l'espace fermé 110. Les différents signaux réfléchis 140 ont parcouru des chemins acoustiques de différentes longueurs et ont été atténués par l'absorption des parois de l'espace fermé 110, la phase et l'amplitude des signaux réfléchis 140 captés par le microphone 120 sont donc différentes.In a step 900, a microphone 120 captures an input signal x ( t ) formed by the superposition of several delayed and attenuated versions of the sound signal emitted by the omnidirectional sound source 100. In fact, the microphone 120 first captures the source signal 130, also called direct signal 130, but also reflected signals 140 on the walls of the closed space 110. The various reflected signals 140 have traveled acoustic paths of different lengths and have been attenuated by the absorption of the walls of the closed space 110, the phase and the amplitude of the reflected signals 140 picked up by the microphone 120 are therefore different.

Deux types de réflexions existent, les réflexions précoces et la réverbération tardive. Le microphone 120 capte les signaux de réflexion précoce avec un faible retard par rapport au signal source 130, de l'ordre de zéro milliseconde à cinquante millisecondes. Lesdits signaux de réflexion précoce sont séparés temporellement et spatialement du signal source 130 mais l'oreille humaine ne perçoit pas ces signaux de réflexion précoce et le signal source 130 séparément grâce à un effet dit « effet de précédence ». Dans le cas où le signal sonore émis par la source sonore omnidirectionnelle 100 est un signal de parole, l'intégration temporelle des signaux de réflexion précoce par l'oreille humaine permet de mettre en relief certaines caractéristiques de la parole, ce qui favorise l'intelligibilité du signal sonore.Two types of reflections exist, early reflections and late reverberation. The microphone 120 captures the reflection signals early with a small delay compared to the source signal 130, of the order of zero milliseconds to fifty milliseconds. Said early reflection signals are temporally and spatially separated from the source signal 130 but the human ear does not perceive these early reflection signals and the source signal 130 separately by virtue of an effect called "precedence effect". In the case where the sound signal emitted by the omnidirectional sound source 100 is a speech signal, the temporal integration of the early reflection signals by the human ear makes it possible to highlight certain characteristics of the speech, which favors the speech signal. intelligibility of the sound signal.

Le microphone 120 capte la réverbération tardive entre cinquante millisecondes et quatre-vingts millisecondes après l'arrivée du signal source 130. La réverbération tardive comprend de nombreux signaux réfléchis rapprochés dans le temps et donc impossibles à séparer. L'ensemble de ces signaux réfléchis est donc considéré dans un cadre probabiliste comme une distribution aléatoire dont la densité augmente avec le temps. Dans le cas où le signal sonore émis par la source sonore omnidirectionnelle 100 est un signal de parole, la réverbération tardive dégrade la qualité dudit signal sonore et son intelligibilité. Ladite réverbération tardive affecte également les performances de systèmes de reconnaissance de la parole et de séparation de sources sonores.The microphone 120 captures the late reverberation between fifty milliseconds and eighty milliseconds after the arrival of the source signal 130. The late reverb includes many signals reflected close together over time and thus impossible to separate. The set of these reflected signals is therefore considered in a probabilistic framework as a random distribution whose density increases with time. In the case where the sound signal emitted by the omnidirectional sound source 100 is a speech signal, the late reverberation degrades the quality of said sound signal and its intelligibility. Said late reverberation also affects the performance of speech recognition and sound source separation systems.

Le signal d'entrée x(t) est échantillonné à une fréquence d'échantillonnage fs . Le signal d'entrée x(t) est ainsi subdivisé en échantillons. Afin de supprimer la réverbération tardive dudit signal d'entrée x(t), la densité spectrale de puissance de la réverbération tardive est estimée puis un filtre de déréverbération est construit par l'unité de déréverbération 210. L'estimation de la densité spectrale de puissance de la réverbération tardive, la construction du filtre de déréverbération et l'application dudit filtre de déréverbération sont effectués dans le domaine fréquentiel. Ainsi, dans une étape 901, une transformation temps-fréquence est appliquée au signal d'entrée x(t) par l'unité d'application de la Transformée de Fourier à Court Terme 200 afin d'obtenir une transformée temps-fréquence complexe du signal d'entrée x(t) notée XC (cf. figure 2). Dans un exemple, la transformation temps-fréquence est une Transformation de Fourier à Court Terme.The input signal x ( t ) is sampled at a sampling frequency f s . The input signal x ( t ) is thus subdivided into samples. In order to suppress the late reverberation of said input signal x (t), the power spectral density of the late reverberation is estimated then a dereverberation filter is constructed by the dereverberation unit 210. The estimate of the spectral density of power of the late reverberation, the construction of the dereverberation filter and the application of said dereverberation filter are performed in the frequency domain. Thus, in a step 901, a time-frequency transformation is applied to the input signal x ( t ) by the application unit of the Short-Fourier Transform 200 to obtain a complex time-frequency transform of the input signal x ( t ) denoted X C (cf. figure 2 ). In one example, the transformation Time-frequency is a short-term Fourier Transformation.

Chaque élément X k , n C

Figure imgb0003
de la transformée temps-fréquence complexe XC est calculé de la façon suivante : X k , n C = m = 0 M 1 x m + nR w m e 2 jπkm M
Figure imgb0004
où k est un indice fréquentiel d'échantillonnage de valeur comprise entre 1 et un nombre K, n est un indice temporel de valeur comprise entre 1 et un nombre N, w(m) est une fenêtre glissante d'analyse, m est l'indice des éléments appartenant à une trame, M est la longueur d'une trame, c'est-à-dire le nombre d'échantillons d'une trame et R est le pas d'avancement de la transformation temps-fréquence.Each element X k , not VS
Figure imgb0003
of the complex time-frequency transform X C is calculated as follows: X k , not VS = Σ m = 0 M - 1 x m + n R w m e - 2 jπkm M
Figure imgb0004
where k is a frequency sampling index of value between 1 and a number K, n is a time index of value between 1 and a number N, w (m) is a sliding window of analysis, m is the index of the elements belonging to a frame, M is the length of a frame, that is to say the number of samples of a frame and R is the step of advancement of the time-frequency transformation.

Le signal d'entrée x(t) est analysé par trames de longueur M avec un pas d'avancement R égal à M/4 échantillons. Pour chaque trame du signal d'entrée x(t) dans le domaine temporel une transformée temps-fréquence Discrète d'indice fréquentiel d'échantillonnage k et d'indice temporel n est ainsi calculée grâce à l'algorithme de la transformation temps-fréquence pour obtenir un signal complexe X k , n C

Figure imgb0005
défini par X k , n C = X k , n e j X k , n ,
Figure imgb0006
où |Xk,n | est le module du signal complexe X k , n C
Figure imgb0007
et ∠Xk,n est la phase du signal complexe X k , n C .
Figure imgb0008
The input signal x ( t ) is analyzed by frames of length M with a pitch R equal to M / 4 samples. For each frame of the input signal x ( t ) in the time domain a discrete time-frequency transform of sampling frequency index k and of time index n is thus calculated by means of the time-frequency transformation algorithm to get a complex signal X k , not VS
Figure imgb0005
defined by X k , not VS = X k , not e - j X k , not ,
Figure imgb0006
where | X k, n | is the module of the complex signal X k , not VS
Figure imgb0007
and ∠X k, n is the phase of the complex signal X k , not VS .
Figure imgb0008

L'estimation de la densité spectrale de puissance de la réverbération tardive est réalisée sur le module de la transformée temps-fréquence complexe du signal d'entrée XC, noté X. La phase du transformée temps-fréquence complexe XC, notée ∠X est gardée en mémoire et est utilisée pour reconstruire un signal déréverbéré dans le domaine temporel après application du filtre de déréverbération.The estimate of the power spectral density of the late reverberation is performed on the complex time-frequency transform module of the input signal X C , denoted X. The phase of the complex time-frequency transform X C , denoted ∠X is kept in memory and is used to reconstruct a dereverberated signal in the time domain after application of the dereverberation filter.

Le module X de la transformée temps-fréquence complexe du signal d'entrée XC est ensuite regroupé en sous bandes. Plus précisément, ledit module X comporte le nombre K de lignes spectrales notées Xk. Le terme "ligne spectrale" désigne ici tous les échantillons du module X de la transformée temps-fréquence complexe du signal d'entrée XC pour l'indice fréquentiel d'échantillonnage k et tous les indices temporels n. Dans une étape 903, l'unité de regroupement en sous bandes 400 regroupe les K lignes spectrales Xk en un nombre J de sous bandes, afin d'obtenir un module sous échantillonné en fréquence noté comportant un nombre J de lignes spectrales notées j , où j est un indice fréquentiel de sous échantillonnage compris entre 1 et le nombre J. Le nombre J est inférieur au nombre K. Chaque sous bande comporte ainsi une pluralité de lignes spectrales Xk, l'indice fréquentiel k appartenant à un intervalle ayant une borne inférieure bj et une borne supérieure ej . Dans un exemple, chaque sous bande correspond à un octave afin de prendre en compte le modèle de perception sonore de l'oreille humaine. Ensuite, dans une étape 904, l'unité de regroupement en sous bandes 400 calcule, pour chaque sous bande, une moyenne Mean des lignes spectrales Xk de ladite sous bande afin d'obtenir les J lignes spectrales i du module sous échantillonné en fréquence (cf. figure 5).The module X of the complex time-frequency transform of the input signal X C is then grouped into sub-bands. More precisely, said module X comprises the number K of spectral lines denoted X k . The term "spectral line" here designates all the samples of the module X of the complex time-frequency transform of the input signal X C for the sampling frequency index k and all the time indices n. In a step 903, the sub-banding unit 400 groups the K spectral lines X k into a number J of sub-bands, in order to obtain a sub-sampled module denoted X having a number J of spectral lines denoted X j , where j is a subsampling frequency index between 1 and the number J. The number J is less than the number K. Each subband thus comprises a plurality of spectral lines X k , the frequency index k belonging to an interval having a lower bound b j and an upper bound e j . In one example, each subband corresponds to an octave to take into account the sound perception model of the human ear. Then, in a step 904, the subband grouping unit 400 calculates, for each subband, a mean Mean of the spectral lines X k of said subband in order to obtain the J spectral lines X i of the sub-sampled module. frequency X (cf. figure 5 ).

Ensuite, l'unité de calcul de vecteurs de prédiction 410 calcule pour chaque ligne spectrale j du module sous échantillonné en fréquence et pour chaque indice temporel n un vecteur de prédiction αj,n (cf. figure 6). Plus précisément, dans une étape 905, l'unité de construction d'observation 700 construit, pour chaque indice temporel n et indice fréquentiel j de sous échantillonnage, un vecteur d'observation sous échantillonné X̃vj,n à partir de l'ensemble des échantillons j,n1:n appartenant à la j-ième ligne spectrale j du module sous échantillonné en fréquence et compris entre les instants n 1=n-N+1 et n,n est l'indice de l'instant courant et n-n 1 est la taille de la mémoire du dispositif de déréverbération. Chaque vecteur d'observation sous échantillonné X̃vj,n est définit par X ˜ v j , n : = X ˜ j , n X ˜ j , n N + 1 T ,

Figure imgb0009
Then, the prediction vector calculation unit 410 calculates for each spectral line X j of the sub-sampled module at frequency X and for each temporal index n a prediction vector α j, n (cf. figure 6 ). More precisely, in a step 905, the observation construction unit 700 constructs, for each temporal index n and sub-sampling frequency index j, a sub-sampled observation vector Xv j, n from the set of samples X j , n 1: n belonging to the j-th spectral line X j of the module sub-sampled at frequency X and between the instants n 1 = nN +1 and n, where n is the index of the current instant and nn 1 is the size of the memory of the dereverberation device. Each subsampled observation vector Xv j, n is defined by X ~ v j , not : = X ~ j , not ... X ~ j , not - NOT + 1 T ,
Figure imgb0009

Chaque vecteur d'observation X̃vj,n est de taille N×1, où le nombre N est la longueur de l'observation. La longueur de l'observation N est le nombre de trames de la transformation temps-fréquence nécessaires pour l'estimation de la réverbération tardive. La longueur de l'observation N permet de définir la résolution temporelle de l'estimation. Quand la longueur de l'observation N augmente, la complexité du système diminue. Le sous-échantillonnage du module X de la transformée temps-fréquence complexe du signal d'entrée XC permet entre autre l'application du procédé en temps réel.Each observation vector Xv j, n is of size N × 1, where the number N is the length of the observation. The length of observation N is the number of the frames of the time-frequency transformation necessary for the estimation of the late reverberation. The length of the observation N makes it possible to define the temporal resolution of the estimate. As the length of observation N increases, the complexity of the system decreases. The subsampling of the X module of the complex time-frequency transform of the input signal X C makes it possible, among other things, to apply the method in real time.

Dans une étape 906, l'unité de construction de dictionnaires d'analyse 710 construit des dictionnaires d'analyse Da. Plus précisément, pour chaque indice temporel n et indice fréquentiel de sous échantillonnage j, un dictionnaire d'analyse D j , n a

Figure imgb0010
est construit en concaténant un nombre L de vecteurs d'observations passées déterminés à l'étape 905. Le dictionnaire d'analyse D j , n a
Figure imgb0011
se définit ainsi comme la matrice D j , n a : = X ˜ j , n δ X ˜ j , n δ 1 X ˜ j , n δ L + 1 X ˜ j , n δ 1 X ˜ j , n δ 2 X ˜ j , n δ L X ˜ j , n δ N + 1 X ˜ j , n δ N X ˜ j , n δ L N + 2
Figure imgb0012
où L est le nombre de vecteurs d'observations passées et donc la taille du dictionnaire d'analyse D j , n a ,
Figure imgb0013
et δ R *
Figure imgb0014
est le retard du dictionnaire d'analyse D j , n a .
Figure imgb0015
Plus précisément, le retard δ est le retard de trames entre le vecteur d'observation courante sous échantillonné X̃vj,n et les autres vecteurs d'observations sous échantillonnés appartenant au dictionnaire d'analyse D j , n a .
Figure imgb0016
Ledit retard δ permet de réduire les distorsions introduites par le procédé. Ce retard δ permet en outre de d'améliorer la séparation de la réverbération tardive et des réflexions précoces. Pour calculer le vecteur d'observation courante X̃vj,n et le dictionnaire d'analyse D j , n a
Figure imgb0017
et donc le vecteur de prédiction αj,n pour chaque ligne spectrale j et pour chaque indice temporel n, un nombre L+N+δ de trames doit être gardé en mémoire.In a step 906, the analysis dictionaries building unit 710 builds analysis dictionaries D a . More precisely, for each temporal index n and sub-sampling frequency index j, an analysis dictionary D j , not at
Figure imgb0010
is constructed by concatenating a number L of past observation vectors determined in step 905. The analysis dictionary D j , not at
Figure imgb0011
is defined as the matrix D j , not at : = X ~ j , not - δ X ~ j , not - δ - 1 X ~ j , not - δ - The + 1 X ~ j , not - δ - 1 X ~ j , not - δ - 2 X ~ j , not - δ - The X ~ j , not - δ - NOT + 1 X ~ j , not - δ - NOT X ~ j , not - δ - The - NOT + 2
Figure imgb0012
where L is the number of past observation vectors and therefore the size of the analysis dictionary D j , not at ,
Figure imgb0013
and δ R *
Figure imgb0014
is the delay of the analysis dictionary D j , not at .
Figure imgb0015
More precisely, the delay δ is the frame delay between the subsampled current observation vector Xv j, n and the other subsampled observation vectors belonging to the analysis dictionary. D j , not at .
Figure imgb0016
Said delay δ makes it possible to reduce the distortions introduced by the method. This delay δ also makes it possible to improve the separation of the late reverberation and the early reflections. To calculate the current observation vector Xv j, n and the analysis dictionary D j , not at
Figure imgb0017
and therefore the prediction vector α j, n for each spectral line X j and for each temporal index n, a number L + N + δ of frames must be kept in memory.

Dans une étape 907, l'unité de résolution du LASSO 720 résout un problème appelé "LASSO" qui est de minimiser la norme euclidienne X ˜ v j , n D j , n a α j , n 2

Figure imgb0018
en tenant compte de la contrainte ∥αj,n ∥ ≤ λλ est un paramètre d'intensité maximale. Pour résoudre ledit problème, la meilleure combinaison linéaire des L vecteurs du dictionnaire permettant d'approcher l'observation courante doit être trouvée. Dans un exemple, un procédé connu, appelé LARS, selon l'acronyme anglo-saxon de "Least Angle Regression" permet de résoudre ledit problème. La contrainte ∥αj,n 1λ permet de privilégier les solutions ayant peu d'éléments non nuls, c'est-à-dire les solutions parcimonieuses. Le paramètre d'intensité maximale λ permet de régler l'intensité maximale estimée de la réverbération tardive. Ce paramètre d'intensité maximale λ dépend a priori de l'environnement acoustique, c'est-à-dire dans un exemple de l'espace fermé 110. Pour chaque espace fermé 110, une valeur optimale du paramètre d'intensité maximale λ existe. Cependant, des essais ont montré que ledit paramètre d'intensité maximale λ peut être fixé à une valeur identique pour tous les espaces fermés 110, sans que ladite valeur introduise de dégradations par rapport à la valeur optimale. Ainsi le procédé fonctionne dans une grande variété d'espaces fermés 110 sans nécessiter de réglage particulier, ce qui permet de s'affranchir des erreurs d'estimation du temps de réverbération de l'espace fermé 110. En outre, le procédé selon l'invention ne nécessite pas de paramètre devant être estimé, ce qui permet l'application dudit procédé en temps réel. La valeur du paramètre d'intensité maximale λ est comprise entre 0 et 1. Dans un exemple, la valeur du paramètre d'intensité maximale λ est égale à 0,5, ce qui est un bon compromis entre la réduction de la réverbération et la qualité globale du procédé.In a step 907, the resolution unit of LASSO 720 solves a problem called "LASSO" which is to minimize the Euclidean norm X ~ v j , not - D j , not at α j , not 2
Figure imgb0018
taking into account the stress ∥ α j, n ∥ ≤ λ where λ is a maximum intensity setting. To solve this problem, the best linear combination of the L vectors of the dictionary allowing to approach the current observation must be found. In one example, a known method, called LARS, according to the English acronym of "Least Angle Regression" solves the problem. The constraint ∥ α j, n 1λ makes it possible to favor solutions with few non-zero elements, that is, parsimonious solutions. The maximum intensity parameter λ adjusts the estimated maximum intensity of the late reverberation. This parameter of maximum intensity λ depends a priori on the acoustic environment, that is to say in an example of the closed space 110. For each closed space 110, an optimum value of the maximum intensity parameter λ exists . However, tests have shown that said maximum intensity parameter λ can be set to an identical value for all the closed spaces 110, without said value introducing degradations with respect to the optimal value. Thus, the method operates in a wide variety of closed spaces 110 without requiring any particular adjustment, which makes it possible to avoid errors in estimating the reverberation time of the closed space 110. In addition, the method according to The invention does not require a parameter to be estimated, which allows the application of said method in real time. The value of the maximum intensity parameter λ is between 0 and 1. In one example, the value of the maximum intensity parameter λ is equal to 0.5, which is a good compromise between the reduction of the reverberation and the overall quality of the process.

Dans une étape 908, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage k, un vecteur d'observation courante Xvk,n est créé à partir de l'ensemble des échantillons appartenant à la k-ième ligne spectrale Xk du module X de la transformée temps-fréquence complexe et compris entre les instants n 1 et n, noté X k,n1:n n est l'indice d'instant courant et n - n 1 est la taille de la mémoire du dispositif de déréverbération. Chaque vecteur d'observation Xvk,n est définit par la formule Xvk,n := [Xk,n ...X k,n-N+1] T , et est de taille N × 1, où N est la longueur de l'observation.In a step 908, for each time index n and each sampling frequency index k, a current observation vector Xv k, n is created from the set of samples belonging to the k-th spectral line X k of module X of the complex time-frequency transform and between the instants n 1 and n, denoted by X k, n1 : n where n is the current-time index and n - n 1 is the size of the memory of the device of dereverberation. Each observation vector Xv k, n is defined by the formula Xv k, n : = [ X k, n ... X k, nN +1 ] T , and is of size N × 1, where N is the length of observation.

Dans une étape 909, l'unité de construction d'un dictionnaire de synthèse 800 construit un dictionnaire de synthèse Ds . Plus précisément, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage k, le dictionnaire de synthèse D k , n s

Figure imgb0019
est construit en concaténant un nombre L de vecteurs d'observations passées déterminés à l'étape 908. Le dictionnaire de synthèse D k , n s
Figure imgb0020
se définit ainsi comme la matrice D k , n s : = X k , n δ X k , n δ 1 X k , n δ L + 1 X k , n δ 1 X k , n δ 2 X k , n δ L X k , n δ N + 1 X k , n δ N X k , n δ L N + 2
Figure imgb0021
où L et δ sont les même paramètres que pour le dictionnaire d'analyse D j , n a .
Figure imgb0022
In a step 909, the construction unit of a synthesis dictionary 800 constructs a synthesis dictionary D s . More precisely, for each temporal index n and each sampling frequency index k, the summary dictionary D k , not s
Figure imgb0019
is constructed by concatenating a number L of past observation vectors determined at step 908. The summary dictionary D k , not s
Figure imgb0020
is defined as the matrix D k , not s : = X k , not - δ X k , not - δ - 1 X k , not - δ - The + 1 X k , not - δ - 1 X k , not - δ - 2 X k , not - δ - The X k , not - δ - NOT + 1 X k , not - δ - NOT X k , not - δ - The - NOT + 2
Figure imgb0021
where L and δ are the same parameters as for the analysis dictionary D j , not at .
Figure imgb0022

Dans une étape 910, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage k, une estimation de la densité spectrale de puissance de la réverbération tardive ou du spectre de la réverbération tardive X k , n

Figure imgb0023
est construit par multiplication du dictionnaire de synthèse D k , n s
Figure imgb0024
avec le vecteur de prédiction αj,n selon la formule X k , n = D k , n s α j , n k b j , e j , j = 1 , , J
Figure imgb0025
In a step 910, for each time index n and each sampling frequency index k, an estimate of the power spectral density of the late reverberation or the late reverberation spectrum X k , not
Figure imgb0023
is built by multiplication of the synthetic dictionary D k , not s
Figure imgb0024
with the prediction vector α j, n according to the formula X k , not = D k , not s α j , not k b j , e j , j = 1 , ... , J
Figure imgb0025

Le vecteur de prédiction αj,n indique donc les colonnes du dictionnaire de synthèse qui ont été retenues pour l'estimation de la réverbération, ainsi que la contribution de chacune d'elles à la réverbération. Le spectre de la réverbération tardive X est considéré dans la suite du procédé comme un signal de bruit à éliminer.The prediction vector α j, n therefore indicates the columns of the synthesis dictionary that have been selected for estimating the reverberation, as well as the contribution of each of them to the reverberation. The spectrum of late reverberation X is considered in the rest of the process as a noise signal to be eliminated.

A cette fin, un filtrage de la réverbération est effectué par l'unité de filtrage 310. Plus précisément, dans une étape 911, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage k, un filtre de déréverbération Gk,n est construit selon la formule G k , n = ξ k , n 1 + ξ k , n exp υ k , n e t t dt

Figure imgb0026
ξk,n est le rapport signal à bruit a priori, calculé de la façon suivante ξ k , n = β G k , n 1 2 γ k , n 1 + 1 β max γ k , n 1 , 0
Figure imgb0027
et où la borne d'intégration νk,n est calculée de la façon suivante υ k , n = γ k , n ξ k , n 1 + ξ k , n
Figure imgb0028
γk,n est le rapport signal à bruit a postériori, calculé selon la formule γ k , n = X k , n 2 R k , n 2
Figure imgb0029
Rk,n est la réverbération tardive lissée calculée de la façon suivante R k , n = αR k , n 1 + 1 α X k , n
Figure imgb0030
où α est une première constante de lissage et β est une seconde constante de lissage. Dans un exemple, la première constante de lissage α vaut 0.77 et la seconde constante de lissage β vaut 0.98.For this purpose, a filtering of the reverberation is carried out by the filtering unit 310. More specifically, in a step 911, for each time index n and each sampling frequency index k, a dereverberation filter G k, n is built according to the formula BOY WUT k , not = ξ k , not 1 + ξ k , not exp υ k , not e - t t dt
Figure imgb0026
where ξ k, n is the signal to noise ratio a priori, calculated as follows ξ k , not = β BOY WUT k , not - 1 2 γ k , not - 1 + 1 - β max γ k , not - 1 , 0
Figure imgb0027
and where the integration bound ν k, n is computed as follows υ k , not = γ k , not ξ k , not 1 + ξ k , not
Figure imgb0028
where γ k, n is the signal-to-noise ratio a posteriori, calculated according to the formula γ k , not = X k , not 2 R k , not 2
Figure imgb0029
where R k, n is the smoothed late reverberation calculated as follows R k , not = αR k , not - 1 + 1 - α X k , not
Figure imgb0030
where α is a first smoothing constant and β is a second smoothing constant. In one example, the first smoothing constant α is 0.77 and the second smoothing constant β is 0.98.

En effet, la réverbération estimée est non stationnaire à long terme car le signal sonore émis par la source sonore omnidirectionnelle 100, qui provoque ladite réverbération estimée n'est pas stationnaire à long terme. Des variations trop rapides de la réverbération estimée peuvent introduire des artéfacts gênants lors du filtrage. Pour limiter ces effets, un lissage récursif est effectué pour calculer la densité spectrale de puissance de la réverbération tardive.Indeed, the estimated reverberation is non-stationary in the long term because the sound signal emitted by the omnidirectional sound source 100, which causes said estimated reverberation is not stationary in the long term. Excessive variations in the estimated reverb can introduce annoying artifacts during filtering. To limit these effects, a recursive smoothing is performed to calculate the power spectral density of the late reverberation.

Dans une étape 912, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage k, les vecteurs d'observations Xvk,n sont filtrés par le filtre de déréverbération Gk,n calculé à l'étape 911 afin d'obtenir un module de signal déréverbéré Yk,n calculé de la façon suivante Y k , n = G k , n X k , n .

Figure imgb0031
In a step 912, for each time index n and each sampling frequency index k, the observation vectors Xv k, n are filtered by the dereverberation filter G k, n calculated in step 911 in order to obtain a dverbvered signal module Y k, n calculated as follows Y k , not = BOY WUT k , not X k , not .
Figure imgb0031

Le filtre construit à l'étape 911 atténue fortement certains vecteurs d'observations Xvk,n ce qui génère des artéfacts nuisibles à la qualité du signal déréverbéré. Pour limiter lesdits artéfacts, une borne inférieure est imposée sur l'atténuation du filtre. Ainsi, pour chaque indice fréquentiel d'échantillonnage k et pour chaque indice temporel n, si le filtre de déréverbération Gk,n est inférieur ou égal à une valeur minimale du filtre de déréverbération Gmin, alors ledit filtre de déréverbération Gk,n est égal à ladite valeur minimale du filtre de déréverbération Gmin.The filter constructed in step 911 strongly attenuates certain observation vectors Xv k, n which generates artifacts harmful to the quality of the dereverberated signal. To limit said artifacts, a lower bound is imposed on the attenuation of the filter. Thus, for each sampling frequency index k and for each time index n, if the dereverberation filter G k, n is less than or equal to a minimum value of the dereverberation filter Gmin, then said dereverberation filter G k, n is equal to the said minimum value of the filter of Gmin dereverberation.

Dans une étape 913, pour chaque indice fréquentiel d'échantillonnage k et chaque indice temporel n, le module de signal déréverbéré Yk,n et la phase ∠Xk,n du signal complexe X k , n C

Figure imgb0032
sont multipliés afin de créer un signal complexe déréverbéré YC. In a step 913, for each sampling frequency index k and each time index n, the dereverberated signal module Y k, n and the phase ∠X k, n of the complex signal X k , not VS
Figure imgb0032
are multiplied to create a complex dereverberated signal Y C.

Dans une étape 914, une transformation fréquence-temps est appliquée par l'unité d'application d'une transformation fréquence-temps 220 au signal complexe déréverbéré Y k , n C

Figure imgb0033
afin d'obtenir un signal temporel déréverbéré y(t) dans le domaine temporel. Dans un exemple, la transformation fréquence-temps est une Transformation de Fourier Inverse à Court Terme.In a step 914, a frequency-time transformation is applied by the unit for applying a frequency-time transformation 220 to the dereverberated complex signal. Y k , not VS
Figure imgb0033
to obtain a temporal signal dereverbere y ( t ) in the time domain. In one example, the frequency-time transformation is a Short Term Inverse Fourier Transformation.

Dans une mise en oeuvre, la valeur du nombre de vecteurs d'observation L est égale à 10, la valeur du nombre de longueur d'observation N est égale à 8, la valeur du retard δ est égale à 5, la valeur du paramètre d'intensité maximale λ est égale à 0.5, la valeur du nombre K est égale à 257, la valeur du nombre J est égale à 10, la valeur de la longueur d'une trame M est égale à 512 et la valeur minimale du filtre de déréverbération Gmin est égale à -12 décibels. Ce choix de paramètres permet l'application du procédé en temps réel.In one implementation, the value of the number of observation vectors L is equal to 10, the value of the number of observation length N is equal to 8, the value of the delay δ is equal to 5, the value of the parameter of maximum intensity λ is equal to 0.5, the value of the number K is equal to 257, the value of the number J is equal to 10, the value of the length of a frame M is equal to 512 and the minimum value of the filter Gmin dereverberation is equal to -12 decibels. This choice of parameters allows the application of the process in real time.

Le procédé de suppression de la réverbération tardive d'un signal sonore selon l'invention est rapide et présente une complexité réduite. Ledit procédé est donc utilisable en temps réel. En outre, ce procédé n'introduit pas d'artéfacts et est robuste au bruit de fond. De plus, ledit procédé réduit le bruit de fond et est compatible avec des procédés de réduction de bruit.The method of suppressing the late reverberation of a sound signal according to the invention is rapid and has a reduced complexity. This method is therefore usable in real time. In addition, this method does not introduce artifacts and is robust to background noise. In addition, said method reduces background noise and is compatible with noise reduction methods.

Le procédé de suppression de la réverbération tardive d'un signal sonore selon l'invention nécessite un seul microphone pour traiter avec précision la réverbération.The method of suppressing the late reverberation of a sound signal according to the invention requires a single microphone to accurately process the reverberation.

Claims (6)

  1. Method for suppressing the late reverberation of a sound signal, characterized in that it includes the following steps:
    • capturing (900) an input signal (x) formed by the superimposition of a multiplicity of delayed and attenuated versions of the sound signal,
    • applying (901) a time-frequency transformation to the input signal (x) in order to obtain a complex time-frequency transform (XC ) of the input signal (x),
    • generating a frequency-subsampled modulus () from the modulus of the complex time-frequency transform (XC ) of the input signal (x),
    • generating (905) a plurality of subsampled observation vectors from said frequency-subsampled modulus (),
    • constructing (906) a plurality of analysis dictionaries (Da ) from the plurality of subsampled observation vectors,
    • calculating (907) a plurality of prediction vectors (α) from the plurality of subsampled observation vectors and from the plurality of analysis dictionaries (Da ), by minimizing, for each prediction vector (α), the expression ∥X̃v - Daα2, which is the Euclidean norm of the difference between the subsampled observation vector associated with said prediction vector (α) and of the analysis dictionary (Da ) associated with said prediction vector (α) multiplied by said prediction vector (α), while taking into consideration the constraint ∥α1λ, according to which the norm 1 of said prediction vector (α) is less than or equal to a maximum intensity parameter of the late reverberation (λ),
    • generating (908) a plurality of observation vectors from the modulus of the complex time-frequency transform (XC ) of the input signal (x),
    • constructing (909) a plurality of synthesis dictionaries (Ds ) from the concatenation of the plurality of observation vectors,
    • estimating (910) a late reverberation spectrum (X ) from the multiplication of the plurality of synthesis dictionaries (Ds ) by the plurality of prediction vectors (α),
    • filtering (912) the plurality of observation vectors in order to eliminate the late reverberation spectrum (X ) and to obtain a dereverberated signal modulus (Y).
  2. Method according to Claim 1, characterized in that the value of the maximum intensity parameter of the late reverberation (A) is between 0 and 1.
  3. Method according to either of Claims 1 and 2, characterized in that it furthermore includes the following step:
    • generating (913) a dereverberated complex signal (YC ) from the dereverberated signal modulus (Y) and from the phase (∠X) of the complex time-frequency transform (XC ) of the input signal (x).
  4. Method according to Claim 3, characterized in that it furthermore includes the following step:
    • applying (914) a frequency-time transformation to the dereverberated complex signal (YC ) in order to obtain a dereverberated time signal (y).
  5. Method according to one of Claims 1 to 4, characterized in that it furthermore includes a step of constructing a dereverberation filter in accordance with the model G = ξ 1 + ξ exp υ e t t dt ,
    Figure imgb0038
    where ξ is the a priori signal-to-noise ratio, and where the bound of integration v is calculated in accordance with the model υ = γ ξ 1 + ξ
    Figure imgb0039
    where γ is the a posteriori signal-to-noise ratio.
  6. Device for suppressing the late reverberation of a sound signal, characterized in that it includes means for:
    • capturing an input signal (x) formed by the superimposition of a multiplicity of delayed and attenuated versions of the sound signal,
    • applying a time-frequency transformation to the input signal (x) in order to obtain a complex time-frequency transform (XC ) of the input signal (x),
    • generating a frequency-subsampled modulus () from the modulus of the complex time-frequency transform (XC ) of the input signal (x),
    • generating a plurality of subsampled observation vectors from said frequency-subsampled modulus (),
    • constructing a plurality of analysis dictionaries (D a) from the plurality of subsampled observation vectors,
    • calculating a plurality of prediction vectors (α) from the plurality of subsampled observation vectors and from the plurality of analysis dictionaries (D a), by minimizing, for each prediction vector (α), the expression ∥X̃v - Daα2, which is the Euclidean norm of the difference between the subsampled observation vector associated with said prediction vector (α) and of the analysis dictionary (Da ) associated with said prediction vector (α) multiplied by said prediction vector (α), while taking into consideration the constraint ∥α1λ, according to which the norm 1 of said prediction vector (α) is less than or equal to a maximum intensity parameter of the late reverberation (λ),
    • generating a plurality of observation vectors from the modulus of the complex time-frequency transform (XC ) of the input signal (x),
    • constructing a plurality of synthesis dictionaries (Ds ) from the concatenation of the plurality of observation vectors,
    • estimating a late reverberation spectrum (X ) from the multiplication of the plurality of synthesis dictionaries (Ds ) by the plurality of prediction vectors (α),
    • filtering the plurality of observation vectors in order to eliminate the late reverberation spectrum (X ) and to obtain a dereverberated signal modulus (Y).
EP14741619.2A 2013-07-23 2014-07-21 Method for suppressing the late reverberation of an audible signal Active EP3025342B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1357226A FR3009121B1 (en) 2013-07-23 2013-07-23 METHOD OF SUPPRESSING LATE REVERBERATION OF A SOUND SIGNAL
PCT/EP2014/065594 WO2015011078A1 (en) 2013-07-23 2014-07-21 Method for suppressing the late reverberation of an audible signal

Publications (2)

Publication Number Publication Date
EP3025342A1 EP3025342A1 (en) 2016-06-01
EP3025342B1 true EP3025342B1 (en) 2017-09-13

Family

ID=49378470

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14741619.2A Active EP3025342B1 (en) 2013-07-23 2014-07-21 Method for suppressing the late reverberation of an audible signal

Country Status (5)

Country Link
US (1) US9520137B2 (en)
EP (1) EP3025342B1 (en)
KR (1) KR20160045692A (en)
FR (1) FR3009121B1 (en)
WO (1) WO2015011078A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2549103B (en) * 2016-04-04 2021-05-05 Toshiba Res Europe Limited A speech processing system and speech processing method
CN108648756A (en) * 2018-05-21 2018-10-12 百度在线网络技术(北京)有限公司 Voice interactive method, device and system
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN109243476B (en) * 2018-10-18 2021-09-03 电信科学技术研究院有限公司 Self-adaptive estimation method and device for post-reverberation power spectrum in reverberation voice signal

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006011104A1 (en) * 2004-07-22 2006-02-02 Koninklijke Philips Electronics N.V. Audio signal dereverberation
JP6019969B2 (en) * 2011-11-22 2016-11-02 ヤマハ株式会社 Sound processor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None *

Also Published As

Publication number Publication date
US9520137B2 (en) 2016-12-13
FR3009121A1 (en) 2015-01-30
FR3009121B1 (en) 2017-06-02
EP3025342A1 (en) 2016-06-01
WO2015011078A1 (en) 2015-01-29
US20160210976A1 (en) 2016-07-21
KR20160045692A (en) 2016-04-27

Similar Documents

Publication Publication Date Title
EP1356461B1 (en) Noise reduction method and device
US11244696B2 (en) Audio-visual speech enhancement
EP2680262B1 (en) Method for suppressing noise in an acoustic signal for a multi-microphone audio device operating in a noisy environment
EP2898707B1 (en) Optimized calibration of a multi-loudspeaker sound restitution system
EP3025342B1 (en) Method for suppressing the late reverberation of an audible signal
EP3040989B1 (en) Improved method of separation and computer program product
EP3025514B1 (en) Sound spatialization with room effect
WO2016181054A1 (en) Method and device for probing by wave propagation
EP0884926A1 (en) Method and device for optimized processing of an interfering signal when recording sound
WO2018115666A1 (en) Processing in sub-bands of an actual ambisonic content for improved decoding
EP4046390A1 (en) Improved location of an acoustic source
EP2515300B1 (en) Method and system for noise reduction
Gaultier Design and evaluation of sparse models and algorithms for audio inverse problems
WO2022106765A1 (en) Improved location of an acoustic source
WO2020049263A1 (en) Device for speech enhancement by implementation of a neural network in the time domain
EP4042418B1 (en) Determining corrections to be applied to a multichannel audio signal, associated coding and decoding
EP2901447B1 (en) Method and device for separating signals by minimum variance spatial filtering under linear constraint
WO2022207994A1 (en) Estimating an optimized mask for processing acquired sound data
Tasmaz Speech enhancement based on dual tree complex wavelet transform
WO2012085453A1 (en) Processing sound data for source separation
FR3065136A1 (en) METHOD AND SYSTEM FOR WIRELESS ACQUISITION OF IMPULSE RESPONSE BY SLIDING SINUS METHOD

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20160204

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20170317

RIN1 Information on inventor provided before grant (corrected)

Inventor name: LOPEZ, NICOLAS

Inventor name: GRENIER, YVES

Inventor name: RICHARD, GAEL

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 928871

Country of ref document: AT

Kind code of ref document: T

Effective date: 20171015

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602014014579

Country of ref document: DE

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20170913

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171213

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 928871

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171214

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171213

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20180113

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602014014579

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

26N No opposition filed

Effective date: 20180614

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20180727

Year of fee payment: 5

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180721

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20180731

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180731

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180731

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180721

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180731

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20190721

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20190721

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20140721

Ref country code: MK

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170913

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170913

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230512

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230725

Year of fee payment: 10

Ref country code: DE

Payment date: 20230724

Year of fee payment: 10