FR3013885A1 - Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange - Google Patents

Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange Download PDF

Info

Publication number
FR3013885A1
FR3013885A1 FR1361792A FR1361792A FR3013885A1 FR 3013885 A1 FR3013885 A1 FR 3013885A1 FR 1361792 A FR1361792 A FR 1361792A FR 1361792 A FR1361792 A FR 1361792A FR 3013885 A1 FR3013885 A1 FR 3013885A1
Authority
FR
France
Prior art keywords
signal
spectrogram
correction
parametric
mixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1361792A
Other languages
English (en)
Other versions
FR3013885B1 (fr
Inventor
Romain Hennequin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audionamix
Original Assignee
Audionamix
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audionamix filed Critical Audionamix
Priority to FR1361792A priority Critical patent/FR3013885B1/fr
Priority to US14/555,230 priority patent/US9633665B2/en
Publication of FR3013885A1 publication Critical patent/FR3013885A1/fr
Application granted granted Critical
Publication of FR3013885B1 publication Critical patent/FR3013885B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

Ce procédé comporte les étapes consistant à : acquérir (110) un signal acoustique de guidage (g(t)) d'une reproduction de la seule contribution spécifique ; déterminer (120, 130, 140) une modélisation paramétrique d'un signal spécifique (Vyp) correspondant à la seule contribution spécifique, prenant en compte une correction de fréquence fondamentale de chaque trame temporelle ; déterminer (150) une modélisation paramétrique d'un signal de fond sonore (Vpz) correspondant à la seule composante de fond sonore ; estimer (170, 190) un signal intermédiaire spécifique (Vig) et un signal intermédiaire de fond sonore (Viz), en ajustant les paramètres des modélisations et en utilisant le signal acoustique de mélange (x(t)) ; et filtrer (200) le signal acoustique de mélange en utilisant le signal intermédiaire spécifique et le signal intermédiaire de fond sonore, pour obtenir un signal acoustique spécifique (y(t)) et un signal acoustique de fond sonore (z(t)).

Description

Procédé et système de séparation de contributions spécifique et de fond sonore dans un signal acoustique de mélange La présente invention a pour domaine celui des procédés et des systèmes de séparation de contributions spécifique et de fond sonore dans un signal acoustique de mélange, et , en particulier, d'une contribution de dialogue, d'une contribution de fond sonore, dans un signal acoustique de mélange. Une bande son d'un film ou d'une série de télévision comporte des dialogues superposés à des effets spéciaux sonores et/ou à une musique. Pour un film ancien, la bande son est un mélange résultant de la superposition de ces au moins deux contributions et ces deux contributions ne sont généralement pas accessibles séparément. De ce fait, si l'on souhaite pouvoir diffuser ce film dans une version autre que la version originale, il est nécessaire de séparer la contribution de dialogue de la contribution de fond sonore dans la bande son originale, avant de pouvoir ajouter, sur le fond sonore ainsi isolé, un doublage du dialogue dans une langue de destination, pour obtenir une nouvelle bande son. De même, les producteurs d'un film peuvent avoir obtenu les droits de diffusion d'une musique uniquement pour un territoire donné ou pour une durée donnée. Il est impossible de diffuser un film dont la bande son ne permettrait pas de respecter ces conditions contractuelles. Il est alors nécessaire de pouvoir séparer la contribution de dialogue, de celle de fond sonore, avant de pouvoir ajouter au dialogue original isolé, une nouvelle musique, pour obtenir une nouvelle bande son. Il y a donc un besoin pour un procédé permettant de séparer une contribution de dialogue, d'une contribution de fond sonore, dans un signal sonore correspondant au mélange de ces deux contributions, afin d'obtenir d'une part un signal sonore de dialogue seul et, d'autre part, un signal sonore de fond sonore seul. Dans le domaine général du traitement du signal audio, la séparation de sources est un sujet important de la dernière décennie. Dans l'art antérieur, le problème de la séparation de sources a initialement été abordé dans un contexte de séparation aveugle des sources. En particulier, est utilisée une méthode de factorisation en matrices non-négatives (ou méthode NMF selon l'acronyme anglais de «Non-negative Matrix Factorization »). Par exemple, le document de T. Virtanen, "Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 3, pp. 1066-1074, March 2007, divulgue une telle méthode NMF. Cependant, l'un des principaux inconvénients de la méthode NMF réside dans la difficulté de regrouper les éléments factorisés et à les associer à une source particulière.
Récemment, il a été proposé d'ajouter des informations supplémentaires en amont de la méthode NMF pour faciliter et améliorer la séparation. Dans le domaine particulier de la séparation de sources musicales (c'est-à-dire d'un instrument de musique au milieu d'un orchestre) il a par exemple été proposé un procédé selon lequel les différentes formes spectrales de chaque instrument sont apprises à partir de sons isolés. Les formes spectrales obtenues sont ensuite utilisées comme informations supplémentaires pour séparer les différentes sources dans le mélange. Par exemple encore, selon un autre procédé, un fichier MIDI est utilisé comme informations supplémentaires pour faciliter la séparation des instruments dans un morceau de musique.
Dans le domaine particulier de la séparation de la parole sur un fond sonore, il a été proposé d'utiliser un signal sonore de guidage, imitant la contribution de dialogue du signal de mélange, pour guider la séparation grâce à cet apport d'informations supplémentaires. Plus particulièrement, le signal de guidage correspond à un enregistrement de la voix d'un locuteur doublant la contribution de dialogue cible à séparer. Une telle approche a été proposée dans le document de P. Smaragdis et G. Mysore « Separation by humming : user-guided sound extraction from monophonic mixture, » in Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY, USA, Octobre 2009. Dans ce document, est utilisée un procédé fondé sur une analyse probabiliste en composantes latentes (« Probabilistic Latent Component Analysis » en anglais, ou analyse PLCA). Celle-ci utilise un signal de guidage qui imite la contribution de dialogue à extraire du signal de mélange, et sert de préalable à l'analyse PLCA. Cependant, ce procédé de l'état de la technique souffre d'un manque de robustesse par rapport aux modifications de la hauteur de la fréquence fondamentale entre les sons émis par le ou les locuteurs de la contribution de dialogue dans le signal de mélange et les sons émis par le ou les locuteurs doublant la contribution de dialogue du signal de guidage. Cette hauteur est dénommée « pitch » en anglais. Le manque de robustesse provient aussi d'une forte sensibilité à tous désalignements temporels, mêmes faibles, entre le signal de guidage et la contribution de dialogue dans le signal de mélange.
Enfin, le manque de robustesse provient également d'une sensibilité aux différences d'égalisation entre le signal de guidage et le signal de mélange. Le document de L. Le Magoarou et al. "Text-informed audio source separation using nonnegative matrix partial co-factorization," in IEEE International Workshop on Machine Learning for Signal Processing, Southampton, UK, September 2013, divulgue un algorithme d'estimation fondé sur un modèle vocal source-filtre pour la contribution de dialogue du signal de mélange et pour le signal de guidage. Cet algorithme permet de prendre en compte les différences de synchronisation et d'égalisation globale entre la contribution de dialogue du signal de mélange et le signal de guidage. Cependant, cet algorithme, bien que robuste à un changement de fréquence fondamentale du signal de guidage, ne comporte pas de paramètre lié à la fréquence fondamentale, la fréquence fondamentale n'étant pas une variable du modèle vocal source-filtre utilisé. Cet algorithme n'exploite donc pas l'information de hauteur contenue dans le signal de guidage. L'invention a donc pour but de pallier ces problèmes en proposant un procédé amélioré de séparation informée, qui exploite, de manière automatique, les différences de hauteur entre le signal de guidage et la contribution de dialogue dans le signal de mélange.
L'invention a donc pour objet un procédé de séparation, dans un signal acoustique de mélange, d'une contribution spécifique et d'une contribution de fond sonore, caractérisé en ce qu'il comporte les étapes consistant à : - acquérir un signal acoustique de guidage correspondant à une reproduction de la seule contribution spécifique ; - déterminer une modélisation paramétrique d'un signal spécifique correspondant à la seule contribution spécifique, prenant en compte une correction de fréquence fondamentale de chaque trame temporelle; - déterminer une modélisation paramétrique d'un signal de fond sonore correspondant à la seule composante de fond sonore ; - estimer un signal intermédiaire spécifique et un signal intermédiaire de fond sonore, en ajustant les paramètres des modélisations et en utilisant le signal acoustique de mélange ; - filtrer le signal acoustique de mélange en utilisant le signal intermédiaire spécifique et le signal intermédiaire de fond sonore, pour obtenir un signal acoustique spécifique et un signal acoustique de fond sonore.
Selon d'autres modes de réalisation, le procédé de séparation comporte une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou selon toutes les combinaisons techniquement possibles : - le procédé comporte une étape initiale de transformation d'un signal acoustique temporel en une représentation temps-fréquence, et une étape finale de transformation d'une représentation temps-fréquence en un signal acoustique temporel, inverse de celle de l'étape initiale de transformation, les étapes de détermination, de modélisation, d'estimation et de filtrage étant mise en oeuvre dans le domaine fréquentiel sur des représentations temps-fréquence. la transformation d'un signal acoustique temporel en une représentation temps-fréquence est une transformation à échelle fréquentielle logarithmique, en particulier une transformation à Q constant. l'étape de détermination d'une modélisation paramétrique d'un signal de fond sonore est fondée sur une décomposition en matrices non-négative. l'étape de détermination d'une modélisation paramétrique d'un signal spécifique permet également de prendre en compte une correction d'un décalage temporel entre le signal de guidage et la contribution spécifique dans le spectrogramme de mélange. - l'étape de détermination d'une modélisation paramétrique permet également de prendre en compte une correction d'égalisation entre le signal de guidage et le signal de mélange. l'étape d'estimation est fondée sur la minimisation d'une fonction de coût. la fonction de coût utilise une divergence, notamment la divergence d' ITAKURA-SAITO. l'étape de détermination d'une modélisation paramétrique de correction en hauteur d'un spectrogramme du signal de guidage 17g conduit à un spectrogramme paramétrique de signal de guidage Vslifted de la forme : Vsghifted (E04V9diag(Pcp,:)) où 4179 correspond à un décalage de la matrice spectrogramme du signal de guidage V9 de q5 points temps/fréquence vers le bas, diag(Pcp,:) est la matrice diagonale qui possède comme diagonale les composantes de la p lème ligne de la matrice P représentative d'un décalage en hauteur, et Ecp l'opération de sommation sur l'ensemble des valeurs de p. - l'étape d'estimation d'une modélisation paramétrique de correction en hauteur et de correction en synchronisation d'un spectrogramme du signal spécifique V9 conduit à un spectrogramme paramétrique de signal de guidage Vs,' de la forme : Vsync 9 - VsghiftedS Où la matrice S est représentative d'une synchronisation et est telle qu'il existe un entier w tel que pour tout couple de trames (t1, t2) tel que si 1t1 - t2I > w , alors st1t2 = 0 . l'étape d'estimation d'une modélisation paramétrique de correction en hauteur, de correction en synchronisation et de correction en égalisation d'un spectrogramme du signal de guidage Vg conduit à un spectrogramme paramétrique de signal de guidage le de la forme : Vpg = diag(E)(E04Vgdiag(1314) ).S" où diag(E) est une matrice diagonale représentative d'une égalisation dont la diagonale est constituée des composantes du vecteur E. - l'étape d'estimation est itérative et met en oeuvre des règles de mise à jour suivantes : P P ETCVg O (170-1-ST)) pour la correction de hauteur ; (Ediag(E)4V9 diag(130,:)) O V O f70-2 s s 0 pour la correction de synchronisation, lorsqu'elle est prise en compte ; et, ((E4V9diag(P1,,DS) O V O -1/0-2)1T E E C) pour la correction d'égalisation, lorsqu'elle est prise en compte, où O est un opérateur correspondant au produit terme à terme entre matrices (ou vecteur) ; .00 est un opérateur correspondant à l'exponentiation terme à terme d'une matrice par un scalaire ; (.)T est la transposée d'une matrice ; et 1T est un vecteur T x 1 dont tous les éléments sont égaux à 1. le procédé comporte une première étape d'estimation et une étape de suivi, l'étape de suivi consistant à optimiser une valeur de chaque paramètre des modélisations paramétriques, obtenue en sortie de la première étape d'estimation. le procédé comporte une seconde étape d'estimation, la valeur optimisée obtenue en sorite de l'étape de suivi étant prise comme valeur initiale du paramètre correspondant dans la seconde étape d'estimation. l'étape de filtrage met en oeuvre un filtrage de Wiener. ETCvg O ((V O 9°-2)sT)) (Ediag(E)4V9diag(130,:)) O 90-1 ((E V9dtag(130,DS) O 90-1)17, L'invention a également pour objet un système pour la mise en oeuvre d'un procédé de séparation conforme à l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte : - un moyen d'acquisition d'un signal de guidage ; - un module de détermination d'une modélisation paramétrique d'un signal de dialogue ; - un module de détermination d'une modélisation paramétrique d'un signal de fond sonore ; - un module d'estimation d'un signal de dialogue et d'un signal de fond sonore intermédiaires à partir d'un signal de mélange ; et, - un module de filtrage propre à générer un signal de dialogue et un signal de fond sonore à partir du signal de mélange et des signaux de dialogue et de fond sonore intermédiaires. L'invention sera mieux comprise à la lecture de la description qui va suivre d'un mode de réalisation particulier, donné uniquement à titre d'exemple illustratif et non limitatif, et faite en se référant aux dessins annexés sur lesquels : la figure 1 est une représentation sous forme de blocs des différentes étapes du procédé de séparation selon l'invention ; la figure 2 est une vue schématique d'un système pour la mise en oeuvre du procédé de la figure 1 ; les figures 3 et 4 correspondent à des graphes qui résultent de tests permettant de comparer, selon des critères normatifs connus, les résultats de la mise en oeuvre du procédé de la figure 2, par rapport à des procédés de l'état de la technique.
En se référant à la Figure 1, le procédé de séparation 100 utilise un signal acoustique temporel de mélange x(t) et un signal acoustique temporel de guidage g(0, pour délivrer un signal acoustique de dialogue y(t) et un signal acoustique de fond sonore z(t). Les signaux sont tous des signaux acoustiques, de sorte que le qualificatif d'acoustique sera omis dans ce qui suit. Ces signaux sont des signaux temporels. Ils dépendent du temps t. Le signal acoustique de mélange est une bande son source, ou tout au moins un extrait d'une bande son. Le signal acoustique de mélange x(t) comprend une première contribution et une seconde contribution.
La première contribution correspond à un dialogue constitué de paroles prononcées par un ou plusieurs locuteurs originaux. La seconde contribution correspond à ce qui est ici dénommé fond sonore et regroupe les effets spéciaux sonores, la musique, etc.
Le signal acoustique de guidage g(t) correspond à la première contribution, mais prononcée par un utilisateur qui double la contribution de dialogue du signal de mélange x(t). Le signal acoustique de dialogue y(t) correspond à la seule contribution de dialogue, isolée du reste du signal de mélange x(t), et le signal acoustique de fond sonore z(t) correspond à la seule contribution du fond sonore, isolée du reste du signal de mélange x(t) La première étape 110 du procédé 100 consiste ainsi à acquérir le signal de guidage g(t) en enregistrant un locuteur doublant la contribution de dialogue du signal de mélange x(t).
A l'étape 115, un spectrogramme log-fréquence du signal de guidage g(t) acquis est calculé. Ce spectrogramme, V9, est défini comme le carré du module de la transformée à Q constant ou CQT (pour « Constant-Q Transform ») du signal g (t) . Afin d'éviter toute confusion, il est préférable d'utiliser un terme différent pour caractériser les matrices non-négatives (module au carré de CQT) des matrices complexes (obtenues par CQT, ou censées modéliser une telle CQT). Ainsi, dans ce qui suit, le terme « spectrogramme » est utilisé pour désigner les matrices non-négatives et le terme « transformée à Q constant » pour les matrices complexes. Pour l'étape 115, est utilisé un algorithme, connu de l'homme du métier, qui permet de passer du domaine temporel au domaine fréquentiel, de telle sorte que les fréquences centrales fc de chaque pas d'échantillonnage en fréquence (« bin » en anglais) soient espacées les unes des autres selon une progression géométrique et que les facteurs de qualité Q de chaque pas d'échantillonnage en fréquence soient constants entre eux. Le facteur de qualité Q d'un pas d'échantillonnage en fréquence est donné par : Q = of, où fc est la fréquence centrale du pas d'échantillonnage en fréquence Aï considéré et 3,f sa largeur. Cette représentation présente la propriété qu'une modification de la hauteur de la fréquence d'un son, caractérisé par une fréquence fondamentale et une pluralité d'harmoniques de cette fréquence fondamentale, se traduit par un simple décalage par translation selon l'axe des fréquences du spectrogramme, ou tout au moins d'une trame de ce spectrogramme. Cette propriété apparaitra comme fondamentale dans l'étape de correction de la hauteur du signal de guidage qui sera présentée ci-dessous. Il est à noter qu'une trame correspond à un pas d'échantillonnage temporel d'un signal et donc du spectrogramme correspondant.
A l'étape 116, un spectrogramme, Vx, du signal de mélange x(t) est calculé de la même manière. Le spectrogramme du signal de guidage Vg est une matrice F x T. Le spectrogramme du signal de mélange Vx est une matrice F x T. T représente le nombre total de trames qui subdivisent la durée du signal du mélange x(t) et le signal de guidage g(t). Le signal de guidage g(t) et celui de mélange x(t) ont la même durée. Si cela n'est pas le cas, il est facile d'effectuer une modification temporelle directement sur la matrice V9 par le biais d'une matrice de synchronisation S (qui sera présentée en détail ci-après) choisie pour présenter une taille T'xT, où T' est la longueur temporelle de Vg est T celle de la matrice Vx. Le spectrogramme du signal de mélange Vx est modélisé comme la somme du spectrogramme du signal de dialogue, dénommé f7Y, et du spectrogramme du signal de fond sonore, dénommé gz. Cette modélisation est usuelle dans le cadre des méthodes de décomposition par factorisation en matrices non-négatives.
Il est à noter que â se réfère à une quantité qui est une estimation de la quantité a. Ainsi, dans les étapes qui suivent du procédé 100, on cherche à estimer les deux spectrogrammes de sortie dont la somme est égale au spectrogramme du mélange : Vx 1731 + 17z (1) Le signal de guidage g(t) n'est pas égal au signal de dialogue y(t). En effet, entre le signal de guidage g(t) et la contribution de dialogue dans le signal de mélange x(t), il y a des différences qu'il est nécessaire de modéliser pour les prendre en compte dans la séparation. Un spectrogramme paramétrique -VpY permet de modéliser les écarts entre le spectrogramme du signal de guidage Vg et la contribution de dialogue dans le spectrogramme du signal de mélange Vx. La détermination des paramètres du spectrogramme paramétrique -VpY conduit au spectogramme du signal de dialogue estimé VY de l'équation (1) Le spectrogramme paramétrique VpYest déterminé à partir du spectrogramme de guidage Vg de manière à permettre trois types différents d'adaptation : - un opérateur de décalage en hauteur est d'abord appliqué dans le but de prendre en compte, dans une trame, la différence de hauteur du son entre le signal de guidage et la contribution de dialogue dans le signal de mélange ; - un opérateur de synchronisation est ensuite appliqué pour prendre en compte un léger décalage temporel entre les trames du signal de guidage et celles de la contribution de dialogue dans le signal de mélange, qui correspondent à la même parole ou phonème du dialogue; - un opérateur d'égalisation est finalement appliqué pour permettre une adaptation globale pour tenir compte de différences spectrales globales, ou égalisation, entre le signal de guidage et le signal de mélange. Lors de l'application de ces trois corrections, les paramètres correspondant sont contraints d'être non-négatifs. Plus précisément, à l'étape 120, l'opérateur de décalage en hauteur est appliqué au spectrogramme Vg. Il s'agit d'une matrice (1) x T dénommée P appliquant un décalage vertical à chaque trame temporelle du spectrogramme du signal de guidage Vg. Les spectrogrammes étant calculés avec une transformation CQT, un décalage vertical d'une trame correspond à une modification de la hauteur comme précisé ci-dessus. L'opération peut s'écrire : Vsghifted = 1(1)17g diag(130,:)) (2) où 1)Vg correspond à un décalage de la matrice spectrogramme Vg de .1) points temps/fréquence (« bin » en anglais) vers le bas (c'est-à-dire [11)Vg]f,t = [Vg]f_o,t ), et diag(Pcp') est la matrice diagonale qui possède comme diagonale principale, les composantes de la lème ligne de la matrice P. L'opérateur de décalage en hauteur P modélise une éventuelle différence entre la hauteur instantanée du signal de guidage et celle de la composante de dialogue du signal de mélange. Dans la pratique, un seul changement de hauteur .1) par trame t doit être retenu. Pour cela, une procédure de sélection sera appliquée comme décrite ci-dessous. A l'étape 130, un opérateur de synchronisation, dénommée matrice S, est appliqué. Il s'agit d'une matrice T x T permettant un alignement temporel entre le spectrogramme du signal de guidage et la composante de dialogue du signal de mélange : une trame temporelle du spectrogramme du signal de mélange est modélisée par une combinaison linéaire de trames voisines du spectrogramme (décalé en hauteur) du signal de guidage. Cette opération est exprimée par la relation : Vsgync = VsghiftedS (3) où S est une matrice bande, c'est-à-dire qu'il existe un entier w tel que, pour tout couple de trames (t1, t2) tel que si It1 - t2 I > w , st1t2 = 0 . La largeur w de la bande de la matrice S correspond à une tolérance de désalignement entre les trames. Une grande largeur w autorise une grande tolérance, mais au prix d'une moins bonne estimation des paramètres du modèle. La largeur w est ainsi avantageusement limitée à un petit nombre de trames temporelles du signal de guidage. La synchronisation correcte est avantageusement optimisée au cours d'une procédure de sélection qui sera présentée ci-dessous.
A l'étape 140, l'opérateur d'égalisation est appliqué. Il s'agit d'un vecteur F X 1 dénommé E, qui agit comme un filtre global sur le spectrogramme (décalé et synchronisé) du signal de guidage. Ainsi, le spectrogramme paramétrique du signal de dialogue, -VpY, est donné par : V7)31 = diag(E)(E04Vgdiag(1314) ).S" (4) où diag(E) est une matrice diagonale dont la diagonale est constituée des composantes du vecteur E. A l'étape 150, comme aucune information n'est disponible sur le contenu du signal de fond sonore z(t), un spectrogramme paramétrique du signal de fond sonore Vpx est dérivé d'un modèle NMF standard.
Ainsi, le spectrogramme du signal de fond sonore 17z est modélisé paramétriquement par : 973Z wH (5) où W est une matrice non-négative F x R et H une matrice non négative R x T avec la contrainte : R bien inférieur à F et à T. Le choix de R est important et dépend de l'application. Des colonnes de W peuvent être vues comme des modèles spectraux élémentaires et H comme une matrice d'activation de ces modèles élémentaires au fil du temps. A l'étape 160, le procédé effectue une première estimation des paramètres des modèles 17pY et gpz. Afin d'estimer les paramètres de ces spectrogrammes, une fonction de coût, C, fondée sur une divergence par élément, d, est utilisée : C = D(7197,31 + fipz) = Ef,td(vfte + q) (6) Dans le mode de réalisation actuellement envisagé, la divergence d'Itakura-Saito, bien connue de l'homme du métier, est utilisée. Elle s'écrit : d(alb) = b - log b - 1 (7) La fonction de coût C est minimisée de manière à déterminer la valeur optimale de chaque paramètre. Cette minimisation est effectuée par itérations, avec des règles de mise à jour multiplicatives qui sont successivement appliquées à chacun des paramètres des modèles de spectrogramme : W, H, F, S et P. Ces règles de mise à jour sont par exemple élaborées en considérant le gradient (c'est-à-dire la dérivée partielle) de la fonction de coût C par rapport à chaque paramètre.
Plus précisément, le gradient de la fonction de coût par rapport au paramètre considéré est écrit sous la forme d'une différence entre deux termes positifs, et la règle de mise à jour correspondante est une multiplication du paramètre considéré par le rapport de ces deux termes. Cela permet notamment que les paramètres restent non négatifs à chaque mise à jour et deviennent constants si le gradient de la fonction de coût par rapport au paramètre considéré tend vers zéro. De cette manière, les paramètres évoluent vers un minimum local. Les règles de mise à jour des paramètres du modèle de spectrogramme du signal de dialogue g/ sont ainsi les suivantes : ((r1-(1)V9 diag(PejS) C) V C) fiC)-2)1T E E C) ((r1-(1)V g diag(Pcp,DS) C)170-1)1T (Ediag(E)4V9 diag (Pcp,:) C) V C) 90-2 S 50 ET (4179 O ((y O 90-2)sT)) ET (4Vg o(go-1ST)) où C) est un opérateur correspondant au produit terme à terme entre matrices (ou vecteur) ; .00 est un opérateur correspondant à l'exponentiation terme à terme d'une matrice par un scalaire ; (.)T est la transposée d'une matrice ; et 1T est un vecteur T x 1 dont tous les éléments sont égaux à 1. Les règles de mise à jour de W et H sont les règles multiplicatives de mise à jour standard pour une méthode NMF avec une fonction de coût fondée sur la divergence diag(E)4V9 diag(Pcp,D)C) 90-1 (8) (9) (10) d'Itakura-Saito. Par exemple, le document de C. Févotte et al., "Nonnegative matrix factorization with the Itakura-Saito divergence, with application to music analysis," Neural Computation, vol. 11, no. 3, pp. 793-830, March 2009, décrit une telle mise à jour. Pour cette première étape d'estimation, tous les paramètres sont initialisés avec des valeurs non-négatives choisies de manière aléatoire. A l'étape 170, le procédé entre dans une étape d'optimisation des paramètres et, en particulier, des paramètres de l'opérateur P de décalage en hauteur. Une trame du spectrogramme VY est modélisée (à un opérateur d'égalisation et à un opérateur de synchronisation prêts) comme une combinaison linéaire de trames résultant du décalage en hauteur de la trame correspondante du spectrogramme V9. Pour ne décrire que de petites différences de hauteur, un seul décalage en hauteur est avantageusement retenu par trame. L'étape d'optimisation sert donc à déterminer cette valeur unique du paramètre de décalage par trame.
Pour ce faire, une méthode de suivi du décalage en hauteur à travers la matrice P est utilisée. Plus précisément, dans le mode de réalisation actuellement envisagé, un algorithme de suivi dit de Viterbi, connu de l'homme du métier, est appliqué sur la matrice P résultant de la première étape 160 d'estimation des paramètres. Par exemple, le document J.-L. Durrieu et al, "An iterative approach to monaural musical mixture de-soloing," in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Taipei, Taiwan, April 2009, pp. 105 - 108, décrit un tel algorithme de suivi. Puis, une fois un décalage en hauteur optimal sélectionné par trame, les coefficients de la matrice P qui ne correspondent pas à ce décalage en hauteur optimal sont fixés à 0. On obtient une matrice de décalage optimisée Poo. Dans la pratique, avantageusement, une marge faible autour du décalage en hauteur optimal est autorisée. D'une part, les décalages en hauteur, s'ils sont quantifiés dans le présent procédé, sont en réalité continus. D'autre part, l'algorithme de suivi peut produire de petites erreurs. Ainsi, les coefficients de la matrice P sont lissés selon une loi prédéterminée autour de la valeur optimale du paramètre. En variante, il est également possible d'optimiser la matrice de synchronisation S par la mise en oeuvre d'un autre processus de suivi adapté à l'optimisation des paramètres de cet opérateur. Puis, à l'étape 180, le procédé 100 comporte une seconde estimation des paramètres du modèle f7p Y et du modèle gpz.
Cette seconde estimation est identique à la première estimation (étape 160) à l'exception du fait que les opérateurs sont initialisés avec le ou les opérateurs optimisés de l'étape 170 (au lieu d'une initialisation aléatoire). Il est à noter que, puisque les règles de mise à jour sont multiplicatives, les coefficients de la matrice P (et le cas échéant ceux de S) fixés à 0 resteront à 0 au cours de la seconde étape d'estimation. A l'issue de l'étape 180, les valeurs finales des différents paramètres déterminées permettent de calculer des spectrogrammes giYet giz intermédiaires (étape 190). Finalement, à l'étape 200, la séparation proprement dite est réalisée au moyen d'un filtrage de Wiener en utilisant la transformée à Q constant du signal de mélange et les spectrogrammes intermédiaires giYet On obtient ainsi les transformées à Q constant du signal de dialogue VY et du signal de fond sonore V. Par une transformation inverse de celle des étapes 115 et 116, les signaux de sorties de dialogue y(t) et de fond sonore z(t), sont obtenus (étapes 205, 206). Dans les modes de réalisation décrits ici en détail, ces signaux acoustiques sont des signaux monophoniques. En variante, ces signaux sont stéréophoniques. Plus généralement encore, ils sont multicanaux. L'homme du métier sait comment adapter à des signaux stéréophoniques ou multicanaux les traitements présentés pour le cas de signaux monophoniques. Pourra notamment être utilisé un paramètre supplémentaire panoramique dans la modélisation du signal de dialogue à partir du signal de guidage. Est représenté sur la figure 2 un système 10 permettant la mise en oeuvre du procédé présenté ci-dessus. Il comporte un serveur central 12 connecté, via un réseau de communication 14, par exemple le réseau Internet, à un ordinateur client 16. L'ordinateur client 16 exécute une application permettant à un utilisateur de sélectionner une bande son de mélange, d'écouter la bande son sélectionnée et d'enregistrer un locuteur en train de doubler les dialogues de la bande son sélectionnée. La bande son de mélange peut être sélectionnée à travers l'internet, par exemple sur une base de données accessible en ligne. La bande son de mélange peut également être sélectionnée à partir d'un support d'enregistrement appartenant à l'utilisateur et lu par l'ordinateur client 16. Le signal de mélange x(t), correspondant à la bande son sélectionnée, et le signal de guidage g(t), correspondant à l'enregistrement effectué, sont transmis, via l'Internet, vers le serveur central 12.
Le serveur central 12 comporte des moyens de calcul et des moyens de mémorisation. Les moyens de calcul sont propres à exécuter un programme dont les instructions sont stockées dans les moyens de mémorisation pour la mise en oeuvre du procédé 100 à partir des signaux de mélange x(t) et de guidage g(t) reçus de l'ordinateur client 16. Le serveur 12 comporte ainsi : - un module 20 de calcul d'un spectrogramme log-fréquence à partir du signal de dialogue ou du signal de mélange ; - un premier module 30 de modélisation pour obtenir, à partir du spectrogramme du signal de dialogue un spectrogramme paramétrique du signal de dialogue, comportant un sous-module 32 d'application d'un opérateur de décalage en hauteur, un sous-module 34 d'application d'un opérateur de synchronisation temporelle, et un sous-module 36 d'application d'un opérateur d'égalisation ; - un second module 40 de modélisation pour obtenir, à partir du spectrogramme du signal de mélange, un spectrogramme paramétrique du signal de fond sonore ; - un module 50 d'estimation des paramètres des spectrogrammes paramétriques, compte tenu du spectrogramme du signal de mélange ; - un module 60 d'optimisation comportant un module 62 d'optimisation des paramètres de l'opérateur de décalage en hauteur et un module 64 d'optimisation des paramètres de l'opérateur de synchronisation ; - un module 70 de détermination des spectrogrammes du signal de dialogue et du signal de fond sonore à partir des paramètres optimisées, le module 70 mettant en oeuvre un filtrage de Wiener ; et, - un module 80 de calcul d'un signal à partir d'un spectrogramme.
Finalement, le serveur central 12, après traitement des signaux qui lui sont transmis, et obtention, à partir de ceux-ci, d'un signal de dialogue y(t) et d'un signal de fond sonore z(t), est propre à communiquer ces deux signaux de sortie à l'ordinateur client 16. Des tests comparatifs ont été menés afin de comparer les résultats de la mise en oeuvre du présent procédé avec ceux de procédés connus : - le premier procédé connu est une séparation fondée sur une méthode de type NMF incluant un modèle vocal source-filtre sans information de guidage ; - le second procédé connu est une séparation informée par la donnée d'un signal de guidage correspondant à la contribution de dialogue et utilisant une analyse PLCA ; - le troisième procédé connu est similaire au premier, mais utilise comme information de guidage une annotation trame par trame de la fréquence fondamentale (cette annotation est faite manuellement et est par conséquent fastidieuse et coûteuse). Une base de données de bandes son a été constituée. Une bande son de cette base de données résulte d'une opération de superposition d'une bande comportant uniquement des dialogues (en anglais), avec une bande de fond sonore comportant uniquement de la musique et des effets spéciaux. De cette manière sont précisément connues les contributions de chaque source dans le signal de mélange correspondant. La base de données se compose de dix bandes son.
Pour obtenir un signal de guidage, chaque bande son a été doublée en utilisant le signal de mélange correspondant comme référence temporelle. Tous les doublages ont été effectués par le même locuteur masculin de langue maternelle anglaise. Le signal de guidage obtenu est utilisé pour le procédé selon l'invention et le second procédé connu.
Les spectrogrammes ont été calculés en utilisant une transformation CQT avec les valeurs suivantes de la fréquence minimale, fmin = 40Hz, de la fréquence maximale, fmax = 16000 Hz, et avec 48 pas d'échantillonnage en fréquence par octave. Afin de quantifier les résultats obtenus pour les différents procédés connus et le procédé selon l'invention, des indicateurs standards du domaine de la séparation de sources ont été calculés. Ces indicateurs sont le rapport signal sur distorsion SDR (selon l'acronyme anglais « Signal to Distorsion Ratio »), le rapport signal sur artefact SAR (selon l'acronyme « Signal to Artefact Ratio ») et le rapport signal sur interférence SIR (selon l'acronyme anglais « Signal to Interference Ratio »). Les résultats sont présentés sur les figures 3 pour le signal de dialogue et la figure 4 pour le signal de fond sonore. Sur ces figures, les trois premières colonnes représentent les trois procédés connus, la quatrième le procédé selon l'invention, et la cinquième un cas idéale où les bandes de dialogue et de fond sonore ayant été utilisées pour construire la bande son de mélange sont utilisées directement en entrée de l'étape de filtrage de Wiener.
Les résultats du premier processus sont nettement moins bons que n'importe lequel des procédés informés, ce qui confirme les avantages de ces procédés. Le second procédé connu est moins bon que le troisième procédé connu et le procédé selon l'invention. En revanche, ces deux derniers procédés ne se distinguent pas clairement en utilisant les indicateurs standards. Les différences selon l'indicateur SDR ne sont pas significatives. Les résultats selon les indicateurs SAR et SIR donnent l'avantage au troisième procédé connu pour l'extraction de la contribution de dialogue, mais donnent l'avantage au procédé selon l'invention pour la tâche inverse, de suppression de la contribution de dialogue (c'est-à-dire d'extraction de la contribution de fond sonore). Cependant, des indicateurs qualitatifs supplémentaires conduisent à donner l'avantage au procédé selon l'invention. En effet, des tests d'écoute en aveugle fondés sur le protocole MUSHRA ont été réalisés en invitant des auditeurs à évaluer les signaux de dialogue obtenus au moyen du troisième procédé connu et du procédé selon l'invention. Sur le critère d'« aptitude à l'emploi», ces auditeurs ont préféré les résultats obtenus avec le procédé selon l'invention.
Il est à souligner que le procédé selon l'invention effectue une correction en hauteur automatiquement, sans avoir besoin de renseigner une ligne de base, contrairement au troisième procédé connu. En variante, d'autres modes de réalisation d'un système pour la mise en oeuvre du procédé selon l'invention sont envisageables.
Le présent mode de réalisation illustre le cas particulier de la séparation d'un dialogue d'un signal de mélange, en adaptant le spectrogramme du signal de guidage vocal fourni en hauteur, et éventuellement en temps et/ou en égalisation, en amont de l'utilisation d'une méthode de factorisation par matrices non-négatives. Cependant, le présent procédé n'utilise pas un modèle spécifique de voix pour le signal de guidage. En conséquence, le présent procédé est en fait adapté à la séparation dans un signal acoustique de mélange, de tout type de contribution acoustique spécifique pour laquelle l'opérateur dispose d'un signal acoustique de guidage. Un tel signal de guidage est un autre enregistrement en termes de hauteur, de synchronisation temporelle et d'égalisation globale que l'enregistrement de la contribution acoustique spécifique dans le signal de mélange. La présente invention permet de modéliser ces différences de hauteur, de synchronisation temporelle et d'égalisation globale et de les compenser au cours de la séparation. Ainsi, au lieu d'une voix, la contribution acoustique spécifique peut être le son d'un instrument particulier dans un signal de musique mélangeant plusieurs instruments. La partie de cet instrument particulier est rejouée et enregistrée afin de servir de signal de guidage. Ou encore, la contribution acoustique spécifique est un enregistrement de la musique seule, musique qui a été utilisée pour la création de la bande son d'un film ancien. Cet enregistrement présente généralement des petites différences de hauteur, de vitesse et d'égalisation globale avec la contribution de la musique dans la bande son du film du fait que tous ces signaux étaient originellement stockés sur support analogique. Cet enregistrement peut être utilisé comme signal de guidage dans le présent procédé, afin de récupérer les dialogues et les effets. L'homme du métier comprendra que le procédé du document de L. Le Magoarou et al. n'est pas adapté à ces deux dernières applications.

Claims (16)

  1. REVENDICATIONS1.- Procédé de séparation (100), dans un signal acoustique de mélange (x(t)), d'une contribution spécifique et d'une contribution de fond sonore, caractérisé en ce qu'il comporte les étapes consistant à : - acquérir (110) un signal acoustique de guidage (g (t)) correspondant à une reproduction de la seule contribution spécifique ; - déterminer (120, 130, 140) une modélisation paramétrique d'un signal spécifique (97,Y) correspondant à la seule contribution spécifique, prenant en compte une correction de fréquence fondamentale de chaque trame temporelle ; - déterminer (150) une modélisation paramétrique d'un signal de fond sonore (gpz) correspondant à la seule composante de fond sonore ; - estimer (170, 190) un signal intermédiaire spécifique (V19) et un signal intermédiaire de fond sonore (V1z), en ajustant les paramètres des modélisations et en utilisant le signal acoustique de mélange (x(t)) ; et, - filtrer (200) le signal acoustique de mélange en utilisant le signal intermédiaire spécifique et le signal intermédiaire de fond sonore, pour obtenir un signal acoustique spécifique (y (t)) et un signal acoustique de fond sonore (z(t)).
  2. 2.- Procédé selon la revendication 1, caractérisé en ce qu'il comporte une étape (115, 116) initiale de transformation d'un signal acoustique temporel en une représentation temps-fréquence, et une étape finale (205, 206) de transformation d'une représentation temps-fréquence en un signal acoustique temporel, inverse de celle de l'étape initiale de transformation, les étapes de détermination, de modélisation, d'estimation et de filtrage étant mise en oeuvre dans le domaine fréquentiel sur des représentations temps-fréquence.
  3. 3.- Procédé selon la revendication 2, caractérisé en ce que la transformation d'un signal acoustique temporel en une représentation temps-fréquence est une transformation à échelle fréquentielle logarithmique, en particulier une transformation à Q constant.
  4. 4.- Procédé selon l'une quelconque des revendications précédentes, dans laquelle l'étape de détermination d'une modélisation paramétrique d'un signal de fond sonore (V) est fondée sur une décomposition en matrices non-négative.
  5. 5.- Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'étape de détermination d'une modélisation paramétrique d'un signal spécifique permet également de prendre en compte une correction d'un décalage temporel entre le signal de guidage et la contribution spécifique dans le spectrogramme de mélange.
  6. 6.- Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'étape de détermination d'une modélisation paramétrique permet également de prendre en compte une correction d'égalisation entre le signal de guidage et le signal de mélange.
  7. 7.- Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'étape d'estimation (170, 190) est fondée sur la minimisation d'une fonction de coût (C).
  8. 8.- Procédé selon la revendication 7, caractérisé en ce que la fonction de coût (C) utilise une divergence (d), notamment la divergence d'ITAKURA-SAITO.
  9. 9.- Procédé selon l'une quelconque des revendications 3 à 6, caractérisé en ce que l'étape de détermination d'une modélisation paramétrique de correction en hauteur d'un spectrogramme du signal de guidage 17g conduit à un spectrogramme paramétrique de signal de guidage Vslifted de la forme : Vsghifted = (E04179 diag(Pcp,D) où 4171 correspond à un décalage de la matrice spectrogramme du signal de guidage 17g de q5 points temps/fréquence vers le bas, diag(Pcp,:) est la matrice diagonale qui possède comme diagonale les composantes de la p lème ligne de la matrice P représentative d'un décalage en hauteur, et Ecp l'opération de sommation sur l'ensemble des valeurs de p.
  10. 10.- Procédé selon la revendication 9 et la revendication 5 en combinaison, caractérisé en ce que l'étape d'estimation d'une modélisation paramétrique de correctionen hauteur et de correction en synchronisation d'un spectrogramme du signal spécifique Vg conduit à un spectrogramme paramétrique de signal de guidage Vs,' de la forme : 9 17.sinc = VsghiftedS Où la matrice S est représentative d'une synchronisation et est telle qu'il existe un entier w tel que pour tout couple de trames (t1, t2) tel que si 1t1 - t2I > w , alors st1t2 = 0 .
  11. 11.- Procédé selon la revendication 10 et la revendication 6 en combinaison, caractérisé en ce que l'étape d'estimation d'une modélisation paramétrique de correction en hauteur, de correction en synchronisation et de correction en égalisation d'un spectrogramme du signal de guidage Vg conduit à un spectrogramme paramétrique de signal de guidage vpg de la forme : Vpg = diag(E)(E04Vgdiag(130,:) ).S" où diag(E) est une matrice diagonale représentative d'une égalisation dont la diagonale est constituée des composantes du vecteur E.
  12. 12.- Procédé selon l'une quelconque des revendications 9 à 11, caractérisé en ce que l'étape d'estimation est itérative et met en oeuvre des règles de mise à jour suivantes : 130: 130,: O ETCVg (i) (90-1-ST)) ETCvg O ((V O -9°-2)sT)) pour la correction de hauteur ; (Ediag(E)4V9 diag(130,:)) O V O 90-2 s s 0 pour la correction de synchronisation, lorsqu'elle est prise en compte ; et, ((E4Vgdiag(PIJS) V O V° -2)1T0 E E C) pour la correction d'égalisation, lorsqu'elle est prise en compte, où O est un opérateur correspondant au produit terme à terme entre matrices (ou vecteur) ; .00 est un opérateur correspondant à l'exponentiation terme à terme d'une matrice par un scalaire ; (.)T est la transposée d'une matrice ; et 1T est un vecteur T x 1 dont tous les éléments sont égaux à 1. (Ediag(E)4V9diag(130,:)) O ((E V9dtag(130,DS) O 90-1)17,
  13. 13.- Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte une première étape (170) d'estimation et une étape (180) de suivi, l'étape de suivi consistant à optimiser une valeur de chaque paramètre des modélisations paramétriques, obtenue en sortie de la première étape d'estimation.
  14. 14.- Procédé selon la revendication 13, caractérisé en ce qu'il comporte une seconde étape (190) d'estimation, la valeur optimisée obtenue en sorite de l'étape (180) de suivi étant prise comme valeur initiale du paramètre correspondant dans la seconde étape d'estimation.
  15. 15.- Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'étape de filtrage met en oeuvre un filtrage de Wiener.
  16. 16.- Système pour la mise en oeuvre d'un procédé de séparation conforme à l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte : - un moyen (16) d'acquisition d'un signal de guidage ; - un module (30) de détermination d'une modélisation paramétrique d'un signal de dialogue ; - un module (40) de détermination d'une modélisation paramétrique d'un signal de fond sonore ; - un module (60) d'estimation d'un signal de dialogue et d'un signal de fond sonore intermédiaires à partir d'un signal de mélange (x(t)) ; et, - un module (70) de filtrage propre à générer un signal de dialogue (y(t)) et un signal de fond sonore à partir du signal de mélange et des signaux de dialogue et de fond Z sonore intermédiaires (177, gi).
FR1361792A 2013-11-28 2013-11-28 Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange Expired - Fee Related FR3013885B1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1361792A FR3013885B1 (fr) 2013-11-28 2013-11-28 Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
US14/555,230 US9633665B2 (en) 2013-11-28 2014-11-26 Process and associated system for separating a specified component and an audio background component from an audio mixture signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1361792A FR3013885B1 (fr) 2013-11-28 2013-11-28 Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange

Publications (2)

Publication Number Publication Date
FR3013885A1 true FR3013885A1 (fr) 2015-05-29
FR3013885B1 FR3013885B1 (fr) 2017-03-24

Family

ID=50482935

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1361792A Expired - Fee Related FR3013885B1 (fr) 2013-11-28 2013-11-28 Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange

Country Status (2)

Country Link
US (1) US9633665B2 (fr)
FR (1) FR3013885B1 (fr)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324407A1 (fr) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Appareil et procédé de décomposition d'un signal audio en utilisant un rapport comme caractéristique de séparation
EP3324406A1 (fr) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Appareil et procédé destinés à décomposer un signal audio au moyen d'un seuil variable
CN110827843B (zh) * 2018-08-14 2023-06-20 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
WO2020081872A1 (fr) * 2018-10-18 2020-04-23 Warner Bros. Entertainment Inc. Caractérisation de contenu pour doublage audio-vidéo et autres transformations
CN113573136B (zh) * 2021-09-23 2021-12-07 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
KR100716984B1 (ko) * 2004-10-26 2007-05-14 삼성전자주식회사 복수 채널 오디오 신호의 잡음 제거 방법 및 장치
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
FR3031225B1 (fr) * 2014-12-31 2018-02-02 Audionamix Procede de separation ameliore et produit programme d'ordinateur
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FITZGERALD D ET AL: "Shifted non-negative matrix factorisation for sound source separation", STATISTICAL SIGNAL PROCESSING, 2005 IEEE/SP 13TH WORKSHOP ON BORDEAUX, FRANCE JULY 17-20 2005, PISCATAWAY, NJ, USA,IEEE, 17 July 2005 (2005-07-17), pages 1132 - 1137, XP032437300, ISBN: 978-0-7803-9403-2, DOI: 10.1109/SSP.2005.1628765 *
LUC LE MAGOAROU ET AL: "Text-informed audio source separation using nonnegative matrix partial co-factorization", 2013 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING (MLSP), 1 September 2013 (2013-09-01), pages 1 - 6, XP055122931, ISBN: 978-1-47-991180-6, DOI: 10.1109/MLSP.2013.6661995 *
MIKKEL N SCHMIDT ET AL: "Nonnegative Matrix Factor 2-D Deconvolution for Blind Single Channel Source Separation", 1 January 2006, INDEPENDENT COMPONENT ANALYSIS AND BLIND SIGNAL SEPARATION LECTURE NOTES IN COMPUTER SCIENCE;;LNCS, SPRINGER, BERLIN, DE, PAGE(S) 700 - 707, ISBN: 978-3-540-32630-4, XP019028882 *

Also Published As

Publication number Publication date
FR3013885B1 (fr) 2017-03-24
US20150149183A1 (en) 2015-05-28
US9633665B2 (en) 2017-04-25

Similar Documents

Publication Publication Date Title
Kilgour et al. Fr\'echet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
FR3013885A1 (fr) Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
US8103511B2 (en) Multiple audio file processing method and system
EP3040989B1 (fr) Procédé de séparation amélioré et produit programme d'ordinateur
FR2880755A1 (fr) Procede et dispositif d'individualisation de hrtfs par modelisation
EP2987165A1 (fr) Correction de perte de trame par injection de bruit pondéré
CN110767244A (zh) 语音增强方法
US9767846B2 (en) Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources
Canazza The digital curation of ethnic music audio archives: From preservation to restoration: Preserving a multicultural society
US9058384B2 (en) System and method for identification of highly-variable vocalizations
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
Liutkus et al. Separation of music+ effects sound track from several international versions of the same movie
Liutkus et al. Informed source separation using latent components
Koo et al. End-to-end music remastering system using self-supervised and adversarial training
Canazza et al. Restoration of audio documents by means of extended Kalman filter
Gaultier Design and evaluation of sparse models and algorithms for audio inverse problems
FR3078196A1 (fr) Procede et dispositif de synchronisation d'enregistrements comprenant un signal audio provenant de differents dispositifs d'acquisition co-localises
Manilow et al. Leveraging repetition to do audio imputation
Cabras et al. Restoration of audio documents with low SNR: a NMF parameter estimation and perceptually motivated Bayesian suppression rule
Pretto et al. A workflow and novel digital filters for compensating speed and equalization errors on digitized audio open-reel tapes
Cabras et al. The restoration of single channel audio recordings based on non-negative matrix factorization and perceptual suppression rule
Lopatka et al. Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

ST Notification of lapse

Effective date: 20210705