FR2944403A1 - Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant - Google Patents

Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant Download PDF

Info

Publication number
FR2944403A1
FR2944403A1 FR0952397A FR0952397A FR2944403A1 FR 2944403 A1 FR2944403 A1 FR 2944403A1 FR 0952397 A FR0952397 A FR 0952397A FR 0952397 A FR0952397 A FR 0952397A FR 2944403 A1 FR2944403 A1 FR 2944403A1
Authority
FR
France
Prior art keywords
signals
signal
mixed
source
mixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0952397A
Other languages
English (en)
Other versions
FR2944403B1 (fr
Inventor
Mathieu Parvaix
Laurent Girin
Jean Marc Brossier
Sylvain Marchand
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institut Polytechnique de Grenoble
Universite des Sciences et Tech (Bordeaux 1)
Original Assignee
Institut Polytechnique de Grenoble
Universite des Sciences et Tech (Bordeaux 1)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut Polytechnique de Grenoble, Universite des Sciences et Tech (Bordeaux 1) filed Critical Institut Polytechnique de Grenoble
Priority to FR0952397A priority Critical patent/FR2944403B1/fr
Priority to JP2012504047A priority patent/JP2012523579A/ja
Priority to KR1020117026796A priority patent/KR20120006050A/ko
Priority to EP10717676A priority patent/EP2417597A1/fr
Priority to US13/262,428 priority patent/US20120203362A1/en
Priority to PCT/FR2010/050583 priority patent/WO2010116068A1/fr
Publication of FR2944403A1 publication Critical patent/FR2944403A1/fr
Application granted granted Critical
Publication of FR2944403B1 publication Critical patent/FR2944403B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

L'invention concerne un procédé de formation d'un ou plusieurs signaux mixés (S ) à partir d'au moins deux signaux sources numériques (S , S ), notamment audio, dans lequel le ou les signaux mixés (S ) sont formés par mixage des signaux sources (S , S ). En particulier, une grandeur caractéristique d'un signal source ou du mixage est déterminée et la valeur (W , W ) de ladite grandeur caractéristique est tatouée sur au moins un des signaux (S , S , S ). L'invention concerne également un procédé de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. Selon le procédé, on détermine la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, puis on traite le ou les signaux mixés en fonction de ladite valeur de manière à obtenir, au moins partiellement, ledit signal source. L'invention concerne aussi le signal mixé (S ) correspondant, ainsi que les dispositifs correspondants.

Description

GRB08/4772FR / GBO Etablissement public à caractère scientifique, culturel et professionnel dit : INSTITUT POLYTECHNIQUE DE GRENOBLE
Etablissement public à caractère scientifique, culturel et professionnel dit : UNIVERSITE BORDEAUX 1 Procédé et dispositif de formation d'un signal mixé, procédé et dispositif de séparation de signaux, et signal correspondant Invention de : PARVAIX Mathieu GIRIN Laurent BROSSIER Jean-Marc MARCHAND Sylvain Procédé et dispositif de formation d'un signal mixé, procédé et dispositif de séparation de signaux, et signal correspondant
La présente invention concerne un procédé destiné à séparer au moins un des signaux sources composant un signal global. L'invention concerne également un procédé de formation d'un signal global permettant la séparation ultérieure d'au moins un signal source le composant. Enfin, l'invention concerne des dispositifs destinés à mettre en oeuvre ces procédés.
Le mixage de signaux consiste à sommer plusieurs signaux, appelés signaux sources, pour obtenir un ou plusieurs signaux composites, appelés signaux mixés. Dans les applications audio notamment, le mixage peut consister en une simple étape d'addition des signaux sources ou peut également comprendre des étapes de filtrage des signaux avant et/ou après l'addition. Par ailleurs, pour certaines applications telles que le compact-disc audio, les signaux sources peuvent être mixés de manière différentes pour former deux signaux mixés correspondant aux deux voies (gauche et droite) d'un signal stéréo.
La séparation de sources consiste à estimer des signaux sources à partir de l'observation d'un certain nombre de signaux mixés différents formés à partir de ces mêmes signaux sources. L'objectif est généralement de rehausser, voire si possible d'extraire complètement un ou plusieurs signaux sources cibles. La séparation de sources est notamment difficile dans les cas dits sous-déterminés dans lesquels on dispose d'un nombre de signaux mixés inférieur au nombre des signaux sources présents dans les signaux mixés. L'extraction est dans ce cas très difficile voire impossible en raison de la faible quantité d'information disponible dans ces signaux mixés par rapport à celle présente dans les signaux sources. Les signaux de musique sur compact-disc audio en sont un exemple particulièrement représentatif car on ne dispose que de deux voies stéréo (c'est-à-dire deux signaux mixés), généralement très redondantes, pour un grand nombre potentiel de signaux sources.
I1 existe plusieurs types d'approches dans la séparation de signaux sources : parmi elles la séparation aveugle, l'analyse de scènes auditives computationnelle, et la séparation basée sur des modèles. La séparation aveugle est la forme la plus générale, dans laquelle aucune information sur les signaux sources ni sur la nature des signaux mixés n'est connue à priori. On fait alors un certain nombre d'hypothèses sur ces signaux sources et les signaux mixés (par exemple que les signaux sources sont statistiquement indépendants) et on estime les paramètres d'un système de séparation en maximisant un critère basé sur ces hypothèses (par exemple en maximisant l'indépendance des signaux obtenus par le dispositif de séparation). Cependant, cette méthode est utilisée généralement dans les cas où l'on dispose de nombreux signaux mixés (au moins autant que de signaux sources) et n'est donc pas applicable aux cas sous-déterminés dans lesquels le nombre de signaux mixés est inférieur au nombre de signaux sources. L'analyse de scènes auditives computationnelles consiste en une modélisation des signaux sources en partiels harmoniques, mais le signal mixé n'est pas décomposé explicitement. Cette méthode se base sur les mécanismes du système auditif humain pour séparer les signaux sources de la même façon que le fait notre oreille. On peut notamment citer : D.P.W. Ellis, Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its application to speech/non-speech mixture (Speech Communication, 27(3), pp. 281-298, 1999), D. Godsmark et G.J.Brown, A blackboard architecture for computational auditory scene analysis (Speech Communication, 27(3), pp. 351-366, 1999), de même que T. Kinoshita, S. Sakai, et H. Tanaka, Musical sound source identification based on frequency component adaptation (In Proc. IJCAI Workshop on CASA, pp. 18-24, 1999). Cependant, l'analyse de scènes auditives computationnelles conduit généralement à de mauvais résultats sur la séparation de signaux sources, en particulier dans le cas de signaux audio. Une autre forme de séparation repose sur une décomposition du mélange sur une base de fonctions adaptées. I1 en existe deux grandes catégories : la décomposition parcimonieuse temporelle et la décomposition parcimonieuse en fréquence. Pour la première il s'agit de décomposer la forme d'onde du mélange, et pour l'autre il s'agit de décomposer sa représentation spectrale, en une somme de fonctions élémentaires appelées atomes éléments d'un dictionnaire. Divers algorithmes permettent de choisir le type de dictionnaire et la décomposition correspondante la plus vraisemblable. Pour le domaine temporel, on peut citer notamment : L. Benaroya, Représentations parcimonieuses pour la séparation de sources avec un seul capteur (Proc. GRETSI, 2001), ou P.J. Wolfe et S.J. Godsill, A Gabor regression scheme for audio signal analysis (Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 103-106, 2003). Dans la méthode proposée par Gribonval (R. Gribonval and E. Bacry, Harmonic Decomposition of Audio Signals With Matching Pursuit, IEEE Trans. Signal Proc., 51(1), pp. 101-112, 2003), on classe les atomes de décomposition en sous-espaces indépendants, ce qui permet d'extraire des groupes de partiels harmoniques. Une des restrictions de cette méthode est que des dictionnaires génériques d'atomes tels que les atomes de Gabor par exemple, non adaptés aux signaux, ne donnent pas de bons résultats. De plus, pour que ces décompositions soient efficaces, il faut que le dictionnaire contienne toutes les formes translatées des formes d'ondes de chaque type d'instrument. Les dictionnaires de décomposition doivent alors être extrêmement volumineux pour que la projection et donc la séparation soient efficaces. Pour pallier à ce problème d'invariance par translation qui apparaît dans le cas temporel, il existe des approches de décomposition parcimonieuse en fréquence. On peut citer notamment M.A. Casey et A. Westner (Separation of mixed audio sources by independent subspace analysis, Proc. Int. Computer Music Conf., 2000) qui ont introduit l'analyse en sous-espaces indépendants (ISA). Cette analyse consiste à décomposer le spectre d'amplitude à court terme du signal mixé (calculé par transformée de Fourier à court terme (TFCT)) sur une base d'atomes, et ensuite à regrouper les atomes en sous-espaces indépendants, chaque sous-espace étant propre à une source, pour ensuite resynthétiser les sources séparément. Cependant, cette approche est généralement limitée par plusieurs facteurs : la résolution de l'analyse spectrale par TFCT, la superposition des sources dans ce domaine spectral, et la restriction de la séparation spectrale à l'amplitude (la phase des signaux resynthétisée étant celle du signal mixé). I1 est ainsi généralement difficile de représenter le signal mixé comme une somme de sous-espaces indépendants du fait de la complexité de la scène sonore dans le domaine spectral (imbrication forte des différentes composantes) et en raison de l'évolution, en fonction du temps, de la contribution de chaque composante dans le signal mixé. De fait, les méthodes sont souvent évaluées sur des signaux mixés simplifiés bien contrôlés (les signaux sources sont des instruments MIDI ou sont des instruments relativement bien séparables, en nombre restreint). On peut également citer également L. Benaroya, F. Bimbot et R. Gribonval Audio sources separation with a single sensor (IEEE Trans. Audio, Speech, & Language Proc., 14(1), 2006) qui utilisent des modèles statistiques des différentes sources. Cependant, les paramètres de ces modèles sont réglés à partir d'exemples de pistes audio des différents instruments à séparer. S.D.Teddy et E.Lai, Model-based approach to separating instrumental music from single track recordings (Int. Conf. Control, Automation, Robotics and Vision, Kunming, China, 2004) utilisent un réseau de neurones pour apprendre des caractéristiques de divers instruments de musique. Ils extraient des caractéristiques auditives du timbre du piano grâce à un modèle d'images auditives, puis tentent de mettre en évidence ces caractéristiques dans le mélange afin d'isoler le piano.
K.I. Molla et K. Hirose, Single-Mixture audio source separation by subspace decomposition of Hilbert spectrum (IEEE Trans. Audio, Speech, & Language Proc., 15(3), 2007) ont travaillé sur une séparation de sources par une décomposition du spectre de Hilbert du mélange en sous-espaces indépendants, la transformée de Hilbert fournissant de meilleurs résultats de discrimination des différentes sources que la transformée de Fourier. N. Cho, Y. Shiu et C.-C. J. Kuo, Audio source séparation with matching pursuit and content-adaptative dictionaries (IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2007) proposent une séparation par décomposition du mélange sur une base d'atomes de Gabor appris pour un instrument particulier, et pour les différentes notes de cet instrument. Par technique de matching pursuit , certains de ces atomes sont retenus puis rassemblés en un sous-espace adapté à la note extraite. Enfin, Y.-W. Liu, Sound source segregation assisted by audio watermarking (IEEE, Int. Conf. Multimedia and Expo., pages 200-203, 2007) propose de marquer les signaux sources avec une identification du signal source dont ils sont issus. En particulier, le marquage est réalisé de manière à séparer, dans le spectre fréquentiel du signal mixé, les fréquences issues de chaque signal source. Cependant, le nombre de sources pouvant ainsi être séparées est limité. De plus, il n'est pas envisageable de marquer toutes les fréquences contenues dans un signal source : il peut y avoir alors superposition d'une fréquence non-marquée d'un signal source avec une fréquence marquée de l'autre signal source. Pour toutes ces études, les tests sont effectués sur des mélanges artificiels peu réalistes et en conditions très contrôlées par rapport aux cas réels auxquels ils sont destinés à s'appliquer.
D'autre part, les méthodes de séparation basées sur des mélanges sous-déterminés présentent une efficacité limitée en raison du manque d'informations disponibles, autres que celles fournies par les signaux mixés eux-mêmes. Un but de la présente invention est donc de proposer un procédé permettant de séparer un signal source compris dans un signal mixé, de manière plus efficace. En particulier, un but de l'invention est de proposer un procédé de séparation d'un signal source dans les cas dits sous-déterminés dans lesquels le nombre de signaux mixés est inférieur au nombre de signaux sources.
A cet effet, dans un mode de réalisation, il est proposé un procédé de formation d'un ou plusieurs signaux mixés à partir d'au moins deux signaux sources numériques, notamment audio, dans lequel le ou les signaux mixés sont formés par mixage des signaux sources.
En particulier, une grandeur caractéristique d'un signal source ou du mixage est déterminée et la valeur de ladite grandeur caractéristique est tatouée sur au moins un des signaux. I1 est également proposé un procédé de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés obtenus par mixage de signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. Selon le procédé, on détermine la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, puis on traite le ou les signaux mixés en fonction de ladite valeur de manière à obtenir, au moins partiellement, ledit signal source. Le tatouage (en anglais : watermarking ) consiste, en toute généralité, à ajouter sur un signal numérique une information binaire. En particulier, le tatouage est utilisé pour insérer des informations relatives au contenu représenté par le signal. Ainsi, dans le cas où le signal représente une photographie ou une chanson, l'information tatouée peut être par exemple l'auteur de la photographie ou de la chanson. On considère dans la suite les techniques de tatouage audio. Le tatouage d'un signal exploite les défauts du système perceptif humain pour insérer dans un signal, en l'occurrence un signal sonore, une information qui soit de préférence imperceptible, c'est-à-dire inaudible. Typiquement, les techniques employées sont de type étalement spectral (R. Garcia : Digital watermarking of audio signals using psychoacoustic auditory mode/ and spread spectrum theory, 107th Convention of Audio Engineering Society (AES), 1999), (Cox, I. J., Kilian, J., Leighton, F. T., Shamoon, T.: Secure spread spectrum watermarking for multimedia, IEEE Transactions on Image Processing, 6(12), pp.1673 - 1687, 1997). Généralement, le tatouage audio est utilisé dans le cadre de la protection et du contrôle des droits d'auteur ( Digital Rights Management en anglais) pour les oeuvres sur support numérique, et plus généralement dans le cadre de la traçabilité d'informations sur ce type de support. On peut ainsi tatouer sur une chanson des informations permettant d'identifier l'auteur ou le propriétaire de la chanson. Dans ce cas, l'objectif est d'insérer de façon très robuste (c'est-à-dire résistante à de possibles manipulations plus ou moins licites du signal) une information de quantité relativement faible et étalée dans une large plage temps-fréquence du signal puis ajoutée à celui-ci, de sorte qu'il est très difficile de pouvoir l'isoler pour le supprimer. Lorsqu'on connaît à l'émetteur (là où est formé le tatouage) le signal hôte, on peut parler de tatouage informé ( watermarking with side-information ). Le but est dans ce cas de choisir un tatouage optimal adapté au signal sur lequel il est inséré (I. J. Cox, M. L. Miller et A. L. McKellips, Watermarking as communications with side information, IEEE Proc., 87(7), pp. 1127-1141, 1999). Les contraintes à satisfaire sont d'obtenir un débit de transmission le plus élevé possible sans pour autant que le tatouage soit audible, et également d'assurer une fiabilité de transmission la meilleure possible (peu d'erreurs faites au cours de la transmission). Le tatouage pour la transmission de données est ainsi utilisé entre autre pour l'annotation de documents en vue par exemple d'une indexation dans une base de données (Ryuki Tachibana : Audio watermarking for live performance, SPIE Electronic Imaging : Security and Watermarking of Multimedia Content V, volume 5020, pp. 32-43, 2003), ou l'identification de documents dans le but d'établir des statistiques sur la diffusion de ce document par exemple (T. Nakamura, R. Tachibana & S. Kobayashi, Automatic music monitoring and boundary detection for broadcast using audio watermarking, SPIE Electronic Imaging : Security and Watermarking of Multimedia Content IV, vol 4675, pp. 170-180, 2002). Dans le cadre du tatouage pour la transmission de données, on peut citer également la technique de tatouage substitutif dans laquelle les caractéristiques du signal hôte sont remplacées par celles du tatouage. Des exemples de tatouages substitutifs sont décrits par Chen (B. Chen et C.-E. W. Sundberg : Digital audio broadcasting in the fm band by means of contiguous band insertion and precanceling techniques, IEEE Transactions on Communications, 48(10), pp. 1634- 1637, 2000), ou encore par Bourcet (P. Bourcet, D. Masse et B. Jahan : Système de diffusion de données, 1995. Brevet d'Invention 95 06727, Télédiffusion de France). On peut utiliser, dans le cas présent, un schéma de tatouage inspiré des travaux de Chen et Wornell (B. Chen & G. Wornell, Quantization index modulation : a class of provably good methods for digital watermarking and information embedding. IEEE Trans. Information Theory, 47, pp. 1423-1443, 2001). Dans ces travaux, le tatouage est introduit par quantification. De manière simplifiée, le tatouage est porté par une modification des niveaux de quantification, dans une des représentations du signal hôte (représentation temporelle, spectrale ou spectro-temporelle). Les performances théoriques de cette technique s'approchent du modèle de Costa (M. Costa, Writing on dirty paper, IEEE Trans. Information Theory, 29, pp. 439-441, 1983) qui fixe la limite théorique de la capacité de transmission d'une chaîne de transmission si l'on connaît à priori le signal à l'émetteur. Dans le cas présent, le tatouage est utilisé pour insérer une information relative au signal lui-même, permettant la séparation des signaux sources à partir du signal mixé. L'information insérée porte ici sur les signaux sources eux-mêmes (par exemple leur répartition énergétique dans le temps, en fréquence, ou encore dans le plan temps-fréquence), sur les signaux sources et le signal mixé (par exemple la contribution de chaque signal source dans le signal mixé, à une échelle plus ou moins locale dans le plan temps-fréquence), ou encore sur le procédé de mixage lui-même (paramètres de l'étape de mixage ayant conduit au signal mixé). I1 s'agit ainsi de grandeurs caractéristiques des signaux sources et/ou du mixage, c'est-à-dire de descripteurs caractéristiques des signaux sources et/ou du mixage au sens du traitement du signal, ces descripteurs devant permettre d'aider à la séparation des signaux. I1 s'agit donc ici d'une information à la fois relativement volumineuse et éventuellement répartie de façon bien localisée et bien contrôlée dans le plan temps-fréquence. En revanche, le tatouage n'a pas besoin de présenter des propriétés particulières de robustesse, notamment par rapport à des manipulations illicites que pourrait subir le signal. On peut considérer ainsi, comme méthodes de tatouage, les méthodes de type non-sécuritaire, c'est-à-dire des méthodes peu robustes aux manipulations du signal mais permettant de tatouer des informations en plus grande quantité. L'association d'un procédé de tatouage et d'un procédé de séparation de sources permet une amélioration de l'efficacité de séparation d'un signal source à partir d'un signal mixé, dans la mesure où il s'agit d'une séparation informée : on connaît, au moment de la séparation, des informations sur au moins un signal source avant mixage ou sur des paramètres du procédé de mixage lui-même. En particulier, dans les cas dits sous-déterminés , même avec un seul signal mixé, la séparation reste possible grâce aux informations relatives aux signaux sources eux-mêmes, qui sont tatouées dans le signal mixé. Autrement dit, le tatouage fournit les informations nécessaires à l'obtention d'une séparation efficace, même avec un nombre élevé de signaux sources. La grandeur caractéristique est tatouée dans le signal de manière à peu modifier le signal et de manière à ne pas modifier son format. En particulier, dans le cas de signaux audios, le signal mixé tatoué reste compatible avec un lecteur classique de compact-disc, et la valeur tatouée est insérée de manière à être peu ou pas audible. I1 est alors possible de lire le signal mixé selon des procédés déjà connus, même si la séparation de signaux n'est pas prise en charge par ces procédés. Préférentiellement, la grandeur caractéristique représente la répartition énergétique temporelle, spectrale ou spectro-temporelle d'au moins un signal source. La grandeur est dans ce cas caractéristique d'au moins un signal source. Elle est choisie de manière à permettre une séparation efficace tout en limitant la quantité d'information à tatouer dans le signal mixé. Ainsi, selon les caractéristiques du signal source, la grandeur caractéristique sera plus ou moins précise et plus ou moins volumineuse, pour obtenir une séparation similaire. Alternativement, la grandeur caractéristique peut représenter la contribution spectrale en amplitude ou en énergie, à au moins un instant déterminé, d'au moins un des signaux sources dans le ou les signaux mixés. Dans ce cas, il s'agit d'une grandeur relative entre le ou les signaux sources et le ou les signaux mixés, et cette grandeur est caractéristique du ou des signaux sources par rapport aux signaux mixés. Enfin, la grandeur caractéristique peut représenter les paramètres de mixage des signaux sources pour obtenir le signal mixé. I1 peut s'agir par exemple de l'ensemble des paramètres de pondération, et de filtrage le cas échéant, associés à chaque signal source lors de l'étape de mixage. Dans ce cas, la grandeur représente les différents paramètres de pondération ou de filtrage des signaux sources lors du mixage déterminant le signal mixé ainsi obtenu, et cette grandeur est caractéristique du mixage. En particulier, pour des signaux stéréo, il est possible dans certains cas, en dépit du caractère sous-déterminé du problème de séparation, d'exploiter la connaissance du procédé de mixage pour séparer au moins partiellement un signal source. La valeur de ladite grandeur caractéristique peut être tatouée sur le ou les signaux sources avant mixage et/ou sur le ou les signaux mixés après mixage. Dans tous les cas, la détermination et le tatouage de cette grandeur caractéristique nécessitent la connaissance des signaux sources, et/ou celle du ou des signaux mixés, et/ou celle du procédé de mixage. Selon un autre aspect, il est proposé un dispositif de formation d'un ou plusieurs signaux mixés à partir d'au moins deux signaux sources numériques, notamment audio, comprenant un moyen de mixage desdits signaux sources pour former le ou les signaux mixés. Le dispositif comprend également un moyen de détermination d'une grandeur caractéristique d'un signal source ou du mixage, et un moyen de tatouage de la valeur de ladite grandeur caractéristique sur au moins un des signaux. I1 est également proposé un dispositif de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés obtenus par mixage de signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. Le dispositif comprend un moyen de détermination de la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, et un moyen de traitement du ou des signaux mixés en fonction de ladite valeur, apte à obtenir, au moins partiellement, ledit signal source. Selon un mode de réalisation du dispositif de formation, le moyen de tatouage est monté en amont du moyen de mixage et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux sources. Selon un autre mode de réalisation du dispositif de formation, le moyen de tatouage est monté en aval du moyen de mixage et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux mixés.
Le dispositif de formation peut également comprendre un moyen de quantification d'une représentation d'un signal, dans lequel le moyen de tatouage marque la valeur de la grandeur caractéristique en utilisant des sur-niveaux de quantification de la représentation du signal. La représentation du signal peut être une représentation spectrale ou spectro-temporelle du signal. En particulier, le moyen de quantification permet de déterminer l'amplitude des modifications pouvant être introduites dans la représentation du signal, de manière à ce que ces modifications n'altèrent pas la qualité perçue du signal lorsque celui-ci est restitué par un dispositif de lecture classique ou par un dispositif de séparation selon l'invention, et de manière à ce que ces modifications puissent être détectées par un dispositif de séparation selon l'invention. I1 est ainsi possible d'obtenir un signal tatoué avec une grandeur caractéristique, tel que la qualité du contenu sonore représenté par ce signal tatoué est peu ou pas dégradée par rapport à celle du contenu sonore représenté par le signal initial. La restitution du signal tatoué par un dispositif connu permettra d'obtenir une qualité du contenu sonore peu ou pas modifiée, alors que le traitement du signal tatoué par un dispositif selon l'invention permettra de déterminer la valeur tatouée dans le signal. Selon un autre aspect, il est proposé un signal mixé, notamment audio, obtenu par mixage d'au moins deux signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. I1 est également proposé un support d'information, notamment compact-disc audio, comprenant ledit signal mixé. L'invention sera mieux comprise à l'étude d'un mode de réalisation particulier, pris à titre d'exemple nullement limitatif et illustré par les dessins annexés, sur lesquels : - la figure 1 représente schématiquement un premier mode de réalisation d'un dispositif de formation d'un signal mixé selon l'invention ; - la figure 2 représente schématiquement un premier mode de réalisation d'un dispositif de séparation selon l'invention ; - la figure 3 représente schématiquement un deuxième mode de réalisation d'un dispositif de formation d'un signal mixé selon l'invention ; - la figure 4 représente schématiquement un deuxième mode de réalisation d'un dispositif de séparation selon l'invention ; - la figure 5 est un organigramme d'un procédé de formation d'un signal mixé selon l'invention ; - la figure 6 est un organigramme d'un procédé de tatouage, et - la figure 7 est un organigramme d'un procédé de séparation selon l'invention. Sur la figure 1, on a représenté schématiquement un premier mode de réalisation de dispositif de formation 1 d'un signal mixé. Le dispositif de formation 1 reçoit en entrée les signaux sources S1 et S2, et délivre un signal mixé Sout. On a limité ici, à des fins de simplification, le nombre de signaux sources à deux. Cependant, on comprendra que le nombre de signaux sources peut être beaucoup plus élevé. Par ailleurs, on considère dans la suite de la description, que les signaux sont des signaux audio. Le dispositif de formation 1 a pour but de délivrer un signal mixé Sout formé à partir des signaux sources Si, S2 et comprenant la valeur tatouée d'une grandeur caractéristique d'au moins un des signaux sources. Le dispositif comprend un moyen de mixage 2. Le moyen de mixage reçoit également en entrée les signaux sources Si et S2, et délivre en sortie un signal mixé initial Sm;X résultant d'une combinaison des signaux sources. En particulier, le mixage peut consister en une simple sommation. I1 peut aussi s'agir d'une sommation dont les coefficients affectés à chaque signal source varient dans le temps, ou bien encore d'une sommation associée à un ou plusieurs filtres. Selon ce mode de réalisation, le signal mixé Sout comprend la valeur tatouée d'une grandeur caractéristique d'au moins un des signaux sources S1, S2. On considère dans la suite de la description que le signal mixé Sout comprend les valeurs tatouées d'une grandeur caractéristique de chaque signal source. Le dispositif de formation 1 comprend ainsi un moyen 3 de détermination d'une grandeur caractéristique de signal. Le moyen 3 de détermination reçoit en entrée les signaux sources pour lesquels on souhaite déterminer la valeur de la grandeur caractéristique, dans le cas présent les deux signaux S1 et S2. On choisit, dans la suite de la description, un moyen de détermination 3 capable de déterminer, comme grandeur caractéristique, la répartition spectro-temporelle de l'énergie du signal considéré. Le moyen de détermination 3 comprend ainsi un moyen de transformation 4 du signal source, de manière à obtenir la représentation dans un plan temps-fréquence du signal. La transformation en temps-fréquence du signal peut être effectuée par décomposition en un ensemble de coefficients MDCT (en anglais : Modified Discrete Cosine Transform ), ou bien encore par une transformée de Fourier à court-terme. On considérera dans la suite de la description, comme moyen de transformation 4, un moyen de décomposition du signal source en un ensemble de coefficients MDCT. On obtient alors une représentation du signal source sous forme matricielle. C'est à partir de cette représentation temps-fréquence que va être déterminée la valeur de la grandeur caractéristique du signal source. En particulier, le moyen de détermination 3 comprend un moyen de détection 5 et un moyen d'évaluation 6 permettant de caractériser la matrice obtenue avec une grandeur W.
Le moyen de détection 5 peut par exemple, pour chaque signal source Si, S2, regrouper les coefficients MDCT de la représentation temps-fréquence matricielle, en groupes de coefficients adjacents appelés, ci-après, molécules. L'ensemble des molécules détectées par le moyen 5 permet de retrouver la représentation matricielle du signal source. Le moyen d'évaluation 6 permet de déterminer la grandeur caractéristique W1, W2, pour chaque signal source, à partir de l'ensemble de ses molécules. En particulier, une valeur de cette grandeur peut être déterminée pour chaque molécule de chaque signal source. Cette valeur caractérise alors l'énergie du signal source dans la zone temps-fréquence couverte par la molécule. On obtient ainsi, en sortie du moyen d'évaluation 6 et donc du moyen de détermination 3, une valeur W1 d'une grandeur caractéristique du signal source Si, et une valeur W2 d'une grandeur caractéristique du signal source S2. Les valeurs W1 et W2 vont être tatouées dans un premier temps sur le signal mixé initial Sm;X pour former le signal mixé Sout, puis vont être utilisées dans un deuxième temps pour séparer les signaux sources Si, S2 du signal mixé Sout. Le dispositif de formation 1 comprend également un moyen de tatouage 7. Le moyen de tatouage 7 reçoit en entrée le signal mixé Sm;X et les valeurs W1, W2 des grandeurs caractéristiques des signaux sources S1, S2. Afin d'améliorer le tatouage et la récupération des valeurs tatouées, le moyen de tatouage 7 peut comprendre un moyen de transformation 8 permettant de décomposer le signal mixé initial Sm;X selon la même représentation temps-fréquence MDCT que celle utilisée pour décomposer les signaux sources S1 et S2. Le signal mixé initial décomposé est alors transmis à un premier moyen de quantification 9. Le premier moyen de quantification 9 permet de quantifier les coefficients MDCT, c'est-à-dire la représentation temps-fréquence matricielle du signal initial mixé, avec une première résolution choisie de manière à restituer le signal avec la qualité voulue. La première résolution consiste à quantifier les coefficients MDCT du signal mixé initial avec un intervalle minimum entre deux valeurs. L'intervalle minimum est choisi en fonction de la perception de la quantification. Dans le cas de signaux audio, si l'écart minimum entre deux valeurs est trop grand, le signal mixé quantifié sera perçu différemment par l'oreille humaine que le signal mixé initial. Par contre, si l'écart minimum entre deux valeurs est suffisamment petit, l'oreille humaine ne pourra pas distinguer de différence entre le signal mixé quantifié le signal mixé initial. En revanche, comme le tatouage va être inséré au sein des intervalles de première quantification, ces intervalles doivent être également choisis suffisamment larges pour pouvoir y insérer le plus d'informations tatouées. Les coefficients MDCT quantifiés sont ensuite regroupés en molécules par un moyen de détection 10. Le groupement en molécules des coefficients MDCT permet ici d'obtenir un support élémentaire pour le tatouage sur lequel il est possible d'encoder une quantité d'information significativement plus importante que sur un seul coefficient MDCT. C'est donc sur les molécules du signal mixé quantifié que vont être tatouées les valeurs W1, W2 des grandeurs caractéristiques des molécules des signaux sources.
I1 est notamment possible de choisir un groupement en molécules des coefficients MDCT du signal mixé initial, analogue au groupement obtenu avec les coefficients MDCT des signaux sources, c'est-à-dire que les moyens de détection 5 et 10 peuvent être analogues. Dans ce cas, si les valeurs W1, W2 représentent l'énergie d'une molécule particulière de chaque signal source, ces valeurs pourront être tatouées sur la molécule du signal mixé initial correspondante (c'est-à-dire couvrant la même zone du plan temps-fréquence). De plus, les valeurs W1, W2 pourront dans ce cas représenter l'énergie relative de chacune des molécules des signaux sources par rapport à la molécule correspondante du signal mixé, c'est-à-dire un rapport d'énergie. La valeur de l'énergie des molécules de signal mixé est alors transmise par le moyen de détection 10 au moyen d'évaluation 6 afin que celui-ci puisse calculer le rapport d'énergie. D'autres informations utiles à la séparation peuvent être aussi encodées selon la place disponible, par exemple la forme des molécules des signaux sources, c'est-à-dire l'arrangement plus ou moins précis des valeurs des coefficients MDCT au sein d'une molécule.
Le moyen de tatouage 7 comprend alors un deuxième moyen de quantification 11 qui reçoit les coefficients MDCT quantifiés et groupés en molécules du signal mixé et les valeurs W1, W2. Le deuxième moyen de quantification 11 permet de quantifier la représentation matricielle du signal mixé avec une deuxième résolution choisie de manière à pouvoir être détectée lors de la séparation des signaux sources. La deuxième résolution consiste à quantifier l'intervalle minimum de la première quantification, avec un deuxième intervalle minimum, c'est-à-dire consiste à introduire, dans les niveaux de première quantification, des sur-niveaux. Le deuxième intervalle minimum est choisi en fonction de la détection lors de la séparation de sources. Si le deuxième intervalle minimum est trop petit, la valeur tatouée lors de la deuxième quantification ne pourra pas être détectée correctement. En revanche, comme le tatouage va être codé par les sur- niveaux de la deuxième quantification, les intervalles entre ces sur-niveaux doivent être également choisis suffisamment petits pour pouvoir tatouer le plus d'informations possible. La quantité d'informations pouvant être tatouées dépend donc de la première et de la deuxième quantification.
Le principe du tatouage est donc une modification des niveaux de quantification des coefficients MDCT composant la molécule de signal mixé. La modification des niveaux de quantification n'est pas ou peu audible car elle est effectuée dans l'intervalle déterminé de première quantification, mais reste détectable pour la séparation de sources car effectuée avec un intervalle déterminé de deuxième quantification. Enfin, le moyen de tatouage 7 comprend un moyen de transformation inverse 12. Le moyen de transformation inverse 12 effectue la transformation inverse de celle effectuée par le moyen de transformation 4. Dans le cas présent, le moyen 12 effectue une transformation par décomposition MDCT inverse (IMDCT). On obtient alors une représentation temporelle du signal mixé tatoué, qui constitue le signal mixé Sout. On obtient donc en sortie du dispositif de formation 1 un signal mixé de sortie Sout avec la même représentation temporelle que le signal mixé initial Smjx, mais comprenant un tatouage peu ou pas audible et détectable pour la séparation de source. Le signal mixé Sout peut ensuite être transmis ou appliqué sur un support d'enregistrement. Dans le cas par exemple d'un compact-disc, le signal mixé Sout subit d'abord une quantification scalaire uniforme sur 16 bits (qui correspond au format CD audio), puis est appliqué sur compact-disc. La quantification scalaire uniforme sur 16 bits est un exemple de traitement limitant la détection de la deuxième quantification effectuée par le moyen de tatouage.
On obtient ainsi, en sortie du dispositif de formation 1, un signal mixé Sout obtenu par mixage d'au moins deux signaux sources, et comprenant une valeur tatouée d'une grandeur caractéristique d'au moins un des signaux sources. Le signal mixé Sout présentant la même représentation temporelle que le signal mixé initial Smjx, et les valeurs de grandeurs caractéristiques étant tatouées de manière à être peu ou pas audibles, un dispositif classique pourra traiter le signal mixé Sout comme n'importe quel signal mixé, tandis qu'un dispositif de séparation selon l'invention, tel que décrit plus bas, pourra, en complément, séparer au moins partiellement un des signaux sources du signal mixé Sout. Sur la figure 2, on a représenté schématiquement un premier mode de réalisation de dispositif de séparation d'un signal source contenu dans un signal mixé Sout tel que défini au paragraphe précédent. Le dispositif de séparation 13 reçoit en entrée le signal mixé Sout, et délivre, dans le cas présent, deux signaux sources séparés au moins partiellement S' I et S'2. Le dispositif de séparation 13 a pour but de délivrer, au moins partiellement, un ou plusieurs signaux sources contenus dans un signal mixé Sout qui comprend une valeur tatouée d'une grandeur caractéristique. Le dispositif de séparation 13 comprend un moyen 14 de détermination des valeurs tatouées W1, W2 des grandeurs caractéristiques des signaux à séparer. Le moyen 14 reçoit en entrée le signal mixé Sout et délivre en sortie les valeurs tatouées W1, W2. Dans le cas présent, le moyen 14 délivre également le ou les coefficients MDCT du signal mixé Sout. Le moyen 14 de détermination comprend un moyen de transformation 15 analogue au moyen 4 décrit à la figure 1. Le moyen de transformation 15 permet de décomposer le signal mixé Sout en matrice de coefficients MDCT. Les coefficients MDCT sont ensuite transmis à un premier moyen de quantification 16 analogue au moyen 9 décrit à la figure 1. Le moyen de quantification 16 permet de quantifier les coefficients MDCT du signal Sout avec une première résolution. Les coefficients quantifiés sont ensuite transmis à un moyen de détection 17 analogue au moyen 10 décrit à la figure 1. Le moyen de détection 17 regroupe les coefficients MDCT quantifiés en molécules, et en particulier regroupe les coefficients selon les mêmes molécules que celles réalisées par le moyen 10 décrit précédemment. I1 est alors possible de détecter et de déterminer les valeurs tatouées sur lesdites molécules. Ainsi, les molécules formées par le moyen 17 sont transmises à un deuxième moyen de quantification 18 qui effectue une quantification des coefficients composant ces molécules avec une deuxième résolution plus élevée. La deuxième résolution permet notamment de déterminer les valeurs tatouées W1, W2, par lecture des niveaux de deuxième quantification des coefficients et décodage des valeurs associées à ces niveaux.
Le moyen de détermination 14 délivre donc, en sortie, les valeurs W1, W2 des grandeurs caractéristiques, qui peuvent être utilisées pour la séparation de sources. Le dispositif de séparation 13 comprend aussi un moyen de traitement 19 recevant les valeurs de grandeurs caractéristiques issues du moyen de détermination 14, ainsi que les coefficients groupés en molécules déterminés aussi par le moyen 14. Le moyen 19 de traitement comprend un premier moyen de séparation 20 capable de séparer, au moins partiellement, les signaux sources du signal mixé. En particulier, les valeurs des grandeurs caractéristiques sont utilisées, sur les coefficients MDCT groupés en molécules, pour améliorer la séparation des signaux sources effectuée par le moyen de séparation 20. Dans la mesure où les grandeurs caractéristiques ont été déterminées à partir des coefficients MDCT des signaux sources, c'est à partir des coefficients MDCT du signal mixé Soä t qu'il va être possible de retrouver les coefficients MDCT des signaux sources, et donc qu'on opère une séparation des signaux sources. Par exemple, chaque molécule de chaque signal source à séparer est estimée par la molécule du signal mixé affectée du niveau d'énergie relative de la molécule du signal source en question (valeur de la grandeur caractéristique) déterminée lors de la détection de la valeur tatouée. Eventuellement, les autres informations tatouées peuvent intervenir pour affiner l'estimation de la molécule du signal source, notamment si on a également encodé des informations caractérisant la forme de la molécule du signal source.
Les coefficients MDCT séparés par le moyen 20 de séparation sont alors transmis à un moyen de transformation inverse 21 analogue au moyen 12 décrit sur la figure 1. Le moyen 21 permet de transformer les coefficients MDCT séparés en signaux temporels S' I et S'2 correspondant, au moins partiellement, aux signaux sources S1, S2.
Sur la figure 3, on a représenté un deuxième mode de réalisation d'un dispositif de formation 22 selon l'invention. Dans ce mode de réalisation, les éléments identiques à ceux du premier mode de réalisation, sont identifiés avec les mêmes références. Le dispositif de formation 22 reçoit en entrée au moins deux signaux sources Si, S2 et fournit, en sortie, deux signaux mixés Souti, Sout2 différents, qui correspondent à des signaux stéréo. Le dispositif 22 comprend un moyen de mixage 23 recevant les deux signaux sources Si, S2 et fournissant un premier signal mixé initial Smixi et un deuxième signal mixé initial Smix2. En particulier, le moyen de mixage 23 effectue des opérations de mixage différentes pour former les deux signaux Smixi et Smix2, afin d'obtenir deux voies stéréo conférant un effet de spatialisation du son. Cet effet de spatialisation passe notamment par l'introduction de facteurs multiplicatifs et de retards différents sur les deux voies. Les opérations de mixage sur les deux signaux sources peuvent alors être représentées sous forme d'une matrice de mixage dans le domaine fréquentiel, après application d'une transformée en fréquence des signaux. L'opération de mixage consiste alors en une multiplication d'un vecteur signal source (comprenant comme composantes, les deux signaux sources) par la matrice de mixage, pour obtenir un vecteur signaux mixés initiaux (comprenant comme composantes, les deux signaux mixés initiaux). Dans le cas considéré, la matrice de mixage comprend quatre composantes qui représentent chacune, pour chaque valeur de la fréquence, la contribution d'un des signaux sources dans un des signaux mixés initiaux. Ces composantes peuvent varier dans le temps. Le dispositif 22 comprend un premier moyen de détermination 24. Le premier moyen de détermination 24 détermine ici les composantes de la matrice de mixage correspondant au signal mixé Smixi. Ces composantes sont les paramètres de mixage permettant d'obtenir le signal mixé initial Smixi à partir des signaux sources Si et S2. Ces composantes représentent donc une valeur Wi d'une grandeur caractéristique du mixage conduisant au signal mixé Souti, à savoir les paramètres de mixage qui permettent d'obtenir le signal mixé Souti• Le dispositif 22 comprend un deuxième moyen de détermination 25. Le deuxième moyen de détermination 25 détermine ici les composantes de la matrice de mixage correspondant au signal mixé Smjx2. Ces composantes sont les paramètres de mixage permettant d'obtenir le signal mixé initial Smix2 à partir des signaux sources Si et S2. Ces composantes représentent donc une valeur W2 d'une grandeur caractéristique du mixage conduisant au signal mixé Sout2, à savoir les paramètres de mixage qui permettent d'obtenir le signal mixé Sout2. Le dispositif de formation 22 comprend également un moyen de tatouage 26. Le moyen de tatouage 26 reçoit en entrées les signaux mixés initiaux Smixi et Smjx2, et les valeurs W1, W2, et fournit en sortie les signaux mixés Souti et Sout2.
Le moyen de tatouage 26 comprend successivement un moyen de transformation 8, un premier moyen de quantification 9 et un moyen de détection 10. Les signaux mixés initiaux sont traités successivement par ces moyens afin d'obtenir les coefficients MDCT groupés en molécules, pour chacun des deux signaux Smixi et Smix2.
Le moyen de tatouage 22 comprend un deuxième moyen de quantification 11 recevant les coefficients MDCT groupés en molécules et les valeurs W1, W2. Le moyen de tatouage 22 permet d'insérer les valeurs Wi et W2 dans les coefficients MDCT du signal Smixi et dans les coefficients MDCT du signal Smix2. Ainsi, les signaux mixés Souti, Sout2 sont tatoués avec les valeurs de grandeur caractéristique leur correspondant. Les deux signaux mixés étant différents, il est alors possible d'exploiter cette différence, et d'exploiter la connaissance des paramètres de mixage portés par Wi et W2, pour séparer, au moins partiellement, les signaux sources à partir de Souti et Sout2. On obtient ainsi, en sortie du dispositif de formation 22, des signaux mixés Souti, Sout2 obtenus par mixage d'au moins deux signaux sources, et comprenant chacun une valeur tatouée d'une grandeur caractéristique desdits signaux mixés, à savoir les composantes de la matrice de mixage utilisées pour former lesdits signaux mixés. Les signaux mixés Souti, Sout2 se présentant avec la même représentation temporelle que les signaux mixés initiaux Smixi, Smix2, et les valeurs de grandeurs caractéristiques étant tatouées de manière à être peu ou pas audibles, un dispositif classique pourra traiter les signaux mixés Souti, Sout2 comme n'importe quels signaux mixés, notamment stéréo, tandis qu'un dispositif de séparation selon l'invention, tel que décrit plus bas, pourra, en complément, séparer au moins partiellement un des signaux sources à partir des signaux mixés Souti, Sout2.
Sur la figure 4, on a représenté un deuxième mode de réalisation d'un dispositif de séparation 27 selon l'invention. Dans ce mode de réalisation, les éléments identiques à ceux du premier mode de réalisation, sont identifiés avec les mêmes références. Le dispositif de séparation 27 reçoit en entrée deux signaux mixés Souti, Sout2 et fournit, en sortie, deux signaux S'i, S'2 correspondant, au moins en partie, aux signaux sources Si, S2. Le dispositif de séparation 27 comprend un moyen de détermination de la valeur tatouée 28. Le moyen 28 reçoit en entrée les signaux Souti et Sout2, et fournit en sortie les valeurs tatouées Wi, W2.
Le moyen 28 comprend successivement un moyen de transformation 15, un moyen de première quantification 16 et un moyen de détection 17. Les signaux mixés Souti, Sout2 sont traités séparément par les moyens 15, 16 et 17 de manière à obtenir les coefficients MDCT groupés de chacun des signaux mixés.
Le moyen 28 comprend enfin un moyen de deuxième quantification 29. Le moyen 29 de deuxième quantification permet de déterminer la valeur tatouée Wi dans le signal mixé Souti, et la valeur tatouée W2 dans le signal mixé Sout2. Les valeurs W1, W2 et les signaux mixés Souti et Sout2 sont transmis à un moyen de traitement 31 comprenant un moyen de séparation 32. Le moyen de séparation 32 permet de retrouver, au moins partiellement, les signaux sources à partir des valeurs Wi, W2 et des signaux mixés Souti et Sout2. En effet, même si la matrice de mixage n'est pas inversible lorsqu'on a plus de deux signaux sources, il est possible, sous certaines conditions, d'exploiter la connaissance de la matrice de mixage utilisée par le moyen de mixage 23, pour obtenir, à partir du vecteur des signaux mixés, une estimation du vecteur des signaux sources. En particulier, le moyen de séparation 32 peut déterminer la matrice de mixage grâce aux valeurs W1 et W2, et la connaissance de cette matrice de mixage peut permettre au moyen de séparation 32 de mieux séparer, même partiellement, les signaux sources, par rapport à la même tâche sans connaissance de cette matrice de mixage.
Sur la figure 5, on a représenté un organigramme représentant les différentes étapes du procédé de formation d'un signal mixé selon l'invention. Le procédé comprend une première étape 33 au cours de laquelle la valeur W d'une grandeur caractéristique est déterminée.
Puis, au cours d'une étape 34, on effectue le mixage des signaux sources pour obtenir un signal mixé initial. Enfin, à l'étape 34, la valeur W de la grandeur caractéristique est tatouée sur le signal mixé initial afin d'obtenir le signal mixé. I1 est également possible d'effectuer l'étape 35 de tatouage avant l'étape 34 de mixage. Dans ce cas, la valeur W de la grandeur caractéristique est tatouée sur au moins un des signaux sources, et l'étape de mixage permet d'obtenir le signal mixé. La figure 6 représente un organigramme des différentes étapes d'un mode de mise en oeuvre de l'étape de tatouage 35.
Le tatouage commence par une étape 36 au cours de laquelle le signal mixé initial est décomposé en coefficients MDCT. Les coefficients MDCT sont alors soumis à une première quantification, lors de l'étape 37, puis groupés en molécules lors de l'étape 38. On peut noter cependant que les étapes 37 et 38 peuvent être également inversées. Les coefficients groupés subissent ensuite une deuxième quantification, lors de l'étape 39, au cours de laquelle la valeur W de la grandeur caractéristique est insérée dans le signal mixé.
Enfin, les coefficients MDCT comprenant la valeur W tatouée subissent une décomposition inverse IMDCT, afin d'obtenir, en sortie, la représentation temporelle du signal mixé. Sur la figure 7, on a représenté un organigramme représentant les différentes étapes du procédé de séparation selon l'invention. Le procédé comprend une première étape 41 au cours de laquelle le signal mixé est décomposé en coefficients MDCT. Les coefficients MDCT sont alors quantifiés une première fois, lors de l'étape 42, et groupés en molécules lors de l'étape 43.
Les coefficients MDCT groupés subissent alors une deuxième quantification permettant de déterminer la valeur W tatouée sur le signal mixé. Enfin, à partir de la valeur W qui a été déterminée à l'étape 44, la séparation, au moins partielle, d'un signal source est effectuée à l'étape 45.
Dans le cas de signaux audios, il est ainsi possible d'effectuer un certain nombre de contrôles majeurs en écoute audio (volume, tonalité, effets) de façon indépendante sur les différents éléments de la scène sonore (instruments et voix obtenus par le dispositif de séparation). De plus, un des avantages important de la technique proposée est d'être tout à fait compatible avec le format CD-audio : un CD tatoué avec le procédé proposé peut-être utilisé tel quel sur n'importe quel lecteur conventionnel (sans bénéficier des fonctionnalités de séparation) sans aucune distinction avec un CD classique grâce à un tatouage inaudible ou quasi-inaudible.
Alternativement, il faut bien sûr un lecteur spécifique intégrant le procédé de séparation selon l'invention pour pouvoir effectuer les contrôles en écoute audio. D'autres applications concernant l'extraction et le rehaussement de la parole dans des systèmes de communication peuvent être envisagées. On peut par exemple tatouer le signal de parole au niveau de l'émetteur (lorsqu'il est produit dans de bonnes conditions) avant sa transmission dans un canal pouvant le dégrader (ou le mélanger à d'autres signaux), pour pouvoir récupérer ce signal de parole, à partir de sa forme dégradée ou mélangée, au niveau du récepteur.5

Claims (12)

  1. REVENDICATIONS1. Procédé de formation d'un ou plusieurs signaux mixés (Sour) à partir d'au moins deux signaux sources numériques (Si, S2), notamment audio, dans lequel le ou les signaux mixés sont formés par mixage des signaux sources, caractérisé en ce qu'une grandeur caractéristique d'un signal source (Si, S2) ou du mixage est déterminée et en ce que la valeur (W1, W2) de ladite grandeur caractéristique est tatouée sur au moins un des signaux (Si, S2, Sout).
  2. 2. Procédé de formation selon la revendication 1 dans lequel la grandeur caractéristique représente la répartition énergétique temporelle, spectrale ou spectro-temporelle d'au moins un signal source (Si, S2).
  3. 3. Procédé de formation selon la revendication 1 dans lequel la grandeur caractéristique représente la contribution spectrale en amplitude ou énergétique, à au moins un instant déterminé, d'au moins un des signaux sources (Si, S2) dans le ou les signaux mixés (Sout).
  4. 4. Procédé de formation selon la revendication 1 dans lequel la grandeur caractéristique représente les paramètres de mixage des signaux sources (Si, S2) pour obtenir le ou les signaux mixés.
  5. 5. Procédé de formation selon l'une des revendications 1 à 4 dans lequel la valeur (W1, W2) de ladite grandeur caractéristique est tatouée sur le ou les signaux sources avant mixage et/ou sur le ou les signaux mixés après mixage.
  6. 6. Procédé de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés obtenus selon l'une des revendications 1 à 5, dans lequel on détermine la valeur tatouée (W1, W2) de la grandeur caractéristique du signal source ou du mixage, puis on traite le ou les signaux mixés en fonction de ladite valeur de manière à obtenir, au moins partiellement, ledit signal source (S'1, S'2).
  7. 7. Dispositif de formation d'un ou plusieurs signaux mixés à partir d'au moins deux signaux sources numériques, notamment audio, comprenant un moyen de mixage (2) desdits signaux sources pourformer le ou les signaux mixés, caractérisé en ce que le dispositif comprend également un moyen de détermination (3) d'une grandeur caractéristique d'un signal source ou du mixage, et un moyen de tatouage (7) de la valeur de ladite grandeur caractéristique sur au moins un des signaux.
  8. 8. Dispositif de formation selon la revendication 7 dans lequel le moyen de tatouage (7) est monté en amont du moyen de mixage (2) et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux sources.
  9. 9. Dispositif de formation selon la revendication 7 dans lequel le moyen de tatouage est monté en aval du moyen de mixage et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux mixés.
  10. 10. Dispositif de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés sortant du dispositif selon l'une des revendications 7 à 9, comprenant un moyen de détermination (14) de la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, et un moyen de traitement (19) du ou des signaux mixés en fonction de ladite valeur apte à obtenir, au moins partiellement, ledit signal source.
  11. 11. Signal mixé (Sout), notamment audio, obtenu par mixage d'au moins deux signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage.
  12. 12. Support d'information, notamment compact-disc audio, comprenant le signal mixé (Sout) selon la revendication précédente.
FR0952397A 2009-04-10 2009-04-10 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant Active FR2944403B1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR0952397A FR2944403B1 (fr) 2009-04-10 2009-04-10 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
JP2012504047A JP2012523579A (ja) 2009-04-10 2010-03-30 混合信号を形成する方法及び装置、信号を分離する方法及び装置、並びに対応する信号
KR1020117026796A KR20120006050A (ko) 2009-04-10 2010-03-30 혼합 신호를 형성하기 위한 방법 및 장치, 신호를 분리하기 위한 방법 및 장치, 그리고 이에 대응하는 신호
EP10717676A EP2417597A1 (fr) 2009-04-10 2010-03-30 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
US13/262,428 US20120203362A1 (en) 2009-04-10 2010-03-30 Method and device for forming a mixed signal, method and device for separating signals, and corresponding signal
PCT/FR2010/050583 WO2010116068A1 (fr) 2009-04-10 2010-03-30 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0952397A FR2944403B1 (fr) 2009-04-10 2009-04-10 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant

Publications (2)

Publication Number Publication Date
FR2944403A1 true FR2944403A1 (fr) 2010-10-15
FR2944403B1 FR2944403B1 (fr) 2017-02-03

Family

ID=41319715

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0952397A Active FR2944403B1 (fr) 2009-04-10 2009-04-10 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant

Country Status (6)

Country Link
US (1) US20120203362A1 (fr)
EP (1) EP2417597A1 (fr)
JP (1) JP2012523579A (fr)
KR (1) KR20120006050A (fr)
FR (1) FR2944403B1 (fr)
WO (1) WO2010116068A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3232212A1 (fr) * 2016-04-14 2017-10-18 Commissariat à l'Energie Atomique et aux Energies Alternatives Système et procédé de détection d'un arc électrique

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9191516B2 (en) 2013-02-20 2015-11-17 Qualcomm Incorporated Teleconferencing using steganographically-embedded audio data
JP6151866B2 (ja) 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
EP3128766A4 (fr) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Procédé et dispositif de traitement de signal audio
CN110087098B (zh) 2018-01-26 2021-12-03 阿里巴巴(中国)有限公司 水印处理方法及装置
JP2023183660A (ja) * 2022-06-16 2023-12-28 ヤマハ株式会社 パラメータ推定方法、音処理装置、および音処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US20090055196A1 (en) * 2005-05-26 2009-02-26 Lg Electronics Method of Encoding and Decoding an Audio Signal

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2396072T3 (es) * 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US20090055196A1 (en) * 2005-05-26 2009-02-26 Lg Electronics Method of Encoding and Decoding an Audio Signal

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATHIEU PARVAIX ET AL: "A watermarking-based method for single-channel audio source separation", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2009. ICASSP 2009. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 19 April 2009 (2009-04-19), pages 101 - 104, XP031459176, ISBN: 978-1-4244-2353-8 *
MATHIEU PARVAIX ET AL: "An audio watermarking method based on molecular matching pursuit", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2008. ICASSP 2008. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 31 March 2008 (2008-03-31), pages 1721 - 1724, XP031250903, ISBN: 978-1-4244-1483-3 *
YI-WEN LIU ED - ANONYMOUS: "Sound Source Segregation Assisted by Audio Watermarking", MULTIMEDIA AND EXPO, 2007 IEEE INTERNATIONAL CONFERENCE ON, IEEE, PI, 1 July 2007 (2007-07-01), pages 200 - 203, XP031123596, ISBN: 978-1-4244-1016-3 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3232212A1 (fr) * 2016-04-14 2017-10-18 Commissariat à l'Energie Atomique et aux Energies Alternatives Système et procédé de détection d'un arc électrique
FR3050277A1 (fr) * 2016-04-14 2017-10-20 Commissariat Energie Atomique Systeme et procede de detection d'un arc electrique
US11079423B2 (en) 2016-04-14 2021-08-03 Commissariat A L'energie Atomique Et Aux Energies Alternatives System and method for detecting an electric arc

Also Published As

Publication number Publication date
JP2012523579A (ja) 2012-10-04
FR2944403B1 (fr) 2017-02-03
US20120203362A1 (en) 2012-08-09
WO2010116068A1 (fr) 2010-10-14
KR20120006050A (ko) 2012-01-17
EP2417597A1 (fr) 2012-02-15

Similar Documents

Publication Publication Date Title
Khaldi et al. Audio watermarking via EMD
Liu et al. Temporal derivative-based spectrum and mel-cepstrum audio steganalysis
Özer et al. An SVD-based audio watermarking technique
CN1290290C (zh) 计算机实现的音频数据隐藏的方法
FR2944403A1 (fr) Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
Umapathy et al. Audio signal processing using time-frequency approaches: coding, classification, fingerprinting, and watermarking
MXPA06012550A (es) Incrustacion de filigrana digital.
Wang et al. EMD and psychoacoustic model based watermarking for audio
Kumsawat A genetic algorithm optimization technique for multiwavelet-based digital audio watermarking
JP2014521112A (ja) 入力信号に透かし入れするための量子化インデックス変調の方法および装置
El Hamdouni et al. A blind digital audio watermarking scheme based on EMD and UISA techniques
FR2966277A1 (fr) Procede et dispositif de formation d'un signal mixe numerique audio, procede et dispositif de separation de signaux, et signal correspondant
Bibhu et al. Secret key watermarking in WAV audio file in perceptual domain
Lin et al. Audio watermarking techniques
CN108877816B (zh) 基于qmdct系数的aac音频重压缩检测方法
Patel et al. Secure transmission of password using speech watermarking
Dhar et al. An audio watermarking scheme using discrete fourier transformation and singular value decomposition
Xu et al. Content-based digital watermarking for compressed audio
WO2013053631A1 (fr) Procédé et dispositif pour séparer des signaux par filtrage spatial itératif
EP2901447B1 (fr) Procédé et dispositif pour séparer des signaux par filtrage spatial à variance minimum sous contrainte linéaire
Shahriar et al. Time-domain audio watermarking using multiple marking spaces
Tegendal Watermarking in audio using deep learning
Hu et al. FFT-based dual-mode blind watermarking for hiding binary logos and color images in audio
Ketcham et al. An algorithm for intelligent audio watermaking using genetic algorithm
Chowdhury et al. A tutorial for audio watermarking in the cepstrum domain

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9