FR3032553A1 - Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite - Google Patents

Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite Download PDF

Info

Publication number
FR3032553A1
FR3032553A1 FR1551062A FR1551062A FR3032553A1 FR 3032553 A1 FR3032553 A1 FR 3032553A1 FR 1551062 A FR1551062 A FR 1551062A FR 1551062 A FR1551062 A FR 1551062A FR 3032553 A1 FR3032553 A1 FR 3032553A1
Authority
FR
France
Prior art keywords
sound signal
reduced audio
footprint
generating
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1551062A
Other languages
English (en)
Other versions
FR3032553B1 (fr
Inventor
Pascal Ferraro
Pierre Hanna
Matthias Robine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Simbals
Original Assignee
Simbals
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Simbals filed Critical Simbals
Priority to FR1551062A priority Critical patent/FR3032553B1/fr
Publication of FR3032553A1 publication Critical patent/FR3032553A1/fr
Application granted granted Critical
Publication of FR3032553B1 publication Critical patent/FR3032553B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

La présente invention concerne un procédé de génération d'une empreinte audio réduite à partir d'un signal sonore x(t), comprenant les étapes suivantes : a) découper le signal sonore en une succession de trames ; b) générer un descripteur tonal pour chaque trame de manière à associer à chaque trame un vecteur de nombres réels et de dimension C ; c) normaliser le vecteur ; d) classer par une analyse statistique les vecteurs dans M classes notées Cm, m étant un nombre entier variant de 1 à M, e) affecter à chaque vecteur un entier m, m étant l'indice de la classe Cm auquel appartient le vecteur de sorte que le signal sonore est représenté par une séquence ordonnée de nombres entiers, constituant l'empreinte audio réduite. La présente invention concerne également un système et un procédé d'identification d'un signal sonore inconnu en comparant son empreinte audio réduite et celles contenues dans une base de données de référence.

Description

1 PROCEDE DE GENERATION D'UNE EMPREINTE AUDIO REDUITE A PARTIR D'UN SIGNAL SONORE ET PROCEDE D'IDENTIFICATION D'UN SIGNAL SONORE EN UTILISANT UNE TELLE EMPREINTE AUDIO REDUITE La présente invention concerne un procédé de génération d'une empreinte audio réduite à partir d'un signal sonore et un procédé d'identification d'un signal sonore en utilisant une telle empreinte audio réduite. La présente invention concerne également un système d'identification d'un signal sonore par empreinte audio.
Pour la suite de la description, on entend par signal sonore un extrait de musique d'un morceau de musique. Ce signal sonore peut être un extrait issu d'un morceau original mais aussi de plusieurs autres morceaux qui sont des versions différentes, par exemple des reprises d'un morceau. Le signal sonore peut être par exemple un fichier audio enregistré sur un support de stockage de données d'un ordinateur, mobile, tablette. Il peut être également un flux audio. De manière générale, le procédé d'identification par empreinte audio consiste d'abord à créer une représentation de chaque morceau de musique sous la forme de signatures caractéristiques appelées empreinte audio. Ces empreintes ainsi créées sont stockées dans une base de données de référence. Elles sont associées à des informations complémentaires, appelées également métadonnées qui sont par exemple le titre du morceau, le nom de l'artiste et toute autre information sur la production de ce titre de musique. Lorsque l'on souhaite identifier un signal sonore inconnu, le procédé d'identification consiste tout d'abord à caractériser ce signal sonore inconnu par une empreinte de la même façon que celle utilisée pour constituer la base de données de référence et puis de comparer cette empreinte à celles contenues dans la base de données de référence. Lorsque le signal sonore est identifié comme étant une partie d'un morceau de musique de la base de données, le procédé retourne alors des informations associées à ce morceau de musique. Le document W02002/011123 décrit un procédé d'identification d'un extrait musical fortement bruité capturé par l'intermédiaire d'un téléphone portable. Le procédé consiste à trouver et à caractériser les variations d'amplitudes locales à partir d'une analyse spectrale. Le procédé consiste à extraire des pics d'amplitude à partir du spectrogramme du signal 3032553 2 sonore en choisissant des points d'énergie maximal localement. Pour augmenter l'apport d'information et la capacité de discrimination, le procédé propose d'utiliser l'appariement de chaque pic avec ses plus proches voisins pour construire un vecteur de représentation du signal sonore. Le procédé décrit dans le document W02002/011123 est cependant limité à 5 l'identification des extraits sonores longs. En effet, un extrait sonore court ne comprend pas suffisamment de pics pour que l'empreinte audio générée soit suffisamment efficace et discriminante. Selon un autre inconvénient, un tel procédé basé uniquement sur une représentation spectrale ne permet pas d'identifier un extrait de musique lorsqu'il est issu d'une version différente du morceau d'origine, par exemple une version live même si le 10 morceau d'origine est stocké dans la base de données. De manière générale, un procédé d'identification d'un signal sonore est soumis à diverses contraintes liées aux déformations et/ou modifications du signal sonore à identifier. Ces déformations concernent autant les dégradations liées à l'ajout de bruits dus à une mauvaise qualité de transmission ou dus à des sons superposés à l'élément sonore, que les 15 dégradations liées à des changements de vitesse ou d'amplitude de reproduction. Ces changements de vitesse et d'amplitude sont rencontrés par exemple lors de la reproduction d'extraits de musique dans des émissions de radio avec des contraintes de temps et de transmission. Le signal sonore peut être également issu d'un morceau de musique modifié par rapport au morceau d'origine, par exemple un extrait issu d'une version différente. Selon 20 la présente demande, on entend par « version », un morceau de musique similaire au morceau d'origine en termes de contenus, mais différente sur la forme musicale (instrument, rythme etc...), par exemple une version jouée en concert. La présente invention s'intéresse tout particulièrement à l'identification des signaux sonores modifiés issus des différentes versions.
25 Une solution connue pour identifier des signaux sonores modifiés consiste à extraire une empreinte audio qui contient des informations permettant de caractériser le contenu du signal sonore, tout en étant indépendante des caractéristiques telles que le rythme, l'instrument, la dynamique d'un morceau. Pour extraire une telle empreinte audio, on utilise généralement un descripteur audio tonal. En effet, une des caractéristiques qui reste inchangée à travers les différentes versions d'un morceau de musique est la caractéristique tonale.
3032553 3 Pour la suite de la description, un descripteur audio est un signal audio réduit à un nombre limité de dimensions ou une dimension, constitué d'un ensemble de nombres décrivant certaines caractéristiques du signal sonore. Un exemple de descripteur tonal peut être par exemple un descripteur d'accords 5 connu sous le nom de Pitch Class Profile (PCP). Il est représenté par un vecteur comprenant des caractéristiques chroma décrivant l'intensité de chaque demi ton d'une octave pour une fenêtre temporelle donnée dans le signal sonore. Pour générer un PCP, le signal audio est segmenté en une succession de segments temporels de taille fixe. Chaque segment est transformé en spectre par une transformation de Fourier discrète. Les pics d'intensité sont 10 déterminés et associés selon la fréquence du spectre à une case tonale. Un PCP se présente sous la forme d'un vecteur de 12 valeurs qui représente l'intensité relative de chaque demi ton sur une échelle chromatique standard. Ainsi le PCP a l'avantage de classer chaque note dans une case de son vecteur sans tenir compte de l'octave à laquelle est jouée une note. Donc par exemple un Do grave sera classé dans la même case qu'un Do aigu, et leurs 15 énergies seront additionnées. De ce fait, le PCP qui combine les informations chroma et la structure harmonique semble être un descripteur idéal pour représenter la tonalité d'un signal sonore. Un autre descripteur similaire au descripteur PCP est un descripteur HPCP (Harmonic Pitch Class Profile) basé également sur l'association de l'intensité de chaque fréquence à une 20 case d'un vecteur représentant une octave donnée. Un tel descripteur HPCP est par exemple décrit dans le document W02009/001202. Les deux types de descripteur audio PCP ou HPCP permettent de générer une empreinte audio constituée d'une suite de séquences de nombres réels. Une telle empreinte n'est pas optimisée en termes de taille pour le stockage dans une base de données de 25 référence. Selon un autre inconvénient, le fonctionnement, à savoir la vitesse d'exécution du procédé d'identification et le coût du fonctionnement sont étroitement liées à la taille de stockage et donc à la forme de l'empreinte audio. L'efficacité du processus d'identification peut donc être affectée lorsqu'il doit comparer deux empreintes audio de dimension trop 30 importante.
3032553 4 Ainsi un objectif de la présente invention est de remédier aux inconvénients décrits ci-dessus. En particulier, la présente invention propose un procédé de génération d'une empreinte audio réduite qui possède les propriétés suivantes : - elle doit être suffisamment robuste et invariante. C'est-à-dire le signal sonore doit 5 être identifiable, indépendamment des déformations subies par l'élément sonore. En particulier, elle doit pouvoir permettre l'identification du signal sonore, extrait d'une version différente par rapport au morceau d'origine ; - elle doit être suffisamment discriminante pour pouvoir distinguer deux signaux sonores très proches ; 10 - elle doit être suffisamment compacte pour optimiser la vitesse d'exécution et l'espace mémoire nécessaire au stockage des empreintes dans la base des données de référence. Un autre objectif de la présente invention est de proposer un procédé d'identification efficace permettant d'utiliser une telle empreinte audio réduite pour identifier des extraits 15 de musique. A cet effet, la présente invention concerne un procédé de génération d'une empreinte audio réduite à partir d'un signal sonore x(t), comprenant les étapes suivantes : a) subdiviser le signal sonore en une succession de trames ; b) générer un descripteur tonal pour chaque trame de manière à associer à chaque trame un 20 vecteur de nombres réels et de dimension C, C étant un nombre entier multiple de 12; c) normaliser le vecteur ; d) classer par une analyse statistique les vecteurs dans M classes notées Cm, m étant un nombre entier variant de 0 à M, e) réduire chaque vecteur à un entier m, m étant l'indice de la classe Cm auquel appartient le 25 vecteur de sorte que le signal sonore est représenté par une séquence ordonnée de nombres entiers, constituant l'empreinte audio réduite. Selon une caractéristique de l'invention, l'étape a) comprend au moins une étape de subdivision al) dans laquelle le signal sonore x(t) est segmenté en E extraits de durée T1 notés e(i), i variant de 0 à E-1; 30 Selon une autre caractéristique, l'étape a) comprend en outre une étape a3) dans laquelle chaque extrait e(i) est découpé en K bandes de fréquences pour former des trames.
3032553 5 Selon une forme de réalisation de l'invention, le descripteur est un descripteur de type PCP (Pitch Class Profile). Selon une autre forme de réalisation de l'invention, le descripteur est un descripteur de type HPCP (Harmonic Pitch Class Profile).
5 Selon une forme particulièrement avantageuse, le descripteur HPCP généré est un descripteur amélioré dans lequel une partie de l'amplitude de chaque harmonique est attribuée à la fréquence fondamentale lorsque la fréquence fondamentale est présente dans le spectre de la trame associée au descripteur. Un tel descripteur HPCP amélioré permet de réduire le bruit.
10 Selon une caractéristique, la dimension C de chaque vecteur est égale à 36. Selon une forme de réalisation de l'invention, la classification est basée sur un algorithme de K-moyennes. Selon une forme particulièrement avantageuse de l'invention, l'empreinte audio réduite générée se présente sous la forme d'une séquence ordonnée de nombres entiers.
15 La présente invention concerne également un procédé d'identification d'un signal sonore inconnu, caractérisé en ce qu'il comprend les étapes suivantes : a) générer une empreinte audio réduite à partir du signal sonore inconnu selon le procédé décrit ci-dessus ; b) comparer l'empreinte audio réduite du signal sonore inconnu avec les empreintes 20 audio réduites des signaux sonores de référence stockées dans une base de données de référence, l'empreinte audio réduite du signal sonore de référence ayant un score de similarité le plus élevé par rapport à l'empreinte audio réduite du signal sonore inconnu étant l'empreinte audio du signal sonore identifié. Selon une forme de réalisation de l'invention, l'étape b) du procédé d'identification 25 comprend les sous-étapes suivantes : bl) découper l'empreinte audio réduite du signal sonore inconnu en une pluralité de sous-séquences ; b2) déterminer le nombre de sous-séquences communes entre l'empreinte audio réduite du signal sonore inconnu avec chacune des empreintes audio réduites des 30 signaux sonores de référence ; 3032553 6 b3) déterminer l'empreinte audio réduite du signal sonore de référence ayant le nombre de sous-séquences communes le plus grand avec l'empreinte audio réduite du signal sonore inconnu. Selon une forme particulièrement avantageuse de l'invention, le score de similarité est 5 déterminé en comparant toutes les transpositions des nombres constituant l'empreinte audio réduite du signal sonore inconnu avec les empreintes audio réduite de la base de données de référence. La présente invention concerne également un système d'identification d'un signal sonore, caractérisé en ce qu'il comprend des moyens pour la mise en oeuvre du procédé de 10 génération d'une empreinte audio réduite à partir d'un signal sonore défini ci-dessus et des moyens pour la mise en oeuvre du procédé d'identification d'un signal sonore inconnu défini ci-dessus. D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation de l'invention, donnés à titre d'exemples non 15 limitatifs, en référence aux dessins annexés, sur lesquels : - Figure 1A illustre une courbe schématique de variation d'un signal sonore x(t) et une fonction de fenêtrage de durée T1 pour subdiviser le signal sonore en un ensemble d'extraits successifs e(i), i étant l'indice du rang de l'extrait variant de 0 à E-1 ; - Figure 1B illustre un extrait e(i) de rang i qui est subdivisé de nouveau en un 20 ensemble de segments s(i, j), j étant l'indice du rang du segment variant de 0 à S-1 ; - Figure 2 illustre une courbe schématique de variation d'un spectre d'amplitude obtenu après une transformation de Fourrier à court terme (FFT) à partir d'un segment s(i, j) de la figure 1B et une fonction de fenêtrage pour subdiviser chaque segment s(i, j) en K bandes de fréquences, ainsi le signal sonore de la figure 1A est subdivisé en une succession 25 de trames notées T (i, j, k) ; - Figure 3 illustre schématiquement un vecteur de dimension C associé à une trame T (i, j, k) : - Figure 4 illustre l'architecture d'un système d'identification d'un signal sonore selon l'invention, comprenant un module de génération d'empreintes audio réduite à partir des 30 signaux sonores, une base de données dans laquelle sont stockées les empreintes audio des signaux sonores de référence et un module de comparaison entre une empreinte audio réduite d'un signal sonore inconnu et celle d'un signal sonore de référence.
3032553 7 En référence à la figure 1A, le procédé de génération d'empreinte audio réduite selon l'invention est mis en oeuvre sur un signal sonore x(t) référencé 1. Ce signal sonore x(t) correspond par exemple à un signal numérique de musique. Ce signal sonore représente par exemple un morceau complet de musique ou un extrait d'un morceau de musique.
5 Le procédé de génération d'empreinte audio réduite selon l'invention comprend les étapes suivantes : a) subdiviser le signal sonore en une succession de trames; b) générer un descripteur tonal pour chaque segment temporel de manière à associer à chaque trame un vecteur de nombres réels et de dimension C, 10 c) normaliser le vecteur, d) classer par une analyse statistique les vecteurs dans M classes notées Cm, m étant un nombre entier variant de 0 à M, e) réduire chaque vecteur à l'entier m, m étant l'indice de la classe Cm auquel appartient le vecteur de sorte que le signal sonore est représenté par une séquence ordonnée de 15 nombres entiers, constituant l'empreinte audio réduite. Selon une caractéristique importante de l'invention, le procédé de génération d'empreinte audio réduite comprend donc deux étapes d) et e) supplémentaires qui consistent à réduire chaque vecteur obtenu après l'étape c) qui est constitué d'une séquence de nombres réels à un nombre entier seulement. Cette réduction permet d'obtenir une empreinte audio réduite 20 beaucoup plus compacte qu'une empreinte audio conventionnelle tout en étant suffisamment discriminante et robuste. Selon une forme de réalisation de l'invention, l'étape de subdivision (a) comprend au moins une étape de subdivision afin d'obtenir une succession de trames de durée déterminée. Selon une forme de l'invention telle qu'illustrée en référence aux figures 1 à 3, l'étape de 25 subdivision (a) comprend trois sous-étapes notées (al), (a2), (a3) pour subdiviser le signal x(t) en trames successives. En premier lieu, le signal audio est subdivisé en un ensemble de E extraits successifs notés e(i) d'une durée déterminée, par exemple typiquement de 5 secondes. Sur la figure la, l'amplitude d'un signal sonore x(t) référencé en 1 est représentée en fonction du temps t. De 30 manière classique pour procéder à cette subdivision, on applique au signal sonore x(t) une fonction de fenêtrage de durée Ti. Cette fonction est par exemple de type rectangulaire telle qu'illustrée sur la figure lA et référencé en 2, de type dit "de Hamming". Un 3032553 8 échantillonnage du signal sonore est ainsi effectué pour obtenir une succession d'extraits e(i), i désignant le rang de l'extrait et variant de 0 à E-1. Afin de ne pas générer une perte d'information au niveau des transitions de deux fenêtres, les intervalles entre deux fenêtres ne se succèdent pas mais se chevauchent en partie avec un taux de recouvrement compris 5 entre 0 et 99 %, de préférence avec un taux de recouvrement de 50%. Dans une deuxième sous-étape notée (a2), chaque extrait e(i) issu de l'étape al) est subdivisé de nouveau en un ensemble de S segments de durée comprise entre 10 à 500 millisecondes, par exemple typiquement de 20 millisecondes. Un échantillonnage du signal sonore est ainsi effectué pour obtenir une succession de segments s(i, j), i désignant le rang 10 de l'extrait e(i) et j le rang du segment variant entre 0 et S-1. Le taux de recouvrement est compris entre 0 et 99%, de préférence avec un taux de recouvrement de 50%. Dans une troisième sous-étape notée (a3), le signal s(i, j) est filtré par une transformé de Fourier à court terme (FFT) pour obtenir un spectre d'amplitude 4 en fonction de la fréquence tel qu'illustré sur la figure 2. En suivant, le signal est échantillonné dans K bandes 15 de fréquence par une fonction de fenêtrage 5. Ainsi, le signal s(i, j) est subdivisé en une succession de K trames notées T(i, j, k), k variant entre 0 et K-1. L'étape de subdivision (a) est suivie d'une étape (b) consistant à déterminer pour chaque trame T(i, j, k) un descripteur tonal. Selon une forme de réalisation de l'invention, on détermine un descripteur de type 20 PCP (Pitch Class Profile) pour chaque trame T(i, j, k) pour générer un vecteur v(i, s, k) de dimension C représentatif du contenu de la trame. Le calcul d'un descripteur PCP est décrit dans une publication intitulée « Realtime Chord Recognition of Musical Sound : a System Using Common Lisp Music » de Fujishima. Selon une autre forme de réalisation de l'invention, on détermine un descripteur 25 tonal de type HPCP (Harmonic Pitch Class Profil) pour chaque trame T(i, j, k). Pour cela, on calcule la transformée de Fourier à court-terme de la trame considérée pour obtenir un spectre d'amplitude référencé en 6 tel qu'illustré sur la figure 3. Avantageusement, les valeurs réelles d'amplitude du spectre sont cumulées sur une seule octave, en considérant les maxima locaux et leurs harmoniques relatives.
30 Selon une forme de réalisation, l'octave est divisée en un nombre C qui est un multiple de 12. De préférence, le nombre C est pris égal à 36, C correspondant à la dimension du vecteur v(i, j, k) associé à la trame T(i, j, k).
3032553 9 Selon une forme de réalisation particulièrement avantageuse de l'invention, le descripteur tonal déterminé est un descripteur de type HPCP amélioré par rapport au descripteur HPCP décrit ci-dessus. L'étape de détermination du descripteur audio (b) comprend une étape supplémentaire dans laquelle lorsque la fréquence fondamentale est 5 présente dans le spectre de la trame T(i, j, k), une partie de l'amplitude de chaque harmonique est attribuée à celle associée à la fréquence fondamentale, conformément au rapport entre l'amplitude de la fréquence fondamentale et celle de l'harmonique. Cette réattribution des amplitudes est effectuée de façon itérative, des hautes fréquences vers les basses fréquences par exemple. La détermination de la fréquence fondamentale est basée 10 par exemple sur une analyse classique de la structure périodique du spectre d'amplitude. Par exemple, on peut déterminer le plus grand commun diviseur de tous les maxima locaux de l'amplitude du spectre. Pour chaque trame T(i, j, k) est associé un vecteur de nombres réels de dimension C noté v(i, j, k). De manière à rendre v(i, j, k) comparable, chaque vecteur v (i, j, k) est 15 normalisé par rapport à la valeur maximale du vecteur vMax (i, j, k). Ainsi un signal sonore x(t) est caractérisé par (E-1)x(S-1)x(K-1) vecteurs à C dimensions, C étant un multiple de 12. Selon une caractéristique essentielle de l'invention, le procédé comprend en outre une étape de réduction du nombre de composantes de ces vecteurs, c'est-à-dire le nombre 20 de paramètres de façon à obtenir un vecteur ou une empreinte audio de taille réduite en vue de son stockage dans une base de données de référence. De plus lorsqu'il s'agira de comparer l'empreinte audio d'un signal sonore inconnu avec celles de la base de données de référence, le fait de diminuer le nombre de paramètres à comparer permet de réduire le temps de recherche et d'augmenter ainsi l'efficacité du procédé d'identification.
25 Après l'étape de paramétrage du signal sonore (b), chaque trame est représentée par un vecteur dans un espace vectoriel. L'étape (b) est suivie de deux étapes (c) et (d) consistant à classer les vecteurs en fonction de l'information contenue dans le vecteur. L'étape (c) consiste à classer selon une analyse statistique les vecteurs composant chacune des M classes, chacune des classes étant notées Cm, m variant de 1 à M, M étant 30 typiquement de l'ordre de 20. Les vecteurs sont groupés par proximités. Le principe de cette classification est d'attribuer à un vecteur v(i, j, k) la classe Cm du plus proche vecteur selon 3032553 10 un certain critère de distance. Un algorithme classique de classification est par exemple l'algorithme K-moyennes. L'étape (d) consiste à affecter à chaque vecteur un entier m, m étant l'indice de la classe Cm auquel appartient le vecteur.
5 Il résulte des étapes (c) et (d) que l'empreinte audio du signal sonore est réduite et se présente sous la forme d'une séquence ordonnée de nombres entiers. Lorsqu'on souhaite identifier un signal sonore inconnu à partir d'une base de données de référence, on génère une empreinte audio réduite du signal sonore inconnu comme décrit précédemment. Ce signal sonore inconnu peut être un morceau de musique 10 complet ou un extrait de ce morceau de musique. Cet extrait peut être éventuellement modifié, c'est-à-dire issu d'une version de l'ceuvre d'origine. La figure 4 illustre un procédé d'identification mettant en oeuvre un système d'identification d'un signal sonore inconnu 10. Le système d'identification 10 comprend une base de données de référence 14 dans 15 laquelle sont stockées les empreintes audio réduites des signaux sonores de référence. Dans cette base de données 14, chaque signal sonore de référence est associé à un ensemble de métadonnées telles que l'artiste, le nom de l'album, l'année etc. Ce système comprend également un module 12 pour mettre en oeuvre le procédé de génération d'une empreinte audio réduite à partir d'un signal sonore et un module 15 pour mettre en oeuvre le procédé 20 d'identification d'un signal sonore inconnu. On entend par signal sonore de référence un morceau complet de musique. Lorsqu'il s'agit de rentrer dans la base de données de signaux sonores de référence, le module 12 reçoit le signal sonore de référence 13 associé avec les métadonnées à une première interface dédiée 17. Le procédé de génération d'une empreinte audio réduite est 25 alors mis en oeuvre pour générer une empreinte audio réduite qui est ensuite stockée dans la base de données de référence 14. Lorsqu'il s'agit d'identifier un signal sonore inconnu 11, le module 12 reçoit le signal sonore inconnu 11 à une seconde interface dédiée 18. Le procédé de génération d'une empreinte audio réduite est mis en oeuvre pour caractériser ledit signal sonore inconnu par 30 une empreinte audio. En suivant, l'empreinte audio réduite générée est transmise au module 15 pour être identifiée. En sortie du module 15, une réponse 16 est fournie. Cette réponse est négative si le signal sonore inconnu n'est pas identifié, c'est-à-dire l'ceuvre dont 3032553 11 est issu le signal sonore inconnu n'est pas stockée dans la base de données. Si cette réponse est positive, c'est-à-dire le signal inconnu est identifié comme étant un extrait d'une oeuvre stockée dans la base de données, la réponse comporte les métadonnées du signal identifié telles que l'artiste, le nom de l'album etc.
5 Le procédé d'identification d'un signal sonore inconnu consiste à comparer l'empreinte audio réduite de ce signal qui se présente sous la forme d'une séquence ordonnée de nombres entiers avec celles stockées dans la base de données de référence. Pour la suite de la description, une empreinte audio générée réduite à partir d'un signal sonore inconnu est désignée par le terme "empreinte audio réduite inconnue" et une 10 empreinte audio réduite générée à partir d'un signal sonore de référence par le terme "empreinte audio réduite de référence". Selon un premier mode de réalisation de l'invention, le procédé d'identification comprend les étapes suivantes : a) la séquence ordonnée de l'empreinte audio réduite inconnue est découpée en un 15 ensemble de sous-séquences de taille fixe, typiquement de l'ordre de 80 avec un éventuel recouvrement entre deux sous-séquences ; b) pour chaque sous-séquence de l'empreinte audio réduite inconnue, on recense les empreintes audio réduites des signaux sonores de référence qui contiennent cette sous-séquence ; 20 c) on détermine pour chaque empreinte audio réduite de référence le nombre de sous-séquences communes entre la séquence ordonnée représentant le morceau de référence et la séquence ordonnée du signal sonore inconnu ; d) on détermine une liste ordonnée de morceaux de référence présentant des similarités avec le signal sonore inconnu, l'ordre étant établi conformément au nombre de 25 sous-séquences communes ; e) la séquence ordonnée du morceau ayant le plus grand nombre de sous-séquences communes avec la séquence ordonnée du signal sonore inconnu correspond au morceau identifié. Selon un deuxième mode de réalisation de l'invention, le procédé d'identification 30 consiste à déterminer un score de similarité entre la séquence du signal sonore inconnu et chacune des séquences de la base de données de référence par exemple par une mesure de 3032553 12 distance d'alignement. Le morceau de référence présentant le score de similarité le plus fort correspond au morceau identifié. Avantageusement, le calcul du score de similarité peut prendre en compte le fait que deux séquences de nombres sont différentes, mais ont une différence quasi-constante. Par 5 exemple, la séquence comportant les nombres entiers suivants {1 2 3 4 5} est différente de la séquence comportant les nombres {4 5 6 7 8}, mais on peut remarquer qu'il y a une différence constante de 3 entre chacun des nombres constituant les deux séquences. Elles sont donc similaires par transposition. On peut donc estimer les similarités entre deux séquences en considérant toutes les 10 transpositions possibles. Une transposition étant un ajout d'un entier (avec modulo) à tous les éléments d'une séquence, comme dans les deux séquences de l'exemple décrit ci-dessus. Selon une forme particulièrement avantageuse, les deux modes de réalisation peuvent être combinés ensemble, en utilisant par exemple le premier mode de réalisation comme un filtre permettant de trouver un ensemble de morceaux les plus similaires, 15 typiquement de l'ordre de 1000, en suivant le deuxième mode de réalisation est appliqué uniquement sur les 1000 morceaux pour identifier le morceau dont est issu l'extrait de musique inconnu.

Claims (12)

  1. REVENDICATIONS1. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore x(t), comprenant les étapes suivantes : a) découper le signal sonore en une succession de trames ; b) générer un descripteur tonal pour chaque trame de manière à associer à chaque trame un vecteur de nombres réels et de dimension C ; c) normaliser le vecteur ; d) classer par une analyse statistique les vecteurs dans M classes notées Cm, m étant un nombre entier variant de 1 à M, e) affecter à chaque vecteur un entier m, m étant l'indice de la classe Cm auquel appartient le vecteur de sorte que le signal sonore est représenté par une séquence ordonnée de nombres entiers, constituant l'empreinte audio réduite.
  2. 2. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon la revendication 1, caractérisé en ce que l'étape a) comprend au moins une étape al) de segmentation dans laquelle le signal sonore x(t) est segmenté en E extraits notés e(i), i variant de 0 à E-1, E étant un nombre entier.
  3. 3. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon la revendication 2, caractérisé en ce que l'étape a) comprend en outre une étape a3) dans laquelle chaque extrait e(i) est découpé en K bandes de fréquences pour former K trames T (i, k), k variant de 0 à K-1.
  4. 4. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon l'une des revendications précédentes, caractérisé en ce que le descripteur tonal est un descripteur de type PCP (Pitch Class Profile).
  5. 5. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon l'une des revendications 1 à 3, caractérisé en ce que le descripteur tonal est un descripteur de type HPCP (Harmonic Pitch Class Profile).
  6. 6. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon la revendication 5, caractérisé en ce que le descripteur HPCP généré est un descripteur amélioré dans lequel une partie de l'amplitude de chaque harmonique du spectre de la trame est attribuée à la fréquence fondamentale. 3032553 14
  7. 7. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon l'une des revendications précédentes, caractérisé en ce que la dimension C de chaque vecteur est un multiple de 12.
  8. 8. Procédé de génération d'une empreinte audio réduite à partir d'un signal sonore 5 selon l'une des revendications précédentes, caractérisé en ce que l'empreinte audio réduite se présente sous la forme d'une séquence ordonnée d'ensembles de nombres entiers.
  9. 9. Procédé d'identification d'un signal sonore inconnu, caractérisé en ce qu'il comprend les étapes suivantes : a) générer une empreinte audio réduite à partir du signal sonore inconnu selon l'une 10 des revendications 1 à 8 ; b) comparer l'empreinte audio réduite du signal sonore inconnu avec les empreintes audio réduites des signaux de référence stockées dans une base de données de référence et déterminer l'empreinte audio réduite du signal sonore de référence ayant un score de similarité le plus élevé par rapport à l'empreinte audio réduite du 15 signal sonore inconnu.
  10. 10. Procédé d'identification d'un signal sonore inconnu selon la revendication 9, caractérisé en ce que l'étape b) comprend les sous étapes suivantes : bl) découper l'empreinte audio réduite du signal sonore inconnu en une pluralité de sous-séquences ; 20 b2) déterminer le nombre de sous-séquences communes entre l'empreinte audio réduite du signal sonore inconnu avec chacune des empreintes audio réduites des signaux sonores de référence ; b3) déterminer l'empreinte audio réduite du signal sonore de référence ayant le nombre de sous-séquences communes le plus grand avec l'empreinte audio réduite 25 du signal sonore inconnu.
  11. 11. Procédé d'identification d'un signal sonore inconnu selon la revendication 10, caractérisé en ce que le score de similarité est déterminé en comparant toutes les transpositions des nombres constituant l'empreinte audio réduite du signal sonore inconnu avec chacune des empreintes audio des signaux sonores de référence.
  12. 12. Système d'identification d'un signal sonore inconnu, caractérisé en ce qu'il comprend des moyens pour la mise en oeuvre du procédé de génération d'une empreinte audio réduite à partir d'un signal sonore selon l'une des revendications 1 à 8 et des moyens 3032553 15 pour la mise en oeuvre du procédé d'identification d'un signal sonore inconnu selon l'une des revendications 9 à 11.
FR1551062A 2015-02-10 2015-02-10 Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite Active FR3032553B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1551062A FR3032553B1 (fr) 2015-02-10 2015-02-10 Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1551062A FR3032553B1 (fr) 2015-02-10 2015-02-10 Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite

Publications (2)

Publication Number Publication Date
FR3032553A1 true FR3032553A1 (fr) 2016-08-12
FR3032553B1 FR3032553B1 (fr) 2017-03-03

Family

ID=52779934

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1551062A Active FR3032553B1 (fr) 2015-02-10 2015-02-10 Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite

Country Status (1)

Country Link
FR (1) FR3032553B1 (fr)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070291958A1 (en) * 2006-06-15 2007-12-20 Tristan Jehan Creating Music by Listening
US20130139674A1 (en) * 2011-12-02 2013-06-06 Brian Whitman Musical fingerprinting

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070291958A1 (en) * 2006-06-15 2007-12-20 Tristan Jehan Creating Music by Listening
US20130139674A1 (en) * 2011-12-02 2013-06-06 Brian Whitman Musical fingerprinting

Also Published As

Publication number Publication date
FR3032553B1 (fr) 2017-03-03

Similar Documents

Publication Publication Date Title
US9640156B2 (en) Audio matching with supplemental semantic audio recognition and report generation
TWI480855B (zh) 聲音訊號之特徵指紋擷取與匹配
EP2791935B1 (fr) Détection de répétition à faible complexité dans des données multimédia
EP2659481B1 (fr) Détection d'un changement de scène autour d'un ensemble de points de départ dans des données multimédia
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
US9058384B2 (en) System and method for identification of highly-variable vocalizations
CN102486920A (zh) 音频事件检测方法和装置
FR2940498A1 (fr) Procede et systeme pour authentifier un utilisateur et/ou une donnee cryptographique
FR3002713A1 (fr) Generation d'une signature d'un signal audio musical
Kruspe et al. Automatic speech/music discrimination for broadcast signals
FR3032553A1 (fr) Procede de generation d'une empreinte audio reduite a partir d'un signal sonore et procede d'identification d'un signal sonore en utilisant une telle empreinte audio reduite
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
EP2804175A1 (fr) Procédé de reconnaissance vocale visuelle par suivi des déformations locales d'un ensemble de points d'intérêt de la bouche du locuteur
EP2804129A1 (fr) Procédé de reconnaissance vocale visuelle avec sélection de groupes de points d'intérêts les plus pertinents
Ghouti et al. A robust perceptual audio hashing using balanced multiwavelets
EP1459214B1 (fr) Procede de caracterisation d un signal sonore
Kumar et al. Hilbert Spectrum based features for speech/music classification
EP0821345B1 (fr) Procédé d'extraction de la fréquence fondamentale d'un signal de parole
Mishra et al. Bird Call Recognition using Acoustic based Feature Selection approach in Machine Learning
Fuhrmann et al. Detecting solo phrases in music using spectral and pitch-related descriptors
Ghouti et al. A fingerprinting system for musical content
WO2007003505A1 (fr) Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées.
Prosdocimi et al. A study on Equalization Curve Detection in Audio Tape Digitization process using Artificial Intelligence
WO2002082106A1 (fr) Procede et dispositif d'analyse d'un signal audio numerique
WO2012085453A1 (fr) Traitement de donnees sonores pour une separation de sources

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20160812

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10