EP1636789A2 - Procede de traitement d'une sequence sonore, telle qu'un morceau musical - Google Patents

Procede de traitement d'une sequence sonore, telle qu'un morceau musical

Info

Publication number
EP1636789A2
EP1636789A2 EP04767355A EP04767355A EP1636789A2 EP 1636789 A2 EP1636789 A2 EP 1636789A2 EP 04767355 A EP04767355 A EP 04767355A EP 04767355 A EP04767355 A EP 04767355A EP 1636789 A2 EP1636789 A2 EP 1636789A2
Authority
EP
European Patent Office
Prior art keywords
sequence
sub
subsequence
piece
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP04767355A
Other languages
German (de)
English (en)
Inventor
Geoffroy c/o IRCAM PEETERS
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1636789A2 publication Critical patent/EP1636789A2/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Definitions

  • the present invention finds an advantageous application in assisting in the detection of failures of industrial machines or of engines, in particular by obtaining sound recording sequences of acceleration and deceleration phases of the engine speed.
  • the application of the method within the meaning of the invention makes it possible to isolate a sound sub-sequence corresponding for example to a full speed or to an acceleration phase, this sub-sequence being, if necessary, compared to a sub- reference sequence.
  • the segments s ⁇ (t) and ⁇ j (t) are first formed by cutting the audio signal using a time window h L (t), of width L and defined ( of non-zero value) between 0 and L.
  • This window can be of rectangular type, of so-called “hanning” type, of so-called “level hanning” type, or other.
  • a preferred type of time window is obtained by concatenating a rising edge, a landing and a falling edge. The preferred time width of this window is shown below.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

L'invention concerne le traitement d'une séquence sonore, telle qu'un morceau de musique. Après avoir appliqué une transformée spectrale à cette séquence, on détermine, par analyse statistique des coefficients spectraux résultant, au moins une sous-séquence répétée dans la séquence précitée, telle qu'un refrain et/ou un couplet du morceau de musique, et on évalue des instants de début et de fin de cette sous-séquence notamment pour préparer un résumé sonore du morceau de musique.

Description

Procédé de traitement d'une séquence sonore, telle qu'un morceau musical
La présente invention concerne le traitement d'une séquence sonore, telle qu'un morceau de musique ou, de façon plus générale, une séquence sonore comportant la répétition d'une sous-séquence .
Les distributeurs de productions musicales, par exemple enregistrées sur CD, cassette ou autre support, mettent à la disposition des clients potentiels des kiosques où les clients peuvent écouter une musique de leur choix, ou encore des musiques promues en raison de leur nouveauté. Lorsqu'un client reconnaît un couplet ou un refrain du morceau musical qu'il écoute, il peut décider d'acheter la production musicale correspondante.
De façon plus générale, un auditeur d'attention moyenne concentre davantage son attention sur un enchaînement de couplet et refrain, que sur l'introduction du morceau, notamment. On comprendra ainsi qu'un résumé sonore comportant au moins un couplet et un refrain suffirait pour être diffusé dans des kiosques du type précité, plutôt que prévoir la production musicale complète à diffuser.
Dans une autre application telle que la transmission de données sonores par téléphonie mobile, on comprendra que le téléchargement du morceau de musique complet sur un terminal mobile, à partir d'un serveur distant, est beaucoup plus long et, de là, plus onéreux que le téléchargement d'un résumé sonore du type précité.
De même, dans un contexte de commerce électronique, .des résumés sonores peuvent être téléchargés sur .un 'poste communiquant avec un serveur distant, via un réseau étendu du type INTERNET. L'utilisateur du poste informatique peut ainsi passer commande d'une production musicale dont 11 apprécie le résumé sonore.
Toutefois, détecter à l'oreille un couplet et un refrain et créer ainsi un résumé sonore pour toutes les productions musicales distribuées serait une tâche d'une lourdeur prohibitive.
La présente invention vient améliorer la situation.
L'un des buts de la présente invention est de proposer une détection automatisée d'une sous-séquence répétée dans une séquence sonore .
Un autre but de la présente invention est de proposer une création automatisée de résumés sonores du type décrit ci- avant .
A cet effet, la présente invention porte d'abord sur un procédé de traitement d'une séquence sonore, dans lequel : a) on applique une transformée spectrale à ladite séquence pour obtenir des coefficients spectraux variant en fonction du .temps dans ladite séquence. Le procédé au sens de l'invention comporte, en outre les étapes suivantes : b) on détermine, par .analyse statistique desdits coefficients spectraux, au moins' une sous-séquence répétée dans ladite séquence, et ' ' c) on évalue des instants de début et de fin de ladite sous-séquence dans la séquence sonore.
Avantageusement, selon une étape supplémentaire : d) on .extrait la sous-séquence précitée pour stocker, dans une mémoire, des échantillons sonores représentant ladite' sous-séquence. . J
Préférentiellement , l'extraction de l'étape d) concerne au moins une sous-séquence' dont la durée est la plus importante et/ou une sous-séquence dont la fréquence de répétition est la plus importante dans ladite séquence.
La présente invention trouve une application avantageuse dans l'aide à la détection de défaillances de machines industrielles ou de moteurs, notamment en obtenant des séquences d'enregistrement sonore de phases d'accélération et de décélération du régime moteur. L'application du procédé au sens de l'invention permet d'isoler une sous- séquence sonore correspondant par exemple à un plein régime ou à une phase d'accélération, cette sous-séquence étant, le cas échéant, comparée à une sous-séquence de référence .
Dans une aut-re application avantageuse à l'obtention de données musicales du type décrit ci-avant, la séquence sonore précitée est un morceau de musique comportant une succession de sous-séquences parmi au moins une introduction, un couplet, un refrain, un pont de transition, un thème, un motif, ou un mouvement qui se répète dans la séquence .
A l'étape c) , on détermine préférentiellement au moins les instants respectifs de début et de fin d'une première sous-séquence et d'une seconde sous-séquence .
Dans une réalisation particulièrement avantageuse, à l'étape d) , on extrait alors une première et ' une seconde sous-séquence pour obtenir, sur un support mémoire, un résumé sonore dudit morceau de musique comportant au moins la première sous-séquence enchaînée avec la seconde sous- séquence .
Préférentiellement, la première sous-séquence correspond à un couplet et la seconde sous-séquence correspond à un refrain.
Toutefois, il peut advenir que des première et seconde sous-séquences, extraites d'une séquence sonore, ne soient pas contiguës dans le temps .
A cet effet, on prévoit en outre les étapes suivantes : dl) détecter au moins une cadence de la première sous- séquence et/ou de la seconde sous-séquence pour estimer la durée moyenne d'une mesure à ladite cadence, ainsi qu'au moins un segment de fin de la première sous-séquence et au moins un segment de début de la seconde sous-séquence, de durées respectives correspondant sensiblement à ladite durée .moyenne et isolés dans '"la séquence .d'un nombre entier de durées moyennes, d2) . générer au moins une .mesure' de transition de durée correspondant à ladite durée" moyenne et comportant une addition des échantillons sonores '&' au moins ledit segment de fin et d'au moins ledit segment de début, d3) et concaténer la première ' sous-séquence, la ou les mesures de transition et la seconde sous-séquence pour obtenir l'enchaînement de la première et de la seconde sous-séquence.
On constatera que la succession des étapes dl) à d3) trouve, au-delà de la génération automatique de résumés sonores, une application avantageuse à la création musicale assistée par ordinateur. Dans cette application, un utilisateur peut créer lui-même deux sous-séquences d'un morceau musical, tandis qu'un logiciel comportant des instructions pour dérouler les étapes dl) à d3) assure un enchaînement des deux sous-séquences par concaténation, sans artefact et agréable à l'oreille.
De façon plus générale, la présente invention vise aussi un produit programme d'ordinateur, stocké dans une mémoire d'ordinateur ou sur un support amovible propre à coopérer avec un lecteur homologue d'ordinateur, et comportant des instructions pour dérouler les étapes du procédé au sens de 1 ' invention.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci- après, et des dessins annexés sur lesquels : - la figure la représente un signal audio d'un morceau de musique correspondant, dans l'exemple représenté, à une chanson de variété ; - la figure lb représente la variation d'énergie spectrale en fonction du temps,- pour le morceau de musique dont le signal audio est représenté sur la figure la ; - la figure le illustre les durées occupées par les différents passages du morceau de musique de la figure la et qui se répètent dans ce morceau ; - la figure 2 représente schématiquement des fenêtres temporelles sélectionnées dans deux parties respectives du morceau musical pour préparer la concaténation de ces deux parties, selon la succession des étapes dl) à d3) ci-avant ,- - la figure 3a représente schématiquement des segments Si(t) et Sj (t) sélectionnés dans les parties respectives du morceau précitées, pour préparer une concaténation des deux parties par super- position/addition ; - la figure 3b illustre schématiquement par le signe "Θ" la superposition/addition précitée ; - la figure 4 illustre une fenêtre temporelle pour la concaténation précitée, de forme et de largeur préférées ; et - la figure 5 représente un organigramme de traitement d'une séquence sonore, dans un mode de réalisation préféré de la présente invention.
Le signal audio de la figure la représente 1 ' intensité sonore (en ordonnées) en fonction du temps (en abscisses) d'un morceau musical (ici, le morceau "head over feet "® de l'artiste Alanis Morissette) . Pour construire .ce signal audio, les signaux respectifs des voies droite et gauche (en mode stéréophonique) ont été synchronisés . et additionnés.
Au signal audio représenté sur la figure la, on applique une transformée spectrale (par exemple de type transformée de Fourier rapide FFT) pour obtenir une variation temporelle de 1 ' énergie spectrale du type représenté sur la figure lb.
Dans un mode de réalisation, il s'agit d'une pluralité de FFT à court terme, successives, dont le résultat . est appliqué à un banc de filtres sur plusieurs gammes de fréquences (préférentiellement de largeurs de bande croissantes comme le logarithmique de la fréquence) . Une autre transformée de Fourier est ensuite appliquée pour obtenir des paramètres dynamiques du signal audio (référencés PD sur la figure lb) . En particulier, l'échelle en ordonnées de la figure lb indique l'amplitude des variations des composantes à différentes vitesses dans un domaine de fréquences donné. Ainsi, l'indice 0 ou 2 de l'échelle arbitraire en ordonnées de la figure lb correspond à une variation lente dans les basses fréquences, tandis que l'indice 12 de cette même échelle correspond à une variation rapide dans les hautes fréquences. Ces variations sont exprimées en fonction du temps, en abscisses (secondes) . Les intensités associées à ces paramètres dynamiques PD, au cours du temps, sont illustrées par différents niveaux de gris dont les valeurs relatives" sont indiquées par là" colonne de référence COL (à droite de la figure lb) . •
On indique que les paramètres dynamiques du type représenté sur la figure b permettent d'identifier complètement un morceau de musique. Dans ce contexte d ' " empreinte" d'un morceau de musique, la demande FR- 2834363 de la Demanderesse décrit de façon détaillée ces paramètres1 et la manière de les Obtenir.
En variante, les variables déduites du signal audio et' permettant de caractériser le. morceau de musique peuvent être 'de type différent, notamment des coefficients dits "Mel Frequency Cepstral Coefficients " . Globalement, on indique que ces coefficients (connus en soi) sont encore obtenus par transformée de Fourier rapide, à court terme.
La figure le offre une représentation visuelle de l'évolution de l'énergie spectrale de la figure lb. Sur la figure le, l'abscisse représente le temps (en secondes) et les ordonnées représentent les différentes parties du morceau, tels que les couplets, les refrains, l'introduction, un thème, ou autres. La répétition au cours du temps d'une partie similaire, tel qu'un couplet ou un refrain, est représentée par des rectangles grisés qui apparaissent à différentes abscisses dans le temps (et qui peuvent être de largeurs temporelles différentes) , mais de même ordonnées. Pour passer de la représentation de la figure lb à la représentation de la figure le, on met en œuvre une analyse statistique en utilisant par exemple l'algorithme des "K-means " , ou encore l'algorithme "FUZZY K-means " , ou encore une chaîne de Markov cachée, avec un apprentissage par l'algorithme BAUM- ELSH, suivi d'une évaluation par l'algorithme de VITERBI .
Typiquement, la détermination du nombre d'états' (les parties du morceau de musique) qui sont nécessaires à la représentation d'un morceau de musique s'effectue de façon automatisée, par comparaison de la similarité des états trouvés à chaque itération des algorithmes précités, et en éliminant les états redondants. Cette technique, dite de "pruning" permet ainsi d'isoler chaque partie redondante du morceau de musique et de déterminer ses coordonnées temporelles (ses instants de début et de fin, comme indiqué ci-avant) .
Ainsi, on étudie les variations, par exemple dans les fréquences tonales (d'une voix humaine), de l'énergie spectrale pour déterminer la répétition d'un passage musical particulier dans le signal audio.
Préférentiellement , on cherche à extraire un ou plusieurs passages musicaux dont la durée est la plus importante dans le morceau de musique et/ou dont la fréquence de répétition est la plus importante.
Par exemple, pour la plupart des morceaux de variété, on pourra choisir d'isoler les parties de refrain, dont la répétition est généralement la plus fréquente, puis les parties de couplet, dont la répétition est fréquente, puis, le cas échéant, d'autres parties encore si elles se répètent . On indique que d'autres . types de sous-séquences représentatives du morceau de musique peuvent être extraites,, dès lors que ces " sous-séquences se répètent dans- le morceau de musique. Par , exemple, on peut choisir d'extraire un motif musical', généralement de plus courte durée, qu'un couplet ou un refrain, tel qu'un passage . de percussions répété dans le morceau de musique, ou encore une phrase' vocale scandée plusieurs fois dans le morceau. En outre, un thème peut aussi ' être extrait du morceau de musique, par exemple une phrase musicale répétée dans un' morceau de jazz ou de musique classique. En musique classique, un . passage tel qu'un mouvement peut en outre être extrait .
Sur le résumé visuel représenté à titre d'exemple sur la figure le, les rectangles grisés indiquent la présence d'une partie du morceau telle que l'introduction ("intro"), d'un couplet ou d'un refrain dans une fenêtre temporelle indiquée par l'abscisse temporelle (en secondes) . Ainsi, entre 0 et environ 15 secondes, le morceau de musique démarre par une introduction (indexée par le chiffre 2 sur l'échelle en ordonnées) . L'introduction est suivie de deux alternances de couplet (indexé par le chiffre 3) et de refrain (indexé par le chiffre 1) jusqu'à environ 100 secondes.
On se réfère maintenant à la figure 5 pour décrire les étapes principales du procédé pour obtenir le résumé sonore précité, selon un mode de réalisation préféré. Tout d'abord, on obtient les signaux audio sur la voie gauche "audio L " et sur la voie droite "audio R" aux étapes respectives 10 et 11, lorsque la séquence sonore initiale est représentée en mode stéréophonique. Les signaux de ces deux voies sont additionnés à l'étape 12 pour obtenir, un signal audio du type représenté sur la figure là. Ce signal audio est, le cas échéant, stocké sous forme échantillonnée dans une mémoire de travail avec des valeurs d'intensité sonores rangées en fonction de leurs coordonnées temporelles associées (étape 14) . A ces données audio, on applique une transformée spectrale (de type FFT dans l'exemple représenté), à l'étape 1.6, pour obtenir, à l'étape 18, les coefficients spectraux Fi(t) et/ou leur variation ΔFi(t) en fonction du temps. A l'étape 20, un module d'analyse statistique opère sur la base des coefficients obtenus à l'étape 18 pour isoler des instants t0, t-,., ..., t7 qui correspondent à des instants de début et de fin des différentes sous-séquences qui se répètent dans le signal audio de l'étape 14.
Dans l'exemple représenté, le morceau de musique présente une structure (classique en variété) du type comportant : - une introduction dans le début du morceau entre un instant t0 et un instant t1# - un couplet entre tj et t2, - un refrain entre t2 et t3, - un second couplet entre t3 et t4, - un second refrain entre t4 et ts, - une introduction, à nouveau, le cas échéant agrémentée d'un solo instrumental, entre les instants t5 et t6, et - la répétition de deux ' refrains de fin. de morceau entre les instants t6 et t7.
A l'étape 22, les instants tp '-à t7 sont répertoriés et indexés en fonction du •' paësagé' • musical correspondant (introduction, couplet ou .refrain) et stockés, le cas échéant, dans une mémoire de travail. A l'étape '23, , on peut construire alors un résumé visuel de ce morceau de musique, tel que représenté sur 'la' figure 5.
Dans l'exemple décrit ci-avant d'un morceau de variété' comportant une structure typique, on construit le résumé sonore à partir d'un couplet extrait du morceau, suivi d'un refrain extrait du morceau. A l'étape 24, on prépare une concaténation des échantillons sonores du signal audio entre les instants ti et t2, d'.une part, et entre les instants t2 et t3, d'autre part, dans l'exemple décrit. Le cas échéant, le résultat de cette concaténation est mémorisé dans une mémoire permanente MEM pour une utilisation ultérieure, à l'étape 26.
Toutefois, en règle générale, l'instant de fin d'un couplet isolé et l'instant de début d'un refrain isolé ne sont pas forcément identiques, ou encore, on peut choisir de construire le résumé sonore à partir du premier couplet et du second refrain (entre t4 et t5) ou du refrain de fin
(entre t6 et t7) . Ainsi, les deux passages sélectionnés pour construire le résumé sonore ne sont pas forcément contigus . Une concaténation aveugle de signaux sonores, correspondant à deux parties d'un morceau de musique donne un ressenti désagréable à l'oreille. On .décret ci-après, en référence aux figures 2, 3a, 3b et 4, 'la construction, d'un signal sonore par- concaténation de' deu 'parties d'un morceau de musique, de manière à surmonter ce problème..
L'un des buts de cette construction par concaténation est de préserver localement le tempo du signal sonore .
Un autre but est d'assurer une distance temporelle entre points de concaténation (ou points d' " alignement" ) égale à un multiple entier de la durée d'une mesure.
Préférentiellement , cette concaténation s'effectue par superposition/addition de segments sonores choisis et isolés des deux parties respectives précitées du morceau de musique.
On décrit ci-après une superposition/addition de tels segments sonores, dans un premier temps par synchronisation de beat (dite "beat -synchrone") , puis par synchronisation de mesure selon une réalisation préférée .
On note ci-après : - bpm, le nombre de beats par minute d'un morceau de musique, D, la référence de ce nombre bpm (par exemple dans le cas d'un morceau noté " 120=noire" , bpm=120 et D=noire) , - T, la durée (exprimée en secondes) d'un beat, c'est- à-dire de la référence D : dans l'exemple, précédent où D≈noire, on a r= 60 bpm - N, le numérateur de la métrique du morceau de musique (par exemple, dans le cas d'une mesure notée "3/4", N=3) , M, la durée (exprimée en secondes) d'une mesure, donnée par la relation M≈N.T (soit M=3*60/l20 dans l'exemple précédent), s(t) , le signal audio d'un morceau de musique, s(t) , le signal reconstruit par superposition/addition, et - sι(t) et Sj (t) , les ieme et jeme segments qui comportent des signaux audio respectifs appartenant à un premier et' à un second passage d'un morceau de musique, et qui sont utilisés pour la construction de s(t) par superposition/addition.
En principe, les premier et second passages précités ne sont pas contigus. s(t) est alors obtenu comme suit.
En se référant à la figure 2, les segments sι(t) et Ξj (t) sont d'abord formés par découpage du signal audio à l'aide d'une fenêtre temporelle hL(t), de largeur L et définie (de valeur non nulle) entre 0 et L. Cette fenêtre peut être de type rectangulaire, de type dit "de hanning" , de type dit "de hanning en palier" , ou autre. En se référant à la figure 4, un type préféré de fenêtre temporelle est obtenu par concaténation d'un flanc montant, d'un pallier et d'un flanc descendant. La largeur temporelle préférée de cette fenêtre est indiquée ci-après.
On définit alors le premier segment : si (t) de sorte que :
où mi est l'instant de début".du premier segment.
Comme le montre la figure | 3a, on construit S (t) sensiblement de la même manière : ' Sj(t) = s(t + mj).hL(t) [Ibis] où mj est -L'instant de début du second segment.
Même si la durée L de la fenêtre temporelle est la même pour les deux segments, op. indique toutefois que la forme de la fenêtre peut être • différente d'un segment Sι(t) à l'autre sj (t) , comme le montre d'ailleurs la figure 2.
Soit bi et bj deux positions respectives à l'intérieur des premier et second segments, appelées "posi tions de synchronisation" , par rapport auxquelles s'effectue la superposition/addition, telles que : 0 ≤ bi ≤ L et 0 ≤ bj ≤ L [2]
Avantageusement, la distance temporelle entre bi et bj est choisie égale à un multiple entier de la durée T d'un beat (bj - bi = kT) . Dans ces conditions, on dit qu'il y a reconstruction "beat -synchrone" si J( = ∑ ('- '-1)'(*' + C) [4] 1 avec s ' i (t) = Si (t+bi) [5] et où k' est le plus grand entier tel que k' T ≤ L- (bi -mi) , c est une constante de temps telle que c ≈ -bi-mi.. Avantageusement, la distance entre les instants mi et πij est choisie égale à un multiple entier de k'NT, dans lequel N désigne le numérateur de la métrique.
Ainsi, le signal reconstruit s'écrit : S(t) = ∑st'(t-(i-l)-(k'NT) + c) i
On obtient alors une superposition/addition synchrone à la mesure. La figure 3b illustre cette situation. On remarque sur la figure 4 que la largeur L de la fenêtre temporelle précitée est voisine de k'NT (aux flancs montant et descendant près) . Toutefois, on choisira préférentiellement dans ce cas des rampes de flancs telles que k' T ≤ L-2 (bχ -πii)..
Plus particulièrement, on choisit les instants mi et mj de sorte qu'ils correspondent à des premiers temps de mesures. Dans ces conditions, on obtient avantageusement une superposition/addition beat-synchrone dite " alignée" .
Ainsi, en déterminant en outre la métrique du premier passage et/ou du second passage, on peut effectuer une reconstruction beat-synchrone à la mesure. Si, de plus, on choisit les premier et second segments de sorte qu'ils commencent par un premier temps de mesure, cette reconstruction beat-synchrone est alignée. On indique qu'une reconstruction du signal s(t) peut être menée sur la base de plus' de deux passages musicaux à concaténer. Pour i passages musicaux (i>2) , la généralisation du procédé ci-avant s'exprime par la relation : s(t) = s1'(t + c) + s2'(t-ki ,T + c) + s3 t -k1'T + k2'T + c) + ...
Chaque entier kj ' est défini comme l'entier le plus grand t tel que kj"' T ≤ Lj - (bj -πij) , où Lj correspond à la largeur de la fenêtre du jème passage musical à concaténer.
On indique que les premie s temps de mesure, ou encore la métrique, ou encore le tempo d'un morceau de musique, peuvent être détectés automatiquement, par exemple en utilisant des applications logicielles existantes. Par exemple, la norme MPEG-7 (Audio Version 2) prévoit la détermination et la description du tempo et de la métrique d'un morceau de musique, en utilisant de telles applications logicielles.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.
Ainsi, on comprendra que le résumé sonore peut comporter plus de deux passages musicaux, par exemple une introduction, un couplet et un refrain, ou encore deux passages différents d'un couplet et d'un refrain, tels que l'introduction et un refrain, par exemple.
On remarquera aussi que les étapes représentées sous forme d'organigramme sur la figure 5 peuvent être implémèntées par un logiciel informatique dont l'algorithme reprend globalement la structure de l'organigramme. A ce titre, la présente invention vise aussi un tel programme informatique.

Claims

Revendications
1. Procédé de traitement d'une .séquence sonore, dans lequel : a) on applique une transformée spectrale à ladite séquence pour obtenir des coefficients spectraux variant en fonction du temps dans ladite séquence, caractérisé en ce qu'il, comporte en outre les étapes suivantes : b) on détermine, par analyse statistique desdits coefficients spectraux, au moins une sous-séquence. répétée dans ladite séquence, et c) on évalue des instants de début et de fin de ladite sous-séquence dans la séquence sonore.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape : d) d'extraction de la sous-séquence pour stocker, dans une mémoire, des échantillons sonores représentant ladite sous-séquence.
3. Procédé selon la revendication 2, caractérisé en ce que l'extraction de l'étape d) concerne au moins une sous- séquence dont la durée est la plus importante et/ou une sous-séquence dont la fréquence de répétition est la plus importante dans ladite séquence.
4. Procédé selon l'une des revendications 1 à 3, dans lequel la séquence sonore est un morceau de musique comportant une succession de sous-séquences parmi au moins une introduction, un couplet, -un refrain, un pont de transition, un thème, un motif., un mouvement, caractérisé en ce que, à, l'étape c) , on détermine au moins les instants respectifs de début et de fin d'une première sous-séquence et d'une seconde sous-séquence .
5. Procédé selon la revendication '4 , prise en combinaison avec la revendication 3, caractérisé en ce que la première sous-séquence correspond à un couplet et la seconde sous- séquence correspond à un refrain.
6. Procédé selon l'une des revendications 4 et 5, prises en combinaison, avec la revendication 2, caractérisé en ce que, à l'étape d) , on extrait une première et une seconde sous-séquence pour obtenir, sur un support mémoire, un résumé sonore dudit morceau de musique comportant au moins la première sous-séquence enchaînée avec la seconde sous- séquence .
7. Procédé selon la revendication 6, dans lequel les extraits des sous-séquences sont non contigus dans le temps, caractérisé en ce qu'il comporte en outre les étapes suivantes : dl) détecter au moins une cadence de la première sous- séquence et/ou de la seconde sous-séquence pour estimer la durée moyenne d'une mesure à ladite cadence, ainsi qu'au moins un segment de fin de la première sous-séquence et au moins un segment de début de la seconde sous-séquence, de durées respectives correspondant sensiblement à ladite durée moyenne et isolés dans la séquence d'un nombre entier de durées moyennes, d2.) générer au moins une mesure de transition de durée correspondant à ladite durée moyenne et comportant une addition des échantillons sonores d'au moins ledit segment de fin et d'au moins ledit segment de début, d3) et concaténer la première sous-séquence, la où les mesures de transition et la seconde sous-séquence pour obtenir un enchaînement de la première et de la seconde sous-séquence .
8. Procédé selon la revendication 7, caractérisé en ce que l'étape dl) comporte un découpage en au 'moins deux fenêtres, de type rectangulaire, de type de Hanning, de type de Hanning en palier, ou préférentiellement de type comportant un flanc montant, un pallier et un flanc descendant dans le temps .
9. Procédé selon l'une des revendications 7 et 8, caractérisé en ce que l'étape d2) comporte une reconstruction beat-synchrone.
10. Procédé selon la revendication 9, caractérisé en ce que, à l'étape dl) , on détermine en outre la métrique de la première sous-séquence et/ou de la seconde sous- séquence, et en ce que l'étape d2) comporte une reconstruction beat-synchrone à la mesure.
11. Procédé selon l'une des revendications 9 et 10, caractérisé en ce que, à l'étape dl) , on détermine lesdits segments de fin et de début de sorte qu'ils commencent par un premier temps de mesure, et en ce que l'étape d2) comporte une reconstruction beat-synchrone alignée. 05/004002
22
12. Produit programme -d'ordinateur, stocké dans une mémoire d'ordinateur ou sur . un s'upport amovible propre à coopérer avec un lecteur d'ordinateur, caractérisé en ce qu'il comporte - des instructions pour dérouler les étapes du procédé selon l'une des revendications précédentes.
O 2005 0 1/3
Alanis Morissette "Head Over Feet"
55.12 105.12 155.12 205.12 255.12 TEMPS (SECONDES)
FIG. 2 2/3
k'NT
FIG.4
ε/ε ε6noo/oozîi-ι/i3<ι zootoo/soo∑: OΛV
EP04767355A 2003-06-25 2004-06-16 Procede de traitement d'une sequence sonore, telle qu'un morceau musical Withdrawn EP1636789A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0307667A FR2856817A1 (fr) 2003-06-25 2003-06-25 Procede de traitement d'une sequence sonore, telle qu'un morceau musical
PCT/FR2004/001493 WO2005004002A2 (fr) 2003-06-25 2004-06-16 Procede de traitement d’une sequence sonore, telle qu’un morceau musical

Publications (1)

Publication Number Publication Date
EP1636789A2 true EP1636789A2 (fr) 2006-03-22

Family

ID=33515393

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04767355A Withdrawn EP1636789A2 (fr) 2003-06-25 2004-06-16 Procede de traitement d'une sequence sonore, telle qu'un morceau musical

Country Status (5)

Country Link
US (1) US20060288849A1 (fr)
EP (1) EP1636789A2 (fr)
JP (1) JP2007520727A (fr)
FR (1) FR2856817A1 (fr)
WO (1) WO2005004002A2 (fr)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7521623B2 (en) 2004-11-24 2009-04-21 Apple Inc. Music synchronization arrangement
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
US7826911B1 (en) * 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US7668610B1 (en) 2005-11-30 2010-02-23 Google Inc. Deconstructing electronic media stream into human recognizable portions
CN101438342A (zh) * 2006-05-08 2009-05-20 皇家飞利浦电子股份有限公司 用于对准歌曲与它的歌词的方法和电子设备
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US8084677B2 (en) * 2007-12-31 2011-12-27 Orpheus Media Research, Llc System and method for adaptive melodic segmentation and motivic identification
EP2096626A1 (fr) 2008-02-29 2009-09-02 Sony Corporation Procédé de visualisation de données audio
CN102754159B (zh) * 2009-10-19 2016-08-24 杜比国际公司 指示音频对象的部分的元数据时间标记信息
CN102541965B (zh) 2010-12-30 2015-05-20 国际商业机器公司 自动获得音乐文件中的特征片断的方法和系统
FR3028086B1 (fr) * 2014-11-04 2019-06-14 Universite de Bordeaux Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
US9691429B2 (en) * 2015-05-11 2017-06-27 Mibblio, Inc. Systems and methods for creating music videos synchronized with an audio track
US10681408B2 (en) 2015-05-11 2020-06-09 David Leiberman Systems and methods for creating composite videos

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633749A (en) * 1984-01-12 1987-01-06 Nippon Gakki Seizo Kabushiki Kaisha Tone signal generation device for an electronic musical instrument
JPS61204693A (ja) * 1985-03-08 1986-09-10 カシオ計算機株式会社 自動演奏装置を備えた電子楽器
US4926737A (en) * 1987-04-08 1990-05-22 Casio Computer Co., Ltd. Automatic composer using input motif information
US6316712B1 (en) * 1999-01-25 2001-11-13 Creative Technology Ltd. Method and apparatus for tempo and downbeat detection and alteration of rhythm in a musical segment
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method
US20070163425A1 (en) * 2000-03-13 2007-07-19 Tsui Chi-Ying Melody retrieval system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005004002A3 *

Also Published As

Publication number Publication date
WO2005004002A3 (fr) 2005-03-24
JP2007520727A (ja) 2007-07-26
US20060288849A1 (en) 2006-12-28
WO2005004002A2 (fr) 2005-01-13
FR2856817A1 (fr) 2004-12-31

Similar Documents

Publication Publication Date Title
EP1636789A2 (fr) Procede de traitement d&#39;une sequence sonore, telle qu&#39;un morceau musical
US6910035B2 (en) System and methods for providing automatic classification of media entities according to consonance properties
US8082279B2 (en) System and methods for providing adaptive media property classification
CA2563420C (fr) Procede de recherche de contenu, notamment d&#39;extraits communs entre deux fichiers informatiques
US20040060426A1 (en) System and methods for providing automatic classification of media entities according to tempo properties
US20030045953A1 (en) System and methods for providing automatic classification of media entities according to sonic properties
LU88189A1 (fr) Procédés de codage de segments de parole et de controlôle de hauteur de son pour des synthèse de la parole
JP2002014691A (ja) ソース音声信号内の新規点の識別方法
CA2909401C (fr) Correction de perte de trame par injection de bruit pondere
EP1970894A1 (fr) Procédé et dispositif de modification d&#39;un signal audio
KR20080066007A (ko) 재생용 오디오 프로세싱 방법 및 장치
EP2396711A2 (fr) Dispositif et procede d&#39;interpretation de gestes musicaux
FR2911426A1 (fr) Modification d&#39;un signal de parole
EP3040989A1 (fr) Procédé de séparation amélioré et produit programme d&#39;ordinateur
FR2827069A1 (fr) Dispositifs et procede de production de musique en fonction de parametres physiologiques
FR3013885A1 (fr) Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
WO2012143659A1 (fr) Procede d&#39;analyse et de synthese de bruit de moteur, son utilisation et systeme associe
WO2022129104A1 (fr) Procédé et système de synchronisation automatique d&#39;un contenu vidéo et d&#39;un contenu audio
FR3028086B1 (fr) Procede de recherche automatise d&#39;au moins une sous-sequence sonore representative au sein d&#39;une bande sonore
WO2002097793A1 (fr) Procede d&#39;extraction de la frequence fondamentale d&#39;un signal sonore
EP1605440A1 (fr) Procédé de séparation de signaux sources à partir d&#39;un signal issu du mélange
Schweitzer Lully et la prosodie française à la fin du XVIIe siècle
WO2023111480A1 (fr) Dispositif de modification d&#39;echelle temporelle d&#39;un signal audio
EP0422158A1 (fr) Procede et dispositif d&#39;extraction d&#39;estimateurs des caracteres d&#39;un ecoulement instationnaire a partir d&#39;un signal doppler a valeurs complexes
Dupetit Le groove, un outil afro-futuriste? Funkentelechy et la figure de l’androïde dans la composition musicale de Parliament/Funkadelic

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20051208

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20061017

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20070428