EP1636789A2 - Method for processing an audio sequence for example a piece of music - Google Patents

Method for processing an audio sequence for example a piece of music

Info

Publication number
EP1636789A2
EP1636789A2 EP04767355A EP04767355A EP1636789A2 EP 1636789 A2 EP1636789 A2 EP 1636789A2 EP 04767355 A EP04767355 A EP 04767355A EP 04767355 A EP04767355 A EP 04767355A EP 1636789 A2 EP1636789 A2 EP 1636789A2
Authority
EP
European Patent Office
Prior art keywords
sequence
sub
subsequence
piece
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP04767355A
Other languages
German (de)
French (fr)
Inventor
Geoffroy c/o IRCAM PEETERS
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1636789A2 publication Critical patent/EP1636789A2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Definitions

  • the present invention finds an advantageous application in assisting in the detection of failures of industrial machines or of engines, in particular by obtaining sound recording sequences of acceleration and deceleration phases of the engine speed.
  • the application of the method within the meaning of the invention makes it possible to isolate a sound sub-sequence corresponding for example to a full speed or to an acceleration phase, this sub-sequence being, if necessary, compared to a sub- reference sequence.
  • the segments s ⁇ (t) and ⁇ j (t) are first formed by cutting the audio signal using a time window h L (t), of width L and defined ( of non-zero value) between 0 and L.
  • This window can be of rectangular type, of so-called “hanning” type, of so-called “level hanning” type, or other.
  • a preferred type of time window is obtained by concatenating a rising edge, a landing and a falling edge. The preferred time width of this window is shown below.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

The invention relates to the processing of an audio sequence, for example, a piece of music. After application of a spectral transformation to said sequence, at least one repeated sub-sequence in said sequence is determined by statistical analysis of the resulting spectral coefficients such as a refrain and/or a verse of a piece of music and the start and finish times of said sub-sequence are determined, in particular, for the preparation of an audio résumé of the piece of music.

Description

Procédé de traitement d'une séquence sonore, telle qu'un morceau musicalMethod for processing a sound sequence, such as a musical piece
La présente invention concerne le traitement d'une séquence sonore, telle qu'un morceau de musique ou, de façon plus générale, une séquence sonore comportant la répétition d'une sous-séquence .The present invention relates to the processing of a sound sequence, such as a piece of music or, more generally, a sound sequence comprising the repetition of a sub-sequence.
Les distributeurs de productions musicales, par exemple enregistrées sur CD, cassette ou autre support, mettent à la disposition des clients potentiels des kiosques où les clients peuvent écouter une musique de leur choix, ou encore des musiques promues en raison de leur nouveauté. Lorsqu'un client reconnaît un couplet ou un refrain du morceau musical qu'il écoute, il peut décider d'acheter la production musicale correspondante.The distributors of musical productions, for example recorded on CD, cassette or other medium, make available to potential customers kiosks where customers can listen to music of their choice, or even music promoted because of their novelty. When a customer recognizes a verse or a chorus of the musical piece he is listening to, he can decide to buy the corresponding musical production.
De façon plus générale, un auditeur d'attention moyenne concentre davantage son attention sur un enchaînement de couplet et refrain, que sur l'introduction du morceau, notamment. On comprendra ainsi qu'un résumé sonore comportant au moins un couplet et un refrain suffirait pour être diffusé dans des kiosques du type précité, plutôt que prévoir la production musicale complète à diffuser.More generally, a listener of average attention concentrates more his attention on a sequence of verse and chorus, than on the introduction of the piece, in particular. It will thus be understood that an audio summary comprising at least one verse and a chorus would be sufficient to be broadcast in kiosks of the aforementioned type, rather than providing for the complete musical production to be broadcast.
Dans une autre application telle que la transmission de données sonores par téléphonie mobile, on comprendra que le téléchargement du morceau de musique complet sur un terminal mobile, à partir d'un serveur distant, est beaucoup plus long et, de là, plus onéreux que le téléchargement d'un résumé sonore du type précité.In another application such as the transmission of sound data by mobile telephone, it will be understood that downloading the complete piece of music to a mobile terminal, from a remote server, is much longer and, therefore, more expensive than downloading a sound summary of the aforementioned type.
De même, dans un contexte de commerce électronique, .des résumés sonores peuvent être téléchargés sur .un 'poste communiquant avec un serveur distant, via un réseau étendu du type INTERNET. L'utilisateur du poste informatique peut ainsi passer commande d'une production musicale dont 11 apprécie le résumé sonore.Similarly, in the context of e-commerce, .Des sound summaries can be downloaded .a 'station communicating with a remote server via an extensive network of the Internet type. The user of the computer station can thus order a musical production, 11 of which appreciates the sound summary.
Toutefois, détecter à l'oreille un couplet et un refrain et créer ainsi un résumé sonore pour toutes les productions musicales distribuées serait une tâche d'une lourdeur prohibitive.However, detecting a verse and a chorus by ear and thus creating a sound summary for all the musical productions distributed would be a task of prohibitive heaviness.
La présente invention vient améliorer la situation.The present invention improves the situation.
L'un des buts de la présente invention est de proposer une détection automatisée d'une sous-séquence répétée dans une séquence sonore .One of the aims of the present invention is to propose an automated detection of a repeated subsequence in a sound sequence.
Un autre but de la présente invention est de proposer une création automatisée de résumés sonores du type décrit ci- avant .Another object of the present invention is to propose an automated creation of sound summaries of the type described above.
A cet effet, la présente invention porte d'abord sur un procédé de traitement d'une séquence sonore, dans lequel : a) on applique une transformée spectrale à ladite séquence pour obtenir des coefficients spectraux variant en fonction du .temps dans ladite séquence. Le procédé au sens de l'invention comporte, en outre les étapes suivantes : b) on détermine, par .analyse statistique desdits coefficients spectraux, au moins' une sous-séquence répétée dans ladite séquence, et ' ' c) on évalue des instants de début et de fin de ladite sous-séquence dans la séquence sonore.To this end, the present invention relates firstly to a method of processing a sound sequence, in which: a) a spectral transform is applied to said sequence in order to obtain spectral coefficients varying as a function of time in said sequence. The method within the meaning of the invention further comprises the following steps: b) at least 'a subsequence repeated in said sequence is determined by statistical analysis of said spectral coefficients, and ' 'c) moments are evaluated start and end of said sub-sequence in the sound sequence.
Avantageusement, selon une étape supplémentaire : d) on .extrait la sous-séquence précitée pour stocker, dans une mémoire, des échantillons sonores représentant ladite' sous-séquence. . JAdvantageously, according to an additional step: d) the above-mentioned sub-sequence is extracted to store, in a memory, sound samples representing said 'sub-sequence. . J
Préférentiellement , l'extraction de l'étape d) concerne au moins une sous-séquence' dont la durée est la plus importante et/ou une sous-séquence dont la fréquence de répétition est la plus importante dans ladite séquence.Preferably, the extraction of step d) relates to at least one subsequence ' the duration of which is the greatest and / or a subsequence of which the repetition frequency is the greatest in said sequence.
La présente invention trouve une application avantageuse dans l'aide à la détection de défaillances de machines industrielles ou de moteurs, notamment en obtenant des séquences d'enregistrement sonore de phases d'accélération et de décélération du régime moteur. L'application du procédé au sens de l'invention permet d'isoler une sous- séquence sonore correspondant par exemple à un plein régime ou à une phase d'accélération, cette sous-séquence étant, le cas échéant, comparée à une sous-séquence de référence .The present invention finds an advantageous application in assisting in the detection of failures of industrial machines or of engines, in particular by obtaining sound recording sequences of acceleration and deceleration phases of the engine speed. The application of the method within the meaning of the invention makes it possible to isolate a sound sub-sequence corresponding for example to a full speed or to an acceleration phase, this sub-sequence being, if necessary, compared to a sub- reference sequence.
Dans une aut-re application avantageuse à l'obtention de données musicales du type décrit ci-avant, la séquence sonore précitée est un morceau de musique comportant une succession de sous-séquences parmi au moins une introduction, un couplet, un refrain, un pont de transition, un thème, un motif, ou un mouvement qui se répète dans la séquence .In another advantageous application to obtaining musical data of the type described above, the sequence The aforementioned sound is a piece of music comprising a succession of sub-sequences among at least an introduction, a verse, a chorus, a transition bridge, a theme, a motif, or a movement which is repeated in the sequence.
A l'étape c) , on détermine préférentiellement au moins les instants respectifs de début et de fin d'une première sous-séquence et d'une seconde sous-séquence .In step c), the respective instants for the start and end of a first sub-sequence and of a second sub-sequence are preferably determined at least.
Dans une réalisation particulièrement avantageuse, à l'étape d) , on extrait alors une première et ' une seconde sous-séquence pour obtenir, sur un support mémoire, un résumé sonore dudit morceau de musique comportant au moins la première sous-séquence enchaînée avec la seconde sous- séquence .In a particularly advantageous embodiment, in step d), a first and a second sub-sequence are then extracted to obtain, on a memory medium, a sound summary of said piece of music comprising at least the first sub-sequence chained with the second subsequence.
Préférentiellement, la première sous-séquence correspond à un couplet et la seconde sous-séquence correspond à un refrain.Preferably, the first sub-sequence corresponds to a verse and the second sub-sequence corresponds to a chorus.
Toutefois, il peut advenir que des première et seconde sous-séquences, extraites d'une séquence sonore, ne soient pas contiguës dans le temps .However, it may happen that the first and second subsequences, extracted from a sound sequence, are not contiguous in time.
A cet effet, on prévoit en outre les étapes suivantes : dl) détecter au moins une cadence de la première sous- séquence et/ou de la seconde sous-séquence pour estimer la durée moyenne d'une mesure à ladite cadence, ainsi qu'au moins un segment de fin de la première sous-séquence et au moins un segment de début de la seconde sous-séquence, de durées respectives correspondant sensiblement à ladite durée .moyenne et isolés dans '"la séquence .d'un nombre entier de durées moyennes, d2) . générer au moins une .mesure' de transition de durée correspondant à ladite durée" moyenne et comportant une addition des échantillons sonores '&' au moins ledit segment de fin et d'au moins ledit segment de début, d3) et concaténer la première ' sous-séquence, la ou les mesures de transition et la seconde sous-séquence pour obtenir l'enchaînement de la première et de la seconde sous-séquence.To this end, the following steps are also provided: dl) detecting at least one cadence of the first sub-sequence and / or of the second sub-sequence to estimate the average duration of a measurement at said cadence, as well as at least one end segment of the first sub-sequence and at least one start segment of the second sub-sequence, of respective durations corresponding substantially to said average and isolated duration in ' "the sequence of a whole number of average durations, d2) . generate at least one . transition measure of duration corresponding to said average duration" and comprising an addition of sound samples "&" at least said segment end and at least said starting segment, d3) and concatenating the first 'sub-sequence, or the transition measures and the second sub-sequence to obtain the sequence of the first and the second subsequence.
On constatera que la succession des étapes dl) à d3) trouve, au-delà de la génération automatique de résumés sonores, une application avantageuse à la création musicale assistée par ordinateur. Dans cette application, un utilisateur peut créer lui-même deux sous-séquences d'un morceau musical, tandis qu'un logiciel comportant des instructions pour dérouler les étapes dl) à d3) assure un enchaînement des deux sous-séquences par concaténation, sans artefact et agréable à l'oreille.It will be noted that the succession of steps dl) to d3) finds, beyond the automatic generation of sound summaries, an advantageous application to computer-assisted musical creation. In this application, a user can create two subsequences of a musical piece himself, while software comprising instructions for carrying out steps dl) to d3) ensures a concatenation of the two subsequences, without artifact and pleasant to the ear.
De façon plus générale, la présente invention vise aussi un produit programme d'ordinateur, stocké dans une mémoire d'ordinateur ou sur un support amovible propre à coopérer avec un lecteur homologue d'ordinateur, et comportant des instructions pour dérouler les étapes du procédé au sens de 1 ' invention.More generally, the present invention also relates to a computer program product, stored in a computer memory or on a removable medium suitable for cooperating with a homologous computer reader, and comprising instructions for carrying out the steps of the method. within the meaning of the invention.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci- après, et des dessins annexés sur lesquels : - la figure la représente un signal audio d'un morceau de musique correspondant, dans l'exemple représenté, à une chanson de variété ; - la figure lb représente la variation d'énergie spectrale en fonction du temps,- pour le morceau de musique dont le signal audio est représenté sur la figure la ; - la figure le illustre les durées occupées par les différents passages du morceau de musique de la figure la et qui se répètent dans ce morceau ; - la figure 2 représente schématiquement des fenêtres temporelles sélectionnées dans deux parties respectives du morceau musical pour préparer la concaténation de ces deux parties, selon la succession des étapes dl) à d3) ci-avant ,- - la figure 3a représente schématiquement des segments Si(t) et Sj (t) sélectionnés dans les parties respectives du morceau précitées, pour préparer une concaténation des deux parties par super- position/addition ; - la figure 3b illustre schématiquement par le signe "Θ" la superposition/addition précitée ; - la figure 4 illustre une fenêtre temporelle pour la concaténation précitée, de forme et de largeur préférées ; et - la figure 5 représente un organigramme de traitement d'une séquence sonore, dans un mode de réalisation préféré de la présente invention.Other characteristics and advantages of the invention will appear on examining the detailed description below, and the attached drawings in which: - Figure la represents an audio signal of a piece of music corresponding, in the example shown, to a variety song; - Figure lb represents the variation of spectral energy as a function of time, - for the piece of music whose audio signal is shown in Figure la; - The figure illustrates the durations occupied by the different passages of the piece of music of Figure la and which are repeated in this piece; - Figure 2 schematically represents time windows selected in two respective parts of the musical piece to prepare the concatenation of these two parts, according to the succession of steps dl) to d3) above, - - Figure 3a schematically represents segments Si (t) and Sj (t) selected from the respective parts of the aforementioned piece, to prepare a concatenation of the two parts by superposition / addition; - Figure 3b schematically illustrates by the sign "Θ" the above superposition / addition; - Figure 4 illustrates a time window for the above concatenation, of preferred shape and width; and FIG. 5 represents a flow diagram for processing a sound sequence, in a preferred embodiment of the present invention.
Le signal audio de la figure la représente 1 ' intensité sonore (en ordonnées) en fonction du temps (en abscisses) d'un morceau musical (ici, le morceau "head over feet "® de l'artiste Alanis Morissette) . Pour construire .ce signal audio, les signaux respectifs des voies droite et gauche (en mode stéréophonique) ont été synchronisés . et additionnés.The audio signal in FIG. 1a represents the sound intensity (on the ordinate) as a function of time (on the abscissa) a musical piece (here, the song "head over feet" ® by artist Alanis Morissette). To build . this audio signal, the respective signals of the right and left channels (in stereophonic mode) have been synchronized. and added.
Au signal audio représenté sur la figure la, on applique une transformée spectrale (par exemple de type transformée de Fourier rapide FFT) pour obtenir une variation temporelle de 1 ' énergie spectrale du type représenté sur la figure lb.To the audio signal represented in FIG. 1a, a spectral transform is applied (for example of the fast Fourier transform FFT type) to obtain a temporal variation of the spectral energy of the type represented in FIG. 1b.
Dans un mode de réalisation, il s'agit d'une pluralité de FFT à court terme, successives, dont le résultat . est appliqué à un banc de filtres sur plusieurs gammes de fréquences (préférentiellement de largeurs de bande croissantes comme le logarithmique de la fréquence) . Une autre transformée de Fourier est ensuite appliquée pour obtenir des paramètres dynamiques du signal audio (référencés PD sur la figure lb) . En particulier, l'échelle en ordonnées de la figure lb indique l'amplitude des variations des composantes à différentes vitesses dans un domaine de fréquences donné. Ainsi, l'indice 0 ou 2 de l'échelle arbitraire en ordonnées de la figure lb correspond à une variation lente dans les basses fréquences, tandis que l'indice 12 de cette même échelle correspond à une variation rapide dans les hautes fréquences. Ces variations sont exprimées en fonction du temps, en abscisses (secondes) . Les intensités associées à ces paramètres dynamiques PD, au cours du temps, sont illustrées par différents niveaux de gris dont les valeurs relatives" sont indiquées par là" colonne de référence COL (à droite de la figure lb) . •In one embodiment, it is a plurality of short-term, successive FFTs, the result of which. is applied to a filter bank over several frequency ranges (preferably of increasing bandwidths such as the logarithmic of the frequency). Another Fourier transform is then applied to obtain dynamic parameters of the audio signal (referenced PD in FIG. 1b). In particular, the ordinate scale of FIG. 1b indicates the amplitude of the variations of the components at different speeds in a given frequency domain. Thus, the index 0 or 2 of the arbitrary ordinate scale of FIG. 1b corresponds to a slow variation in the low frequencies, while the index 12 of this same scale corresponds to a rapid variation in the high frequencies. These variations are expressed as a function of time, on the abscissa (seconds). The intensities associated with these dynamic parameters PD, over time, are illustrated by different levels of gray including the values relative "are indicated by there " COL reference column (on the right of figure lb). •
On indique que les paramètres dynamiques du type représenté sur la figure b permettent d'identifier complètement un morceau de musique. Dans ce contexte d ' " empreinte" d'un morceau de musique, la demande FR- 2834363 de la Demanderesse décrit de façon détaillée ces paramètres1 et la manière de les Obtenir.It is indicated that the dynamic parameters of the type represented in FIG. B make it possible to completely identify a piece of music. In this context of "imprint" of a piece of music, application FR-2834363 from the Applicant describes in detail these parameters 1 and the manner of obtaining them.
En variante, les variables déduites du signal audio et' permettant de caractériser le. morceau de musique peuvent être 'de type différent, notamment des coefficients dits "Mel Frequency Cepstral Coefficients " . Globalement, on indique que ces coefficients (connus en soi) sont encore obtenus par transformée de Fourier rapide, à court terme.As a variant, the variables deduced from the audio signal and 'making it possible to characterize the. piece of music can be 'of different types, including said coefficients "Mel Frequency Cepstral Coefficients". Overall, it is indicated that these coefficients (known per se) are still obtained by fast Fourier transform, in the short term.
La figure le offre une représentation visuelle de l'évolution de l'énergie spectrale de la figure lb. Sur la figure le, l'abscisse représente le temps (en secondes) et les ordonnées représentent les différentes parties du morceau, tels que les couplets, les refrains, l'introduction, un thème, ou autres. La répétition au cours du temps d'une partie similaire, tel qu'un couplet ou un refrain, est représentée par des rectangles grisés qui apparaissent à différentes abscisses dans le temps (et qui peuvent être de largeurs temporelles différentes) , mais de même ordonnées. Pour passer de la représentation de la figure lb à la représentation de la figure le, on met en œuvre une analyse statistique en utilisant par exemple l'algorithme des "K-means " , ou encore l'algorithme "FUZZY K-means " , ou encore une chaîne de Markov cachée, avec un apprentissage par l'algorithme BAUM- ELSH, suivi d'une évaluation par l'algorithme de VITERBI .The figure le provides a visual representation of the evolution of the spectral energy of figure lb. In figure le, the abscissa represents time (in seconds) and the ordinates represent the different parts of the piece, such as verses, choruses, introduction, theme, or others. The repetition over time of a similar part, such as a verse or a chorus, is represented by shaded rectangles which appear at different abscissa in time (and which can be of different temporal widths), but similarly ordered . To pass from the representation of FIG. 1b to the representation of FIG. 1a, a statistical analysis is implemented using for example the "K-means" algorithm, or even the algorithm "FUZZY K-means", or a hidden Markov chain, with learning by the BAUM-ELSH algorithm, followed by an evaluation by the VITERBI algorithm.
Typiquement, la détermination du nombre d'états' (les parties du morceau de musique) qui sont nécessaires à la représentation d'un morceau de musique s'effectue de façon automatisée, par comparaison de la similarité des états trouvés à chaque itération des algorithmes précités, et en éliminant les états redondants. Cette technique, dite de "pruning" permet ainsi d'isoler chaque partie redondante du morceau de musique et de déterminer ses coordonnées temporelles (ses instants de début et de fin, comme indiqué ci-avant) .Typically, the determination of the number of states ' (the parts of the piece of music) which are necessary for the representation of a piece of music is performed in an automated manner, by comparison of the similarity of the states found at each iteration of the algorithms above, and eliminating redundant states. This technique, known as "pruning" thus makes it possible to isolate each redundant part of the piece of music and to determine its time coordinates (its start and end times, as indicated above).
Ainsi, on étudie les variations, par exemple dans les fréquences tonales (d'une voix humaine), de l'énergie spectrale pour déterminer la répétition d'un passage musical particulier dans le signal audio.Thus, we study the variations, for example in the tonal frequencies (of a human voice), of the spectral energy to determine the repetition of a particular musical passage in the audio signal.
Préférentiellement , on cherche à extraire un ou plusieurs passages musicaux dont la durée est la plus importante dans le morceau de musique et/ou dont la fréquence de répétition est la plus importante.Preferably, one seeks to extract one or more musical passages whose duration is the greatest in the piece of music and / or whose frequency of repetition is the most important.
Par exemple, pour la plupart des morceaux de variété, on pourra choisir d'isoler les parties de refrain, dont la répétition est généralement la plus fréquente, puis les parties de couplet, dont la répétition est fréquente, puis, le cas échéant, d'autres parties encore si elles se répètent . On indique que d'autres . types de sous-séquences représentatives du morceau de musique peuvent être extraites,, dès lors que ces " sous-séquences se répètent dans- le morceau de musique. Par , exemple, on peut choisir d'extraire un motif musical', généralement de plus courte durée, qu'un couplet ou un refrain, tel qu'un passage . de percussions répété dans le morceau de musique, ou encore une phrase' vocale scandée plusieurs fois dans le morceau. En outre, un thème peut aussi ' être extrait du morceau de musique, par exemple une phrase musicale répétée dans un' morceau de jazz ou de musique classique. En musique classique, un . passage tel qu'un mouvement peut en outre être extrait .For example, for most variety pieces, we can choose to isolate the chorus parts, whose repetition is generally the most frequent, then the verse parts, whose repetition is frequent, then, if necessary, d 'other parts if they are repeated. Others are indicated. types of sub-sequences representative of the piece of music can be extracted, as soon as these "sub-sequences are repeated in the piece of music. For example, one can choose to extract a musical motif ', generally more short, a verse or a chorus, such as a pass. percussion repeated in the song, or a phrase "voice punctuated several times in the song. also, a theme can also be extracted from piece of music, for example a musical phrase repeated in a piece of jazz or classical music In classical music, a passage such as a movement can also be extracted.
Sur le résumé visuel représenté à titre d'exemple sur la figure le, les rectangles grisés indiquent la présence d'une partie du morceau telle que l'introduction ("intro"), d'un couplet ou d'un refrain dans une fenêtre temporelle indiquée par l'abscisse temporelle (en secondes) . Ainsi, entre 0 et environ 15 secondes, le morceau de musique démarre par une introduction (indexée par le chiffre 2 sur l'échelle en ordonnées) . L'introduction est suivie de deux alternances de couplet (indexé par le chiffre 3) et de refrain (indexé par le chiffre 1) jusqu'à environ 100 secondes.On the visual summary shown as an example in Figure le, the shaded rectangles indicate the presence of a part of the song such as the introduction ("intro"), a verse or a chorus in a window time indicated by the time abscissa (in seconds). Thus, between 0 and about 15 seconds, the piece of music starts with an introduction (indexed by the number 2 on the ordinate scale). The introduction is followed by two alternations of verse (indexed by the number 3) and refrain (indexed by the number 1) up to approximately 100 seconds.
On se réfère maintenant à la figure 5 pour décrire les étapes principales du procédé pour obtenir le résumé sonore précité, selon un mode de réalisation préféré. Tout d'abord, on obtient les signaux audio sur la voie gauche "audio L " et sur la voie droite "audio R" aux étapes respectives 10 et 11, lorsque la séquence sonore initiale est représentée en mode stéréophonique. Les signaux de ces deux voies sont additionnés à l'étape 12 pour obtenir, un signal audio du type représenté sur la figure là. Ce signal audio est, le cas échéant, stocké sous forme échantillonnée dans une mémoire de travail avec des valeurs d'intensité sonores rangées en fonction de leurs coordonnées temporelles associées (étape 14) . A ces données audio, on applique une transformée spectrale (de type FFT dans l'exemple représenté), à l'étape 1.6, pour obtenir, à l'étape 18, les coefficients spectraux Fi(t) et/ou leur variation ΔFi(t) en fonction du temps. A l'étape 20, un module d'analyse statistique opère sur la base des coefficients obtenus à l'étape 18 pour isoler des instants t0, t-,., ..., t7 qui correspondent à des instants de début et de fin des différentes sous-séquences qui se répètent dans le signal audio de l'étape 14.Reference is now made to FIG. 5 to describe the main steps of the method for obtaining the abovementioned sound summary, according to a preferred embodiment. First, we get the audio signals on the left channel "audio L" and on the right channel "audio R" in the respective steps 10 and 11, when the initial sound sequence is represented in stereophonic mode. The signals from these two channels are added in step 12 to obtain an audio signal of the type shown in the figure there. This audio signal is, if necessary, stored in sampled form in a working memory with sound intensity values arranged as a function of their associated time coordinates (step 14). To this audio data, a spectral transform (of FFT type in the example shown) is applied, in step 1.6, to obtain, in step 18, the spectral coefficients Fi (t) and / or their variation ΔFi ( t) as a function of time. At step 20, a statistical analysis module operates on the basis of the coefficients obtained in step 18 to isolate instants t 0, t,. , ..., t 7 which correspond to instants of start and end of the various subsequences which are repeated in the audio signal of stage 14.
Dans l'exemple représenté, le morceau de musique présente une structure (classique en variété) du type comportant : - une introduction dans le début du morceau entre un instant t0 et un instant t1# - un couplet entre tj et t2, - un refrain entre t2 et t3, - un second couplet entre t3 et t4, - un second refrain entre t4 et ts, - une introduction, à nouveau, le cas échéant agrémentée d'un solo instrumental, entre les instants t5 et t6, et - la répétition de deux ' refrains de fin. de morceau entre les instants t6 et t7.In the example shown, the piece of music has a structure (classic in variety) of the type comprising: - an introduction at the start of the piece between an instant t 0 and an instant t 1 # - a verse between tj and t 2 , - a refrain between t 2 and t 3 , - a second verse between t 3 and t 4 , - a second refrain between t 4 and t s , - an introduction, again, if necessary with an instrumental solo, between the instants t 5 and t 6 , and - the repetition of two 'refrains end. of piece between instants t 6 and t 7 .
A l'étape 22, les instants tp '-à t7 sont répertoriés et indexés en fonction du •' paësagé' • musical correspondant (introduction, couplet ou .refrain) et stockés, le cas échéant, dans une mémoire de travail. A l'étape '23, , on peut construire alors un résumé visuel de ce morceau de musique, tel que représenté sur 'la' figure 5.In step 22, the instants t p '- to t 7 are listed and indexed as a function of the • ' paësagé '• corresponding music (introduction, verse or .refrain) and stored, if necessary, in a working memory . At step '23, we can then construct a visual summary of this piece of music, as shown in 'Figure'.
Dans l'exemple décrit ci-avant d'un morceau de variété' comportant une structure typique, on construit le résumé sonore à partir d'un couplet extrait du morceau, suivi d'un refrain extrait du morceau. A l'étape 24, on prépare une concaténation des échantillons sonores du signal audio entre les instants ti et t2, d'.une part, et entre les instants t2 et t3, d'autre part, dans l'exemple décrit. Le cas échéant, le résultat de cette concaténation est mémorisé dans une mémoire permanente MEM pour une utilisation ultérieure, à l'étape 26.In the example described above of a variety piece with a typical structure, the sound summary is constructed from a verse extracted from the piece, followed by a chorus extracted from the piece. In step 24, a concatenation of the sound samples of the audio signal is prepared between the instants ti and t 2 , on the one hand, and between the instants t 2 and t 3 , on the other hand, in the example described . If necessary, the result of this concatenation is stored in a permanent memory MEM for later use, in step 26.
Toutefois, en règle générale, l'instant de fin d'un couplet isolé et l'instant de début d'un refrain isolé ne sont pas forcément identiques, ou encore, on peut choisir de construire le résumé sonore à partir du premier couplet et du second refrain (entre t4 et t5) ou du refrain de finHowever, as a general rule, the end time of an isolated verse and the start time of an isolated chorus are not necessarily identical, or alternatively, one can choose to construct the sound summary from the first verse and the second chorus (between t 4 and t 5 ) or the end chorus
(entre t6 et t7) . Ainsi, les deux passages sélectionnés pour construire le résumé sonore ne sont pas forcément contigus . Une concaténation aveugle de signaux sonores, correspondant à deux parties d'un morceau de musique donne un ressenti désagréable à l'oreille. On .décret ci-après, en référence aux figures 2, 3a, 3b et 4, 'la construction, d'un signal sonore par- concaténation de' deu 'parties d'un morceau de musique, de manière à surmonter ce problème..(between t 6 and t 7 ). Thus, the two passages selected to build the sound summary are not necessarily contiguous. A blind concatenation of sound signals, corresponding to two parts of a piece of music gives an unpleasant feeling to the ear. The following decree is made, with reference to FIGS. 2, 3a, 3b and 4, 'the construction of a sound signal by concatenation of ' two 'parts of a piece of music, so as to overcome this problem. .
L'un des buts de cette construction par concaténation est de préserver localement le tempo du signal sonore .One of the aims of this concatenation construction is to locally preserve the tempo of the sound signal.
Un autre but est d'assurer une distance temporelle entre points de concaténation (ou points d' " alignement" ) égale à un multiple entier de la durée d'une mesure.Another aim is to ensure a temporal distance between concatenation points (or "alignment" points) equal to an integer multiple of the duration of a measurement.
Préférentiellement , cette concaténation s'effectue par superposition/addition de segments sonores choisis et isolés des deux parties respectives précitées du morceau de musique.Preferably, this concatenation is carried out by superposition / addition of selected sound segments and isolated from the two aforementioned respective parts of the piece of music.
On décrit ci-après une superposition/addition de tels segments sonores, dans un premier temps par synchronisation de beat (dite "beat -synchrone") , puis par synchronisation de mesure selon une réalisation préférée .A superposition / addition of such sound segments is described below, firstly by beat synchronization (called "beat -synchronous"), then by measurement synchronization according to a preferred embodiment.
On note ci-après : - bpm, le nombre de beats par minute d'un morceau de musique, D, la référence de ce nombre bpm (par exemple dans le cas d'un morceau noté " 120=noire" , bpm=120 et D=noire) , - T, la durée (exprimée en secondes) d'un beat, c'est- à-dire de la référence D : dans l'exemple, précédent où D≈noire, on a r= 60 bpm - N, le numérateur de la métrique du morceau de musique (par exemple, dans le cas d'une mesure notée "3/4", N=3) , M, la durée (exprimée en secondes) d'une mesure, donnée par la relation M≈N.T (soit M=3*60/l20 dans l'exemple précédent), s(t) , le signal audio d'un morceau de musique, s(t) , le signal reconstruit par superposition/addition, et - sι(t) et Sj (t) , les ieme et jeme segments qui comportent des signaux audio respectifs appartenant à un premier et' à un second passage d'un morceau de musique, et qui sont utilisés pour la construction de s(t) par superposition/addition.We note below: - bpm, the number of beats per minute of a piece of music, D, the reference of this number bpm (for example in the case of a piece noted "120 = black", bpm = 120 and D = black), - T, the duration (expressed in seconds) of a beat, that is to say of the reference D: in the example, previous where D≈noire, we have r = 60 bpm - N, the numerator of the metric of the piece of music (for example, in the case of a measure noted "3/4", N = 3), M, the duration (expressed in seconds) of a measure, given by the relation M≈NT (ie M = 3 * 60 / l20 in the previous example), s (t), the audio signal of a piece of music, s (t), the signal reconstructed by superposition / addition, and - sι (t) and s j (t), the i th and j th segments include respective audio signals belonging to a first and 'a second passage of a piece of music, and which are used for the construction of s (t) by superposition / addition.
En principe, les premier et second passages précités ne sont pas contigus. s(t) est alors obtenu comme suit.In principle, the first and second passages mentioned above are not contiguous. s (t) is then obtained as follows.
En se référant à la figure 2, les segments sι(t) et Ξj (t) sont d'abord formés par découpage du signal audio à l'aide d'une fenêtre temporelle hL(t), de largeur L et définie (de valeur non nulle) entre 0 et L. Cette fenêtre peut être de type rectangulaire, de type dit "de hanning" , de type dit "de hanning en palier" , ou autre. En se référant à la figure 4, un type préféré de fenêtre temporelle est obtenu par concaténation d'un flanc montant, d'un pallier et d'un flanc descendant. La largeur temporelle préférée de cette fenêtre est indiquée ci-après.Referring to FIG. 2, the segments sι (t) and Ξj (t) are first formed by cutting the audio signal using a time window h L (t), of width L and defined ( of non-zero value) between 0 and L. This window can be of rectangular type, of so-called "hanning" type, of so-called "level hanning" type, or other. Referring to Figure 4, a preferred type of time window is obtained by concatenating a rising edge, a landing and a falling edge. The preferred time width of this window is shown below.
On définit alors le premier segment : si (t) de sorte que :We then define the first segment : if (t) so that:
où mi est l'instant de début".du premier segment.where m is the start time ". the first segment.
Comme le montre la figure | 3a, on construit S (t) sensiblement de la même manière : ' Sj(t) = s(t + mj).hL(t) [Ibis] où mj est -L'instant de début du second segment.As shown in the figure | 3a, we construct S (t) in substantially the same way: 'S j (t) = s (t + m j ) .h L (t) [Ibis] where mj is -The instant of the start of the second segment.
Même si la durée L de la fenêtre temporelle est la même pour les deux segments, op. indique toutefois que la forme de la fenêtre peut être • différente d'un segment Sι(t) à l'autre sj (t) , comme le montre d'ailleurs la figure 2.Even if the duration L of the time window is the same for the two segments, op. indicates however that the shape of the window can be • different from one segment Sι (t) to the other sj (t), as shown moreover in FIG. 2.
Soit bi et bj deux positions respectives à l'intérieur des premier et second segments, appelées "posi tions de synchronisation" , par rapport auxquelles s'effectue la superposition/addition, telles que : 0 ≤ bi ≤ L et 0 ≤ bj ≤ L [2]Let bi and bj be two respective positions inside the first and second segments, called "synchronization positions", with respect to which the superposition / addition takes place, such as: 0 ≤ bi ≤ L and 0 ≤ b j ≤ L [2]
Avantageusement, la distance temporelle entre bi et bj est choisie égale à un multiple entier de la durée T d'un beat (bj - bi = kT) . Dans ces conditions, on dit qu'il y a reconstruction "beat -synchrone" si J( = ∑ ('- '-1)'(*' + C) [4] 1 avec s ' i (t) = Si (t+bi) [5] et où k' est le plus grand entier tel que k' T ≤ L- (bi -mi) , c est une constante de temps telle que c ≈ -bi-mi.. Avantageusement, la distance entre les instants mi et πij est choisie égale à un multiple entier de k'NT, dans lequel N désigne le numérateur de la métrique.Advantageously, the temporal distance between bi and bj is chosen equal to an integer multiple of the duration T of a beat (bj - bi = kT). Under these conditions, we say that there is a "beat-synchronous" reconstruction if J (= ∑ ('- ' -1) '(*' + C ) [4] 1 with s' i (t) = If ( t + bi) [5] and where k 'is the largest integer such that k' T ≤ L- (bi -mi), c is a time constant such that c ≈ -bi-mi. Advantageously, the distance between the instants mi and πi j is chosen equal to an integer multiple of k'NT, in which N denotes the numerator of the metric.
Ainsi, le signal reconstruit s'écrit : S(t) = ∑st'(t-(i-l)-(k'NT) + c) iThus, the reconstructed signal is written: S (t) = ∑s t '(t- (il) - (k'NT) + c) i
On obtient alors une superposition/addition synchrone à la mesure. La figure 3b illustre cette situation. On remarque sur la figure 4 que la largeur L de la fenêtre temporelle précitée est voisine de k'NT (aux flancs montant et descendant près) . Toutefois, on choisira préférentiellement dans ce cas des rampes de flancs telles que k' T ≤ L-2 (bχ -πii)..We then obtain a synchronous superposition / addition to the measurement. Figure 3b illustrates this situation. Note in FIG. 4 that the width L of the aforementioned time window is close to k'NT (near the rising and falling sides). However, one will preferentially choose in this case sidewall ramps such that k 'T ≤ L-2 (bχ -πii).
Plus particulièrement, on choisit les instants mi et mj de sorte qu'ils correspondent à des premiers temps de mesures. Dans ces conditions, on obtient avantageusement une superposition/addition beat-synchrone dite " alignée" .More particularly, the instants mi and m j are chosen so that they correspond to the first measurement times. Under these conditions, a so-called "aligned" beat-synchronous superposition / addition is advantageously obtained.
Ainsi, en déterminant en outre la métrique du premier passage et/ou du second passage, on peut effectuer une reconstruction beat-synchrone à la mesure. Si, de plus, on choisit les premier et second segments de sorte qu'ils commencent par un premier temps de mesure, cette reconstruction beat-synchrone est alignée. On indique qu'une reconstruction du signal s(t) peut être menée sur la base de plus' de deux passages musicaux à concaténer. Pour i passages musicaux (i>2) , la généralisation du procédé ci-avant s'exprime par la relation : s(t) = s1'(t + c) + s2'(t-ki ,T + c) + s3 t -k1'T + k2'T + c) + ... Thus, by further determining the metric of the first pass and / or of the second pass, it is possible to perform a beat-synchronous reconstruction to the measure. If, in addition, the first and second segments are chosen so that they begin with a first measurement time, this beat-synchronous reconstruction is aligned. It is indicated that a reconstruction of the signal s (t) can be carried out on the basis of more than two musical passages to be concatenated. For i musical passages (i> 2), the generalization of the above process is expressed by the relation: s (t) = s 1 '(t + c) + s 2 ' (tk i , T + c) + s 3 t -k 1 'T + k 2 ' T + c) + ...
Chaque entier kj ' est défini comme l'entier le plus grand t tel que kj"' T ≤ Lj - (bj -πij) , où Lj correspond à la largeur de la fenêtre du jème passage musical à concaténer.Each integer kj 'is defined as the largest integer t such that kj " ' T ≤ Lj - (bj -πij), where L j corresponds to the width of the window of the jth musical passage to be concatenated.
On indique que les premie s temps de mesure, ou encore la métrique, ou encore le tempo d'un morceau de musique, peuvent être détectés automatiquement, par exemple en utilisant des applications logicielles existantes. Par exemple, la norme MPEG-7 (Audio Version 2) prévoit la détermination et la description du tempo et de la métrique d'un morceau de musique, en utilisant de telles applications logicielles.It is indicated that the first measurement times, or the metric, or even the tempo of a piece of music, can be detected automatically, for example by using existing software applications. For example, the MPEG-7 standard (Audio Version 2) provides for the determination and description of the tempo and the metric of a piece of music, using such software applications.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.Of course, the present invention is not limited to the embodiment described above by way of example; it extends to other variants.
Ainsi, on comprendra que le résumé sonore peut comporter plus de deux passages musicaux, par exemple une introduction, un couplet et un refrain, ou encore deux passages différents d'un couplet et d'un refrain, tels que l'introduction et un refrain, par exemple.Thus, it will be understood that the sound summary may include more than two musical passages, for example an introduction, a verse and a chorus, or even two different passages of a verse and a chorus, such as the introduction and a chorus, for example.
On remarquera aussi que les étapes représentées sous forme d'organigramme sur la figure 5 peuvent être implémèntées par un logiciel informatique dont l'algorithme reprend globalement la structure de l'organigramme. A ce titre, la présente invention vise aussi un tel programme informatique. It will also be noted that the steps represented in the form of a flowchart in FIG. 5 can be implemented by computer software, the algorithm of which generally takes up the structure of the flowchart. As such, the present invention also relates to such a computer program.

Claims

Revendications claims
1. Procédé de traitement d'une .séquence sonore, dans lequel : a) on applique une transformée spectrale à ladite séquence pour obtenir des coefficients spectraux variant en fonction du temps dans ladite séquence, caractérisé en ce qu'il, comporte en outre les étapes suivantes : b) on détermine, par analyse statistique desdits coefficients spectraux, au moins une sous-séquence. répétée dans ladite séquence, et c) on évalue des instants de début et de fin de ladite sous-séquence dans la séquence sonore.1. A method for processing a sound sequence, in which: a) a spectral transform is applied to said sequence in order to obtain spectral coefficients varying as a function of time in said sequence, characterized in that it further comprises the following steps: b) at least one subsequence is determined, by statistical analysis of said spectral coefficients. repeated in said sequence, and c) the instants of the start and end of said sub-sequence in the sound sequence are evaluated.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape : d) d'extraction de la sous-séquence pour stocker, dans une mémoire, des échantillons sonores représentant ladite sous-séquence.2. Method according to claim 1, characterized in that it further comprises a step: d) of extracting the sub-sequence to store, in a memory, sound samples representing said sub-sequence.
3. Procédé selon la revendication 2, caractérisé en ce que l'extraction de l'étape d) concerne au moins une sous- séquence dont la durée est la plus importante et/ou une sous-séquence dont la fréquence de répétition est la plus importante dans ladite séquence.3. Method according to claim 2, characterized in that the extraction of step d) relates to at least one sub-sequence whose duration is the greatest and / or a sub-sequence whose repetition frequency is the most important in said sequence.
4. Procédé selon l'une des revendications 1 à 3, dans lequel la séquence sonore est un morceau de musique comportant une succession de sous-séquences parmi au moins une introduction, un couplet, -un refrain, un pont de transition, un thème, un motif., un mouvement, caractérisé en ce que, à, l'étape c) , on détermine au moins les instants respectifs de début et de fin d'une première sous-séquence et d'une seconde sous-séquence .4. Method according to one of claims 1 to 3, wherein the sound sequence is a piece of music comprising a succession of sub-sequences among at least an introduction, a verse, a refrain, a transition bridge, a theme, a motif, a movement, characterized in that, in step c), at least the respective instants of start and end are determined a first subsequence and a second subsequence.
5. Procédé selon la revendication '4 , prise en combinaison avec la revendication 3, caractérisé en ce que la première sous-séquence correspond à un couplet et la seconde sous- séquence correspond à un refrain.5. Method according to claim '4, taken in combination with claim 3, characterized in that the first subsequence corresponds to a verse and the second subsequence corresponds to a chorus.
6. Procédé selon l'une des revendications 4 et 5, prises en combinaison, avec la revendication 2, caractérisé en ce que, à l'étape d) , on extrait une première et une seconde sous-séquence pour obtenir, sur un support mémoire, un résumé sonore dudit morceau de musique comportant au moins la première sous-séquence enchaînée avec la seconde sous- séquence .6. Method according to one of claims 4 and 5, taken in combination, with claim 2, characterized in that, in step d), a first and a second subsequence are extracted to obtain, on a support memory, a sound summary of said piece of music comprising at least the first sub-sequence linked with the second sub-sequence.
7. Procédé selon la revendication 6, dans lequel les extraits des sous-séquences sont non contigus dans le temps, caractérisé en ce qu'il comporte en outre les étapes suivantes : dl) détecter au moins une cadence de la première sous- séquence et/ou de la seconde sous-séquence pour estimer la durée moyenne d'une mesure à ladite cadence, ainsi qu'au moins un segment de fin de la première sous-séquence et au moins un segment de début de la seconde sous-séquence, de durées respectives correspondant sensiblement à ladite durée moyenne et isolés dans la séquence d'un nombre entier de durées moyennes, d2.) générer au moins une mesure de transition de durée correspondant à ladite durée moyenne et comportant une addition des échantillons sonores d'au moins ledit segment de fin et d'au moins ledit segment de début, d3) et concaténer la première sous-séquence, la où les mesures de transition et la seconde sous-séquence pour obtenir un enchaînement de la première et de la seconde sous-séquence .7. The method as claimed in claim 6, in which the extracts of the sub-sequences are not contiguous over time, characterized in that it further comprises the following steps: dl) detecting at least one rate of the first sub-sequence and / or the second sub-sequence to estimate the average duration of a measurement at said rate, as well as at least one end segment of the first sub-sequence and at least one start segment of the second sub-sequence, respective durations corresponding substantially to said average duration and isolated in the sequence of an integer of average durations, d2.) generate at least one duration transition measure corresponding to said average duration and comprising an addition of sound samples of at least said end segment and at least said start segment, d3) and concatenate the first sub- sequence, where the transition measures and the second subsequence to obtain a sequence of the first and the second subsequence.
8. Procédé selon la revendication 7, caractérisé en ce que l'étape dl) comporte un découpage en au 'moins deux fenêtres, de type rectangulaire, de type de Hanning, de type de Hanning en palier, ou préférentiellement de type comportant un flanc montant, un pallier et un flanc descendant dans le temps .8. Method according to claim 7, characterized in that step dl) comprises a division into at least two windows, of rectangular type, of Hanning type, of Hanning type in level, or preferably of type comprising a flank rising, a level and a falling side in time.
9. Procédé selon l'une des revendications 7 et 8, caractérisé en ce que l'étape d2) comporte une reconstruction beat-synchrone.9. Method according to one of claims 7 and 8, characterized in that step d2) comprises a beat-synchronous reconstruction.
10. Procédé selon la revendication 9, caractérisé en ce que, à l'étape dl) , on détermine en outre la métrique de la première sous-séquence et/ou de la seconde sous- séquence, et en ce que l'étape d2) comporte une reconstruction beat-synchrone à la mesure.10. Method according to claim 9, characterized in that, in step dl), the metric of the first subsequence and / or of the second subsequence is further determined, and in that step d2 ) includes a beat-synchronous reconstruction to the measure.
11. Procédé selon l'une des revendications 9 et 10, caractérisé en ce que, à l'étape dl) , on détermine lesdits segments de fin et de début de sorte qu'ils commencent par un premier temps de mesure, et en ce que l'étape d2) comporte une reconstruction beat-synchrone alignée. 05/00400211. Method according to one of claims 9 and 10, characterized in that, in step dl), said end and start segments are determined so that they begin with a first measurement time, and in that that step d2) includes an aligned beat-synchronous reconstruction. 05/004002
2222
12. Produit programme -d'ordinateur, stocké dans une mémoire d'ordinateur ou sur . un s'upport amovible propre à coopérer avec un lecteur d'ordinateur, caractérisé en ce qu'il comporte - des instructions pour dérouler les étapes du procédé selon l'une des revendications précédentes. 12. Computer program product, stored in a computer memory or on. a removable support suitable for cooperating with a computer reader, characterized in that it includes - instructions for carrying out the steps of the method according to one of the preceding claims.
O 2005 0 1/3O 2005 0 1/3
Alanis Morissette "Head Over Feet"Alanis Morissette "Head Over Feet"
55.12 105.12 155.12 205.12 255.12 TEMPS (SECONDES) 55.12 105.12 155.12 205.12 255.12 TIME (SECONDS)
FIG. 2 2/3FIG. 2 2/3
k'NT k'NT
FIG.4 FIG.4
ε/ε ε6noo/oozîi-ι/i3<ι zootoo/soo∑: OΛV ε / ε ε6noo / oozîi-ι / i3 <ι zootoo / soo∑: OΛV
EP04767355A 2003-06-25 2004-06-16 Method for processing an audio sequence for example a piece of music Withdrawn EP1636789A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0307667A FR2856817A1 (en) 2003-06-25 2003-06-25 PROCESS FOR PROCESSING A SOUND SEQUENCE, SUCH AS A MUSIC SONG
PCT/FR2004/001493 WO2005004002A2 (en) 2003-06-25 2004-06-16 Method for processing an audio sequence for example a piece of music

Publications (1)

Publication Number Publication Date
EP1636789A2 true EP1636789A2 (en) 2006-03-22

Family

ID=33515393

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04767355A Withdrawn EP1636789A2 (en) 2003-06-25 2004-06-16 Method for processing an audio sequence for example a piece of music

Country Status (5)

Country Link
US (1) US20060288849A1 (en)
EP (1) EP1636789A2 (en)
JP (1) JP2007520727A (en)
FR (1) FR2856817A1 (en)
WO (1) WO2005004002A2 (en)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7521623B2 (en) 2004-11-24 2009-04-21 Apple Inc. Music synchronization arrangement
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
DE102004047032A1 (en) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for designating different segment classes
DE102004047069A1 (en) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for changing a segmentation of an audio piece
US7826911B1 (en) * 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US7668610B1 (en) * 2005-11-30 2010-02-23 Google Inc. Deconstructing electronic media stream into human recognizable portions
JP2009536368A (en) * 2006-05-08 2009-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and electric device for arranging song with lyrics
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US8084677B2 (en) * 2007-12-31 2011-12-27 Orpheus Media Research, Llc System and method for adaptive melodic segmentation and motivic identification
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
WO2011048010A1 (en) * 2009-10-19 2011-04-28 Dolby International Ab Metadata time marking information for indicating a section of an audio object
CN102541965B (en) 2010-12-30 2015-05-20 国际商业机器公司 Method and system for automatically acquiring feature fragments from music file
FR3028086B1 (en) * 2014-11-04 2019-06-14 Universite de Bordeaux AUTOMATED SEARCH METHOD FOR AT LEAST ONE REPRESENTATIVE SOUND SEQUENCE IN A SOUND BAND
US10681408B2 (en) 2015-05-11 2020-06-09 David Leiberman Systems and methods for creating composite videos
US9691429B2 (en) * 2015-05-11 2017-06-27 Mibblio, Inc. Systems and methods for creating music videos synchronized with an audio track

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633749A (en) * 1984-01-12 1987-01-06 Nippon Gakki Seizo Kabushiki Kaisha Tone signal generation device for an electronic musical instrument
JPS61204693A (en) * 1985-03-08 1986-09-10 カシオ計算機株式会社 Electronic musical instrument with automatic performer
US4926737A (en) * 1987-04-08 1990-05-22 Casio Computer Co., Ltd. Automatic composer using input motif information
US6316712B1 (en) * 1999-01-25 2001-11-13 Creative Technology Ltd. Method and apparatus for tempo and downbeat detection and alteration of rhythm in a musical segment
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method
US20070163425A1 (en) * 2000-03-13 2007-07-19 Tsui Chi-Ying Melody retrieval system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005004002A3 *

Also Published As

Publication number Publication date
US20060288849A1 (en) 2006-12-28
WO2005004002A2 (en) 2005-01-13
JP2007520727A (en) 2007-07-26
WO2005004002A3 (en) 2005-03-24
FR2856817A1 (en) 2004-12-31

Similar Documents

Publication Publication Date Title
WO2005004002A2 (en) Method for processing an audio sequence for example a piece of music
US6910035B2 (en) System and methods for providing automatic classification of media entities according to consonance properties
CA2563420C (en) Method for searching content particularly for extracts common to two computer files
US20030045953A1 (en) System and methods for providing automatic classification of media entities according to sonic properties
LU88189A1 (en) Speech segment coding and pitch control methods for speech synthesis
JP2002014691A (en) Identifying method of new point in source audio signal
CA2909401C (en) Frame loss correction by weighted noise injection
KR20080066007A (en) Method and apparatus for processing audio for playback
EP1970894A1 (en) Method and device for modifying an audio signal
BE1010336A3 (en) Synthesis method of its.
EP3040989A1 (en) Improved method of separation and computer program product
FR2827069A1 (en) DEVICES AND METHOD FOR PRODUCING MUSIC BASED ON PHYSIOLOGICAL PARAMETERS
FR2807897A1 (en) Improved limited spectral band coded audio signal enrichment having signal whitened then frequency offset and filtered then combined with initial estimate.
WO2012143659A1 (en) Method of analyzing and synthesizing engine noise, its use and associated system
WO2022129104A1 (en) Method and system for automatically synchronizing video content and audio content
Desblancs Self-supervised beat tracking in musical signals with polyphonic contrastive learning
FR3028086B1 (en) AUTOMATED SEARCH METHOD FOR AT LEAST ONE REPRESENTATIVE SOUND SEQUENCE IN A SOUND BAND
WO2002097793A1 (en) Method for extracting the fundamental frequency of a sound signal
EP1605440A1 (en) Method for signal source separation from a mixture signal
WO2007068861A2 (en) Phase estimating method for a digital signal sinusoidal simulation
CN114677995A (en) Audio processing method and device, electronic equipment and storage medium
Pachet et al. Automatic extraction of rhythmic structure from music
Schweitzer Lully et la prosodie française à la fin du XVIIe siècle
WO2023111480A1 (en) Device for modifying the time scale of an audio signal
EP0422158A1 (en) Process and device for extracting certain parameters from the features of an unsteady flow based on a complex-value doppler signal

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20051208

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20061017

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20070428