FR3028086B1 - Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore - Google Patents

Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore Download PDF

Info

Publication number
FR3028086B1
FR3028086B1 FR1460622A FR1460622A FR3028086B1 FR 3028086 B1 FR3028086 B1 FR 3028086B1 FR 1460622 A FR1460622 A FR 1460622A FR 1460622 A FR1460622 A FR 1460622A FR 3028086 B1 FR3028086 B1 FR 3028086B1
Authority
FR
France
Prior art keywords
sequence
elementary
sequences
representative
substring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
FR1460622A
Other languages
English (en)
Other versions
FR3028086A1 (fr
Inventor
Pierre Hanna
Pascal Ferraro
Matthias Robine
Julien Allali
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Universite de Bordeaux
Institut Polytechnique de Bordeaux
Original Assignee
Centre National de la Recherche Scientifique CNRS
Universite de Bordeaux
Institut Polytechnique de Bordeaux
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Universite de Bordeaux, Institut Polytechnique de Bordeaux filed Critical Centre National de la Recherche Scientifique CNRS
Priority to FR1460622A priority Critical patent/FR3028086B1/fr
Priority to PCT/EP2015/073784 priority patent/WO2016071085A1/fr
Publication of FR3028086A1 publication Critical patent/FR3028086A1/fr
Application granted granted Critical
Publication of FR3028086B1 publication Critical patent/FR3028086B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Procédé de recherche automatisée d'au moins une sous-séquence sonore (SS2) représentative au sein d'une bande sonore (S1), comprenant : - une décomposition séquentielle (El), - une attribution (E2) d'un symbole choisi dans un alphabet, - une décomposition séquentielle (E3), - un calcul (E4) d'un score correspondant à un cumul de taux d'identité de séquence de la sous-chaîne par rapport aux autres sous-chaînes - une détermination (E5) de la sous-chaîne la plus représentative.

Description

Procédé de recherche automatisée d’au moins une sous-séquence sonore représentative au sein d’une bande sonore L’invention concerne de façon générale les méthodes d’analyse et de traitement des bandes sonores.
Des bandes sonores peuvent correspondre à des productions musicales, par exemple des morceaux de musique, et elles peuvent être commercialisées sous la forme de CD audio. Il est également possible de commercialiser les bandes sonores par des moyens numériques de vente en ligne. Généralement, aux fins de promouvoir la vente d’œuvres musicales, des extraits des titres sont mis à la disposition d’acheteurs potentiels. Ces extraits, de durées relativement courtes, par exemple allant de 30 à 45 secondes, sont destinés à offrir un aperçu des œuvres proposées à la vente.
Le choix de ces extraits peut être réalisé de manière plus ou moins arbitraire, par exemple en optant pour un échantillon provenant des premiers instants des titres. Les extraits ainsi choisis, c'est-à-dire de manière arbitraire, sont rarement représentatifs des œuvres dont ils sont issus, et ils peuvent donner un aperçu erroné aux clients. Certains acheteurs potentiels peuvent ainsi être dissuadés de procéder à l’achat. D’autres acheteurs potentiels pourraient être déçus d’avoir acquis des œuvres qui ne répondraient nullement à leurs attentes. Ces acheteurs frustrés risquent alors de se détourner définitivement d’un tel système de vente de musique.
Alternativement, il a été proposé de sélectionner des extraits qui correspondent à des refrains et/ou des couplets des titres. Ces passages, du fait de leurs répétitions au sein d’un même morceau, sont censés être musicalement les plus attractifs voire les plus représentatifs du morceau considéré. Des moyens automatisés ont ainsi été développés en vue d’identifier ces sous-séquences sonores répétées, qui peuvent alors être utilisées comme résumé sonore. A cet égard, le document FR 2 856 817 décrit le traitement automatisé d’une bande sonore dans lequel un traitement de transformée spectrale permet d’identifier une sous-séquence répétée, et de localiser le début et la fin de cette sous-séquence répétée. Les sous-séquences répétées coïncident généralement soit avec les refrains soit avec les couplets des morceaux ou des titres analysés, lorsque ces derniers comprennent effectivement un refrain et des couplets.
La solution décrite dans le document FR 2 856 817 a pour inconvénient de fournir des sous-séquences ayant des durées non-standardisées, qui peuvent grandement varier d’un titre à l’autre. La durée des sous-séquences est totalement indépendante de la volonté de l’opérateur, elle est en effet intrinsèque au morceau/titre de référence. Un autre inconvénient à cette solution est qu’elle ne peut être généralisée à tout type de bande sonore, car toutes les bandes sonores ne sont pas constituées d’un refrain et de couplets.
La présente invention a donc pour but de remédier aux inconvénients présentés ci-avant, et en particulier de permettre la détermination automatique d’une sous-séquence représentative d’une bande sonore au sein de cette bande sonore de manière simple, avec une durée qui peut être choisie. L’invention a donc pour objet un procédé de recherche automatisée d’au moins une sous-séquence sonore au sein d’au moins une bande sonore, la sous-séquence sonore recherchée étant représentative de ladite bande sonore, comprenant une phase élémentaire de recherche automatisée comportant: - une décomposition séquentielle de la bande sonore en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, de sorte que :
avec : D, la durée de la bande sonore, d, la durée de chacune des séquences élémentaires,
a, le taux de chevauchement de chaque séquence élémentaire avec la séquence élémentaire qui la précède, a étant supérieur ou égal à 0 et inférieur à 1, et N, le nombre de séquences élémentaires formant ladite bande sonore, - une attribution à chaque séquence élémentaire d’un symbole choisi dans un alphabet en fonction d’au moins un paramètre inhérent de la séquence élémentaire de façon à obtenir une chaîne de symboles représentative de la bande sonore, - une décomposition séquentielle de ladite chaîne de symboles en une suite régulière de sous-chaînes consécutives ayant une durée dsc correspondant à n séquences élémentaires, dsc étant supérieure à d, ladite décomposition étant mise en œuvre de façon à ce que le début de la première sous-chaîne de ladite suite coïncide avec une séquence élémentaire particulière de ladite chaîne de symboles, - pour chaque sous-chaîne de ladite suite régulière de sous-chaînes, un calcul d’un score correspondant à un cumul de taux d’identité de séquence de la sous-chaîne par rapport aux autres sous-chaînes, - une sélection de la sous-chaîne ayant le score le plus élevé, la sous-chaîne ayant le score le plus élevé étant la sous-séquence sonore représentative recherchée.
Par décomposition séquentielle, on entend notamment une décomposition ou un découpage ordonné(e), c'est-à-dire d’éléments successifs.
La décomposition séquentielle en une suite de sous-chaînes est mise en œuvre de sorte que les séquences élémentaires de début de deux sous-chaînes consécutives sont séparées par n-1 séquences élémentaires, n correspond au saut de séquences élémentaires entre deux sous-chaînes consécutives.
Ainsi, contrairement au procédé de traitement décrit dans document FR 2 856 817, qui est basé sur une identification de passages répétés, le procédé selon l’invention détermine une sous-séquence ayant une durée dsc choisie préalablement, et qui a une meilleure homogénéité musicale avec l’ensemble de la bande sonore.
Les sous-séquences obtenues au moyen du procédé décrit ci-avant peuvent être utilisées pour faire la promotion d’œuvres musicales.
On peut noter que le procédé peut être appliqué, soit directement soit moyennant quelques adaptations évidentes, à tout type de bande sonore, par exemple des fichiers informatiques audio, ou encore des représentations symboliques de suites de notes ou des fichiers de tablature de guitare, par exemple des fichiers MIDI. A titre indicatif, lors du traitement d’une série de notes ou d’accords formant une bande sonore, on peut obtenir une sous-séquence représentative sous la forme de descripteurs tonaux (HPCP).
On peut aussi noter que le procédé décrit ci-avant est adapté quelle que soit la longueur de la sous-séquence recherchée, c’est-à-dire la durée de l’extrait (ou l’échantillon). Typiquement, le procédé selon l’invention est adapté pour une longueur de 45 secondes, mais il peut également être utilisé pour n’importe quelle autre longueur de sous-séquence, qu’elle soit plus courte ou plus longue que 45 secondes. Ainsi, le procédé selon l’invention permet par exemple de choisir une deuxième longueur (différente de 45 secondes), qui peut être déterminée en fonction de l’application visée. Aujourd’hui, il est classique de proposer uniquement des échantillons de la même longueur, par exemple uniquement des échantillons de 45 secondes.
Par ailleurs, contrairement au procédé du document mentionné ci-dessus, il est possible ici d’obtenir une sous-séquence d’un morceau de musique qui comporte à la fois le refrain ainsi que quelques secondes précédant le refrain et quelques secondes suivant ce refrain (si le refrain a une longueur inférieure à la deuxième longueur). On peut obtenir ainsi une sous-séquence qui peut être plus agréable à écouter qu’une sous-séquence qui démarre directement avec le refrain.
On peut noter que pour obtenir la sous-séquence sonore la plus représentative, on peut déterminer à quel instant de la bande sonore correspond le début de la sous-chaîne ayant le score le plus élevé, pour ensuite identifier dans la bande sonore la sous-séquence représentative.
Ledit au moins un paramètre inhérent d’échantillon est choisi dans le groupe formé par la tonalité, le rythme, le timbre, l’accord, les paroles et le contexte tonal.
Le calcul du score correspondant à un cumul de taux d’identité de séquence peut être effectué au moyen d’un algorithme d’alignement, par exemple l’algorithme d’alignement local Smith-Waterman.
Alternativement, le calcul du score correspondant à un cumul de taux d’identité de séquence peut être effectué au moyen d’un algorithme de chaînage tel que celui décrit dans l’ouvrage de Dan Gusfield intitulé « Algorithms on Strings, Trees and Sequences ». Cambridge University Press, 1997,59,60,78,81,82,83.
Il est possible d’utiliser des algorithmes connus de l’homme du métier qui permettent d’obtenir ces scores. A titre indicatif, on peut mettre en œuvre l’algorithme BLAST (décrit dans l’article de Altschul SF, Gish W, Miller W, Myers EW et Lipman DJ intitulé « Basic local alignment search tool » J Mol Biol. 1990) ou l’algorithme FASTA (décrit dans l’article « Rapid and sensitive protein similarity searches » de D J Lipman et W R Pearson, Science 04/1985), utilisés dans le domaine de la biologie.
On peut notamment utiliser pour la détermination de la sous-chaîne la plus répétée un algorithme de détermination de correspondance de chaîne. On obtient ainsi de manière automatique un score de répétition permettant de déduire la sous-chaîne la plus répétée. La séquence élémentaire particulière de ladite chaîne de symboles peut ne pas être la première séquence élémentaire de ladite chaîne de symboles. Ainsi, on ne prend pas en compte le début de la bande sonore.
La durée d peut être comprise entre 50 et 1000 millisecondes.
Selon un mode de mise en œuvre, a peut être égal à 0 et les séquences élémentaires ne sont alors pas chevauchantes. En variante, a est compris entre 0,1 et 0,9 et les séquences sont chevauchantes, a est typiquement de Tordre de 0,5.n peut être compris entre 1 et 100. De préférence, n est compris entre 20 et 50.
Le procédé selon l’invention, de mise en œuvre et d’utilisation particulièrement simples et rapides, permet avantageusement de générer un extrait sonore particulier, d’une durée ajustable (c’est-à-dire qui peut être librement fixée par un opérateur), éventuellement standardisée, musicalement représentatif d’un morceau et/ou d’un titre musical spécifique.
Selon une autre application particulière, le procédé de recherche automatisé défini ci-avant peut être avantageusement utilisé en vue de générer un « résumé » d’un ensemble défini de bandes sonores (notamment, des titres d’un même album, des titre d’une compilation d’albums, des titres d’une « playlist », l’œuvre complète ou partielle d’un artiste/groupe...). Une génération d’un tel résumé comprend alors une compilation d’extraits, chacun obtenu au moyen de la phase élémentaire de recherche automatisée du procédé de recherche automatisée défini ci-avant.
Pour cela, on peut rechercher automatiquement grâce à N’ phases élémentaires de recherche automatisée, N’ sous-séquences sonores répétitives dans respectivement N’ séquences ou bandes sonores. Les N’ sous-séquences sonores répétitives peuvent former un résumé de l’ensemble des N’ séquences sonores. Cette génération de résumé peut comprendre en outre une concaténation desdites N’ sous-séquences sonores répétitives sous la forme d’une seule sous-séquence. Ainsi, dans le cas du traitement d’un album de musique comprenant N’ séquences ou bandes sonores, on peut obtenir une sous-séquence qui est un résumé de l’album entier. On peut ainsi obtenir une sous-séquence pouvant comporter plusieurs refrains, représentative de l’album entier. L’invention a également pour objet un système informatique comprenant des moyens configurés pour mettre en œuvre le procédé tel que défini ci-avant, par exemple un ordinateur, comportant des moyens tels qu’une unité centrale et des moyens de mémoire, configurés pour mettre en œuvre le procédé défini ci-avant. L’invention a également pour objet un produit programme d’ordinateur chargeable directement dans une mémoire d’un système informatique, comprenant des portions de code de logiciel pour l’exécution du procédé tel que défini ci-avant lorsque ledit programme est exécuté sur ledit système informatique.
Enfin, l’invention a pour objet un support lisible par un système informatique, ayant des instructions exécutables par ordinateur adaptées pour provoquer l’exécution par le système informatique du procédé tel que défini ci-avant. D’autres avantages et caractéristiques de l’invention apparaîtront à l’examen de la description détaillée de modes de mise en œuvre et de réalisation, nullement limitatifs, et des dessins annexés sur lesquels les figures 1 et 2 représentent de manière schématique les étapes de différents modes de mise en œuvre d’un procédé de recherche automatisée selon l’invention.
La présente invention peut être mise en œuvre pour traiter des bandes sonores référencées SI sur la figure 1.
Une telle bande sonore peut être un morceau de musique. Il convient de noter qu’une telle bande sonore peut être obtenue après un échantillonnage d’un signal audio, par exemple à 44,1 kHz comme tel est le cas pour les CD audio.
La bande sonore SI a plusieurs portions bien définies dans le domaine de la musique, notamment un refrain et des couplets.
Sur la figure 1, on a représenté de manière schématique différentes étapes d’une phase élémentaire 10 d’un mode de mise en œuvre d’un procédé selon l’invention.
Par ailleurs, sur la figure 1, la référence SINF désigne globalement un système informatique, par exemple un ordinateur, comportant des moyens tels qu’une unité centrale et des moyens de mémoire, configurés pour mettre en œuvre un mode de mise en œuvre du procédé selon l’invention.
Un tel procédé selon l’invention permet de rechercher automatiquement dans une bande sonore SI une sous-séquence représentative ayant une longueur choisie.
La séquence sonore SI peut être un signal échantillonné stocké sur un support informatique. Pour rendre possible la recherche de la sous-séquence, une décomposition séquentielle est mise en œuvre dans une première étape El.
Cette décomposition séquentielle El de la bande sonore comporte une décomposition séquentielle en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, de sorte que la formulesuivante soit vérifiée : avec :
D, la durée de la bande sonore (SI), d, la durée de chacune des séquences élémentaires, a, le taux de chevauchement de chaque séquence élémentaire avec la séquence élémentaire qui la précède, a étant supérieur ou égal à 0 et inférieur à 1, et N, le nombre de séquences élémentaires formant ladite bande sonore.
Dans cette étape, on découpe la bande sonore SI en une pluralité de séquences élémentaires ayant toutes une longueur choisie d, par exemple de l’ordre de 300 millisecondes. On obtient ainsi un nombre limité de séquences élémentaires à traiter.
Préalablement à la mise en œuvre du procédé, un alphabet a été défini. N’importe quel alphabet peut être utilisé pour la mise en œuvre du procédé. Cet alphabet comporte des symboles destinés à être attribués à des séquences élémentaires en fonction d’au moins un paramètre inhérent de ces séquences élémentaires. A titre indicatif, le paramètre peut être choisi dans le groupe formé par la tonalité, le rythme, le timbre, l’accord, les paroles et le contexte tonal.
On peut noter que pour la tonalité, il est possible de considérer des descripteurs de type « Pitch Class Profile » (PCP ou chroma), bien connus de l’homme du métier et qui pourra à toutes fins utiles se référer notamment à l’article de T. Fujishima, intitulé « Realtime
chord récognition of musical Sound: a System using common lisp music », Proc, of ICMC, pp. 464-467 (1999).
Si le paramètre inhérent est le rythme, il est possible de considérer des descripteurs de type Meter Class Profiles (MCP) tels que ceux décrits dans l’article de M. Robine, M. Lagrange, P. Hanna, intitulé « Meter Class Profiles For Music Similarity And Retrieval », Proc, of the International Society for Music Information Retrieval Conférence (ISMIR), pp. 639-644, Kobe, Japan, October 2009.
Si le paramètre inhérent est le timbre, on peut considérer des descripteurs de type Mel Frequency Cepstral Coefficients (MFCC), bien connus de l’homme de l’art.
Si le paramètre inhérent est le contexte tonal, on peut attribuer un symbole en fonction du contexte tonal, chaque symbole pouvant être associé notamment à une amplitude de spectre et à une octave.
Ainsi, lors d’une deuxième étape E2, chaque séquence élémentaire obtenue en sortie de l’étape El est traitée pour déterminer la valeur du ou des paramètres inhérents associés à cette séquence élémentaire pour ensuite attribuer un symbole à cette séquence élémentaire. On obtient ainsi une chaîne de symboles, qui correspond à une représentation simplifiée de la bande sonore SI et qui est donc traitable de façon automatique en un temps raisonnable. L’homme du métier sait déterminer les valeurs de ces paramètres pour une séquence élémentaire. A titre d’exemple, on peut mettre en œuvre une étape de mesure du paramètre de la séquence élémentaire, et lire ensuite dans une cartographie ayant en entrée des valeurs de paramètre inhérent et délivrant en sortie le symbole à associer.
Une étape E3 est ensuite mise en œuvre, dans laquelle on met en œuvre une décomposition séquentielle de la chaîne de symboles obtenue à l’étape E2.
La décomposition séquentielle E3 de ladite chaîne de symboles comporte une décomposition séquentielle en une suite régulière de sous-chaînes consécutives ayant une durée dsc correspondant à n séquences élémentaires, dsc étant supérieure à d. La décomposition est mise en œuvre de façon à ce que le début de la première sous-chaîne de ladite suite coïncide avec une séquence élémentaire particulière de ladite chaîne de symboles. A titre indicatif, dsc peut être 45 secondes. Le choix de la deuxième longueur dépend de l’utilisateur qui met en œuvre le procédé. La séquence élémentaire particulière peut être la première séquence élémentaire ou une autre séquence élémentaire.
Au cours d’une étape E4, les sous-chaînes obtenues par l’étape E3 sont traitées pour qu’un calcul (E4) soit mis en œuvre. Dans l’étape E4, on calcule un score correspondant à un cumul de taux d’identité de séquence de la sous-chaîne par rapport aux autres sous-chaînes.
La détermination de ces scores peut être mise en œuvre au moyen d’algorithmes de détermination de correspondance de chaîne ou d’algorithmes d’alignement local. Comme on le conçoit, l’utilisation d’un alphabet restreint permet de limiter la complexité de la mise en œuvre du procédé. A titre indicatif, on peut mettre en œuvre les algorithmes BLAST ou FASTA, utilisés dans le domaine de la biologie, on encore l’algorithme Smith-Waterman. Il convient de noter qu’il est possible, en utilisant de tels algorithmes, de déterminer la sous-séquence répétitive avec une complexité notée O(|x|2log(|x|)), où O correspond à la notation de Landau et x correspond à la longueur de la chaîne de symboles obtenue en sortie de l’étape E2.
Enfin, dans l’étape E5 on sélectionne la sous-chaîne ayant le score le plus élevé, la sous-chaîne ayant le score le plus élevé étant la sous-séquence sonore représentative recherchée SS2.
Si SI est un morceau de musique, alors SS2 peut contenir le refrain.
On obtient ainsi une sous-séquence représentative dans une bande sonore du fait de sa répétition, et un extrait ayant une longueur choisie.
Selon une autre application particulière, la phase élémentaire 10 de recherche automatisé décrite ci-avant peut être avantageusement utilisée en vue de générer un « résumé » d’un ensemble défini de N’ bandes sonores (notamment, des titres d’un même album, des titres d’une compilation d’albums, des titres d’une « playlist », l’œuvre complète ou partielle d’un artiste/groupe...). Une génération d’un tel résumé comprend alors une compilation d’extraits, chacun obtenu au moyen de ladite phase élémentaire de recherche automatisée 10.
Pour cela, comme illustré sur la figure 2, on peut rechercher automatiquement grâce à N’ phases élémentaires de recherche automatisée 10, N’ sous-séquences sonores répétitives SS2i-SS2N’ dans respectivement N’ séquences ou bandes sonores SIi-SIn’·
Les N’ sous-séquences sonores répétitives SS2i-SS2N’ peuvent former un résumé de l’ensemble des N’ séquences sonores SU-SIn’·
Cette génération de résumé peut comprendre en outre une concaténation 20 desdites N’ sous-séquences sonores répétitives SS2i-SS2N’ sous la forme d’une seule sous-séquence SSR.
Ainsi, dans le cas du traitement d’un album de musique comprenant N’ séquences ou bandes sonores SU-SIn’, on peut obtenir une sous-séquence SSR qui est un résumé de l’album entier.
On peut ainsi obtenir une sous-séquence SSR pouvant comporter plusieurs refrains, représentative de l’album entier.

Claims (16)

  1. REVENDICATIONS
    1. Procédé de recherche automatisée d’au moins une sous-séquence sonore (SS2) au sein d’au moins une bande sonore (SI), la sous-séquence sonore recherchée étant représentative de ladite au moins une bande sonore, comprenant une phase élémentaire de recherche automatisée comportant : une décomposition séquentielle (El) de la bande sonore en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, de sorte que :
    avec : D, la durée de la bande sonore (SI), d, la durée de chacune des séquences élémentaires, a, le taux de chevauchement de chaque séquence élémentaire avec la séquence élémentaire qui la précède, a étant supérieur ou égal à 0 et inférieur à 1, et N, le nombre de séquences élémentaires formant ladite bande sonore, une attribution (E2) à chaque séquence élémentaire d’un symbole choisi dans un alphabet en fonction d’au moins un paramètre inhérent de la séquence élémentaire, de façon à obtenir une chaîne de symboles, une décomposition séquentielle (E3) de ladite chaîne de symboles en une suite régulière de sous-chaînes consécutives ayant une durée dsc correspondant à n séquences élémentaires, dsc étant supérieure à d, ladite décomposition étant mise en œuvre de façon à ce que le début de la première sous-chaîne de ladite suite coïncide avec
    une séquence élémentaire particulière de ladite chaîne de symboles, pour chaque sous-chaîne de ladite suite régulière de sous-chaînes, un calcul (E4) d’un score correspondant à un cumul de taux d’identité de séquence de la sous-chaîne par rapport aux autres sous-chaînes, une sélection (E5) de la sous-chaîne ayant le score le plus élevé, la sous-chaîne ayant le score le plus élevé étant la sous-séquence sonore représentative recherchée.
  2. 2. Procédé selon la revendication 1, dans lequel ledit au moins un paramètre inhérent d’échantillon est choisi dans le groupe formé par la tonalité, le rythme, le timbre, l’accord, les paroles et le contexte tonal.
  3. 3. Procédé selon la revendication 2, dans lequel le paramètre inhérent est le contexte tonal, et dans lequel on attribue un symbole en fonction du contexte tonal.
  4. 4. Procédé selon la revendication 3, dans lequel chaque symbole est associé à une amplitude de spectre et à une octave.
  5. 5. Procédé selon l’une quelconque des revendications précédentes, dans lequel le calcul du score correspondant à un cumul de taux d’identité de séquence est effectué au moyen d’un algorithme d’alignement.
  6. 6. Procédé selon l’une quelconque des revendications 1 à 4, dans lequel le calcul du score correspondant à un cumul de taux d’identité de séquence est effectué au moyen d’un algorithme de chaînage.
  7. 7. Procédé selon l’une quelconque des revendications précédentes, dans lequel la séquence élémentaire particulière de ladite chaîne de symboles n’est pas la première séquence élémentaire de ladite chaîne de symboles.
  8. 8. Procédé selon l’une quelconque des revendications précédentes, dans lequel la durée d est comprise entre 50 et 1000 millisecondes.
  9. 9. Procédé selon l’une quelconque des revendications précédentes, dans lequel a est égal à 0 et dans lequel les séquences élémentaires ne sont pas chevauchantes.
  10. 10. Procédé selon ï*üne quelconque des revendications 1 à 8, dans lequel a est compris entre 0,1 et 0,9 et dans lequel les séquences sont chevauchantes.
  11. 11. Procédé selon l’une quelconque des revendications précédentes, dans lequel n est compris entre 1 et 100.
  12. 12. Procédé selon l’une quelconque des revendications précédentes, comprenant N’ phases élémentaires de recherche automatisée délivrant respectivement N’ sous-séquences sonores respectivement représentatives de N’ bandes sonores de façon à générer un résumé de l’ensemble des N’ bandes sonores.
  13. 13. Procédé selon la revendication 12, comprenant en outre une concaténation des N’ sous-séquences en une seule sous-séquence.
  14. 14. Système informatique comprenant des moyens configurés pour mettre en œuvre le procédé selon l’une des revendications 1 à 13.
  15. 15. Produit programme d’ordinateur chargeable directement dans une mémoire d’un système informatique, comprenant des portions de code de logiciel pour l’exécution du procédé selon l’une des revendications 1 à 13 lorsque ledit programme est exécuté sur ledit système informatique.
  16. 16. Support lisible par un système informatique, ayant des instructions exécutables par ordinateur adaptées pour provoquer Γ exécution par le système informatique du procédé selon l’une des revendications 1 à 13.
FR1460622A 2014-11-04 2014-11-04 Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore Active FR3028086B1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1460622A FR3028086B1 (fr) 2014-11-04 2014-11-04 Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
PCT/EP2015/073784 WO2016071085A1 (fr) 2014-11-04 2015-10-14 Recherche automatisée d'une sous-séquence sonore la plus représentative au sein d'une bande sonore

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1460622A FR3028086B1 (fr) 2014-11-04 2014-11-04 Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
FR1460622 2014-11-04

Publications (2)

Publication Number Publication Date
FR3028086A1 FR3028086A1 (fr) 2016-05-06
FR3028086B1 true FR3028086B1 (fr) 2019-06-14

Family

ID=52423876

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1460622A Active FR3028086B1 (fr) 2014-11-04 2014-11-04 Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore

Country Status (2)

Country Link
FR (1) FR3028086B1 (fr)
WO (1) WO2016071085A1 (fr)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6225546B1 (en) * 2000-04-05 2001-05-01 International Business Machines Corporation Method and apparatus for music summarization and creation of audio summaries
FR2856817A1 (fr) * 2003-06-25 2004-12-31 France Telecom Procede de traitement d'une sequence sonore, telle qu'un morceau musical
FR2959037A1 (fr) * 2010-04-14 2011-10-21 Orange Vallee Procede de creation d'une sequence media par groupes coherents de fichiers medias
CN102541965B (zh) * 2010-12-30 2015-05-20 国际商业机器公司 自动获得音乐文件中的特征片断的方法和系统
CN103440313B (zh) * 2013-08-27 2018-10-16 复旦大学 基于音频指纹特征的音乐检索系统

Also Published As

Publication number Publication date
WO2016071085A1 (fr) 2016-05-12
FR3028086A1 (fr) 2016-05-06

Similar Documents

Publication Publication Date Title
Gómez et al. Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing
JP4243682B2 (ja) 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
Hargreaves et al. Structural segmentation of multitrack audio
WO2021009319A1 (fr) Procédé de séparation d'un signal acoustique de mélange en une pluralité de m contributions sonores; produit programme d'ordinateur et support lisible d'informations associés
JP2007520727A (ja) 楽曲のようなサウンドシーケンスを処理する方法
Heydarian Automatic recognition of Persian musical modes in audio musical signals
Bielecki Few-shot bioacoustic event detection with prototypical networks, knowledge distillation and attention transfer loss
Retta et al. Kiñit classification in Ethiopian chants, Azmaris and modern music: A new dataset and CNN benchmark
Rao et al. Structural Segmentation of Alap in Dhrupad Vocal Concerts.
FR3028086B1 (fr) Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
Sha et al. Singing voice timbre classification of Chinese popular music
Müller et al. A Cross-version Approach for Stabilizing Tempo-based Novelty Detection.
Maia et al. SAMBASET: A dataset of historical samba de enredo recordings for computational music analysis
Kum et al. Classification-based singing melody extraction using Deep Convolutional Neural Networks
You et al. Polyphonic Music Note Onset Detection Using Semi-Supervised Learning.
Peiris et al. Supervised learning approach for classification of Sri Lankan music based on music structure similarity
Desblancs Self-supervised beat tracking in musical signals with polyphonic contrastive learning
Bagul et al. Recognition of similar patterns in popular Hindi Jazz songs by music data mining
CN115527514B (zh) 音乐大数据检索的专业声乐旋律特征提取方法
Weck et al. WikiMuTe: A web-sourced dataset of semantic descriptions for music audio
Tian A cross-cultural analysis of music structure
Lin et al. Bridging music via sound effects
Lansdown et al. Machine Learning for Music Genre Classification
Kim et al. A music summarization scheme using tempo tracking and two stage clustering
WO2023111480A1 (fr) Dispositif de modification d'echelle temporelle d'un signal audio

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20160506

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10