EP1794745A1 - Device and method for changing the segmentation of an audio piece - Google Patents

Device and method for changing the segmentation of an audio piece

Info

Publication number
EP1794745A1
EP1794745A1 EP05762452A EP05762452A EP1794745A1 EP 1794745 A1 EP1794745 A1 EP 1794745A1 EP 05762452 A EP05762452 A EP 05762452A EP 05762452 A EP05762452 A EP 05762452A EP 1794745 A1 EP1794745 A1 EP 1794745A1
Authority
EP
European Patent Office
Prior art keywords
segment
segments
similarity
class
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP05762452A
Other languages
German (de)
French (fr)
Other versions
EP1794745B1 (en
Inventor
Markus Van Pinxteren
Michael Saupe
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1794745A1 publication Critical patent/EP1794745A1/en
Application granted granted Critical
Publication of EP1794745B1 publication Critical patent/EP1794745B1/en
Not-in-force legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

For grouping temporal segments of an audio piece, which is structured into main parts repeatedly occurring in the audio piece, into various segment classes, at first a similarity representation for the segments is provided, wherein the similarity representation for each segment comprises an associated plurality of similarity values, wherein the similarity values indicate how similar the segment is to every other segment of the audio piece. Hereupon, using the similarity values associated with the segment, a similarity threshold value for a segment is calculated in order to then associate a segment with a segment class when the similarity value of the segment meets a predetermined relation with reference to the similarity threshold value. With this, clustering is achieved, which also works efficiently and correctly where there are segments with strongly different or almost equal combined similarity values.

Description

Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks Device and method for changing a segmentation of an audio piece
Beschreibungdescription
Die vorliegende Erfindung bezieht sich auf die Audiosegmen- tierung und insbesondere auf die Analyse von Musikstücken auf die in den Musikstücken enthaltenen einzelnen Haupttei¬ le, die in dem Musikstück wiederholt auftreten können.The present invention relates to the audio segmentation and in particular to the analysis of pieces of music on the individual Haupttei¬ contained in the pieces of music, which may occur repeatedly in the piece of music.
Musik aus dem Rock- und Popbereich besteht meistens aus mehr oder weniger eindeutigen Segmenten, wie beispielsweise Intro, Strophe, Refrain, Bridge, Outro, etc. Die Anfangs¬ und Endzeitpunkte solcher Segmente zu detektieren und die Segmente nach ihrer Zugehörigkeit zu den wichtigsten Klas¬ sen (Strophe und Refrain) zu gruppieren, ist Ziel der Au- diosegmentierung. Eine korrekte Segmentierung und auch Kennzeichnung der berechneten Segmente kann in verschiede¬ nen Bereichen sinnvoll eingesetzt werden. Beispielsweise können so Musikstücke von Online-Anbietern, wie Amazon, Mu- sicline, etc. intelligent „angespielt" werden.Music from the rock and pop area usually consists of more or less distinct segments, such as intro, verse, chorus, bridge, outro, etc. The beginning and end times of such segments to detect and the segments according to their affiliation to the most important Klas¬ Grouping the stanza (verse and chorus) is the goal of audio segmentation. Correct segmentation and also identification of the calculated segments can be usefully used in various areas. For example, pieces of music from online providers such as Amazon, Mu- sicline, etc. can be intelligently "played".
Die meisten Anbieter im Internet beschränken sich bei ihren Hörbeispielen auf einen kurzen Ausschnitt aus den angebote¬ nen Musikstücken. In diesem Fall wäre es natürlich auch sinnvoll, dem Interessenten nicht nur die ersten 30 Sekun- den oder beliebige 30 Sekunden, sondern einen möglichst re¬ präsentativen Ausschnitt aus dem Lied anzubieten. Dies könnte z. B. der Refrain sein, oder aber auch eine Zusam¬ menfassung des Liedes, bestehend aus Segmenten, die den verschiedenen Hauptklassen (Strophe, Refrain, ... ) angehö- ren.Most providers on the Internet limit their listening examples to a short excerpt from the available pieces of music. In this case, it would of course also make sense to offer the interested party not just the first 30 seconds or any 30 seconds, but a section of the song that is as representative as possible. This could be z. For example, it may be the chorus, but also a summary of the song, consisting of segments that belong to the various main classes (stanza, chorus, etc.).
Ein weiteres Anwendungsbeispiel für die Technik der Audio¬ segmentierung ist das Integrieren des Segmentierungs- /Gruppierungs-/Markierungsalgorithmus in einen Musicplayer. Die Informationen über Segmentanfänge und Segmentenden er¬ möglichen das gezielte Navigieren durch ein Musikstück. Durch die Klassenzugehörigkeit der Segmente, also ob ein Segment eine Strophe, ein Refrain, etc. ist, kann z. B. auch direkt zum nächsten Refrain oder zur nächsten Strophe gesprungen werden. Eine derartige Anwendung ist für große Musikmärkte von Interesse, die ihren Kunden die Möglichkeit bieten, in komplette Alben hinein zu hören. Dadurch erspart sich der Kunde das lästige, suchende VorspuILen zu charakte¬ ristischen Stellen im Lied, die ihn vielleicht dazu bewegen könnten, ein Musikstück am Ende tatsächlich zu kaufen.Another application example for the technique of audio segmentation is the integration of the segmentation / Grouping / marking algorithm into a music player. The information about segment beginnings and segment ends makes it possible to navigate through a piece of music. Due to the class affiliation of the segments, ie whether a segment is a verse, a chorus, etc., z. B. also jump directly to the next chorus or the next stanza. Such an application is of interest to large music markets, offering their customers the opportunity to listen to complete albums. As a result, the customer spares himself the annoying, searching prelude to characteristic passages in the song, which might perhaps lead him to actually buy a piece of music in the end.
Auf dem Gebiet der Audiosegmentierung existieren verschie- dene Ansätze. Nachfolgend wird der Ansatz von Jonathan Foo- te und Matthew Cooper beispielhaft dargestellt. Dieses Ver¬ fahren ist in FOOTE, J.T. / Cooper, M.L.: Summarizing Popu¬ lär Music via Structural Similarity Analysis. Proceedings of the IEEE Workshop of Signal Processing to Audio and Acoustics 2003. FOOTE, J.T. / COOPER, M.L. : Media Segmenta- tion using Self-Similar Decomposition. Proceedings of SPIE Storage and Retrieval for Multimedia Databases, Bd. 5021, S. 167-75, Januar 2003, dargestellt.There are different approaches in the field of audio segmentation. In the following, the approach of Jonathan Foote and Matthew Cooper is exemplified. This process is described in FOOTE, J.T. / Cooper, M.L .: Summarizing Populary Music via Structural Similarity Analysis. Proceedings of the IEEE Workshop on Signal Processing to Audio and Acoustics 2003. FOOTE, J.T. / COOPER, M.L. : Media Segmentation using Self-Similar Decomposition. Proceedings of SPIE Storage and Retrieval for Multimedia Databases, Vol. 5021, pp. 167-75, January 2003.
Das bekannte Verfahren von Foote wird antiand des Block¬ schaltbilds von Fig. 5 beispielhaft erläutert. Zunächst wird eine WAV-Datei 500 bereitgestellt. In einem nachge¬ schalteten Extraktionsblock 502 findet dann eine Merk¬ malsextraktion statt, wobei als Merkmal die Spektralkoeffi- zienten an sich oder alternativ die Mel-Frequenz-Cepstral- Koeffizienten (MFCCs) extrahiert werden. Vor dieser Extrak¬ tion wird eine Kurzzeit-Fourier-Transformation (STFT) mit 0,05 Sekunden breiten nicht-überlappenden Fenstern mit der WAV-Datei durchgeführt. Die MFCC-Merkmale werden dann im Spektralbereich extrahiert. Hierbei sei darauf hingewiesen, dass die Parametrisierung nicht für eine Kompression, Über¬ tragung oder Rekonstruktion optimiert ist, sondern für eine oThe known method of Foote antiand the Block¬ circuit diagram of Fig. 5 is exemplified. First, a WAV file 500 is provided. In a subsequent extraction block 502, a feature extraction then takes place, wherein as a feature the spectral coefficients per se or alternatively the mel frequency cepstral coefficients (MFCCs) are extracted. Prior to this extraction, a short-time Fourier transform (STFT) is performed with 0.05 second wide non-overlapping windows with the WAV file. The MFCC features are then extracted in the spectral range. It should be noted that the parameterization is not optimized for compression, transmission or reconstruction, but for a O
Audioanalyse. Die Anforderung besteht dahingehend, dass ähnliche Audiostücke ähnliche Merkmale erzeugen.Audio analysis. The requirement is that similar audio pieces produce similar features.
Die extrahierten Merkmale werden dann in einem Speicher 504 abgelegt.The extracted features are then stored in a memory 504.
Auf den Merkmalsextraktionsalgorithmus findet nunmehr ein Segmentierungsalgorithmus statt, der in einer Ähnlichkeits¬ matrix endet, wie es in einem Block 506 dargestellt ist. Zunächst wird jedoch die Merkmalsmatrix eingelesen (508), um dann Merkmalsvektoren zu gruppieren (510) , um dann auf Grund der gruppierten Merkmalsvektoren eine Ähnlichkeits¬ matrix aufzubauen, die aus einer Distanzmessung zwischen jeweils allen Merkmalen besteht. Im Einzelnen werden alle paarweisen Kombinationen von Audiofenstern unter Verwendung eines quantitativen Ähnlichkeitsmaßes, also der Distanz, verglichen.The feature extraction algorithm now has a segmentation algorithm that ends in a similarity matrix, as shown in a block 506. First, however, the feature matrix is read in (508), to then group feature vectors (510), to then build a similarity matrix based on the grouped feature vectors, which consists of a distance measurement between each of all features. In particular, all pairs of audio window pairs are compared using a quantitative similarity measure, distance.
Der Aufbau der Ähnlichkeitsmatrix ist in Fig. 8 darge- stellt. So ist in Fig. 8 das Musikstück als Strom oder Stream 800 von Audioabtastwerten dargestellt. Das Audio¬ stück wird, wie es ausgeführt worden ist, gefenstert, wobei ein erstes Fenster mit i und ein zweites Fenster mit j be¬ zeichnet sind. Insgesamt hat das Audiostück z. B. K Fens- ter. Dies bedeutet, dass die Ähnlichkeitsmatrix K Zeilen und K Spalten hat. Dann wird für jedes Fenster i und für jedes Fenster j ein Ähnlichkeitsmaß zueinander berechnet, wobei das berechnete Ähnlichkeitsmaß oder Distanzmaß D(i,j) an der durch i und j bezeichneten Zeile bzw. Spalte in der Ähnlichkeitsmatrix eingegeben wird. Eine Spalte zeigt daher die Ähnlichkeit des durch j bezeichneten Fensters zu allen anderen Audiofenstern in dem Musikstück. Die Ähnlichkeit des Fensters j zum allerersten Fenster des Musikstücks wür¬ de dann in der Spalte j und in der Zeile 1 stehen. Die Ähn- lichkeit des Fensters j zum zweiten Fenster des Musikstücks würde dann in der Spalte j, aber nunmehr in der Zeile 2 stehen. Dagegen würde die Ähnlichkeit des zweiten Fensters - A -The structure of the similarity matrix is shown in FIG. 8. Thus, in Fig. 8, the music piece is represented as a stream or stream 800 of audio samples. The piece of audio is windowed, as has been stated, with a first window having i and a second window being j. Overall, the audio piece has z. B. K window. This means that the similarity matrix has K rows and K columns. Then, for each window i and for each window j, a similarity measure to each other is calculated, and the calculated similarity measure or distance measure D (i, j) is input to the row or column designated by i and j in the similarity matrix. One column therefore shows the similarity of the window designated by j to all other audio windows in the piece of music. The similarity of window j to the very first window of the piece of music would then be in column j and in line 1. The similarity of window j to the second window of the piece of music would then be in column j, but now in line 2. By contrast, the similarity of the second window - A -
zum ersten Fenster in der zweiten Spalte der Matrix und in der ersten Zeile der Matrix stehen.to the first window in the second column of the matrix and in the first row of the matrix.
Es ist zu sehen, dass die Matrix dahingehend redundant ist, dass sie zur Diagonalen symmetrisch ist, und dass auf der Diagonalen die Ähnlichkeit eines Fensters zu sich selbst steht, was den trivialen Fall einer 100%-igen Ähnlichkeit darstellt.It can be seen that the matrix is redundant in that it is symmetric to the diagonal, and that on the diagonal the similarity of a window is to itself, which is the trivial case of 100% similarity.
Ein Beispiel für eine Ähnlichkeitsmatrix eines Stücks ist in Fig. 6 zu sehen. Hier ist wieder die komplett symmetri¬ sche Struktur der Matrix bezüglich der Hauptdiagonalen er¬ kennbar, wobei die Hauptdiagonale als heller Streifen er¬ sichtlich ist. Ferner wird darauf hingewiesen, dass auf Grund der kleinen Fensterlänge im Vergleich zu der relativ groben Zeitauflösung in Fig. 6 die Hauptdiagonale nicht als heller durchgehender Strich zu sehen ist, sondern aus Fig. 6 nur in etwa erkennbar ist.An example of a similarity matrix of a piece can be seen in FIG. Here again the completely symmetrical structure of the matrix with respect to the main diagonal is recognizable, the main diagonal being visible as a light stripe. It should also be noted that due to the small window length compared to the relatively coarse time resolution in Fig. 6, the main diagonal is not seen as a lighter solid line, but from Fig. 6 is only approximately recognizable.
Hierauf wird unter Verwendung der Ähnlichkeitsmatrix, wie sie z. B. in Fig. 6 dargestellt ist, eine Kernel- Korrelation 512 mit einer Kernel-Matrix 514 durchgeführt, um ein Neuheitsmaß, das auch als „Novelty Score" bekannt ist, zu erhalten, das gemittelt werden könnte und in ge- glätteter Form in Fig. 9 dargestellt ist. Die Glättung die¬ ses Novelty Scores ist in Fig. 5 schematisch durch einen Block 516 dargestellt.This is done using the similarity matrix as described, for. For example, as shown in FIG. 6, a kernel correlation 512 is performed on a kernel matrix 514 to obtain a novelty measure, also known as a novelty score, that could be averaged and smoothed into The smoothing of these Novelty Scores is shown schematically in FIG. 5 by a block 516.
Hierauf werden in einem Block 518 die Segmentgrenzen unter Verwendung des geglätteten Neuheitswertverlaufs ausgelesen, wobei hierzu die lokalen Maxima im geglätteten Neuheitsver¬ lauf ermittelt und gegebenenfalls noch um eine durch die Glättung verursachte konstante Anzahl von Samples verscho¬ ben werden müssen, um tatsächlich die richtigen Segment- grenzen des Audiostücks als absolute oder relative Zeitan¬ gabe zu erhalten. Hierauf wird, wie es bereits in einem mit Clustering be¬ zeichneten Block aus Fig. 5 ersichtlich ist, eine so ge¬ nannte Segmentähnlichkeitsdarstellung oder Segmentähnlich¬ keitsmatrix erstellt. Ein Beispiel für eine Segmentähnlich- keitsmatrix ist in Fig. 7 dargestellt. Die Ähnlichkeitsmat¬ rix in Fig. 7 ist prinzipiell ähnlich zu der Merkmals- Ähnlichkeitsmatrix von Fig. 6, wobei nun jedoch nicht mehr, wie in Fig. 6, Merkmale aus Fenstern verwendet werden, son¬ dern Merkmale aus einem ganzen Segment. Die Segmentähnlich- keitsmatrix hat eine ähnliche Aussage wie die Merkmalsähn¬ lichkeitsmatrix, jedoch mit einer wesentlich gröberen Auf¬ lösung, was natürlich gewünscht ist, wenn betrachtet wird, dass Fensterlängen im Bereich von 0,05 Sekunden liegen, während vernünftig lange Segmente im Bereich von vielleicht 10 Sekunden eines Stückes liegen.Then, in a block 518, the segment boundaries are read out using the smoothed novelty value profile, for which purpose the local maxima in the smoothed novelty curve are determined and, if appropriate, must be shifted by a constant number of samples caused by the smoothing in order actually to produce the correct segment - To obtain limits of the audio piece as absolute or relative Zeitan¬ gift. Then, as is already apparent in a block of FIG. 5 designated with clustering, a so-called segment similarity representation or segment similarity matrix is created. An example of a segment similarity matrix is shown in FIG. The similarity matrix in FIG. 7 is basically similar to the feature similarity matrix of FIG. 6, but now, as in FIG. 6, features from windows are no longer used, but features from a whole segment. The segment similarity matrix has a similar proposition to the feature similarity matrix, but with a much coarser resolution, which of course is desired when considering that window lengths are in the range of 0.05 seconds, while reasonably long segments are in the range of maybe 10 seconds of a piece lying.
Hierauf wird dann in einem Block 522 ein Clustering durch¬ geführt, also eine Einordnung der Segmente in Segmentklas¬ sen (eine Einordnung von ähnlichen Segmenten in dieselbe Segmentklasse) , um dann in einem Block 524 die gefundenen Segmentklassen zu markieren, was auch als „Labeling" be¬ zeichnet wird. So wird im Labeling ermittelt, welche Seg¬ mentklasse Segmente enthält, die Strophen sind, die Re¬ frains sind, die Intros, Outros, Bridges, etc. sind.Then, in a block 522, a clustering is performed, ie an arrangement of the segments into segment classes (an arrangement of similar segments in the same segment class), in order then to mark the found segment classes in a block 524, which is also referred to as "labeling Thus, in labeling, it is determined which segment class contains segments which are stanzas, which are reflections, which are intros, outros, bridges, etc.
Schließlich wird in einem mit 526 in Fig. 5 bezeichneten Block eine Musicsummary erstellt, die z. B. einem Benutzer bereitgestellt werden kann, um ohne Redundanz von einem Stück nur z. B. eine Strophe, einen Refrain und das Intro zu hören.Finally, in a block labeled 526 in FIG. 5, a music score is created, which is e.g. B. can be provided to a user, without redundancy of a piece only z. B. a verse, a chorus and the intro to hear.
Nachfolgend wird auf die einzelnen Blöcke noch detaillier¬ ter eingegangen.The individual blocks will be discussed in more detail below.
Wie es bereits ausgeführt worden ist, findet die eigentli¬ che Segmentierung des Musikstücks erst dann statt, wenn die Merkmalsmatrizen generiert und gespeichert sind (Block 504) . - fi -As has already been explained, the actual segmentation of the piece of music does not take place until the feature matrices have been generated and stored (block 504). - fi -
Je nach dem, anhand welchen Merkmals das Musikstück auf seine Struktur hin untersucht werden soll, wird die ent¬ sprechende Merkmalsmatrix ausgelesen und zur Weiterverar- beitung in einen Arbeitsspeicher geladen. Die Merkmalsmat¬ rix hat die Dimension Anzahl der Analysefenster mal Anzahl der Merkmalskoeffizienten.Depending on which feature the music piece is to be examined for its structure, the corresponding feature matrix is read out and loaded into a main memory for further processing. The feature matrix has the dimension number of analysis windows times the number of feature coefficients.
Durch die Ähnlichkeitsmatrix wird der Merkmalsverlauf eines Stücks in eine zweidimensionale Darstellung gebracht. Für jede paarweise Kombination von Merkmalsvektoren wird das Distanzmaß berechnet, das in der Ähnlichkeitsmatrix fest¬ gehalten wird. Zur Berechnung des Distanzmaßes zwischen zwei Vektoren gibt es verschiedene Möglichkeiten, nämlich beispielsweise die Euklidsche Distanzmessung und die Cosi¬ nus-Distanzmessung. Ein Ergebnis D(i,j) zwischen den zwei Merkmalsvektoren wird im i,j-ten Element der Fenster- Ähnlichkeitsmatrix (Block 506) gespeichert. Die Hauptdiago¬ nale der Ähnlichkeitsmatrix repräsentiert den Verlauf über das gesamte Stück. Dementsprechend resultieren die Elemente der Hauptdiagonalen aus dem jeweiligen Vergleich eines Fensters mit sich selbst und weisen immer den Wert der größten Ähnlichkeit auf. Bei der Cosinus-Distanzmessung ist dies der Wert 1, bei der einfachen skalaren Differenz und der Euklidschen Distanz ist dieser Wert gleich 0.The similarity matrix brings the feature course of a piece into a two-dimensional representation. For each pairwise combination of feature vectors, the distance measure is calculated, which is kept fixed in the similarity matrix. There are various possibilities for calculating the distance measure between two vectors, namely, for example, the Euclidean distance measurement and the cosine distance measurement. A result D (i, j) between the two feature vectors is stored in the i, jth element of the window similarity matrix (block 506). The main diagonal of the similarity matrix represents the course over the entire piece. Accordingly, the elements of the main diagonal result from the respective comparison of a window with itself and always have the value of the greatest similarity. For the cosine distance measurement this is the value 1, for the simple scalar difference and the Euclidean distance this value is 0.
Zur Visualisierung einer Ähnlichkeitsmatrix, wie sie in Fig. 6 dargestellt ist, bekommt jedes Element i, j einen Grauwert zugewiesen. Die Grauwerte sind proportional zu den Ähnlichkeitswerten abgestuft, so dass die maximale Ähnlich¬ keit (die Hauptdiagonale) der maximalen Ähnlichkeit ent¬ spricht. Durch diese Darstellung kann man die Struktur ei¬ nes Liedes bereits optisch auf Grund der Matrix erkennen. Bereiche ähnlicher Merkmalsausprägung entsprechen Quadran- ten ähnlicher Helligkeit entlang der Hauptdiagonalen. Die Grenzen zwischen den Bereichen zu finden, ist die Aufgabe der eigentlichen Segmentierung. Die Struktur der Ähnlichkeitsmatrix ist wichtig für das in der Kernel-Korrelation 512 berechnete Neuheitsmaß. Das Neu¬ heitsmaß entsteht durch die Korrelation eines speziellen Kernels entlang der Hauptdiagonalen der Ähnlichkeitsmatrix. Ein beispielhafter Kernel K ist in Fig. 5 dargestellt. Kor¬ reliert man diese Kernel-Matrix entlang der Hauptdiagonalen der Ähnlichkeitsmatrix S, und summiert dabei alle Produkte der übereinander liegenden Matrixelemente für jeden Zeit¬ punkt i des Stücks, so erhält man das Neuheitsmaß, das in geglätteter Form beispielhaft in Fig. 9 dargestellt ist. Vorzugsweise wird nicht der Kernel K in Fig. 5 verwendet, sondern ein vergrößerter Kernel, der zudem mit einer Gauss¬ verteilung überlagert ist, so dass die Kanten der Matrix gegen 0 streben.To visualize a similarity matrix, as shown in FIG. 6, each element i, j is assigned a gray value. The gray values are graduated in proportion to the similarity values, so that the maximum similarity (the main diagonal) corresponds to the maximum similarity. By means of this representation, the structure of a song can already be visually recognized on the basis of the matrix. Areas of similar feature expression correspond to quadrants of similar brightness along the main diagonal. Finding the boundaries between the areas is the task of the actual segmentation. The structure of the similarity matrix is important to the novelty measure calculated in kernel correlation 512. The measure of novelty arises from the correlation of a special kernel along the main diagonal of the similarity matrix. An exemplary kernel K is shown in FIG. If one compares this kernel matrix along the main diagonal of the similarity matrix S, and sums up all the products of the superimposed matrix elements for each time point i of the piece, then the novelty measure is obtained, which is shown by way of example in FIG. 9 in a smoothed form , Preferably, the kernel K in FIG. 5 is not used, but rather an enlarged kernel, which is additionally superimposed with a Gaussian distribution, so that the edges of the matrix tend towards 0.
Die Selektion der markanten Maxima im Neuheitsverlauf ist wichtig für die Segmentierung. Die Auswahl aller Maxima des ungeglätteten Neuheitsverlaufs würde zu einer starken Über¬ segmentierung des Audiosignals führen.The selection of the striking maxima in the novelty course is important for the segmentation. The selection of all maxima of the unsmoothed novelty course would lead to a strong over-segmentation of the audio signal.
Daher sollte das Neuheitsmaß geglättet werden, und zwar mit verschiedenen Filtern, wie beispielsweise IIR-Filter oder FIR-Filter.Therefore, the novelty measure should be smoothed with different filters, such as IIR filters or FIR filters.
Sind die Segmentgrenzen eines Musikstücks extrahiert, so müssen nun ähnliche Segmente als solche gekennzeichnet und in Klassen gruppiert werden.If the segment boundaries of a piece of music are extracted, then similar segments must be identified as such and grouped into classes.
Foote und Cooper beschreiben die Berechnung einer segment- basierten Ähnlichkeitsmatrix mittels einer Cullback- Leibler-Distanz. Hierfür werden anhand der aus dem Neu¬ heitsverlauf gewonnenen Segmentgrenzen einzelne Segment¬ merkmalsmatrizen aus der gesamten Merkmalsmatrix extra¬ hiert, d. h. jede dieser Matrizen ist eine Submatrix der gesamten Merkmalsmatrix. Die damit entstandene Segmentähn¬ lichkeitsmatrix 520 wird nunmehr einer Singularwertzerle¬ gung (SVD; SVD = Singular Value Decomposition) unterzogen. Hierauf erhält man Singulärwerte in absteigender Reihenfol¬ ge.Foote and Cooper describe the computation of a segment-based similarity matrix using a Cullback-Leibler distance. For this purpose, individual segment feature matrices are extracted from the entire feature matrix on the basis of the segment boundaries obtained from the course of novelty, ie each of these matrices is a submatrix of the entire feature matrix. The resulting segment similarity matrix 520 is now subjected to a singular value decomposition (SVD, SVD = Singular Value Decomposition). Then one obtains singular values in descending order.
Im Block 526 wird dann eine automatische Zusammenfassung eines Stücks anhand der Segmente und Cluster eines Musik¬ stücks durchgeführt. Hierzu werden zunächst die zwei Cluster mit den größten Singulärwerten ausgewählt. Dann wird das Segment mit dem Maximalwert des entsprechenden Cluster-Indikators zu dieser Summary hinzugefügt. Dies be— deutet, dass die Summary eine Strophe und einen Refrain umfasst. Alternativ können auch alle wiederholten Segmente entfernt werden,, um sicherzustellen, dass alle Informatio¬ nen des Stücks bereitgestellt werden, jedoch immer genau einmal.In block 526, an automatic summary of a piece is then carried out on the basis of the segments and clusters of a piece of music. For this purpose, first the two clusters with the largest singular values are selected. Then, the segment with the maximum value of the corresponding cluster indicator is added to this summary. This means that the summary includes a stanza and a chorus. Alternatively, all repeated segments can be removed to ensure that all information of the piece is provided, but always exactly once.
Bezüglich weiterer Techniken zur Segmentierung/Musikanalyse wird auf CHU, s. / LOGAN B.: Music Summary using Key Phra — ses. Technical Report, Cambridge Research Laboratory 2000 , BARTSCH, M.A. / WAKEFIELD, g. H. : To Catch a Chorus: Usin<g Chroma-Based Representation for Audio Thumbnailing. Pro— ceedings of the IEEE Workshop of Signal Processing to Audio and Acoustics 2001. http: //musen.engin.umich.edu/papers / bartsch wakefield waspaaOl final.pdf, verwiesenConcerning further techniques for segmentation / music analysis, CHU, s. / LOGAN B .: Music Summary using Key Phases. Technical Report, Cambridge Research Laboratory 2000, BARTSCH, M.A. / WAKEFIELD, g. H.: To Catch a Chorus: Usin <g Chroma-Based Representation for Audio Thumbnailing. Preparations of the IEEE Workshop on Signal Processing to Audio and Acoustics 2001. http://musen.engin.umich.edu/papers/bartsch wakefield waspaaOl final.pdf, referenced
Nachteilig an dem bekannten Verfahren ist die Tatsache , dass die Singularwertzerlegung (SVD) zur Segmentklassenbil¬ dung, also zum Zuordnen von Segmenten zu Clustern zum einen sehr rechenaufwendig ist und zum anderen problematisch in der Beurteilung der Ergebnisse ist. So wird dann, wenn die Singularwerte nahezu gleich groß sind, eine möglicherweise falsche Entscheidung dahingehend getroffen, dass die beiden ähnlichen Singularwerte eigentlich die gleiche Segmentklas - se und nicht zwei unterschiedliche Segmentklassen darstel¬ len.A disadvantage of the known method is the fact that the singular value decomposition (SVD) for segment class formation, that is to say the assignment of segments to clusters, is very computationally intensive and is problematic in the evaluation of the results. Thus, if the singular values are nearly equal, then a possibly wrong decision is made that the two similar singular values actually represent the same segment class and not two different segment classes.
Ferner wurde herausgefunden, dass die Ergebnisse, die durch die Singularwer~tzerlegung erhalten werden, dann immer prob¬ lematischer werden, wenn es starke Ähnlichkeitswertunterr- schiede gibt, wenn also ein Stück sehr ähnliche Anteil_e enthält, wie Strophe und Refrain, aber auch relativ unähn¬ liche Anteile, wie Intro, Outro oder Bridge.It was also found that the results ~ by Singularwer tzerlegung obtained are then always prob¬ lematischer when strong Ähnlichkeitswertunterr- There are differences, if a piece contains very similar parts, such as stanza and chorus, but also relatively different parts, such as intro, outro or bridge.
Ferner problematisch an «dem bekannten Verfahren ist, dass immer davon ausgegangen wird, dass der Cluster unter den beiden Clustern mit den höchsten Singularwerten, der das erste Segment im Lied hat, der Cluster „Strophe" ist, und dass der andere Cluster der Cluster „Refrain" ist. Dieses Prozedere basiert darauf, dass man im bekannten Verfahren davon ausgeht, dass ein Lied immer mit einer Strophe be¬ ginnt. Erfahrungen haben gezeigt, dass damit erhebliche La¬ belingfehler erhalten wexden. Dies ist insofern problema¬ tisch, da das Labeling gewissermaßen die „Ernte" des gesam- ten Verfahrens ist, also das, was der Benutzer unmittelbar erfährt. Waren die vorhergehenden Schritte noch so präzise und aufwändig, so relativiert sich alles, wenn am Ende falsch gelabelt wird, da dann beim Benutzer das Vertrauen in das gesamte Konzept insgesamt Schaden nehmen könnte.Also problematic about the known method is that it is always assumed that the cluster among the two clusters with the highest singular values having the first segment in the song is the cluster "stanza" and that the other cluster is the cluster " Refrain "is. This procedure is based on the fact that it is assumed in the known method that a song always starts with a stanza. Experience has shown that this would result in significant faulty errors. This is problematic insofar as labeling is effectively the "harvesting" of the entire process, ie what the user experiences directly.Were the preceding steps were still so precise and complex, everything gets relativised, if in the end wrong is labeled, because then the user could lose confidence in the entire concept as a whole.
An dieser Stelle sei ferner darauf hingewiesen, dass insbe¬ sondere Bedarf nach automatischen Musikanalyseverfahren be¬ steht, ohne dass das Ergebnis immer überprüft und gegebe¬ nenfalls korrigiert werden kann. Statt dessen ist ein VeH-"- fahren nur dann am Markt einsetzbar, wenn es automatisch ohne menschliche Nachkorirektur ablaufen kann.It should also be noted at this point that there is a particular need for automatic music analysis methods without the result always being able to be checked and, if appropriate, corrected. Instead, a VeH - "- drive can only be used on the market if it can run automatically without human Nachkorirektur.
Ferner nachteilig an dem bekannten Konzept ist die Tatsa¬ che, dass bei der Segmentierung auf der durch die Singulair- wertzerlegung berechneten Segmentierung aufgebaut wird. ICn anderen Worten ausgedrückt bedeutet dies, dass sowohl das Clustering als auch das abschließende Labeling auf der durch Singularwertzerlegiαng ermittelten Segmentierung auf¬ baut. So kann jedoch das Clustering und das Labeling und damit auch die Music-Summary, die das für den Hörer eigent¬ liche Produkt des gesamten Verfahrens ist, niemals besser werden als die zugrunde liegende Segmentierung. Findet eine Übersegmentierung statt;,, wie sie insbesondere für Kernel-Korrelations-basierte Konzepte häufig vorkommt, erhält man am Ende voraussichtlich viel zu viele Segment¬ klassen, die dann nachzuarbeiten sind, um störende Segment- klassen, die eigentlich keinem Hauptteil entsprechend, ge¬ gebenenfalls ganz zu entfernen. Dd_ese „Nachreparatur" ist dahingehend ungünstig, dass damit Aiadioinformationen elimi¬ niert werden. Ein Zuhörer wird dann, wenn er auf Grund der bereits bezeichneten Segmentklassen durch das Audiostück navigiert, nicht die gesamten AudioInformationen hören kön¬ nen, da unbedeutende Segmente, die eigentlich keinem Haupt¬ teil entsprechen, bei diesem Verfallren komplett eliminiert worden sind.A further disadvantage of the known concept is the fact that in the segmentation the segmentation calculated by the singular value decomposition is established. In other words, this means that both the clustering and the final labeling are based on the segmentation determined by singular value decomposition. However, clustering and labeling, and thus also the music summary, which is the actual product of the entire process for the listener, can never be better than the underlying segmentation. If an over-segmentation takes place, as is frequently the case for kernel-correlation-based concepts, one will end up with far too many segment classes that have to be reworked in order to avoid disturbing segment classes that are actually not appropriate for a major part ¬ if necessary completely remove. Dd_ese "post-repair" is unfavorable in that it eliminates audio information, since a listener, when navigating through the audio track due to the already-mentioned segment classes, can not hear the entire audio information, since insignificant segments do not actually belong to any one Main part correspond, have been completely eliminated in this Verfallren.
Noch gewichtiger ist jedoch die Ta-tsache, dass einer Über¬ segmentierung, die auch durch andere Segmentierungsverfah¬ ren auftreten kann, auf die Tatsachee hinweist, dass die ur¬ sprüngliche primäre Segmentierung nicht korrekt war. Die Segmente beispielsweise der Segmentklasse, die mit „Re- frain" bezeichnet ist, sind dann von unterschiedlicher Qua¬ lität. So hat ein Segment, bei dem die Segmentierung kor¬ rekt war, einen längeren Refrain, -während ein anderes Seg¬ ment, bei dem die Segmentierung nicht korrekt war, einen kürzeren Refrain hat. Wird anschließend mit der segmentier- ten Darstellung des Audiostücks gearbeitet, so führt dies zu Synchronisationsproblemen und ferner zu Irritationen beim Benutzer, die sogar so weit g-ehen können, dass er das gesamte Vertrauen in das Segmentieirungskonzept verliert.Even more important, however, is the fact that over-segmentation, which can also occur due to other segmentation methods, points to the fact that the original primary segmentation was not correct. The segments of the segment class, for example, denoted by "refrain" are then of different quality, for example, a segment in which the segmentation was correct has a longer refrain, while another segment, When the segmentation is incorrect, it will have a shorter chorus, and working with the segmented representation of the audio piece will cause synchronization problems and user confusion that may even go so far as to spoof the whole Reliance on the segmentation concept loses.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein genaueres Segmentierungskonzept zu erreichen, das zudem mit einer bereits existierenden ersten Segmentierung des Audio¬ stücks kompatibel sein soll.The object of the present invention is to achieve a more precise segmentation concept, which should also be compatible with an already existing first segmentation of the audio piece.
Diese Aufgabe wird durch eine Vorrichtung zum Ändern einer Segmentierung eines Audiostücks gernäß Patentanspruch 1, ein Verfahren zum Ändern einer Segmentierung eines Audiostücks - I T -This object is achieved by a device for changing a segmentation of an audio piece according to claim 1, a method for changing a segmentation of an audio piece - IT -
gemäß Patentanspruch 19 oder ein Computer-Programm gemäß Patentanspruch 20 gelöst.according to claim 19 or a computer program according to claim 20.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass der Übersegmentierung dadurch wirkungsvoll begegnet wird, wenn nach einer ursprünglichen Segmentiexung und an¬ schließenden Segmentierungsklassenzuweisung die eigentlich bereits abgeschlossene ursprüngliche Segmentierung nachkor¬ rigiert wird. Zu diesem Zweck umfasst die erfi_ndungsgemäße Vorrichtung eine Segmentierungskorrektureinrichtung zum Korrigieren der Segmentierung, die ausgebildet ist, um ein Segment mit einer Länge, die kürzer als eine vorbestimmte Minimallänge ist, mit einem zeitlichen Vorgangersegment o- der einem zeitlichen Nachfolgersegment zu verschmelzen, um eine geänderte Segmentierung des Audiostücks zu erhalten. Diese Nachkorrektur findet erfindungsgemäß nach der ersten Segmentierung und der sich an die erste Segmentierung an¬ schließenden Zuweisung in die Segmentklassen , also auch nach dem Clustering statt. Dies ermöglicht die Option, für die Korrektur der Segmentierung nicht nur Kurz-Segmente nach bestimmten Kriterien mit einem vorhergehenden Segment und einem nachfolgenden Segment zu verschmel zen, sondern für diese Verschmelzung auch Informationen über die Seg¬ mentklassenzugehörigkeit des Vorgängersegments, über die Segmentklassenzugehörigkeit des Nachfolgersegiaents oder ü- ber die Segmentklassenzugehörigkeit des Kurz-Segments selbst zu verwenden.The present invention is based on the finding that the over-segmentation is effectively counteracted if, after an original segmentation and subsequent segmentation class assignment, the originally already completed original segmentation is corrected. For this purpose, the device according to the invention comprises a segmentation correction device for correcting the segmentation, which is designed to merge a segment having a length that is shorter than a predetermined minimum length with a temporal preceding segment or a successor segment, by a modified segmentation of the audio track. According to the invention, this post-correction takes place after the first segmentation and the allocation to the segment classes which adjoins the first segmentation, thus also after the clustering. This makes it possible to merge not only short segments according to certain criteria with a preceding segment and a subsequent segment for correcting the segmentation, but also information about the segment class affiliation of the predecessor segment, about the segment class affiliation of the successor segment, or for this merger about the segment class affiliation of the short segment itself.
Einfache Algorithmen können jedoch bereits ohine Rücksicht auf die Segmentklassenzugehörigkeiten des Kurz-Segments, das Vorgänger-Segments oder das Nachfolger-Seςjments allein auf Grund einer Überprüfung der Neuheitswerte an den Seg¬ mentgrenzen eine Segmentverschmelzung erreichen, die be¬ reits eine akzeptable Trefferwahrscheinlichkeit hat.However, even without consideration of the segment class affiliations of the short segment, the predecessor segment or the successor seed segment, simple algorithms can achieve a segment merger on the basis of a check of the novelty values at the segment boundaries, which already has an acceptable hit probability.
Vorzugsweise wird jedoch die Segmentverschmelzung auf Grund der Neuheitswerte an den Segmentgrenzen erst ciann - gewis¬ sermaßen als letztes Mittel - durchgeführt, iΛ/enn ein ent- sprechendes kurzes Segment durch vorausgehende Überprüfun¬ gen, in denen die Segmentklassenzugehörigkeit der betroffe¬ nen Vorlaufer-/Nachfolger-Segmente berücksichtig worden sind, nicht verschmolzen werden konnte.However, due to the novelty values at the segment boundaries, the segment merge is preferably carried out only ciann, so to speak, as a last resort, if a corresponding speaking short segment could not be merged by prior verifications, in which the segment class affiliation of the concerned precursor / successor segments were taken into account.
Bei einem bevorzugten Ausführungsbeispiel der vorLiegenden Erfindung wird eine adaptive Segmentzuweisung auf der Basis der primären Segmentierung durchgeführt, wobei jedoch beim Auftreten von Segmentierungszuweisungskonflikten Segmente, die eigentlich einer ersten Segmentklasse zugeordnet sind, mit einer Tendenz auf eine andere Segmentklasse, die den Konflikt verursacht hatte, versehen werden. Stellt sich dann heraus, dass ein Segment mit einer solchen Tendenz gleichzeitig ein Kurz-Segment ist, und stellt sicϊi ferner heraus, dass die Tendenz auf eine Segmentklasse h_inweist, zu der zugleich das zeitlich vorhergehende oder das zeit¬ lich nachfolgende Segment gehört, so wird eine der ur¬ sprünglichen Ähnlichkeitsdarstellung gerecht werdende Seg¬ mentverschmelzung auf der Basis dieser Tendenz bzw. Trend erhalten.In a preferred embodiment of the present invention, adaptive segment allocation is performed on the basis of the primary segmentation, however, when segmentation allocation conflicts occur, segments that are actually associated with a first segment class tend to have a different class of segment that caused the conflict become. If it then turns out that a segment with such a tendency is at the same time a short segment, and it further states that the tendency is due to a segment class h_ which also includes the temporally preceding or the temporally subsequent segment, then receive a segment merger that meets the requirements of the original representation of similarity on the basis of this tendency or trend.
Das erfindungsgemäße Konzept ist insbesondere dahingehend vorteilhaft, dass kein Abschnitt des Audiostücks komplett eliminiert wird. Der Benutzer, der dann, wenn die gesamte Verarbeitung beendet ist, durch das Audiostück navigiert, wird Segmente, die die geänderte Segmentierung bilden, vor¬ finden, deren Gesamtlänge nach wie vor gleich der ursprüng¬ lichen Länge des Audiostücks ist.The inventive concept is particularly advantageous in that no portion of the audio piece is completely eliminated. The user, who then navigates through the audio piece when all processing has finished, will find segments which constitute the changed segmentation whose total length is still equal to the original length of the audio piece.
Darüber hinaus wird eine Anzahl von Segmentklassen erhal¬ ten, die gleich der Anzahl der in einem Audiostück vorkom¬ menden Hauptteile ist.In addition, a number of segment classes is obtained, which is equal to the number of main parts occurring in an audio piece.
Ferner kann variabel, allein auf Grund einer zeitlichen Schwellwertvorgabe die Minimallänge eines Segments einge¬ stellt werden, was insbesondere in Verbindung mit e iner Mu¬ sikgenreidentifikation dahingehend Möglichkeiten exöffnet, überhaupt zulässige minimale Segmentlängen an das t>etrach- tete Musikgenre anzupassen, zumal unterschiedliche Musik¬ genre unterschiedlich lange Segmente mit sich bringen Rön¬ nen.Furthermore, the minimum length of a segment can be adjusted variably, solely on the basis of a temporal threshold value specification, which opens possibilities, particularly permissible minimum segment lengths, to the object, particularly in connection with a music identity identification. adapted music genre, especially since different genre Musik¬ different lengths of segments bring with it Rön¬ NEN.
Des weiteren ermöglicht es das erfindungsgemäße Konzept auch, allein auf Grund einer Minimallängen- Schwellwertvorgabe die Anzahl der Segmentklassen durch Zu¬ ordnung von Kurz-Segmenten so weit zu reduzieren, bis eine überhaupt erwartete Anzahl erfüllt wird, ohne dass die Seg- πientdarstellung des Audiostücks Löcher umfasst.Furthermore, the concept according to the invention also makes it possible to reduce the number of segment classes by assigning short segments only on the basis of a minimum length threshold value, until an expected number is fulfilled, without the segment display of the audio piece having holes includes.
Bei einem bevorzugten Ausführungsbeispiel erfolgt die Zu¬ weisung eines Segments zu einer Segmentklasse auf der Basis eines adaptiven Ähnlichkeits-Mittelwerts für ein Segment, derart, dass durch den Ähnlichkeits-Mittelwert berücksich¬ tigt wird, welchen insgesamten Ähnlichkeits-Score ein Seg¬ ment im gesamten Stück hat. Nachdem für ein Segment ein solcher Ähnlichkeits-Mittelwert berechnet worden ist, zu dessen Berechnung die Anzahl der Segmente und die Ähnlich- keitswerte der dem Segment zugeordneten Mehrzahl von Ähn¬ lichkeitswerten benötigt werden, wird dann die tatsächliche Zuweisung eines Segments zu einer Segmentklasse, also zu einem Cluster, auf der Basis dieses Ähnlichiceits- Mittelwerts durchgeführt. Liegt ein Ähnlichkeitswert eines Segments zu dem gerade betrachteten Segment beispielsweise oberhalb des Ähnlichkeits-Mittelwerts, so wird das Segment als zu der gerade betrachteten Segmentklasse zugehörig zu¬ gewiesen. Liegt der Ähnlichkeitswert eines Segments zu dem gerade betrachteten Segment dagegen unterhalb dieses Ahn- lichkeits-Mittelwerts, so wird es nicht der Segmentki asse zugewiesen.In a preferred embodiment, the assignment of a segment to a segment class is based on an adaptive similarity mean for a segment, such that the mean of similarity takes into account which overall similarity score a segment as a whole takes into account Piece has. After such a mean similarity value has been calculated for a segment, for the calculation of which the number of segments and the similarity values of the plurality of similarity values assigned to the segment are required, then the actual assignment of a segment to a segment class, ie a cluster based on this similarity average. If a similarity value of a segment to the segment just considered is above the similarity mean, for example, then the segment is assigned as belonging to the segment class currently being considered. On the other hand, if the similarity value of a segment to the segment under consideration is below this similarity mean value, then it is not assigned to the segment kile.
In anderen Worten ausgedrückt bedeutet dies, dass die Zu¬ weisung nicht mehr abhängig von der absoluten Größe der Ähnlichkeitswerte durchgeführt wird, sondern relativ zu. dem Ähnlichkeits-Mittelwert. Dies bedeutet, dass für ein Seg¬ ment, das einen relativ geringen Ähnlichkeits-Score hat, also z. B. für ein Segment, das ein Intro oder Outro hat, der Ähnlichkeits-Mittelwert niedriger sein wird als für ein Segment, das eine Strophe oder ein Refrain ist. Damit wer¬ den die starken Abweichungen der Ähnlichkeiten von Segmen¬ ten in Stücken bzw. der Häufigkeit des Auftretens von be- stimmten Segmenten in Stücken berücksichtigt, wobei z. B. numerische Probleme und damit auch Mehrdeutigkeiten und da¬ mit verbundene Falsch-Zuweisungen vermieden werden können.In other words, this means that the assignment is no longer carried out as a function of the absolute size of the similarity values, but rather relative to. the similarity mean. This means that for a segment which has a relatively low similarity score, ie, for example, For example, for a segment that has an intro or outro, the similarity mean will be lower than for a segment that is a stanza or chorus. Thus, the strong deviations of the similarities of segments in pieces or the frequency of occurrence of certain segments in pieces are taken into account. B. numerical problems and thus ambiguities and da¬ associated false allocations can be avoided.
Das erfindungsgemäße Konzept eignet sich besonders für Mu- sikstücke, die nicht nur aus Strophen und Refrains beste¬ hen, also die Segmente haben, die zu Segmentklasse gehören, die gleich große Ähnlichkeitswerte haben, sondern auch für Stücke, die neben Strophe und Refrain auch andere Teile ha¬ ben, nämlich eine Einführung (Intro) , ein Zwischenspiel (Bridge) oder einen Ausklang (Outro) .The concept according to the invention is particularly suitable for music pieces which consist not only of stanzas and choruses, that is to say have the segments which belong to segment class having equal similarity values, but also for pieces which, in addition to stanza and chorus, also have others Parts have, namely an introduction (Intro), an interlude (Bridge) or a conclusion (Outro).
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden die Berechnung des adaptiven Ähnlichkeits- Mittelwertes und das Zuweisen eines Segments iterativ durchgeführt, wobei Ähnlichkeitswerte von zugewiesenen Seg¬ menten beim nächsten Iterationsdurchgang ignoriert werden. Damit ergibt sich für den nächsten Iterationsdurchgang ein neuer maximaler Ähnlichkeits-Absolutwert, also die Summe der Ähnlichkeitswerte in einer Spalte der Ähnlichkeitsmat- rix, da die den früher zugewiesenen Segmenten entsprechen¬ den Ähnlichkeits-Absolutwerte zu Null gesetzt worden sind.In a preferred embodiment of the present invention, the calculation of the adaptive similarity mean and the assignment of a segment are performed iteratively, similarity values of assigned segments being ignored in the next iteration run. This results in a new maximum similarity absolute value for the next iteration run, ie the sum of the similarity values in a column of the similarity matrix, since the similarity absolute values corresponding to the previously assigned segments have been set to zero.
Erfindungsgemäß wird eine Segmentierungs-Nachkorrektur durchgeführt, und zwar dahingehend, dass nach der Segmen- tierung z. B. auf Grund des Neuheitswertes (der lokalen Ma- xima des Neuheitswertes) und nach einer anschließenden Zu¬ ordnung zu Segmentklassen relativ kurze Segmente untersucht werden, um zu sehen, ob sie dem Vorgänger-Segment oder dem Nachfolger-Segment zugeordnet werden können, da Segmente unterhalb einer minimalen Segmentlänge mit hoher Wahr¬ scheinlichkeit auf eine Übersegmentierung hindeuten. Bei einem alternativen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird nach der abschließenden Segmen¬ tierung und Zuordnung in die Segmentklassen ein Labeling durchgeführt, und zwar unter Verwendung eines speziellen Auswahlalgorithmus, um eine möglichst korrekte Kennzeich¬ nung der Segmentklassen als Strophe oder Refrain zu erhal¬ ten.According to the invention, a segmentation post-correction is carried out in such a way that after the segmentation z. For example, based on the novelty value (the local maxima of the novelty value) and after a subsequent assignment to segment classes, relatively short segments are examined in order to see whether they can be assigned to the predecessor segment or the successor segment Segments below a minimum segment length indicate a high degree of probability of an over-segmentation. In an alternative preferred embodiment of the present invention, a labeling is carried out after the final segmentation and assignment into the segment classes, specifically using a special selection algorithm in order to obtain the most correct possible labeling of the segment classes as a stanza or chorus.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegende Zeich¬ nung detailliert erläutert. Es zeigen:Preferred embodiments of the present invention will be explained in detail below with reference to the accompanying drawings. Show it:
Fig. 1 ein Blockschaltbild der erfindungsgemäßen Vor¬ richtung zum Gruppieren gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;1 shows a block diagram of the device according to the invention for grouping according to a preferred embodiment of the present invention;
Fig. 2 ein Flussdiagramm zur Darstellung einer bevorzug¬ ten Ausführungsform der Erfindung zum iterativen Zuweisen;FIG. 2 shows a flow chart for illustrating a preferred embodiment of the invention for iteratively assigning; FIG.
Fig. 3 ein Blockdiagramm der Funktionsweise der Segmen¬ tierungskorrektureinrichtung;3 shows a block diagram of the mode of operation of the segmentation correcting device;
Fig. 4a und Fig. 4b eine bevorzugte Ausführungsform der Segmentklassenbezeichnungseinrichtung;Figures 4a and 4b show a preferred embodiment of the segment class designator;
Fig. 5 ein Gesamtblockschaltbild eines Audioanalysewerk¬ zeugs;5 shows an overall block diagram of an audio analysis tool;
Fig. 6 eine Darstellung einer beispielhaften Merkmals- ähnlichkeitsmatrix;6 is an illustration of an exemplary feature similarity matrix;
Fig. 7 eine beispielhafte Darstellung einer Segmentähn¬ lichkeitsmatrix;7 shows an exemplary representation of a segment similarity matrix;
Fig. 8 eine schematische Darstellung zur Veranschauli¬ chung der Elemente in einer Ähnlichkeitsmatrix S; und Fig. 9 eine schematische Darstellung eines geglätteten Neuheitswerts.FIG. 8 shows a schematic illustration for illustrating the elements in a similarity matrix S; FIG. and 9 is a schematic representation of a smoothed novelty value.
Fig. 1 zeigt eine Vorrichtung zum Gruppieren von zeitlichen Segmenten eines Musikstücks, das in in dem Musikstück wie¬ derholt auftretende Hauptteile gegliedert ist, in verschie¬ dene Segmentklassen, wobei eine Segmentklasse einem Haupt¬ teil zugeordnet ist. Die vorliegende Erfindung bezieht sich somit besonders auf Musikstücke, die einer gewissen Struk¬ tur unterliegen, in der ähnliche Abschnitte mehrmals er¬ scheinen und sich mit anderen Abschnitten abwechseln. Die meisten Rock- und Popsongs besitzen eine klare Struktur in Bezug auf ihre Hauptteile.1 shows a device for grouping temporal segments of a piece of music, which is subdivided into main parts which repeatedly appear in the piece of music, into different segment classes, one segment class being assigned to one main part. The present invention thus relates particularly to pieces of music which are subject to a certain structure in which similar sections appear several times and alternate with other sections. Most rock and pop songs have a clear structure in terms of their main parts.
Die Literatur behandelt das Thema der Musikanalyse haupt¬ sächlich anhand klassischer Musik, davon gilt jedoch auch vieles für Rock- und Popmusik. Die Hauptteile eines Musik¬ stücks werden auch „Großformteile" genannt. Unter einem Großformteil eines Stücks versteht man einen Abschnitt, der hinsichtlich verschiedener Merkmale, z. B. Melodik, Rhyth¬ mik, Textur, usw., eine relativ einheitliche Beschaffenheit hat. Diese Definition gilt allgemein in der Musiktheorie.The literature deals with the subject of music analysis mainly on the basis of classical music, but it also applies to rock and pop music. The main parts of a piece of music are also called "large shaped parts." A large shaped part of a piece is understood to mean a section which has a relatively uniform quality with regard to various features, eg, melody, rhythm, texture, etc. Definition applies generally in music theory.
Großformteile in der Rock- und Popmusik sind z. B. Strophe, Refrain, Bridge und Solo. In der klassischen Musik wird ein Wechselspiel von Refrain und anderen Teilen (Couplets) ei¬ ner Komposition auch Rondo genannt. Im Allgemeinen kontras¬ tieren die Couplets zum Refrain, beispielsweise hinsieht- lieh Melodik, Rhythmik, Harmonik, Tonart oder Instrumenta¬ tion. Dies lässt sich auch auf moderne Unterhaltungsmusik übertragen. So wie es bei dem Rondo verschiedene Formen gibt (Kettenrondo, Bogenrondo, Sonatenrondo) , bestehen auch in Rock- und Popmusik bewährte Muster zum Aufbau eines Lie- des. Diese sind natürlich nur einige Möglichkeiten aus vie¬ len. Letztendlich entscheidet natürlich der Komponist, wie sein Stück aufgebaut ist. Ein Beispiel für einen typischen Aufbau eines Rockliedes ist das Muster. A-B-A-B-C- D-A- B ,Large moldings in rock and pop music are z. Eg verse, chorus, bridge and solo. In classical music, an interplay of refrain and other parts (couplets) of a composition is also called rondo. In general, the couplets contrast with the chorus, for example, melody, rhythm, harmony, key or instrumentation. This can also be transferred to modern light music. Just as the rondo has different forms (chain rondo, bowed rondo, sonata rondo), well-established patterns for building a love are also found in rock and pop music. These are, of course, only a few possibilities. Ultimately, of course, the composer decides how his piece is constructed. An example of a typical structure of a rock song is the pattern. ABABCDA B,
wobei A gleich Strophe, B gleich Refrain, C gleich Bridge und D gleich Solo gilt. Oftmals wird ein Musikstück mit ei¬ nem Vorspiel (Intro) eingeleitet, ∑ntros bestehen häufig aus der gleichen Akkordfolge wie dd_e Strophe, allerdings mit anderer Instrumentation, z. B. ohne Schlagzeug, ohne Bass oder ohne Verzerrung der Gitarre bei Rockliedern etc.where A equals strophe, B equals refrain, C equals bridge, and D equals solo. Often a piece of music is introduced with a prelude (Intro), Σntros often consist of the same chord progression as dd_e stanza, but with different instrumentation, eg. B. without drums, without bass or distortion of the guitar in rock songs etc.
Die erfindungsgemäße Vorrichtung umfasst zunächst eine Ein¬ richtung 10 zum Bereitstellen einer Ähnlichkeitsdarstellung für die Segmente, wobei die Ähnlichkeitsdarstellung für je¬ des Segment eine zugeordnete Mehrzahl von Ähnlichkeitswer- ten aufweist, wobei die Ähnlichkeitswerte angeben, wie ähn¬ lich das Segment zu jedem anderen Segment ist. Die Ähnlich¬ keitsdarstellung ist vorzugsweise die in Fig. 7 gezeigte Segment-Ähnlichkeitsmatrix. Sie hat für jedes Segment (in Fig. 7 Segmente 1-10) eine eigene Spalte, die den Index „j" hat. Ferner hat die Ähnlichkeitsdarstellung für jedes Seg¬ ment eine eigene Zeile, wobei eine Zeile mit einem Zeilen¬ index i bezeichnet ist. Dies wird nachfolgend anhand des beispielhaften Segments 5 bezeichnet . Das Element (5,5) in der Hauptdiagonale der Matrix von Fig. 7 ist der Ähnlich- keitswert des Segments 5 mit sich selbst, also der maximale Ähnlichkeitswert. Ferner ist das Segment 5 noch mittelähn¬ lich zum Segment Nr. 6, wie es durch das Element (6,5) oder durch das Element (5,6) der Matrix in Fig. 7 bezeichnet ist. Darüber hinaus hat das Segment 5 noch Ähnlichkeiten zu den Segmenten 2 und 3, wie es durch die Elemente (2,5) oder (3,5) oder (5,2) oder (5,3) in Fig. 7 gezeigt ist. Zu den anderen Segmenten 1, 4, 7, 8, 9, 10 hat das Segment Nr. 5 eine Ähnlichkeit, die in Fig. 7 nicht; mehr sichtbar ist.The device according to the invention initially comprises a device 10 for providing a similarity representation for the segments, the similarity representation having an associated plurality of similarity values for each segment, the similarity values indicating how the segment is similar to any other segment is. The similarity representation is preferably the segment similarity matrix shown in FIG. It has a separate column for each segment (segments 1-10 in Fig. 7) having the index "j." Furthermore, the similarity representation has a separate row for each segment, one row being designated by a row index i This is referred to below by means of the exemplary segment 5. The element (5, 5) in the main diagonal of the matrix of Fig. 7 is the similarity value of the segment 5 with itself, ie the maximum similarity value still mid-like to the segment No. 6, as denoted by the element (6, 5) or by the element (5, 6) of the matrix in Fig. 7. In addition, the segment 5 still has similarities to the segments 2 and 3, as shown by the elements (2,5) or (3,5) or (5,2) or (5,3) in Fig. 7. To the other segments 1, 4, 7, 8, 9, 10, segment # 5 has a similarity that is not visible in Figure 7;
Eine dem Segment zugeordnete Mehrzatil von Ähnlichkeitswer- ten ist beispielsweise eine Spalte oder eine Zeile der Seg¬ ment-Ähnlichkeitsmatrix in Fig. 7, wobei diese Spalte oder Zeile auf Grund ihres Spalten-/ZeiLen-Indexes angibt, auf welches Segment sie sich bezieht, nämlich beispielsweise auf das fünfte Segment, und wobei diese Zeile/Spalte die Ähnlichkeiten des fünften Segments zu jedem anderen Segment in dem Stück umfasst. Die Mehrzahl von Ähnlichkeits-werten ist also beispielsweise eine Zeile der Ähnlichkeitsinatrix oder, alternativ, eine Spalte der Ähnlichkeitsmatrix von Fig. 7.A plurality of similarity values assigned to the segment is, for example, a column or a row of the segment similarity matrix in FIG. 7, which indicates this column or row on the basis of its column / row index which segment it refers to, namely, for example, to the fifth segment, and where this row / column comprises the similarities of the fifth segment to each other segment in the piece. Thus, the plurality of similarity values is, for example, a row of the similarity matrix or, alternatively, a column of the similarity matrix of FIG. 7.
Die Vorrichtung zum Gruppieren von zeitlichen Segmenten des Musikstücks umfasst ferner eine Einrichtung 12 zum Berech¬ nen eines Ähnlichkeits-Mittelwertes für ein Segment, unter Verwendung der Segmente und der Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten. Die Einrichtung 12 ist ausgebildet, um z. B. für die Spalte 5 in Fig. 7 einen Ähnlichkeits-Mittelwert zu berechnen. Wird bei einem bevorzugten Ausführungsbeispiel der arithmetische Mittelwert verwendet, so wird die Einrichtung 12 die Ähn¬ lichkeitswerte in der Spalte addieren und durch die Anzahl der Segmente insgesamt teilen. Um die Selbstähnlichk:eit zu eliminieren, könnte von dem Additionsergebnis auch die Ähn¬ lichkeit des Segments mit sich selbst abgezogen werden, wo¬ bei natürlich dann auch eine Teilung nicht mehr durch sämt¬ liche Elemente, sondern durch sämtliche Elemente weniger 1 durchzuführen ist.The device for grouping temporal segments of the piece of music further comprises a means 12 for calculating a similarity mean value for a segment, using the segments and the similarity values of the plurality of similarity values assigned to the segment. The device 12 is designed to z. For example, to calculate a similarity mean for column 5 in FIG. If the arithmetic mean value is used in a preferred exemplary embodiment, the device 12 will add the similarity values in the column and divide them by the total number of segments. In order to eliminate the self-similarity, the similarity of the segment to itself could also be deducted from the result of addition, whereby of course then a division should no longer be carried out by all elements but by all elements less 1.
Die Einrichtung 12 zum Berechnen könnte alternativ aiαch den geometrischen Mittelwert berechnen, also jeden Ätmlich- keitswert einer Spalte für sich quadrieren, um die quad¬ rierten Ergebnisse zu summieren, um dann eine Wurzel aus dem Summationsergebnis zu berechnen, welche durch die An¬ zahl der Elemente in der Spalte' (bzw. die Anzahl der Ele¬ mente in der Spalte weniger 1) zu teilen ist. Beliebige an¬ dere Mittelwerte, wie beispielsweise der Median-Wert etc. sind verwendbar, so lange der Mittelwert für jede Spalte der Ähnlichkeitsmatrix adaptiv berechnet wird, also ein Wert ist, der unter Verwendung der Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten berechnet wird. Der adaptiv berechnete Ähnlichkeits-Schwellenwert wird dann einer Einrichtung 14 zum Zuweisen eines Segments zu einer Segmentklasse geliefert. Die Einrichtung 14 zum Zuweisen ist ausgebildet, um ein Segment einer Segmentklasse zuzu¬ ordnen, wenn der Ähnlichkeitswert des Segments eine vorbe¬ stimmte Bedingung bezüglich des Ähnlichkeits-Mittelwerts erfüllt. Ist beispielsweise der Ähnlichkeits-Mittelwert so, dass ein größerer Wert auf eine größere Ähnlichkeit und ein kleinerer Wert auf eine geringere Ähnlichkeit hinweist, so wird die vorbestimmte Beziehung darin bestehen, dass der Ähnlichkeitswert eines Segments gleich oder oberhalb des Ähnlichkeits-Mittelwerts sein muss, damit das Segment einer Segmentklasse zugewiesen wird.The means 12 for calculating could alternatively calculate the geometric mean value, that is to say, squareness each etch value of a column individually in order to sum the quadrated results, in order then to calculate a root from the summation result, which is given by the number Elements in the column ' (or the number of Ele¬ elements in the column less 1) to share. Any other average values, such as the median value, etc., may be used as long as the mean value for each column of the similarity matrix is adaptively calculated, that is, a value calculated using the similarity values of the plurality of similarity values associated with the segment. The adaptively calculated similarity threshold is then provided to a segment 14 for assigning a segment to a segment class. The means 14 for assigning is designed to assign a segment to a segment class if the similarity value of the segment fulfills a predetermined condition with respect to the mean of similarity. For example, if the similarity mean is such that a larger value indicates greater similarity and a smaller value indicates lesser similarity, then the predetermined relationship will be that the similarity value of a segment must be equal to or above the similarity mean, thus the segment is assigned to a segment class.
Bei einem bevorzugten Aus führungsbeispiel der vorliegenden Erfindung existieren noch weitere Einrichtungen, um spe¬ zielle Ausführungsformen zu verwirklichen, auf die später eingegangen wird. Diese Einrichtungen sind eine Segmentaus- wahleinrichtung 16, eine Segmentzuweisungskonflikteinrich- tung 18, eine Segmentieriαngskorrektureinrichtung 20 sowie eine Segmentklassen-Bezeichnungseinrichtung 22.In a preferred exemplary embodiment of the present invention, further devices exist to realize special embodiments, which will be discussed later. These devices are a segment selection device 16, a segment assignment conflicting device 18, a segmentation correction device 20 and a segment class designation device 22.
Die Segmentauswahleinrichtung 16 in Fig. 1 ist ausgebildet, um zunächst für jede Spalte in der Matrix von Fig. 7 einen Gesamt-Ähnlichkeitswert V (j) zu berechnen, der folgenderma¬ ßen ermittelt wird:The segment selection device 16 in FIG. 1 is designed to first calculate an overall similarity value V (j) for each column in the matrix of FIG. 7, which is determined as follows:
P ist die Anzahl der Segmente. SÄ ist der Wert der Selbst¬ ähnlichkeit eines Segments mit sich selbst. Je nach verwen¬ deter Technik kann der Wert z. B. Null oder Eins sein. Die Segmentauswahleinrichtung 16 wird zunächst den Wert V(j) für jedes Segment berechnen, um dann das Vektorelement i des Vektors V mit maximalem Wert herauszufinden. Anders ausgedrückt bedeutet dies, dass die Spalte in Fig. 7 ge- wählt wird, die bei der Aufaddition der einzelnen Ähnlich¬ keitswerte in der Spalte den größten Wert oder Score er¬ reicht. Dieses Segment könnte beispielsweise das Segment Nr. 5 bzw. die Spalte 5 der Matrix in Fig. 7 sein, da die- ses Segment mit drei anderen Segmenten zumindest eine ge¬ wisse Ähnlichkeit hat. Ein anderer Kandidat bei dem Bei¬ spiel von Fig. 7 könnte auch das Segment mit der Nr. 7 sein, da dieses Segment ebenfalls zu drei anderen Segmenten eine gewisse Ähnlichkeit hat, die zudem noch größer ist als die Ähnlichkeit des Segments 5 zu den Segmenten 2 und 3 (höhere Grauschattierung in Fig. 7) .P is the number of segments. SA is the value of the self-similarity of a segment to itself. Depending on the technique used, the value z. B. zero or one. The segment selector 16 will first calculate the value V (j) for each segment to then find the vector element i of the maximum value vector V. In other words, this means that the column in FIG. is selected, which achieves the greatest value or score in the addition of the individual similarity values in the column. This segment could, for example, be the segment No. 5 or the column 5 of the matrix in FIG. 7, since this segment has at least a certain similarity with three other segments. Another candidate in the example of FIG. 7 could also be the segment with the number 7, since this segment also has a certain similarity to three other segments, which is even greater than the similarity of the segment 5 to the segments 2 and 3 (higher gray shade in Fig. 7).
Für das nachfolgende Beispiel wird nunmehr angenommen, dass die Segmentauswahleinrichtung 16 das Segment Nr. 7 aus- wählt, da es den höchsten Ähnlichkeits-Score auf Grund der Matrixelemente (1,7), (4,7) und (10,7) hat. Dies bedeutet in anderen Worten, dass V (7) die Komponente des Vektors V ist, die den maximalen Wert un~ter allen Komponenten von V hat.For the following example, it is now assumed that the segment selector 16 selects the segment # 7 because it has the highest similarity score due to the matrix elements (1,7), (4,7) and (10,7) , This means in other words that V is the component of the vector V (7) has the maximum value un ~ ter all components of V.
Nunmehr wird der Ähnlichkeits-Score der Spalte I1 also für das Segment Nr. 7 noch durch die Zahl „9" geteilt, um aus der Einrichtung 12 den Ähnlichkeits-Schwellwert für das Segment zu erhalten.Now the similarity score of the column I 1 for the segment no. 7 is still divided by the number "9" in order to obtain from the device 12 the similarity threshold value for the segment.
Hierauf wird in der Segment-Ähnlichkeitsmatrix für die siebte Zeile bzw. Spalte überprüft, welche Segmentähnlich¬ keiten über dem berechneten Schwellwert liegen, d. h. mit welchen Segmenten das i-te Segment eine überdurchschnittli- che Ähnlichkeit aufweist. All diese Segmente werden nunmehr ebenfalls wie das siebte Segment einer ersten Segmentklasse zugewiesen.Then, in the segment similarity matrix for the seventh row or column, it is checked which segment similarities are above the calculated threshold value, ie. H. with which segments the ith segment has an above-average similarity. All these segments are now also assigned to a first segment class like the seventh segment.
Für das vorliegende Beispiel wird angenommen, dass die Ähn- lichkeit des Segments 10 zum Segment 7 unterdurchschnitt¬ lich ist, dass jedoch die Ähnlichkeiten des Segments 4 und des Segments 1 zum Segment 7 überdurchschnittlich sind. Da¬ her werden in die erste Segment klasse neben dem Segment Nr. 7 auch das Segment Nr. 4 und das Segment Nr. 1 eingeordnet. Dagegen wird das Segment Nr. 10 auf Grund der unterdurch¬ schnittlichen Ähnlichkeit zum Segment ISIr. 7 nicht in die erste Segmentklasse eingeordnet.For the present example, it is assumed that the similarity of the segment 10 to the segment 7 is below average, but that the similarities of the segment 4 and the segment 1 to the segment 7 are above average. Therefore, in the first segment class next to the segment no. 7 also segment no. 4 and segment no. 1 are classified. By contrast, segment no. 10 becomes the ISIr segment due to the below-average similarity. 7 not classified in the first segment class.
Nach der Zuweisung werden die korrespondierenden Vektorele¬ mente V(j) aller Segmente, die in dieser Schwellwertunter¬ suchung einem Cluster zugeordnet wurden, zu 0 gesetzt. Im Beispiel sind dies neben V(7) auch die Komponenten V(4) und V(I) . Dies bedeutet unmittelbar, dass die 7., 4. und 1. Spalte der Matrix nicht mehr für eine spätere Maximalsuche zur Verfügung stehen werden, das sie Null sind, also kei¬ nesfalls ein Maximum sein können.After the assignment, the corresponding vector elements V (j) of all segments which were assigned to a cluster in this threshold value analysis are set to 0. In the example these are beside V (7) also the components V (4) and V (I). This means directly that the 7th, 4th and 1st columns of the matrix will no longer be available for a later maximum search, ie that they are zero, ie that they can never be a maximum.
Dies ist in etwa gleichbedeutend damit, dass die Einträge (1,7), (4,7), (7,7) und (10,7) der Segrnentähnlichkeitsmat- rix zu 0 gesetzt werden. Dasselbe Prozedere wird für die Spalte 1 (Elemente (1,1), (4,1) und (7,IL)) und die Spalte 4 (Elemente (1,4), (4,4), (7,4) und (10, 4)) durchgeführt. Aufgrund der einfacheren Handhabbarkeil:, wird jedoch die Matrix nicht verändert, sondern werden die Komponenten von V, die zu einem zugewiesenen Segment gehören, bei der nächsten Maximumsuche in einem späteren Iterationsschritt ignoriert.This is roughly equivalent to setting the entries (1, 7), (4, 7), (7, 7) and (10, 7) of the semantic proximity mismatch to 0. The same procedure is used for column 1 (elements (1,1), (4,1) and (7, IL)) and column 4 (elements (1,4), (4,4), (7,4) and (10, 4)). However, due to the simpler handler wedge, the matrix is not changed but the components of V that belong to an assigned segment are ignored on the next maximum search in a later iteration step.
In einem nächsten Iterationsschritt wird nunmehr ein neues Maximum unter den noch verbleibenden Elementen von V, also unter V(2), V(3), V(5), V(6,), V(8), V(9) und V(IO) ge¬ sucht. Voraussichtlich wird dann das Segment Nr. 5, also V(5), den größten Ähnlichkeits-Score ergeben. Die zweite Segmentklasse erhält dann die Segmente 5 und 6. Auf Grund der Tatsache, dass die Ähnlichkeiten zu den Segmenten 2 und 3 unterdurchschnittlich sind, werden d±e Segmente 2 und 3 nicht in den Cluster zweiter Ordnung gebracht. Damit werden die Elemente V(6) und V(5) vom Vektor "V auf Grund der er¬ folgten Zuweisung zu 0 gesetzt, während noch die Komponen¬ ten V(2), V(3), V(8), V(9) und V(IO) des Vektors für die Auswahl des Clusters dritter Ordnung verbleiben. Hierauf wird wieder ein neues Maximum unter den genannten verbleibenden Elementen von V gesucht. Das neue Maximum könnte V(IO) sein, also die Komponente von V für das Seg- ment 10. Segment 10 kommt also in die Segmentklasse dritter Ordnung. So könnte sich ferner herausstellen, dass das Seg¬ ment 7 auch zum Segment 10 eine überdurchschnittliche Ähn¬ lichkeit hat, obgleich das Segment 7 bereits dex ersten Segmentklasse zugehörig gekennzeichnet ist. Es entsteht so- mit ein Zuweisungskonflikt, der durch die Segmentzuwei- sungskonflikteinrichtung 18 von Fig. 1 aufgelöst wi_rd.In a next iteration step, a new maximum is now selected from the remaining elements of V, that is to say V (2), V (3), V (5), V (6), V (8), V (9) and V (IO) searched. The segment no. 5, ie V (5), is expected to yield the largest similarity score. The second segment class then obtains segments 5 and 6. Due to the fact that the similarities to segments 2 and 3 are below average, the segments 2 and 3 are not placed in the second order clusters. Thus, the elements V (6) and V (5) are set to 0 by the vector " V on the basis of the following assignment, while the components V (2), V (3), V (8), V (9) and V (IO) of the third-order cluster selection vector remain. Then again a new maximum among the mentioned remaining elements of V is searched for. The new maximum could be V (IO), ie the component of V for segment 10. Segment 10 thus comes in the segment class of third order. Thus, it could also be found that the segment 7 also has an above-average similarity to the segment 10, although the segment 7 has already been identified as belonging to the first segment class. This results in an assignment conflict, which is resolved by the segment assignment conflicting device 18 of FIG.
Eine einfache Art der Auflösung könnte sein, einfach in die dritte Segmentklasse das Segment 7 nicht zuzuweisen und z. B. statt dessen das Segment 4 zuzuweisen, falls für das Segment 4 nicht ebenfalls ein Konflikt existieren würde.A simple kind of resolution could be to simply not assign the segment 7 into the third segment class and e.g. For example, instead of assigning the segment 4, if for the segment 4 would not also conflict exist.
Vorzugsweise wird jedoch, um die Ähnlichkeit zwischen dem Segment 7 und dem Segment 10 nicht unberücksichtigt zu las- sen, die Ähnlichkeit zwischen 7 und 10 in nachfolgendem Al¬ gorithmus berücksichtigt.Preferably, however, in order not to disregard the similarity between the segment 7 and the segment 10, the similarity between 7 and 10 is taken into account in the following algorithm.
Allgemein ist die Erfindung ausgelegt, um die Ähnlichkeit zwischen i und k nicht unberücksichtigt zu lassen. Daher werden die Ähnlichkeitswerte Ss(i,k) von Segment i und k mit dem Ähnlichkeitswert Ss(i*,k) verglichen, wobei i* das erste Segment ist, das dem Cluster C* zugeordnet wurde. Der Cluster bzw. die Segmentklasse C* ist der Cluster, dem das Segment k bereits auf Grund einer vorherigen Untersuchung zugeordnet ist. Der Ähnlichkeitswert Ss(i*,k) ist aus¬ schlaggebend dafür, dass das Segment k dem Cluster C* zuge¬ hörig ist. Ist Ss(i*,k) größer als Ss(i,k), so bl_eibt das Segment k im Cluster C*. Ist Ss(i*,k) kleiner als Ss(i,k), so wird das Segment k aus dem Cluster C* herausgenommen und dem Cluster C zugewiesen. Für den ersten Fall, also wenn das Segment k nicht die Clusterzugehörigkeit wechselt, wird für das Segment i eine Tendenz zum Cluster C* vermerkt. Vorzugsweise wird diese Tendenz jedoch auch dann "vermerkt, wenn das Segment k die Clusterzugehörigkeit wechselt. In diesem Fall wird eine Tendenz dieses Segments zum Cluster , in den es ursprünglich aufgenommen wurde, vermerkt. Dies e Tendenzen können vorteilhafterweise bei einer Segmentie - rungskorrektur, die durch die Segmentierungskorrekturein - richtung 20 ausgeführt wird, verwendet werden.Generally, the invention is designed not to discount the similarity between i and k. Therefore, the similarity values S s (i, k) of segment i and k are compared with the similarity value S s (i * , k), where i * is the first segment assigned to the cluster C * . The cluster or the segment class C * is the cluster to which segment k is already assigned on the basis of a previous examination. The similarity value S s (i * , k) is decisive for the fact that the segment k belongs to the cluster C * . If S s (i * , k) is greater than S s (i, k), the segment k is in cluster C * . If S s (i * , k) is smaller than S s (i, k), the segment k is taken out of the cluster C * and assigned to the cluster C. For the first case, ie if the segment k does not change the cluster membership, a tendency towards the cluster i is noted for the cluster C * . Preferably, however, this tendency is also noted " when segment k changes cluster membership. In this case, a tendency of this segment to the cluster in which it was originally recorded is noted. These tendencies may be advantageously used in a segmentation correction performed by the segmentation correction device 20.
Die Ähnlichkeitswertüberprüfung wird, auf Grund der Tatsa - che, dass das Segment 7 das „Ursprungssegment" in der ers - ten Segmentklasse ist, zugunsten der ersten Segmentklass e ausgehen. Das Segment 7 wird also seine Clusterzugehörig-- keit (Segmentzugehörigkeit) nicht ändern, sondern es wird in der ersten Segmentklasse verbleiben. Diese Tatsache wird jedoch dadurch berücksichtigt, dass dem Segment Nr. 10 Ln der dritten Segmentklasse ein Trend zur ersten Segmentklas- - se attestiert wird.The similarity value check is based on the fact that the segment 7 is the "original segment" in the first segment class, in favor of the first segment class e. but it will remain in the first segment class, but this fact is taken into account by the fact that segment no. 10 Ln of the third segment class is attested a trend towards the first segment class.
Erfindungsgemäß wird damit berücksichtigt, dass insbesonde¬ re für die Segmente, deren Segment-Ähnlichkeiten zu zweti unterschiedlichen Segmentklassen existieren, diese Ähnlicht- keiten dennoch nicht ignoriert werden, sondern gegebenen¬ falls später durch den Trend bzw. die Tendenz doch noch be¬ rücksichtigt werden.According to the invention, it is thus taken into account that, in particular, for the segments whose segment similarities to two different segment classes exist, these similarities are nevertheless not ignored, but, if appropriate, are taken into account later by the trend or tendency ,
Das Prozedere wird so lange fortgeführt, bis alle Segmente in der Segment-Ähnlichkeitsmatrix zugeordnet sind, was der Fall ist, wenn alle Elemente vom Vektor V zu Null gesetzt sind.The procedure continues until all segments in the segment similarity matrix are assigned, which is the case when all elements of vector V are set to zero.
Dies würde für das in Fig. 7 gezeigte Beispiel bedeuten, dass als nächstes, in die vierte Segmentklasse, das Maxiimam von V(2), V(3), V(8), V(9), also das Segment 2 und 3 einge¬ ordnet werden, um dann, in einer fünften Segmentklasse, di_e Segmente 8 bzw. 9 einzuordnen, bis alle Segmente zugeordnet worden sind. Damit ist der in Fig. 2 gezeigte iterative A-L- gorithmus beendet. Nachfolgend wird detailliert auf die bevorzugte Implemen¬ tierung der Segmentierungskorrektureinrichtung 20 anhand von Fig. 3 eingegangen.For the example shown in FIG. 7, this would mean that next, in the fourth segment class, the maxiimam of V (2), V (3), V (8), V (9), ie the segment 2 and 3 be classified, then, in a fifth segment class, di_e segments 8 and 9, respectively, to classify until all segments have been assigned. Thus, the iterative algorithm shown in FIG. 2 is completed. In the following, the preferred implementation of the segmentation correcting device 20 will be described in detail with reference to FIG. 3.
So ergibt sich, dass bei der Berechnung der Segmentgrenzen mittels der Kernel-Korrelation, jedoch auch bei der Berech¬ nung von Segmentgrenzen mittels anderer Maßnahmen häufig eine Übersegmentierung eines Stücks entsteht, d. h. es wer¬ den zu viele Segmentgrenzen bzw. allgemein zu kurze Segmen— te berechnet. Eine Übersegmentierung, z. B. hervorgerufen durch eine falsche Unterteilung der Strophe, wird erfin— dungsgemäß dadurch korrigiert, dass auf Grund der Segment— länge und der Information, in welche Segmentklasse ein Vor¬ gänger- oder Nachfolger-Segment einsortiert worden ist^, korrigiert wird. In anderen Worten ausgedrückt dient die Korrektur dazu, zu kurze Segmente vollständig zu eliminie¬ ren, also mit benachbarten Segmenten zu verschmelzen, und um Segmente, die kurz sind, jedoch nicht zu kurz sind, also die eine kurze Länge haben, jedoch länger als die Minimal— länge sind, noch einer besonderen Untersuchung zu unterzie¬ hen, ob sie vielleicht nicht doch noch mit einem Vorgänger— segment oder einem Nachfolgersegment verschmolzen werden können. Grundsätzlich werden erfindungsgemäß aufeinander folgende Segmente, die der gleichen Segmentklasse angehö— ren, immer verschmolzen. Ergibt das in Fig. 7 gezeigte Sze¬ nario z. B., dass die Segmente 2 und 3 in dieselbe Segment— klasse kommen, so werden diese automatisch miteinander ver¬ schmolzen, während die Segmente in der ersten Segmentklas— se, also die Segmente 7, 4, 1 voneinander beabstandet sind und daher (wenigstens zunächst) nicht verschmelzbar sind . Dies wird in Fig. 3 durch einen Block 30 angedeutet. Nun¬ mehr wird in einem Block 31 untersucht, ob Segmente eine Segmentlänge haben, die kleiner als eine Mindestlänge ist . So existieren vorzugsweise verschiedene Mindestlängen.Thus, it follows that in the calculation of the segment boundaries by means of the kernel correlation, but also in the calculation of segment boundaries by means of other measures, an over-segmentation of a piece frequently occurs, ie. H. too many segment boundaries or generally too short segments are calculated. An over-segmentation, z. B. caused by an incorrect subdivision of the stanza is according to the invention corrected by the fact that due to the segment length and the information in which segment class Vor¬ a successor or successor segment has been sorted ^ corrected. In other words, the correction serves to completely eliminate too short segments, ie to fuse with adjacent segments, and to segments which are short but are not too short, that is to say they have a short length, but longer than that Minimum length is still to undergo a special investigation, whether they may not still be merged with a predecessor segment or a successor segment. Basically, according to the invention, successive segments which belong to the same segment class are always merged. If the scenario shown in FIG. B. that the segments 2 and 3 come in the same segment class, they are automatically ver¬ melted together, while the segments in the first segment class se, ie the segments 7, 4, 1 are spaced apart and therefore (at least initially) can not be merged. This is indicated in FIG. 3 by a block 30. Now, in a block 31, it is examined whether segments have a segment length that is smaller than a minimum length. Thus, there are preferably different minimum lengths.
Es werden relativ kurze Segmente, die kürzer als 11 Sekun¬ den (eine erste Schwelle) sind, überhaupt nur untersucht , während später noch kürzere Segmente (eine zweite Schwelle: , die kleiner als die erste ist), die kürzer als 9 Sekunden sind, untersucht werden, und später noch verbleibende Seg¬ mente, die kürzer als 6 Sekunden (eine dritte Schwelle, die kürzer als die zweite Schwelle ist) sind, wieder alternativ behandelt werden.Relatively short segments which are shorter than 11 seconds (a first threshold) are only examined at all, while later even shorter segments (a second threshold): smaller than the first one) shorter than 9 seconds, and later remaining segments shorter than 6 seconds (a third threshold shorter than the second threshold) are again alternately treated ,
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung, bei dem diese gestaffelte Längenüberprüfung stattfindet, ist die Segmentlängenüberprüfung im Block 31 zunächst darauf gerichtet, dass die Segmente kürzer als 11 Sekunden gefunden werden. Für die Segmente, die länger als 11 Sekunden sind, wird keine Nachbearbeitung vorgenommen, wie es durch ein „Nein" am Block 31 erkennbar ist. Für Seg¬ mente, die kürzer als 11 Sekunden sind, wird zunächst eine Tendenzenüberprüfung (Block 32) durchgeführt. So wird zu¬ nächst untersucht, ob ein Segment auf Grund der Funktiona¬ lität der SegmentZuweisungskonflikteinrichtung 18 von Fig. 1 einen zugeordneten Trend bzw. eine zugeordnete Tendenz hat. Bei dem Beispiel von Fig. 7 wäre dies das Segment 10, das einen Trend zu dem Segment 7 bzw. einen Trend zur ers¬ ten Segmentklasse hat. Ist das zehnte Segment kürzer als 11 Sekunden, so würde bei dem in Fig. 7 gezeigten Beispiel dennoch auch auf Grund der Tendenzüberprüfung nichts ge¬ schehen, da eine Verschmelzung des betrachteten Segments nur dann stattfindet, wenn es eine Tendenz nicht zu irgend¬ einem Cluster, also zu irgendeiner Segmentklasse hat, son¬ dern eine Tendenz zu einem Cluster eines angrenzenden (vor¬ her oder nachher) Segments. Dies ist jedoch für das Segment 10 bei dem in Fig. 7 gezeigten Beispiel nicht der Fall.In the preferred embodiment of the present invention in which this staggered length check occurs, the segment length check in block 31 is initially directed to finding the segments shorter than 11 seconds. For the segments that are longer than 11 seconds, no post-processing is performed, as can be seen by a "No" at block 31. For segments which are shorter than 11 seconds, a trend check (block 32) is first carried out Thus, it is first examined whether a segment has an associated trend or an associated tendency due to the functionality of the segment assignment conflicting device 18 of Figure 1. In the example of Figure 7, this would be the segment 10 that is a trend If the tenth segment is shorter than 11 seconds, then in the example shown in Fig. 7, nothing would happen, also because of the trend check, since a fusion of the one under consideration occurs Segments takes place only if it has a tendency not to any cluster, so to any segment class, but a tendency to a cluster of an adjacent (vor¬ hero o However, this is not the case for the segment 10 in the example shown in FIG.
Um auch die zu kurzen Segmente zu vermeiden, die keine Ten¬ denz zu dem Cluster eines benachbarten Segments aufweisen, wird vorgegangen, wie es in den Blöcken 33a, 33b, 33c und 33d in Fig. 3 dargestellt ist. So wird an Segmenten, die länger als 9 Sekunden, jedoch kürzer als 11 Sekunden sind, nichts mehr gemacht. Sie werden belassen. In einem Block 33a wird nun jedoch für Segmente aus dem Cluster X, die kürzer als 9 Sekunden sind, und bei denen sowohl das Vor- gänger-Segment als auch das Nachfolge-Segment zum Cluster Y gehören, eine Zuweisung zum Cluster Y vorgenommen, was au¬ tomatisch bedeutet, dass ein solches Segment mit sowohl dem Vorgänger- als auch dem Nachfolger-Segment verschmolzen wird, so dass ein insgesamt längeres Segment entsteht, das sich aus dem betrachteten Segment sowie dem Vorgänger- als auch dem Nachfolger-Segment zusammensetzt. Somit kann durch eine nachfolgende Verschmelzung eine Zusammenfassung von zunächst getrennten Segmenten über ein zu verschmelzendes dazwischenliegendes Segment gelingen.In order to avoid too short segments, which have no tendency to the cluster of an adjacent segment, the procedure is as shown in the blocks 33a, 33b, 33c and 33d in FIG. Thus, nothing is done on segments longer than 9 seconds, but shorter than 11 seconds. They are left. In a block 33a, however, for segments of the cluster X which are shorter than 9 seconds and for which both the An assignment to the cluster Y, which automatically means that such a segment is merged with both the predecessor segment and the successor segment, so that the total length of the segment is longer Segment is formed, which consists of the considered segment as well as the predecessor as well as the successor segment. Thus, a subsequent merger may result in a combination of initially separate segments over an intervening segment to be merged.
In einem Block 33b ist ferner ausgeführt, was mit einem Segment geschieht, das kürzer als 9 Sekunden ist, und das das einzige Segment in einer Segmentgruppe ist. So ist in der dritten Segmentklasse das Segment Nr. 10 das einzige Segment. Wäre es nun kürzer als 9 Sekunden, so wird es au¬ tomatisch der Segmentklasse zugeordnet, zu der das Segment Nr. 9 gehört. Dies führt automatisch zu einer Verschmelzung des Segments 10 mit dem Segment 9. Ist das Segment 10 län- ger als 9 Sekunden, so wird diese Verschmelzung nicht vor¬ genommen.In a block 33b it is further explained what happens to a segment that is shorter than 9 seconds and that is the only segment in a segment group. For example, segment no. 10 is the only segment in the third segment class. If it were shorter than 9 seconds, it is automatically assigned to the segment class to which segment No. 9 belongs. This automatically leads to a fusion of the segment 10 with the segment 9. If the segment 10 is longer than 9 seconds, then this merger is not taken vor¬.
In einem Block 33c wird dann eine Untersuchung vorgenommen für Segmente, die kürzer als 9 Sekunden sind, und die nicht das einzige Segment in einem entsprechenden Cluster X, als in einer entsprechenden Segmentgruppe sind. Sie werden ei¬ ner genaueren Überprüfung unterzogen, in der eine Regelmä¬ ßigkeit in der Clusterabfolge festgestellt werden soll. Zu¬ nächst werden alle Segmente aus der Segmentgruppe X ge- sucht, die kürzer als die Mindestlänge sind. Im Anschluss wird für jedes dieser Segmente geprüft, ob die Vorgänger¬ und Nachfolge-Segmente jeweils zu einem einheitlichen Cluster gehören. Sind alle Vorgänger-Segmente aus einem einheitlichen Cluster, so werden alle zu kurzen Segmente aus dem Cluster X dem Vorgänger-Cluster zugeordnet. Sind dagegen alle Nachfolger-Segmente aus einem einheitlichen Cluster, werden die zu kurzen Segmente aus dem Cluster X jeweils dem Nachfolger-Cluster zugeordnet. In einem Block 33d ist ausgeführt, was passiert, wenn auch diese Bedingung für Segmente nicht erfüllt ist, die kürzer als 9 Sekunden sind. In diesem Fall wird eine Neuheitswert- Überprüfung durchgeführt, indem auf die Neuheitswertkurve zurückgegriffen wird, die in Fig. 9 dargestellt ist. Insbe¬ sondere wird die Neuheitskurve, die aus der Kernel- Korrelation entstanden ist, an den Stellen der betroffenen Segmentgrenzen ausgelesen, und das Maximum dieser Werte wird ermittelt. Tritt das Maximum an einem Segmentanfang auf, werden die zu kurzen Segmente dem Cluster des Nachfol¬ ge-Segments zugeordnet. Tritt das Maximum an einem Segmen¬ tende auf, werden die zu kurzen Segmente dem Cluster des Vorgänger-Segments zugeordnet. Wäre das in Fig. 9 mit 90 bezeichnete Segment ein Segment, das kürzer als 9 Sekunden ist, so würde die Neuheitsüberprüfung am Anfang des Seg¬ ments 90 einen höheren Neuheitswert 91 ergeben als am Ende des Segments, wobei der Neuheitswert am Ende des Segments mit 92 bezeichnet ist. Dies würde bedeiαten, dass das Seg- ment 90 dem Nachfolger-Segment zugeordnet werden würde, da der Neuheitswert zum Nachfolger-Segment geringer ist als der Neuheitswert zum Vorgänger-Segment.In a block 33c an examination is then made for segments shorter than 9 seconds which are not the only segment in a corresponding cluster X than in a corresponding segment group. They are subjected to a more detailed check in which a regularity in the cluster sequence is to be ascertained. Initially, all segments from the segment group X that are shorter than the minimum length are searched for. Subsequently, it is checked for each of these segments whether the predecessor and successor segments each belong to a uniform cluster. If all predecessor segments are from a uniform cluster, all segments that are too short from cluster X are assigned to the predecessor cluster. If, on the other hand, all successor segments are from a uniform cluster, the segments too short from cluster X are each assigned to the successor cluster. In a block 33d is executed what happens, even if this condition is not fulfilled for segments that are shorter than 9 seconds. In this case, a novelty value check is performed by resorting to the novelty value curve shown in FIG. 9. In particular, the novelty curve, which has arisen from the kernel correlation, is read out at the locations of the affected segment boundaries, and the maximum of these values is determined. If the maximum occurs at the beginning of a segment, the segments that are too short are assigned to the cluster of the successor segment. If the maximum occurs at a segment end, the segments that are too short are assigned to the cluster of the predecessor segment. If the segment labeled 90 in Fig. 9 were a segment shorter than 9 seconds, the novelty check at the beginning of the segment 90 would give a higher novelty value 91 than at the end of the segment, with the novelty value at the end of the segment 92 is designated. This would mean that the segment 90 would be assigned to the successor segment because the novelty value to the successor segment is less than the novelty value to the predecessor segment.
Verbleiben nunmehr noch Segmente, die kürzer als 9 Sekunden sind und noch nicht verschmolzen werden durften, so wird unter diesen noch einmal eine gestaffelte Auswahl durchge¬ führt. Insbesondere werden nunmehr alle Segmente unter den verbleibenden Segmenten, die kürzer als 6 Sekunden sind, ausgewählt. Die Segmente, deren Länge zwischen 6 und 9 Se- künden aus dieser Gruppe sind, werden „unangetastet" zuge¬ lassen.If there are still segments that are shorter than 9 seconds and have not yet been allowed to merge, a staggered selection is carried out once again below them. In particular, now all segments among the remaining segments shorter than 6 seconds are selected. The segments whose length is between 6 and 9 seconds from this group are left untouched.
Die Segmente, die kürzer als 6 Sekunden sind, werden nun¬ mehr jedoch alle der anhand der Elemente 90, 91, 92 erklär- ten Neuheitsprüfung unterzogen und entweder dem Vorgänger¬ oder dem Nachfolger-Segment zugeordnet, so dass am Ende des in Fig. 3 gezeigten Nachkorrekturalgorithmus alle zu kurzen Segmente, nämlich alle Segmente unterhalb einer Länge von 6 Sekunden, mit Vorgänger- und Nachfolger-Segmenten intelli¬ gent verschmolzen worden sind.However, the segments which are shorter than 6 seconds are now all subjected to the novelty check explained with reference to the elements 90, 91, 92 and assigned to either the predecessor segment or the successor segment, so that at the end of the in FIG. 3, all too short segments, namely all segments below a length of 6 Seconds have been merged intelli¬ gent with predecessor and successor segments.
Dieses erfindungsgemäße Prozedere hat den Vorteil , dass keine Elimination von Teilen des Stücks durchgeführt worden ist, dass also keine einfache Eliminierung der zu kurzen Segmente durch Zu-Null-Setzen durchgeführt worden ist, son¬ dern dass nach wie vor das gesamte komplette Musikstück durch die Gesamtheit der Segmente repräsentiert ist- Durch die Segmentierung ist daher kein Informationsverlust aufge¬ treten, der jedoch sein würde, wenn man z. B. als Reaktion auf die Übersegmentierung einfach alle zu kurzen Segmente „ohne Rücksicht auf Verluste" einfach eliminieren wüαrde.This procedure according to the invention has the advantage that no elimination of parts of the piece has been carried out, that is, that no simple elimination of the segments which are too short has been carried out by setting them to zero, but that the entire complete piece of music is still due to the The totality of the segments is represented by the segmentation therefore no loss of information auf¬ occurred, which would be, however, if one z. For example, in response to over-segmentation, simply eliminating all too short segments "without regard to losses" would be easy.
Nachfolgend wird Bezug nehmend auf Fig. 4a und Fig. Ab eine bevorzugte Implementierung der Segmentklassen- Bezeichnungseinrichtung 22 von Fig. 1 dargestellt. Erfin¬ dungsgemäß werden beim Labeling zwei Clustern die Label „Strophe" und „Refrain" zugewiesen.Referring now to FIG. 4a and FIG. 5d, a preferred implementation of the segment class designator 22 of FIG. 1 is illustrated. According to the invention, two clusters are assigned the labels "stanza" and "refrain" during labeling.
Erfindungsgemäß wird nun nicht etwa ein größter Singular- wert einer SingularwertZerlegung und der dazugehörige Cluster als Refrain und der Cluster für den zweitgrößten Singularwert als Strophe verwendet. Ferner wird nicht grundsätzlich davon ausgegangen, dass jedes Lied mit einer Strophe anfängt, dass also der Cluster mit dem ersten Seg¬ ment der Strophencluster ist und der andere Cluster der Refraincluster ist. Statt dessen wird erfindungsgernäß der Cluster: in der Kandidatenauswahl, der das letzte Segment hat, als Refrain bezeichnet, und der andere Cluster wird als Str-ophe bezeichnet.According to the invention, not a largest singular value of a singular value decomposition and the associated cluster are used as a refrain and the cluster for the second largest singular value as a stanza. Furthermore, it is not fundamentally assumed that each song begins with a stanza, ie that the cluster with the first segment is the stanza cluster and the other cluster is the refrain cluster. Instead, according to the invention, the cluster: in the candidate selection having the last segment is called a refrain, and the other cluster is called a str-ophe.
So wird also für die beiden letztendlich zur S "trophe- /Refrain-Auswahl bereitstehenden Cluster überprüft (40), welcher- Cluster das Segment hat, das als letztes Segment der Segmente der beiden Segmentgruppen im Liedverlaiαf vor¬ kommt, um denselben als Refrain zu bezeichnen. Das letzte Segment kann das tatsächlich im Lied letzte Seg¬ ment sein oder aber ein Segment, das im Lied später auf¬ tritt als alle Segmente der anderen Segmentklasse. Ist die¬ ses Segment nicht das tatsächlich letzte Segment im Lied, so bedeutet dies, dass noch ein Outro vorliegt.So, for the two ultimately to S "trophe- / refrain selection waiting Cluster checked (40) welcher- cluster has the segment of the two segment groups in Liedverlaiαf vor¬ comes as the last segment of the segments to the same as a refrain to describe. The last segment may actually be the last segment in the song or else a segment which occurs later in the song than all segments of the other segment class. If this segment is not the actual last segment in the song, this means that there is still an outro.
Diese Entscheidung basiert auf der Erkenntnis, dass der Re¬ frain in den allermeisten Fällen in einem Lied hinter der letzten Strophe komjmt, also direkt als letztes Segment des Liedes, wenn ein Stück z. B. mit dem Refrain ausgeblerxdet wird, oder als Segment vor einem Outro, das auf einen Re¬ frain folgt und mit dem das Stück beendet wird.This decision is based on the insight that the Re¬ frain in the vast majority of cases in a song kommerm behind the last stanza, so directly as the last segment of the song, if a piece z. B. is eroded with the refrain, or as a segment before an outro, which follows a Re¬ frain and with which the piece is terminated.
Ist das letzte Segment aus der ersten Segmentgruppe, dann werden alle Segmente dieser ersten (höchstwertigen) Seg¬ mentklasse als Refrain bezeichnet, wie es durch einen Block 41 in Fig. 4b dargestellt ist. Zusätzlich werden in diesem Fall alle Segmente der anderen Segmentklasse, die zur Aus¬ wahl steht, als „Stxophe" gekennzeichnet, da typischerweise von den beiden Kandidaten-Segmentklassen eine Klasse der Refrain und damit unmittelbar die andere Klasse die Stro¬ phen haben wird.If the last segment is from the first segment group, then all segments of this first (highest-order) segment class are referred to as a refrain, as represented by a block 41 in FIG. 4b. In addition, in this case, all the segments of the other segment class that is to be selected are identified as "stxophe", since typically one class of the refrain and thus the other class will have the strokes of the two candidate segment classes.
Ergibt dagegen die Untersuchung im Block 40, nämlich welche Segmentklasse in der Auswahl das letzte Segment im Musik¬ stückverlauf hat, dass dies die zweite, also eher niecler- wertige Segmentklasse ist, so wird in einem Block 42 unter¬ sucht, ob die zweite Segmentklasse das erste Segment im Mu¬ sikstück hat. Diese Untersuchung basiert auf der Erkerxnt- nis, dass die Wahrscheinlichkeit sehr hoch ist, dass ein Lied mit einer Strrophe, und nicht mit einem Refrain an¬ fängt.If, on the other hand, the examination in block 40 reveals that which segment class in the selection has the last segment in the music piece history, that this is the second, ie rather non-valued segment class, then in a block 42 it is examined whether the second segment class has the first segment in the piece of music. This investigation is based on the commentary that the probability is very high that a song starts with a stream, not a chorus.
Wird die Frage im Block 42 mit „Nein" beantwortet, hat also die zweite Segmentlclasse nicht das erste Segment im Musik¬ stück, so wird die zweite Segmentklasse als Refrain be¬ zeichnet, und wird die erste Segmentklasse als Strophe be¬ zeichnet, wie es in einem Block 43 angedeutet ist. Wird da- gegen die Abfrage im Block 42 mit „Ja" beantwortet, so wird entgegen der Regel die zweite Segmentgruppe als Strophe und die erste Segmentgruppe als Refrain bezeichnet, wie es in einem Block 44 angedeutet ist. Die Bezeichnung im Block 44 geschieht deswegen, da die Wahrscheinlichkeit, dass die zweite Segmentklasse dem Refrain entspxicht, schon recht gering ist. Kommt nun noch die Unwahrsclneinlichkeit hinzu, dass ein Musikstück mit einem Refrain eingeleitet wird, so deutet einiges auf einen Fehler im Clustering hin, z. B. dass das zuletzt betrachtete Segment fälschlicher Weise der zweiten. Segmentklasse zugeordnet wurde.If the question is answered with "No" in block 42, that is to say if the second segment class does not have the first segment in the piece of music, then the second segment class is designated as a refrain, and the first segment class is characterized as a stanza, as it is is indicated in a block 43. answered against the query in block 42 with "yes", contrary to the rule, the second segment group is called a stanza and the first segment group as a refrain, as indicated in a block 44. The designation in block 44 is because the probability The fact that the second segment class corresponds to the chorus is already quite small: If the untruthful coincidence that a piece of music is introduced with a refrain adds up to a mistake in the clustering, for example, that the segment last considered is more incorrect Has been assigned to the second segment class.
In Fig. 4b wurde dargestellt, wie anhand von zwei zur Ver¬ fügung stehenden Segmentklassen die Strophe-/Refrain- Bestimrαung durchgeführt worden ist. Nach dieser Strophe- /Refrain-Bestimmung können dann die restlichen Segmentklas- sen in einem Block 45 bezeichnet werden, wobei ein Outro gegebenenfalls die Segmentklasse sein wird, die das letzte Segment des Stücks an sich hat, während ein Intro die Seg- mentklasse sein wird, die das erste Segment eines Stücks an sich hat.FIG. 4b shows how the stanza / refrain determination has been carried out on the basis of two classes of segments available. After this stanza / refrain determination, the remaining segment classes can then be designated in a block 45, where an outro will possibly be the segment class having the last segment of the piece, while an intro will be the segment class which has the first segment of a piece in itself.
Nachfolgend wird anhand von Fig. 4a dargestellt, wie die beiden Segmentklassen ermittelt werden, die die Kandidaten für den. in Fig. 4b gezeigten Algorithmus abgeben.It is shown below with reference to FIG. 4a, how the two segment classes are determined, the candidates for the. deliver in algorithm shown in Fig. 4b.
Allgemein wird im Labeling eine Zuweisung der Label „Stro¬ phe" und „Refrain" durchgeführt, wobei eine Segmentgruppe als Strophen-Segmentgruppe markiert wird, während die ande- re Segmentgruppe als Refrain-Segmentgruppe markiert wird. Grundsätzlich basiert dieses Konzept auf der Annahme (Al) , dass die beiden Cluster (Segmentgrupperα) mit den höchsten Ähnlicnkeitswerten, also Cluster 1 und Cluster 2, den Re¬ frain- und Strophenclustern entsprechen. Das von diesen beiden Clustern als letztes auftretende ist das Refrain- Cluster, wobei davon ausgegangen wird, dass eine Strophe auf einen Refrain folgt. Die Erfahrung aus zahlreichien Tests hat gezeigt, dass Cluster 1 in den meisten Fällen dem Refrain entspricht. Für Cluster 2 wird die Annahme (Al) jedoch oftmals nicht er¬ füllt. Diese Situation tritt meistens dann auf, wenn es entweder noch einen dritten, sich häufig wiederholenden Teil im Stück gibt, z. B. eine Bridge, bei einer hohen Ähn¬ lichkeit von Intro und OutroΛ oder aber für den nicht sel¬ ten auftretenden Fall, dass ein Segment im Stück eine hohe Ähnlichkeit zum Refrain aufweist, somit auch eine hohe Ge- samtähnlichkeit hat, die Ähnlichkeit zum Refrain aber gera¬ de nicht groß genug ist, um noch zum Cluster 1 zu gehören.In general, an assignment of the labels "stroke" and "refrain" is carried out in the labeling, whereby one segment group is marked as a stanza segment group, while the other segment group is marked as a refrain segment group. Basically, this concept is based on the assumption (Al) that the two clusters (Segmentgrupperα) with the highest similarity values, ie cluster 1 and cluster 2, the Re¬ frain and stanza clusters correspond. The last of these two clusters is the refrain cluster, assuming that a verse follows a chorus. The experience from numerous tests has shown that cluster 1 in most cases corresponds to the refrain. For cluster 2, however, the assumption (Al) is often not fulfilled. This situation usually occurs when there is either a third, frequently repeating part in the play, eg. B. a bridge, with a high Ähn¬ probability of intro and outro Λ or for the not sel¬ th occurring case that a segment in the piece has a high similarity to the chorus, thus also has a high overall similarity, the similarity to the refrain but gera¬ de is not big enough to belong to the cluster 1 yet.
Untersuchungen haben gezeigt, dass diese Situation häufig für Abwandlungen des Refrains am Ende des Stücks auftritt. Um mit möglichst hoher Sicherheit Refrain und Strophe rich¬ tig zu markieren (labein), wird die in Fig. 4b beschriebene Segmentauswahl dahingehend verbessert, dass, wie es in Fig. 4a dargestellt wird, die beiden Kandidaten für die Strophe- Refrain-Auswahl abhängig von den in denselben vorhandenen Segmenten bestimmt wird.Research has shown that this situation often occurs for variations of the refrain at the end of the piece. In order to mark chorus and stanza correctly (as labein) with the greatest possible certainty, the segment selection described in FIG. 4b is improved such that, as illustrated in FIG. 4a, the two candidates are dependent on the chorus chorus selection is determined by the segments present in the same.
Zunächst wird in einem Schritt 46 der Cluster bzw. die Seg¬ mentgruppe mit höchstem ÄhnLichkeitswert (Wert der Kompo¬ nente von V, die einmal ein Maximum für die zuerst bestimm- te Segmentklasse, also Segment 7 bei dem Beispiel von Fig. 7, war), also die Segmentgruppe, die beim ersten Durcrilauf von Fig. 1 ermittelt worden ist, in die Strophe-Refrrain- Auswahl als erster Kandidat einbezogen.First, in a step 46, the cluster or the segment group with the highest similarity value (value of the component of V, which was once a maximum for the first-determined segment class, ie segment 7 in the example of FIG ), that is, the segment group determined in the first run of Fig. 1, is included in the stanza-refrain selection as the first candidate.
Fraglich ist nunmehr, welche weitere Segmentgruppe der zweite Teilnehmer an der Strophe-Refrain-Auswahl sein wird. Der wahrscheinlichste Kandidat ist die zweithöchste Seg¬ mentklasse, also die Segmentk:lasse, die beim zweiten Durch¬ lauf durch das in Fig. 1 beschriebene Konzept gefunden wird. Dies muss jedoch nicht immer so sein. Daher wirci zu¬ nächst für die zweithöchste Segmentklasse (Segment 5 in Fig. I)1 also Cluster 2 überprüft, ob diese Klasse nur: ein einziges Segment oder genau zwei Segment hat, wobei eines der beiden Segmente das erste Segment ist und das andere Segment der beiden das letzte Segment im Lied ist (Block 47) .It is now questionable which other segment group will be the second participant in the verse-chorus selection. The most probable candidate is the second highest segment class, ie the segment k, which is found on the second pass through the concept described in FIG. However, this does not always have to be this way. Therefore, firstly, for the second highest segment class (segment 5 in FIG. 1) 1 , cluster 2 checks whether this class has only: a single segment or exactly two segments, one of them the two segments is the first segment and the other segment of the two is the last segment in the song (block 47).
Wird die Frage dagegen mit „Nein" beantwortet, hat die zweithöchste Segmentklasse also z. B. wenigstens drei Seg¬ mente, oder zwei Segmente, von denen eines innerhalb des Stücks und nicht am „Rand" des Stücks ist, so bleibt die zweite Segmentklasse vorerst in der Auswahl und wird fortan als „Second Cluster" bezeichnet.If, on the other hand, the answer to the question is "no", then the second highest segment class, for example, has at least three segments, or two segments, one of which is within the piece and not at the "edge" of the piece, then the second segment class remains initially in the selection and is henceforth referred to as "Second Cluster".
Wird die Frage im Block 47 dagegen mit „Ja" beantwortet, scheidet die zweithöchste Klasse also aus (Block 48a) , so wird sie durch die Segmentklasse ersetzt, die am häufigsten im gesamten Lied vorkommt (anders ausgedrückt: die am meis¬ ten Segmente beinhaltet) und nicht der höchsten Segment¬ klasse (Cluster 1) entspricht. Diese Segmentklasse wird fortan als „Second Cluster" bezeichnet.If the question in block 47 is answered with "yes", then the second highest class is eliminated (block 48a), then it is replaced by the segment class which occurs most frequently in the entire song (in other words, which contains the most segments) ) and not the highest segment class (cluster 1) .This segment class will henceforth be referred to as "second cluster".
„Second Cluster" muss sich, wie es nachfolgend dargelegt wird, noch mit einer dritten Segmentklasse messen (48b), welche als „Third Cluster" bezeichnet wird, um am Ende als Kandidat den Auswahlprozess zu überstehen.Second clusters, as explained below, still have to measure themselves with a third segment class (48b), which is referred to as a "third cluster" in order to ultimately survive the selection process as a candidate.
Die Segmentklasse „Third Cluster" entspricht dem Cluster, welcher am häufigsten im gesamten Lied vorkommt, jedoch we¬ der der höchsten Segmentklasse (Cluster 1) noch der Seg¬ mentklasse „Second Cluster" entspricht, sozusagen das am nächsthäufigsten (oftmals auch gleich häufig) vorkommende Cluster nach Cluster 1 und „Second Cluster".The segment class "Third Cluster" corresponds to the cluster which occurs most frequently in the entire song, but the highest segment class (cluster 1) still corresponds to the segment class "second cluster", so to speak the next most frequently (often equally frequently) occurring clusters after cluster 1 and "second clusters".
Hinsichtlich der so genannten Bridge-Problematik wird nun für „Third Cluster" überprüft, ob es eher in die Strophe- Refrain-Auswahl gehört als „Second Cluster" oder nicht. Dies geschieht deshalb, da „Second Cluster" und „Third Cluster" oftmals gleich oft vorkommen, eins von beiden also evtl. eine Bridge oder ein anderes wiederkehrendes Zwi¬ schenteil darstellt. Um zu gewährleisten, dass die Segment- klasse von den beiden ausgewählt wird, die am ehesten der Strophe oder dem Refrain entspricht, also nicht einer Bridge oder einem anderen Zwischenstück, werden die in den Blöcken 49a, 49b, 49c dargestellten Untersuchungen durchge- führt.With regard to the so-called bridge problem, it is now checked for "third cluster" whether it belongs more in the stanza-refrain selection than "second cluster" or not. This happens because "second clusters" and "third clusters" often occur the same number of times, so one of them may represent a bridge or another recurring juncture. To ensure that the segmentation class is selected from the two that most closely corresponds to the stanza or chorus, so not a bridge or other intermediate piece, the investigations shown in blocks 49a, 49b, 49c are performed.
Die erste Untersuchung in Block 49a lautet dahingehend, dass untersucht wird, ob jedes Segment aus ThirdCluster ei¬ ne gewisse Mindestlänge hat, wobei als Schwellwert z. B. 4% der 'gesamten Liedlänge bevorzugt wird. Andere Werte zwi¬ schen 2% und 10% können ebenfalls zu sinnvollen Ergebnissen führen.The first examination in block 49a is that it is examined whether each segment of third cluster has a certain minimum length, wherein as threshold value z. B. 4% of the 'entire song length is preferred. Other values between 2% and 10% can also lead to meaningful results.
In einem Block 49b wird dann untersucht, ob ThirdCluster einen größeren Gesamtanteil am Lied hat als SecondCluster. Hierzu wird die Gesamtzeit aller Segmente in ThirdCluster aufaddiert und mit der entsprechend aufaddierten Gesamtzahl aller Segmente in SecondCluster verglichen, wobei dann ThirdCluster einen größeren Gesamtanteil am Lied als Se- condCluster hat, wenn die aufaddierten Segmente in ThirdC¬ luster einen größeren Wert ergeben als die aufaddierten Segmente in SecondCluster.In a block 49b, it is then examined whether ThirdCluster has a greater total portion of the song than SecondCluster. For this purpose, the total time of all segments in ThirdCluster is added up and compared with the correspondingly added total number of all segments in SecondCluster, in which case ThirdCluster has a greater overall proportion of the song than SecondCluster, if the added segments in ThirdChuster give a greater value than the added ones Segments in SecondCluster.
In dem Block 49c wird schließlich überprüft, ob der Abstand der Segmente aus ThirdCluster zu den Segmenten aus Cluster 1, also dem häufigsten Cluster konstant sind, d. h. ob eine Regelmäßigkeit in der Abfolge ersichtlich ist.In block 49c, it is finally checked whether the distance of the segments from third cluster to the segments from cluster 1, ie the most frequent cluster, is constant, ie. H. whether a regularity is evident in the sequence.
Sind alle diese drei Bedingungen mit „Ja" beantwortet, so kommt ThirdCluster in die Strophe-Refrain-Auswahl. Ist da¬ gegen wenigstens eine dieser Bedingungen nicht erfüllt, so kommt ThirdCluster nicht in die Strophe-Refrain-Auswahl. Statt dessen kommt SecondCluster in die Strophe-Refrain- Auswahl, wie es durch einen Block 50 in Fig. 4a dargestellt ist. Damit ist die „Kandidatensuche" für die Strophe- Refrain-Auswahl beendet, und es wird der in Fig. 4b gezeig¬ te Algorithmus gestartet, bei dem am Ende feststeht, welche Segmentklasse die Strophen umfasst, und welche Segmentklas¬ se den Refrain umfasst.If all these three conditions are answered with "yes", then ThirdCluster enters the stanza-refrain selection, but if at least one of these conditions is not met, ThirdCluster does not enter the stanza-refrain selection the stanza-refrain selection, as represented by a block 50 in Fig. 4a, completes the "candidate search" for the stanza-refrain selection, and the algorithm shown in Fig. 4b is started which is the final one Segment class includes the stanzas, and which Segmentklas¬ se includes the chorus.
An dieser Stelle sei darauf hingewiesen, dass die drei Be- dingungen in den Blöcken 49a, 49b, 49c alternativ auch ge- wichtet werden könnten, so dass z. B. eine Nein-Antwort im Block 49a dann „überstimmt" wird, wenn sowohl die Abfrage im Block 49b als auch die Abfrage im Block 49c mit „Ja" be¬ antwortet werden. Alternativ könnte auch eine Bedingung der drei Bedingungen hervorgehoben werden, so dass z. B. nur untersucht wird, ob es die Regelmäßigkeit der Abfolge zwischen der dritten Segmentklasse und der ersten Segment¬ klasse gibt, während die Abfragen in den Blöcken 49a und 49b nicht durchgeführt werden oder nur dann durchgeführt werden, wenn die Abfrage im Block 49c mit „Nein" beantwor¬ tet wird, jedoch z. B. ein relativ großer Gesamtanteil im Block 49b und relativ große Mindestmengen im Block 49a er¬ mittelt werden.It should be noted at this point that the three conditions in the blocks 49a, 49b, 49c could alternatively also be weighted, so that z. For example, a no answer in block 49a is "overruled" if both the query in block 49b and the query in block 49c are answered "yes". Alternatively, a condition of the three conditions could be emphasized, so that z. For example, it only examines whether there is regularity of the sequence between the third segment class and the first segment class, while the queries in blocks 49a and 49b are not performed or are only performed if the query in block 49c reads " No answer is given, but for example a relatively large total proportion in block 49b and relatively large minimum quantities are determined in block 49a.
Alternative Kombinationen sind ebenfalls möglich, wobei für eine Low-Level-Untersuchung auch nur die Abfrage eines der Blöcke 49a, 49b, 49c für bestimmte Implementierungen aus¬ reichend sein wird.Alternative combinations are also possible, and for a low-level examination only the query of one of the blocks 49a, 49b, 49c will be sufficient for certain implementations.
Nachfolgend werden beispielhafte Implementierungen des Blocks 526 zum Durchführen einer Music-Summary dargelegt. So existieren verschiedene Möglichkeiten, was als Music Summary abgespeichert werden kann. Zwei davon werden nach¬ folgend beschrieben, nämlich die Möglichkeit mit dem Titel „Refrain" und die Möglichkeit mit dem Titel „Medley".Hereinafter, exemplary implementations of the block 526 for performing a music summary are set forth. So there are different possibilities, which can be stored as music summary. Two of them are described below, namely the option entitled "Refrain" and the option entitled "Medley".
Die Refrain-Möglichkeit besteht darin, eine Version des Re¬ frains als Summary zu wählen. Hierbei wird versucht, eine Ausführung des Refrains zu wählen, die möglichst zwischen 20 und 30 Sekunden lang ist. Ist ein Segment mit einer sol¬ chen Länge im Refrain-Cluster nicht enthalten, so wird eine Version gewählt, die eine möglichst geringe Abweichung zu einer Länge von 25 Sekunden hat. Ist der gewählte Refrain länger als 30 Sekunden, wird er bei diesem Ausführungsbei- spiel über 30 Sekunden ausgeblendet und ist er kürrzer als 20 Sekunden, so wird er mit dem darauf folgenden Segment auf 30 Sekunden verlängert.The refrain possibility consists of selecting a version of the reiner as a summary. This will attempt to choose a chorus version that lasts between 20 and 30 seconds if possible. If a segment with such a length is not contained in the refrain cluster, then a version is chosen which has the smallest possible deviation to a length of 25 seconds. Is the chosen chorus If it is longer than 30 seconds, it will be hidden for more than 30 seconds in this example and if it is shorter than 20 seconds, it will be extended to 30 seconds with the following segment.
Das Abspeichern eines Medleys für die zweite MögZLichkeit entspricht noch eher einer tatsächlichen Zusammenfassung eines Musikstücks. Hierbei werden ein Ausschnitt der Stro¬ phe, ein Ausschnitt des Refrains und ein Ausschnitt eines dritten Segments in ihrer tatsächlichen chronologischen Reihenfolge als Medley konstruiert. Das dritte Segment wird aus einem Cluster ausgewählt, das den größten Gesamtanteil am Lied hat und nicht Strophe oder Refrain ist.Storing a medley for the second option is more like an actual summary of a piece of music. In this case, a section of the stroke, a section of the refrain and a section of a third segment are constructed in their actual chronological order as a medley. The third segment is selected from a cluster that has the largest total portion of the song and is not a verse or chorus.
Mit folgender Priorität wird nach der geeignetsten Abfolge der Segmente gesucht:The following priority is used to search for the most appropriate sequence of segments:
- „drittes Segmentλλ-Strophe-Refrain;"Third segment λλ stanza refrain;
- Strophe-Refrain-„drittes Segment"; oder- stanza-chorus- "third segment"; or
- Strophe-„drittes Segment"-Refrain.- stanza "third segment" refrain.
Die gewählten Segmente werden nicht in ihrer vollen Länge in des Medley eingebaut. Die Länge ist vorzugsweise auf feste 10 Sekunden pro Segment festgelegt, damit insgesamt wieder eine Summary von 30 Sekunden entsteht. Alternative Werte sind jedoch ebenfalls ohne weiteres realisierbar,The selected segments are not installed in their full length in the medley. The length is preferably set to a fixed 10 seconds per segment, so that a total of 30 seconds is created again. However, alternative values are also readily feasible,
Vorzugsweise wird zur Rechenzeiteinsparung nach der Merk¬ malsextraktion im Block 502 bzw. nach dem Block 508 eine Gruppierung mehrerer Merkmalsvektoren im Block 510 durchge¬ führt, indem ein Mittelwert über die gruppierten Mlerkmals- vektoren gebildet wird. Die Gruppierung kann im nächsten Verarbeitungsschritt, der Berechnung der Ahnlichkzeitsmat- rix, Rechenzeit einsparen. Zur Berechnung der Ähnl__chkeits- matrix wird zwischen allen möglichen Kombinationen von je zwei Merkmalsvektoren eine Distanz ermittelt. Dara.us erge- ben sich bei n Vektoren über das gesamte Stück n x n Be¬ rechnungen. Ein Gruppierungsfaktor g gibt an, wie viele aufeinander folgende Merkmalsvektoren über die Mittelwert¬ bildung zu einem Vektor gruppiert werden. Dadurch kann, die Anzahl der Berechnungen reduziert werden.Preferably, after the feature extraction in block 502 or after block 508, a grouping of a plurality of feature vectors in block 510 is performed to save computation time by forming an average over the grouped feature vectors. In the next processing step, the calculation of the similar-time matrix, the grouping can save computing time. To calculate the similarity matrix, a distance is determined between all possible combinations of two feature vectors. Dara.us For n vectors, calculations are made over the entire piece of nxn calculations. A grouping factor g indicates how many consecutive feature vectors are grouped into a vector via the mean value formation. This can reduce the number of calculations.
Die Gruppierung ist auch eine Art von Rauschunterdrückzung, bei der kleine Änderungen in der Merkmalsausprägung von aufeinander folgenden Vektoren im Mittel kompensiert wer- den. Diese Eigenschaft hat eine positive Auswirkung auf das Auffinden von großen Liedstrukturen.The grouping is also a kind of noise suppression, in which small changes in the feature expression of successive vectors are compensated on average. This property has a positive effect on finding large song structures.
Das erfindungsgemäße Konzept ermöglicht es, mittels eines speziellen Music-Players durch die berechneten Segmente zu navigieren und gezielt einzelne Segmente anzuwählen,- so dass ein Konsument in einem Musikladen durch beispielsweise Drücken einer bestimmten Taste oder durch Aktivieren eines bestimmten Software-Befehls ohne weiteres sofort zum Re¬ frain eines Stücks springen kann, um festzustellen, ob der Refrain ihm gefällt, um dann, vielleicht noch eine Strrophe anzuhören, damit der Konsument schließlich eine Kaufent- scheidung treffen kann. Damit ist es einem Kaufinteressen- ten komfortabel möglich, von einem Stück genau das zu hö¬ ren, was ihn besonders interessiert, während er sich z; . B. das Solo oder die Bridge dann tatsächlich für den Hörgenuss zu Hause aufsparen kann.The concept according to the invention makes it possible to navigate through the calculated segments by means of a special music player and to selectively select individual segments, so that a consumer in a music shop can easily start immediately by, for example, pressing a certain key or by activating a specific software command Re¬ frain of a piece can jump to determine whether the chorus pleases him, and then perhaps listen to a strife, so that the consumer can finally make a purchase decision. Thus, it is easily possible for a buyer to hear from a piece exactly what he is particularly interested in, while he himself z. , B. the solo or the bridge then actually save for the listening pleasure at home.
Alternativ ist das erfindungsgemäße Konzept auch für einen Musikladen von großem Vorteil, da der Kunde gezielt und da- mit auch schnell reinhören und letztendlich kaufen kann, so dass die Kunden nicht lange auf ein Reinhören warten müs¬ sen, sondern ebenfalls schnell an die Reihe kommen. Dies liegt daran, dass ein Benutzer nicht ständig hin- und her¬ spulen muss, sondern gezielt und schnell sämtliche Informa- tionen des Stücks erhält, die er auch haben möchte.Alternatively, the concept according to the invention is also of great advantage for a music shop, since the customer can listen in and therefore quickly and ultimately buy, so that the customers do not have to wait long to listen in, but also quickly get their turn , This is due to the fact that a user does not have to constantly toggle back and forth, but receives targeted and quick all the information of the piece that he also wants to have.
Ferner sei auf einen wesentlichen Vorteil des erfinduncjsge- mäßen Konzepts hingewiesen, nämlich dass insbesondere auf Grund der Nachkorrektur der Segmentierung keine Informatio- nen des Stücks verloren gehen. So werden zwar alle Segmen¬ te, die vorzugsweise kürzer als 6 Sekunden sind, mi~t dem Vorgänger- oder Nachfolger-Segment verschmolzen. Allerdings werden keine Segmente, so kurz sie auch sind, eliminiert. Dies hat den Vorteil, dass der Benutzer prinzipiell alles im Stück anhören kann, so dass ein zwar kurzes aber einem Benutzer doch sehr gut gefallendes markantes Stück, das bei einer Segmentierungs-Nachkorrektur weggefallen wärer die tatsächlich einen Abschnitt des Stücks komplett eliminiert hätte, dennoch dem Benutzer zur Verfügung steht, damit er vielleicht gerade aufgrund des kurzen markanten Stücks eine wohl überlegte Kaufentscheidung treffen kann.Furthermore, reference is made to a significant advantage of the inventive concept, namely that in particular Because of the post-correction of the segmentation no information of the piece is lost. Thus, although all Segmen¬ be te, are preferably shorter than 6 seconds, mi ~ t the predecessor or successor segment fused. However, no segments as short as they are will be eliminated. This has the advantage that the user can listen to anything in the piece, in principle, so that r would have actually completely eliminated a section of the piece though but briefly a user yet very well gefallendes striking piece that would have removed at a segmentation post-correction, yet is available to the user so that he may perhaps make a well considered purchase decision just because of the short distinctive piece.
Die vorliegende Erfindung ist jedoch auch in anderen A.nwen- dungsszenarien anwendbar, beispielsweise beim fferbe- Monitoring, also dort, wo ein Werbekunde überprüfen möchte, ob das Aud-Lostück, für das er Werbezeit gekauft hat, auch tatsächlich über die gesamte Länge abgespielt worden ist. Ein Audiostück kann beispielsweise Musiksegmente, Sprecher¬ segmente, und Geräuschsegmente umfassen. Der Segmevntie- rungsalgori"thmus, also die Segmentierung und nachfoLgende Einordnung in Segmentgruppen ermöglicht dann eine scb-nelle und wesentlich weniger aufwendige Überprüfung als ein kom- pletter Sample-weiser Vergleich. Die effiziente Überprüfung würde einfach in einer Segmentklassen-Statistik bestehen, also einem Vergleich, wie viel Segmentklassen gefunden, wor¬ den sind, und wie viel Segmente in den einzelnen Seg-ment- klassen sind, mit einer Vorgabe aufgrund des idealen Werbe- Stücks. Damit ist es einem Werbekunden ohne weiteres mög¬ lich, zu erkennen, ob ein Rundfunksender oder Fernsehsender tatsächlich alle Hauptteile (Abschnitte) des Werbesi_gnals ausgestrahlt hat oder nicht.However, the present invention is also applicable in other A.nwen-dungsszenarien, for example, inferfer monitoring, ie where an advertiser wants to check whether the Aud lot, for which he has bought advertising time, actually played over the entire length has been. An audio piece may include, for example, music segments, speaker segments, and noise segments. The segmentation algo- rithm, ie the segmentation and subsequent classification into segment groups, then makes it possible to carry out a scully-free and considerably less complicated check than a complete sample-wise comparison A comparison of how many segment classes are found, what are and how many segments are in the individual segment classes, with a specification based on the ideal advertising piece. whether a broadcaster or television station has actually aired all or part of the advertising section of the commercial.
Die vorliegende Erfindung ist ferner dahingehend von Vor¬ teil, dass sie zur Recherche in großen Musikdatenb>anken eingesetzt werden kann, um beispielsweise nur die RefTrains von vielen Musikstücken durchzuhören, um danach eine Musik- - ? R -The present invention is further advantageous in that it can be used for research in large music data banks in order, for example, only to listen through the RefTrains of many pieces of music in order then to listen to a music score. -? R -
prograinmauswahl durchzuführen. In diesem Fall würden nur einzelne Segmente aus der mit „Refrain" markierten Segment¬ klasse von vielen verschiedenen Stücken ausgewählt werden und von einem Prrogrammanbieter bereitgestellt werden. Al- ternativ könnte auch ein Interesse dahingehend bestehen, von einem Interpreten alle z. B. Gitarrensolos miteinander zu vergleichen. Erfindungsgemäß können diese ebenfalls ohne weiteres bereitgestellt werden, indem immer eines oder meh¬ rere Segmente (falls vorhanden) in der mit „Solo" bezeich- neten Segmentklasse aus einer großen Anzahl von Musikstü¬ cken z. B. zusammengefügt und als ein FiILe bereitgestellt werden.Prograinmauswahl perform. In this case, only individual segments from the segment class marked "refrain" would be selected from many different pieces and provided by a program provider, Alternatively, there could also be an interest, for example from an artist, for all the guitar solos According to the invention, these can likewise be readily provided by always selecting one or more segments (if present) in the segment class designated "Solo" from a large number of pieces of music, for example, B. assembled and provided as a file.
Wieder andere Anwendungsmöglichkeiten bestehen darin, aus verschiedenen Amdiostücken Strophen und Refrains zu mi¬ schen, was insbesondere für DJs von Interesse sein wird und völlig neue MögLichkeiten der kreativen IMusiksynthese er¬ öffnet, welche einfach und vor allem automatisch zielgenau durchgeführt werrden können. So ist das erfindungsgemäße Konzept ohne weiteres automatisierbar, da es an keiner Stelle eine Benutizerintervention erfordert. Dies bedeutet, dass Nutzer des erfindungsgemäßen Konzepts keineswegs eine besondere Ausbildung benötigen, außer z. B. eine übliche Geschicktheit im Umgang mit normalen Software- Benutzeroberflachen.Yet other possible applications are to mix stanzas and choruses from different amido pieces, which will be of particular interest to DJs and opens up completely new possibilities of creative music synthesis, which can be carried out precisely and, above all, automatically automatically. Thus, the concept according to the invention can be easily automated since it requires no user intervention at any point. This means that users of the inventive concept by no means require special training, except for. For example, a common skill in dealing with normal software user interfaces.
Je nach den praktischen Gegebenheiten kann das erfindungs¬ gemäße Konzept d_n Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Spei- chermedium, insbesondere einer Diskette oder CD mit elekt¬ ronisch auslesbaxen Steuersignalen erfolgen, die so mit ei¬ nem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogramm- produkt mit einem auf einem maschinenlesbaren Träger ge¬ speicherten Programmcode zur Durchführung des erfindungsge¬ mäßen Verfahrens , wenn das Computerprogrammprodukt auf ei¬ nem Rechner abläuft. In anderen Worten ausgedrückt stellt die Erfindung somit ein Computerprogramm mit einem Pro¬ grammcode zur Durchführen des Verfahrens dar , wenn das Com¬ puterprogramm auf einem C omputer abläuft . Depending on the practical conditions, the inventive concept d_n hardware or can be implemented in software. The implementation can be carried out on a digital storage medium, in particular a floppy disk or CD with control signals which can be electronically read-out, which can cooperate with a programmable computer system in such a way that the corresponding method is executed. In general, the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention when the computer program product runs on a computer. In other words puts the invention thus represents a computer program with a program code for carrying out the method when the computer program runs on a computer.

Claims

Patentansprüche claims
1 . Vorrichtung zum Änderrn einer Segmentierung eines Au¬ diostücks in zeitlich e Segmente , wobei das Au diostück in in dem Audiostück wiederholt auftretende Ha uptteile gegliedert ist , mit f olgenden Merkmalen :1 . Device for changing a segmentation of an audio piece into temporal segments, the audio piece being divided into main components repeatedly occurring in the audio piece, with the following features:
einer Einrichtung ( 10 , 12 , 14 ) zum Bereitstell en einera device (10, 12, 14) for providing a
Darstellung des Audio Stücks , bei der die Segmente des Audiostücks in verschiedene Segmentklassen zu gewiesen sind, wobei j eweils e ine Segmentklas se einem ft auptteil zugeordnet ist ; undRepresentation of the audio piece in which the segments of the audio piece are assigned to different segment classes, each one segment segment being assigned to a main part; and
einer Segmentkorrektuireinrichtung (20) zum Korrigieren der Segmentierung, wobei die Segmentkorrekturreinrich- tung (20) ausgebildet ist, um ein Kurz-Segment mit ei¬ ner Länge, die kürzen als eine vorbestimmte Minimal- länge ist, mit einem zeitlichen Vorlaufersegiαent oder einem zeitlichen Nachfolgersegment zu verschmelzen, um eine geänderte Segmentierung des Audiosignals zu er¬ halten.a segment correction device (20) for correcting the segmentation, wherein the segment correction device (20) is designed to form a short segment with a length that is shorter than a predetermined minimum length, with a temporal precursor segment or a temporal successor segment to merge in order to obtain a changed segmentation of the audio signal.
2. Vorrichtung nach Anspruch 1, bei der die Segmentkor- rektureinrichtung (20 ) ausgebildet ist, um ferrner eine Segmentklassenzugehörigkeit des Kurz-Segments für eine Verschmelzung des Kurz-Segments zu verwenden.2. Apparatus according to claim 1, wherein the segment correction means (20) is adapted to use a segment class membership of the short segment for merging the short segment.
3. Vorrichtung nach Anspruch 1 oder 2, bei der die Seg- mentkorrektureinricht"ung (20) ausgebildet istr um sol¬ che Segmente als Kixrz-Segmente zu bestimmen, deren zeitliche Länger kleiner als 18 Sekunden und insbeson¬ dere kleiner als 12 Sekunden ist.3. Device according to claim 1 or 2, in which the segment is formed mentkorrektureinricht "ung (20) to determine r sol¬ che segments as Kixrz segments whose temporal longer less than 18 seconds and insbeson particular less than 12 seconds is.
4 . Vorrichtung nach ein em der vorhergehenden Ansprüche , bei der die Segmentkorrektureinrichtung ( 20 ) ausgebil¬ det ist , um das Kurz — Segment unter Verwendung von In- formationen über eine Segmentklassenzugehörrigkeit ei¬ nes zeitlichen Vorläufer-Segments oder eines zeitli¬ chen Nachfolger-Segments oder des Kurz-Segments selbst mit dem zeitlichen Vorläufer-Segment oder dem zeitli- chen Nachfolger-Segment zu verschmelzen.4. Device according to one of the preceding claims, in which the segment correction device (20) is designed to use the short segment using merges segmentations of a time precursor segment or of a temporal precursor segment or of the short segment itself with the temporal precursor segment or the temporal successor segment.
5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10, 12, 14) zum Bereitstellen ausgebildet ist, um einen Neuheitswert für Segment- grenzen des Kurz-Segments bereitzustellen, wobei der Neuheitswert darauf hinweist, wie viel Neutieitsgehalt das Kurz-Segment bezüglich eines an die Secgmentgrenze angrenzenden Segments hat, und wobei die Segmentkor- rektureinrichtung (20) ausgebildet ist, um. das Kurz- Segment mit dem Segment zu verschmelzen, das an die Segmentgrenze des Kurz-Segments angrenzt, die einen Neuheitswert hat, der auf einen geringeren ISIeuheitsge- halt im Vergleich zu einem Neuheitswert an einer ande¬ ren Segmentgrenze des Kurz-Segments hinweis~t.5. Apparatus as claimed in any one of the preceding claims, wherein the means (10, 12, 14) for providing is adapted to provide a novelty value for segment boundaries of the short segment, the novelty value indicating how much neutron content the short cut segment Segment with respect to a sec- tion bordering the segment, and wherein the segment corrector (20) is configured to. to merge the short segment with the segment of the short segment adjoining the segment boundary, which has a novelty value to a lower ISIeuheitsge- halt compared to a novelty value at a ande ren segment boundary of the short segment ref ~ t ,
6. Vorrichtung nach Anspruch 5, bei der die Segmentkor- rektureinrichtung (20) ausgebildet ist, uxn die Ver¬ schmelzung auf Grund des Neuheitswerts nurr für Kurz- Segmente durchzuführen, die eine vorbestimmt:e Mindest- länge kleiner als 8 Sekunden und insbesondere kleiner als 6 Sekunden haben.6. Device according to claim 5, in which the segment correction device (20) is designed to perform the fusion on the basis of the novelty value only for short segments which have a predetermined: e minimum length less than 8 seconds and in particular less than 6 seconds have.
7. Vorrichtung nach Anspruch 5 oder 6, bei der die Seg¬ mentkorrektureinrichtung (20) ausgebildet ist, um nur solche Kurzsegmente auf Grund einer Untersuchung eines Neuheitswerts zu verschmelzen, die bei einer vorherge¬ henden Prüfung unter Verwendung von Informationen über eine Segmentklassenzugehörigkeit des Kurrz-Segments, des zeitlichen Vorläufer-Segments oder des zeitlichen Nachfolger-Segments nicht verschmolzen werden konnten.7. Device according to claim 5 or 6, in which the segment correction means (20) is designed to merge only such short segments on the basis of an examination of a novelty value, which in a preceding test using information about a segment class affiliation of the curriculum Segments, the temporal precursor segment or the successor segment could not be merged.
8. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist: eine Segmentzuweisungskonflikteinrichtung (18),. die ausgebildet ist, um in dem Fall, in dem durch die Ein¬ richtung (14) zum Zuweisen ein Konfliktsegment zuα zwei verschiedenen Segmentklassen zugeordnet werden sollte, einen ersten Ähnlichkeitswert des Konfliktsegments mit einem Segment einer ersten Segmentklasse zu berechnen, und um einen zweiten Ähnlichkeitswert des Konfliktseg- ments mit einem Segment einer zweiten Segmentklasse zu berechnen, und8. Device according to one of the preceding claims, further comprising the following feature: a segment assignment conflicting device (18),. which is designed to calculate a first similarity value of the conflict segment with a segment of a first segment class in the case in which a conflict segment for α should be assigned to two different segment classes by the device (14), and by a second similarity value of the conflict segment with a segment of a second segment class, and
wobei die Einrichtung (14) zum Zuweisen ausgebildet ist, um in dem Fall, in dem der zweite Ähnlichkeits¬ wert auf eine stärkere Ähnlichkeit des Konfliktseg- ments mit dem Segment der zweiten Segmentklasse hin¬ weist, das Konfliktsegment aus der ersten Segmentklas- se zu entfernen und der zweiten Segmentklasse zuzuwei¬ sen.wherein the means (14) is adapted to assign, in the case in which the second similarity value points to a stronger similarity of the conflict segment to the segment of the second segment class, the conflict segment from the first segment class remove and assign the second segment class sen.
9. Vorrichtung nach Anspruch 8, bei der die Segmentzuwei- sungskonflikteinrichtung (18) ausgebildet ist, um im Falle einer Entfernung des Segments aus der ersten Segmentklasse dem Segment eine Tendenz auf die erste Segmentklasse zuzuweisen, oder um im Falle einer nicht erfolgten Entfernung des Segments dem Segment eine Tendenz auf die zweite Segmentklasse zuzuweisen.9. Device according to claim 8, wherein the segment allocation conflicting device (18) is designed to assign the segment a tendency to the first segment class in the case of a removal of the segment from the first segment class, or in the case of an unsuccessful removal of the segment assign the segment a tendency to the second segment class.
10. Vorrichtung nach einem der vorhergehenden Anspxüche, bei der die Segmentierungskorrektureinrichtung" (20) ausgebildet ist, um für ein Segment, das kürzer als eine vorbestimmte Minimallänge ist, festzustellen, ob eine Tendenz des Segments mit einer Segmentklasse ü- bereinstimmt, der ein zeitlich vorausgehendes Segment angehört, und um in diesem Fall das Segment iti-it dem zeitlich vorausgehenden Segment zu verschmelzen , oder die ausgebildet ist, um für ein Segment, das kürzer als eine vorbestimmte Minimallänge ist, festzustellen, ob eine Tendenz des Segments auf eine Segment klasse hinweist, der ein zeitlich nachfolgendes Segment an.ge- hört, und um in diesem Fall das Segment mit dem zeit¬ lich nachfolgenden Segment zu verschmelzen.10. Device according to one of the preceding Anspxüche, in which the Segmentierungskorrektureinrichtung " (20) is designed to determine for a segment that is shorter than a predetermined minimum length, whether a tendency of the segment with a Segmentklasse Ü coincides, the one temporally belongs to the previous segment and, in this case, to merge the segment iti-it to the temporally preceding segment or is adapted to determine, for a segment shorter than a predetermined minimum length, whether a trend of the segment is segmented indicates, which belongs to a temporally following segment, and in this case to merge the segment with the temporally following segment.
11. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Segmentierungskorrektureinrichtung ( 20) ausgebildet ist, um zeitlich aufeinander folgende Seg¬ mente, die der gleichen Segmentklasse angehören, zu verschmelzen.11. Device according to one of the preceding claims, wherein the Segmentierungskorrektureinrichtung (20) is formed to merge temporally successive Seg¬ elements belonging to the same segment class.
12. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Segmentierungskorrektureinrichtung ( 20) ausgebildet ist, um zum Korrigieren der Segmente le¬ diglich Segmente auszuwählen, die eine zeitliche Seg- mentlänge haben, die kürzer als eine vorbestimmte Mi¬ nimallänge ist.12. Device according to one of the preceding claims, wherein the Segmentierungskorrektureinrichtung (20) is formed to le¬ only segments to correct the segments having a temporal segment length, which is shorter than a predetermined Mi¬ nimallänge.
13. Vorrichtung nach Anspruch 12, bei der die Segmentie- rungskorrektureinrichtung (20) ausgebildet ist, um ein ausgewähltes Segment aus einer zweiten Segmentklasse, dessen zeitliches Vorläufersegment, und dessen zeitli¬ ches Nachfolgersegment einer ersten Segmentklasse an¬ gehören, mit dem Vorgänger-Segment und dem Nachfolcjer- Segment zu verschmelzen.13. Device according to claim 12, wherein the segmentation correction device (20) is designed to include a selected segment from a second segment class whose time precursor segment and its temporal successor segment of a first segment class belong to the predecessor segment and the successor segment.
14. Vorrichtung nach Anspruch 12 oder 13, bei der die Seg¬ mentierungskorrektureinrichtung (20) ausgebildet i_st, um ein Segment, das in einer Segmentklasse ist, die nur ein einziges Segment umfasst, mit dem vorausgehien- den Segment oder dem nachfolgenden Segment zu ver¬ schmelzen.The apparatus of claim 12 or 13, wherein the segmentation correcting means (20) is configured to order a segment that is in a segment class that includes only a single segment with the preceding segment or segment ¬ melt.
15. Vorrichtung nach Anspruch 12, 13 oder 14, bei der die Segmentierungskorrektureinrichtung (20) ausgebildet ist, um mehrere ausgewählte Segmente, die in derselben Segmentklasse sind, mit jeweils einem zeitlich voraus¬ gehenden Segment oder jeweils einem zeitlich nachfol¬ genden Segment zu verschmelzen, wenn sämtliche ausge- wählten Segmente der Segmentklasse Vorläufer-Segmente aus ein und derselben Segmentklasse oder Nachfolger- Segmente aus ein und derselben Segmentklasse umfassen.15. The apparatus of claim 12, 13 or 14, wherein the Segmentierungskorrektureinrichtung (20) is adapted to merge a plurality of selected segments that are in the same segment class, each with a temporally voraus¬ outgoing segment or in each case a temporally nach¬ ing segment if all Segments of the segment class selected include precursor segments from one and the same segment class or successor segments from the same segment class.
16. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Segmentierungskorrektureinrichtung (20) ausgebildet ist, um für ein Segment, das eine kleinere zeitliche Länge als eine vorbestimmte Minimallänge aufweist, einen ersten Neuheitswert an einem Anfang des Segments zu ermitteln, und einen zweiten Neuheits¬ wert an einem Ende des Segments zu ermitteln, und um das Segment mit einem zeitlich folgenden Segment zu verschmelzen, wenn der erste Neuheitswert größer als der zweite Neuheitswert ist, oder um das Segment mit einem zeitlich vorhergehenden Segment zu verschmelzen, wenn der erste Neuheitswert kleiner als der zwei_te Neuheitswert ist.16. Apparatus as claimed in any one of the preceding claims, wherein the segmentation correcting means (20) is adapted to determine a first novelty value at a beginning of the segment for a segment having a smaller length of time than a predetermined minimum length, and a second novelty ¬ value at one end of the segment to determine and to merge the segment with a temporally following segment when the first novelty value is greater than the second novelty value, or to merge the segment with a temporally preceding segment when the first novelty value is smaller as the second novelty value.
17. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Segmentierungskorrektureinrichtung (2.0) ausgebildet ist, um abhängig von verschiedenen vorb>e- stimmten Segmentlängen verschiedene Korrekturmaßnahmen durchzuführen.17. Device according to one of the preceding claims, wherein the Segmentierungskorrektureinrichtung (2.0) is designed to perform different corrective actions depending on different vorb> e-tuned segment lengths.
18. Vorrichtung nach einem der vorhergehenden Ansprücbre, bei der die Einrichtung (10, 12, 14) zum Bereitstellen der Darstellung des Audiostücks folgende Merkmale auf¬ weist:18. Device according to one of the preceding Ansprücbre, wherein the means (10, 12, 14) for providing the representation of the audio piece comprises the following features:
eine Einrichtung (10) zum Bereitstellen einer Ähnliczh- keitsdarstellung für die Segmente, wobei die Ähnliczh- keitsdarstellung für jedes Segment eine zugeordnete Mehrzahl von Ähnlichkeitswerten aufweist, wobei die Ähnlichkeitswerte angeben, wie ähnlich das Segment zu jedem anderen Segment des Audiostücks ist;means (10) for providing a similarity representation for the segments, the similarity representation having for each segment an associated plurality of similarity values, the similarity values indicating how similar the segment is to each other segment of the audio piece;
eine Einrichtung (12) zum Berechnen eines Ähnlicrh- keits-Schwellwerts für ein Segment unter Verwendung der Mehrzahl der Ähnlichkeitswerte, die dem Segment zugeordnet sind; undmeans (12) for calculating a similarity threshold for a segment using the plurality of similarity values associated with the segment; and
eine Einrichtung (14) zum Zuweisen eines Segrαents zu einer Segmentklasse, wenn der Ähnlichkeitswert des Segments eine vorbestimmte Bedingung bezüglich des Ähnlichkeits-Schwellwerts erfüllt.means (14) for assigning a result to a segment class when the similarity value of the segment satisfies a predetermined condition regarding the similarity threshold.
19. Verfahren zum Ändern einer Segmentierung eines Audio- Stücks in zeitliche Segmente, wobei das Audiostück in in dem Audiostück wiederholt auftretende Hatαptteile gegliedert ist, mit folgenden Schritten:19. A method of changing a segmentation of an audio piece into temporal segments, wherein the audio piece is structured into repeated portions of the audio piece, comprising the steps of:
Bereitstellen (10, 12, 14) einer Darstellung des Au- diostücks, bei der die Segmente des Audiostiicks in verschiedene Segmentklassen zugewiesen sind, wobei je¬ weils eine Segmentklasse einem Hauptteil zugeordnet ist; undProviding (10, 12, 14) a representation of the audio piece in which the segments of the audio stile are assigned to different segment classes, wherein one segment class is assigned to one main part in each case; and
Korrigieren (20) der Segmentierung, indem ein Kurz- Segrαent mit einer Länge, die kürzer als eine vorbe¬ stimmte Minimallänge ist, mit einem zeitlichen Vorläu¬ fersegment oder einem zeitlichen Nachfolgejcsegment verschmolzen wird, um eine geänderte Segmentienrung des Audiosignals zu erhalten.Correcting (20) the segmentation by merging a short segment having a length shorter than a predetermined minimum length with a temporal precursor segment or a temporal successor segment to obtain a changed segmentation of the audio signal.
20. Computer-Programm mit einem Programmcode zum Durchfüh¬ ren des Verfahrens zum Ändern einer Segmentierung ge¬ mäß Patentanspruch 22, wenn das Computer-Programm auf einem Rechner ausgeführt wird. 20. Computer program with a program code for carrying out the method for changing a segmentation according to claim 22, when the computer program is executed on a computer.
EP05762452A 2004-09-28 2005-07-15 Device and method for changing the segmentation of an audio piece Not-in-force EP1794745B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004047069A DE102004047069A1 (en) 2004-09-28 2004-09-28 Device and method for changing a segmentation of an audio piece
PCT/EP2005/007750 WO2006034742A1 (en) 2004-09-28 2005-07-15 Device and method for changing the segmentation of an audio piece

Publications (2)

Publication Number Publication Date
EP1794745A1 true EP1794745A1 (en) 2007-06-13
EP1794745B1 EP1794745B1 (en) 2008-03-26

Family

ID=34978834

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05762452A Not-in-force EP1794745B1 (en) 2004-09-28 2005-07-15 Device and method for changing the segmentation of an audio piece

Country Status (6)

Country Link
US (2) US7345233B2 (en)
EP (1) EP1794745B1 (en)
JP (2) JP2008515011A (en)
AT (1) ATE390681T1 (en)
DE (2) DE102004047069A1 (en)
WO (1) WO2006034742A1 (en)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8069036B2 (en) * 2005-09-30 2011-11-29 Koninklijke Philips Electronics N.V. Method and apparatus for processing audio for playback
DE102006035188B4 (en) * 2006-07-29 2009-12-17 Christoph Kemper Musical instrument with sound transducer
US20080071764A1 (en) * 2006-09-19 2008-03-20 Kazunari Omi Method and an apparatus to perform feature similarity mapping
US20080071741A1 (en) * 2006-09-19 2008-03-20 Kazunari Omi Method and an apparatus to perform feature weighted search and recommendation
US20080229200A1 (en) * 2007-03-16 2008-09-18 Fein Gene S Graphical Digital Audio Data Processing System
JP5135931B2 (en) * 2007-07-17 2013-02-06 ヤマハ株式会社 Music processing apparatus and program
EP2043006A1 (en) * 2007-09-28 2009-04-01 Sony Corporation Method and device for providing an overview of pieces of music
KR101424974B1 (en) * 2008-03-17 2014-08-04 삼성전자주식회사 Method and apparatus for reproducing the first part of the music data having multiple repeated parts
WO2010075377A1 (en) * 2008-12-24 2010-07-01 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
US8490131B2 (en) * 2009-11-05 2013-07-16 Sony Corporation Automatic capture of data for acquisition of metadata
US9153217B2 (en) * 2010-11-01 2015-10-06 James W. Wieder Simultaneously playing sound-segments to find and act-upon a composition
TWI412019B (en) * 2010-12-03 2013-10-11 Ind Tech Res Inst Sound event detecting module and method thereof
CN105355214A (en) * 2011-08-19 2016-02-24 杜比实验室特许公司 Method and equipment for measuring similarity
CN102956230B (en) * 2011-08-19 2017-03-01 杜比实验室特许公司 The method and apparatus that song detection is carried out to audio signal
CN102956238B (en) * 2011-08-19 2016-02-10 杜比实验室特许公司 For detecting the method and apparatus of repeat pattern in audio frame sequence
US9099064B2 (en) * 2011-12-01 2015-08-04 Play My Tone Ltd. Method for extracting representative segments from music
JP6290858B2 (en) * 2012-03-29 2018-03-07 スミュール, インク.Smule, Inc. Computer processing method, apparatus, and computer program product for automatically converting input audio encoding of speech into output rhythmically harmonizing with target song
US11132983B2 (en) 2014-08-20 2021-09-28 Steven Heckenlively Music yielder with conformance to requisites
US9916822B1 (en) * 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
CN110569373B (en) * 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 Media feature comparison method and device
EP3570186B1 (en) * 2018-05-17 2021-11-17 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Device and method for detecting partial matches between a first time varying signal and a second time varying signal
CN111785296B (en) * 2020-05-26 2022-06-10 浙江大学 Music segmentation boundary identification method based on repeated melody
CN112037764A (en) * 2020-08-06 2020-12-04 杭州网易云音乐科技有限公司 Music structure determination method, device, equipment and medium
CN112188378B (en) * 2020-09-28 2021-08-17 维沃移动通信有限公司 Sound production optimization method and device of electronic equipment, electronic equipment and readable storage medium
CN113327628B (en) * 2021-05-27 2023-12-22 抖音视界有限公司 Audio processing method, device, readable medium and electronic equipment
CN113377992A (en) * 2021-06-21 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 Song segmentation method, device and storage medium
CN115168794B (en) * 2022-06-20 2023-04-21 深圳英智科技有限公司 Frequency spectrum analysis method and system based on improved DFT (discrete Fourier transform) and electronic equipment

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US161396A (en) * 1875-03-30 Improvement in harvesters
JP2604412B2 (en) * 1988-02-29 1997-04-30 日本電気ホームエレクトロニクス株式会社 Automatic music transcription method and device
IT1281001B1 (en) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom PROCEDURE AND EQUIPMENT FOR CODING, HANDLING AND DECODING AUDIO SIGNALS.
JP2806351B2 (en) * 1996-02-23 1998-09-30 ヤマハ株式会社 Performance information analyzer and automatic arrangement device using the same
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6009392A (en) * 1998-01-15 1999-12-28 International Business Machines Corporation Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6225546B1 (en) * 2000-04-05 2001-05-01 International Business Machines Corporation Method and apparatus for music summarization and creation of audio summaries
US6633845B1 (en) * 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
EP1215663A1 (en) * 2000-12-15 2002-06-19 BRITISH TELECOMMUNICATIONS public limited company Encoding audio signals
DE10109648C2 (en) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Method and device for characterizing a signal and method and device for generating an indexed signal
JP2002271741A (en) * 2001-03-13 2002-09-20 Matsushita Electric Ind Co Ltd Video sound contents compiling apparatus and method for imparting index to video sound contents
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
US7260439B2 (en) * 2001-11-01 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for the automatic extraction of audio excerpts
US7314994B2 (en) * 2001-11-19 2008-01-01 Ricoh Company, Ltd. Music processing printer
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
FR2842014B1 (en) * 2002-07-08 2006-05-05 Lyon Ecole Centrale METHOD AND APPARATUS FOR AFFECTING A SOUND CLASS TO A SOUND SIGNAL
CA2493105A1 (en) * 2002-07-19 2004-01-29 British Telecommunications Public Limited Company Method and system for classification of semantic content of audio/video data
US7386357B2 (en) * 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
AU2003275618A1 (en) 2002-10-24 2004-05-13 Japan Science And Technology Agency Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
US20060065102A1 (en) * 2002-11-28 2006-03-30 Changsheng Xu Summarizing digital audio data
JP3987427B2 (en) 2002-12-24 2007-10-10 日本電信電話株式会社 Music summary processing method, music summary processing apparatus, music summary processing program, and recording medium recording the program
FR2856817A1 (en) * 2003-06-25 2004-12-31 France Telecom PROCESS FOR PROCESSING A SOUND SEQUENCE, SUCH AS A MUSIC SONG
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US7424150B2 (en) * 2003-12-08 2008-09-09 Fuji Xerox Co., Ltd. Systems and methods for media summarization
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2006034742A1 *

Also Published As

Publication number Publication date
JP2008515011A (en) 2008-05-08
JP5565374B2 (en) 2014-08-06
ATE390681T1 (en) 2008-04-15
EP1794745B1 (en) 2008-03-26
JP2011180610A (en) 2011-09-15
WO2006034742A1 (en) 2006-04-06
US20060080100A1 (en) 2006-04-13
DE502005003500D1 (en) 2008-05-08
US7282632B2 (en) 2007-10-16
DE102004047069A1 (en) 2006-04-06
US7345233B2 (en) 2008-03-18
US20060065106A1 (en) 2006-03-30

Similar Documents

Publication Publication Date Title
EP1794745A1 (en) Device and method for changing the segmentation of an audio piece
EP1774527B1 (en) Device and method for labeling different segment classes
EP1794743B1 (en) Device and method for arranging in groups temporal segments of a piece of music
DE10232916B4 (en) Apparatus and method for characterizing an information signal
DE60120417T2 (en) METHOD FOR SEARCHING IN AN AUDIO DATABASE
EP1407446B1 (en) Method and device for characterising a signal and for producing an indexed signal
DE102004023436B4 (en) Apparatus and method for analyzing an information signal
EP2351017B1 (en) Method for recognizing note patterns in pieces of music
EP1371055B1 (en) Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function
DE112013006650T5 (en) Multi-layer system for symbol memory based compression of patterns
DE60118973T2 (en) METHOD FOR INQUIRING A STRUCTURE OF COMPRESSED DATA
EP1405222A1 (en) Method and device for producing a fingerprint and method and device for identifying an audio signal
DE10123366C1 (en) Device for analyzing an audio signal for rhythm information
DE60225190T2 (en) FEATURE-BASED AUDIO CONTENT IDENTIFICATION
DE102004028693A1 (en) Apparatus and method for determining a chord type underlying a test signal
DE2720666A1 (en) PROCEDURE AND ARRANGEMENT FOR NOISE ANALYSIS
EP4095697A1 (en) Method for characterizing the operating state of a computer system
DE10117871C1 (en) Signal identification extraction method for identification of audio data uses coordinate points provided by frequency values and their occurence points
WO2009013144A1 (en) Method for determining a similarity, device, and the use thereof
WO2001059609A1 (en) Device, storage medium and a method for detecting objects strongly resembling a given object
WO2005122133A1 (en) Device and method for determining the tonality of an audio signal comprising musical information
DE10233609A1 (en) Probability determination method for determining a probability distribution in preset data uses an iterative process to calculate linkage probabilities to generic classes only up to a preset value
DE102007034030A1 (en) Method of performing an adaptation of descriptors, apparatus and use thereof
EP1750268A2 (en) Method for determining the reproduction time of compressed audio data
EP1833240A2 (en) Method and assembly for detecting the first occurrence of one or more sustained signals and corresponding computer program and corresponding computer-readable storage medium

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20070315

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

DAX Request for extension of the european patent (deleted)
GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 502005003500

Country of ref document: DE

Date of ref document: 20080508

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
ET Fr: translation filed
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080707

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080901

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080726

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20081230

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080731

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20090409 AND 20090415

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080715

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090731

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090731

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080731

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080715

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080927

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20100826 AND 20100901

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080627

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 502005003500

Country of ref document: DE

Owner name: SONY CORPORATION, JP

Free format text: FORMER OWNER: GRACENOTE, INC., (N. D .GES. D. STAATES DELAWARE), EMERYVILLE, CALIF., US

Effective date: 20110510

REG Reference to a national code

Ref country code: GB

Ref legal event code: 746

Effective date: 20120703

REG Reference to a national code

Ref country code: DE

Ref legal event code: R084

Ref document number: 502005003500

Country of ref document: DE

Effective date: 20120614

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20140721

Year of fee payment: 10

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20140721

Year of fee payment: 10

Ref country code: GB

Payment date: 20140721

Year of fee payment: 10

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502005003500

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20150715

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150715

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160202

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20160331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150731