EP1794743A1 - Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks - Google Patents

Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks

Info

Publication number
EP1794743A1
EP1794743A1 EP05760763A EP05760763A EP1794743A1 EP 1794743 A1 EP1794743 A1 EP 1794743A1 EP 05760763 A EP05760763 A EP 05760763A EP 05760763 A EP05760763 A EP 05760763A EP 1794743 A1 EP1794743 A1 EP 1794743A1
Authority
EP
European Patent Office
Prior art keywords
segment
class
similarity
segments
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP05760763A
Other languages
English (en)
French (fr)
Other versions
EP1794743B1 (de
Inventor
Markus Van Pinxteren
Michael Saupe
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1794743A1 publication Critical patent/EP1794743A1/de
Application granted granted Critical
Publication of EP1794743B1 publication Critical patent/EP1794743B1/de
Not-in-force legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Definitions

  • the present invention relates to the audio segmentation and in particular to the analysis of pieces of music on the individual Kleintei ⁇ contained in the pieces of music, which may occur repeatedly in the piece of music.
  • Music from the rock and Popbereicri consists mostly of more or less unique segments, such as intro, verse, chorus, bridge, O ⁇ tro, etc.
  • the beginning and end times of such segments to detect and the segments according to their affiliation to the most important Klas ⁇ Grouping the stanza (verse and chorus) is the goal of audio segmentation.
  • Correct segmentation and also identification of the calculated segments can be usefully used in various areas. For example, pieces of music from online providers such as Amazon, Mu- sicline, etc. can be intelligently "played”.
  • Another application example for the technique of audio segmentation is the integration of the segmentation / Grouping / marking algorithm into a music player.
  • the information about segment beginnings and segment ends makes it possible to navigate through a piece of music. Due to the class affiliation of the segments, ie whether a segment is a verse, a chorus, etc., z. B. also jump directly to the next chorus or the next stanza.
  • Such an application is of interest to large music markets, offering their customers the opportunity to listen to complete albums. As a result, the customer spares himself the annoying, searching fast-forward to characteristic points in the song, which could perhaps lead him to actually buy a piece of music in the end.
  • a WAV file 500 is provided.
  • a feature extraction then takes place, wherein as a feature the spectral coefficients per se or alternatively the mel frequency cepstral coefficients (MFCCs) are extracted.
  • MFCCs mel frequency cepstral coefficients
  • STFT short-time Fourier transform
  • the MFCC features are then extracted in the spectral range.
  • the extracted features are then stored in a memory 504.
  • the feature extraction algorithm now has a segmentation algorithm that ends in a similarity matrix, as shown in a block 506.
  • the feature matrix is read in (508), to then group feature vectors (510), to then build a similarity matrix based on the grouped feature vectors, which consists of a distance measurement between each of all features.
  • all pairs of audio window pairs are compared using a quantitative similarity measure, distance.
  • the music piece is represented as a stream or stream 800 of audio samples.
  • the piece of audio is windowed, as has been stated, with a first window having i and a second window being j.
  • the audio piece has z. B. K window.
  • the similarity matrix has K rows and K columns.
  • a similarity measure to each other is calculated, and the calculated similarity measure or distance measure D (i, j) is input to the row or column designated by i and j in the similarity matrix.
  • One column therefore shows the similarity of the window designated by j to all other audio windows in the piece of music.
  • the matrix is redundant in that it is symmetric to the diagonal, and that on the diagonal the similarity of a window is to itself, which is the trivial case of 100% similarity.
  • FIG. 6 An example of a similarity matrix of a piece can be seen in FIG.
  • the completely symmetrical structure of the matrix with respect to the main diagonal is recognizable, the main diagonal being visible as a light stripe.
  • the main diagonal is not seen as a lighter solid line, but from Fig. 6 is only approximately recognizable.
  • a kernel correlation 512 is performed on a kernel matrix 514 to obtain a novelty measure, also known as a novelty score, that could be averaged and smoothed into
  • a novelty measure also known as a novelty score
  • the segment boundaries are read out using the smoothed novelty value profile, for which purpose the local maxima in the smoothed novelty curve are determined and, if appropriate, must be shifted by a constant number of samples caused by the smoothing in order actually to produce the correct segment - To obtain limits of the audio piece as absolute or relative Zeitan ⁇ gift. - D
  • segment similarity representation or segment similarity matrix is created.
  • An example of a segment similarity matrix is shown in FIG.
  • the similarity matrix in FIG. 7 is basically similar to the feature similarity matrix of FIG. 6, but now, as in FIG. 6, features from windows are no longer used, but features from a whole segment.
  • a clustering is carried out, that is, an arrangement of the segments into segment classes (an arrangement of similar segments into the same
  • Labeling also determines which segment class contains segments which are stanzas, which are reflections, which are intros, outros, bridges, etc. 25
  • a music score is created, which is e.g. B. can be provided to a user, without redundancy of a piece only z. B. a stanza, a chorus and the intro
  • the feature matrix has the dimension number of analysis windows times the number of Merkiinalskostoryen.
  • the similarity matrix By the similarity matrix, the characteristic curve of a piece ⁇ n is given a two-dimensional representation. For each pairwise combination of feature vectors, the distance measure is calculated, which is kept fixed in the similarity matrix. There are various possibilities for calculating the distance measure between two vectors, for example the Euclidean distance measurement and the cosine distance measurement.
  • a result D (i, j) between the two feature vectors is stored in the i, jth element of the window similarity matrix (block 506).
  • the main diagonal of the similarity matrix represents the course over the entire piece. Accordingly, the elements of the Hamptdiagonalen result from the respective comparison of a window with itself and always have the value of the greatest similarity. For the cosine distance measurement this is de: r value 1, for the simple scalar difference and the Euclid distance this value is equal to 0.
  • each element i, j is assigned a gray value.
  • the gray values are graduated in proportion to the similarity values, so that the maximum similarity (the main diagonal) corresponds to the maximum similarity.
  • the structure of a song can already be visually recognized on the basis of the matrix. Areas of similar feature expression correspond to quadrants of similar brightness along the main diagonal. Finding the boundaries between the areas is the task of the actual segmentation.
  • the structure of the similarity matrix is important to the novelty measure calculated in kernel correlation 512. The measure of novelty arises from the correlation of a special kernel along the main diagonal of the similarity matrix.
  • An exemplary kernel K is shown in FIG.
  • this kernel matrix along the main diagonal of the similarity matrix S, and sums up all the products of the superimposed matrix elements for each time point i of the piece, then one obtains the measure of novelty, which is shown by way of example in FIG. 9 in a smoothed form .
  • the kernel K in FIG. 5 is used, but an enlarged kernel, which is additionally superimposed with a Gaussian distribution, so that the edges of the matrix tend towards zero.
  • the novelty measure should be smoothed with different filters, such as IIR filters or FIR filters.
  • segment boundaries of a piece of music are extracted, then similar segments must be identified as such and grouped into classes.
  • Foote and Cooper describe the computation of a segment-based similarity matrix using a Cullback-Leibler distance.
  • individual segment feature matrices are extracted from the entire feature matrix on the basis of the segment boundaries obtained from the course of novelty, ie each of these matrices is a submatrix of the entire feature matrix.
  • an automatic summary of a piece is then carried out on the basis of the segments and clusters of a piece of music. To do this, first select the two clusters with the largest x-ray values. Then, the segment with the maximum value of the corresponding cluster indicator is added to this summary. This means that the summary includes a stanza and a chorus. Alternatively, all repeated segments can also be removed to ensure that all information of the piece is provided, but always exactly once.
  • a disadvantage of the known method is the fact that the singular value decomposition (SVD) for segment class formation, that is to say the assignment of segments to clusters, is very computationally intensive and is problematic in the evaluation of the results. Thus, if the singular values are nearly equal, then a possibly wrong decision is made to the effect that the two similar singular values actually represent the same segment class and not two different segment classes.
  • SMD singular value decomposition
  • the object of the present invention is to provide an improved and at the same time efficient concept for grouping temporal segments of a piece of music.
  • the present invention is based on the finding that the assignment of a segment to a segment class is to be carried out on the basis of an adaptive similarity mean value for a segment such that the overall similarity score is taken into account by the average of the average has a segment throughout the piece. After such a similarity mean has been calculated for a segment, for the calculation of which the number of segments and the similarity values of the plurality of similarity values assigned to the segment are required, then the actual allocation of a segment becomes a segment class, ie a cluster , performed on the basis of this similarity mean.
  • a similarity value of a segment to the segment just considered is above the similarity mean, for example, the segment is assigned as belonging to the segment class currently being considered. On the other hand, if the similarity value of a segment to the segment under consideration is below this similarity mean, it is not assigned to the segment class.
  • the strong deviations of the similarities of segments in pieces or the frequency of the occurrence of certain segments in pieces are taken into account, whereby z. B. numerical problems and thus ambiguities and da ⁇ associated false allocations can be avoided.
  • the concept according to the invention is particularly suitable for music pieces which do not consist only of stanzas and choruses, ie have the segments which belong to the segment class. have the same similarity values, but also for pieces that have other parts in addition to stanza and chorus, namely an introduction (Intro), an interlude (Bridge) or a finale (Outro).
  • the calculation of the adaptive similarity mean and the assignment of a segment are performed iteratively, ignoring assigned segments at the next iteration run.
  • the similarity absolute value that is to say the sum of the similarity values in a column of the similarity matrix, changes again for the next iteration run since already assigned segments have been set to 0.
  • a segmentation post-correction is carried out, in such a way that after the segmentation z. B. due to the novelty value (the local maxima of novelty value) and after a subsequent assignment to segment classes relatively short segments are examined to see if they can be assigned to the predecessor segment or the successor ger segment, as segments below a minimal segment length is likely to indicate over-segmentation.
  • a labeling is carried out after the final segmentation and assignment into the segment classes, specifically using a special selection algorithm in order to obtain the most correct possible labeling of the segment classes as a stanza or chorus.
  • FIG. 1 shows a block diagram of the device according to the invention for grouping according to a preferred embodiment of the present invention
  • FIG. 2 shows a flow chart for illustrating a preferred embodiment of the invention for iteratively assigning
  • 3 is a block diagram of the operation of the segmentation correction device
  • Figures 4a and 4b show a preferred embodiment of the segment class designator
  • FIG. 5 shows an overall block diagram of an audio analysis tool
  • FIG. 8 shows a schematic representation for illustrating the elements in a similarity matrix S
  • FIG. 9 is a schematic representation of a smoothed novelty value.
  • FIG. 1 shows a device for grouping temporal segments of a piece of music, which is subdivided into main parts which repeatedly appear in the piece of music, into different segment classes, one segment class being assigned to a main part.
  • the present invention thus relates particularly to pieces of music which are subject to a certain structure in which similar sections appear several times and alternate with other sections.
  • the Most rock and pop songs have a clear structure in terms of their main parts.
  • a large shaped part of a piece is a section which has a relatively uniform character with regard to various features, eg, melody, rhythm, texture, etc. Definition applies generally in music theory.
  • Intros often consist of the same chord progression as the stanza, but with different instrumentation, eg. B. without drums, without bass or distortion of the guitar in rock songs etc.
  • the device according to the invention initially comprises a device 10 for providing a similarity representation for the segments, the similarity representation for each segment having an associated plurality of similarity values, the similarity values indicating how similar the segment is to each other segment.
  • the similarity representation is preferably the segment similarity matrix shown in FIG. It has for each segment (in Fig. 7 segments 1-10) its own column which has the index " j ⁇ . Furthermore, the similarity representation has a separate line for each segment, one line being designated by a line index i. This will be referred to below with reference to the exemplary segment 5.
  • the element (5, 5) in the main diagonal of the matrix of FIG. 7 is the similarity value of the segment 5 with itself, ie the maximum similarity value.
  • segment 5 is still medium-le to the segment no. 6, as it is denoted by the element (6,5) or by the element (5,6) of the matrix in Fig. 7. Moreover, the segment 5 is still similar to the segments 2 and 3 as shown by elements (2, 5) or (3, 5) or (5, 5) or (5, 3) in FIG. 7. To the other segments 1, 4, 7, 8, 9, 10, the segment No. 5 has a similarity, which is no longer visible in Fig. 7.
  • a plurality of similarity values assigned to the segment is, for example, a column or a row of the segment similarity matrix in FIG. 7, this column or row indicating by its column / row index which segment it refers to, namely, for example, to the fifth segment, and where this row / column includes the similarities of the fifth segment to each other segment in the piece.
  • the plurality of similarity values is, for example, a row of the similarity matrix or, alternatively, a column of the similarity matrix of FIG. 7.
  • the device for grouping temporal segments of the piece of music further comprises means 12 for calculating a similarity mean value for a segment, using the segments and the similarity values of the segment Segment associated with a plurality of similarity values.
  • the device 12 is designed to z. For example, to calculate a similarity mean for column 5 in FIG. If the arithmetic mean value is used in a preferred exemplary embodiment, the device 12 will add the similarity values in the column and divide them by the total number of segments. To eliminate the self - similarity, could of the. As a result of addition, the similarity of the segment to itself can also be deducted, whereby, of course, a division is then no longer to be carried out by all elements, but by all elements less than one.
  • the means 12 for calculating could alternatively also calculate the geometric mean value, ie each similarity value of a column for: square, in order to sum the quadrated results, in order then to calculate a root from the summation result, which is given by the number The elements in the column (or the number of elements in the column less "1) is to be divided in. Any other average values, such as the median value, etc., can be used as long as the mean value for each column is Similarity matrix is calculated adaptively, that is, a value that is calculated using the similarity values of the plurality of similarity values associated with the segment.
  • the adaptively calculated similarity threshold is then provided to a segment 14 for assigning a segment to a segment class.
  • the means 14 for assigning is designed to assign a segment to a segment class if the similarity value of the segment fulfills a predetermined condition with respect to the mean of similarity. For example, if the similarity mean value is such that a larger value indicates a greater similarity and a smaller value indicates a lower similarity, the predetermined relationship will be that the similarity value of a segment equal to or above the Similarity mean, in order for the segment to be assigned to a segment class.
  • a segment selection device 16 In a preferred embodiment of the present invention, further devices exist to realize special embodiments, which will be discussed later. These devices are a segment selection device 16, a segment assignment conflicting device 18, a segmentation correction device 20 and a segment class designation device 22.
  • the segment selector 16 in FIG. 1 is designed to first calculate an overall similarity value V (j) for each column in the matrix of FIG. 7, which is determined as follows:
  • P is the number of segments.
  • S ⁇ is the value of the self-similarity of a segment with itself.
  • the value z. B. zero or one.
  • the segment selector 16 will first: calculate the value V (j) for each segment to then find the vector element i of the maximum value vector V. In other words, this means that the column in FIG. 7 is selected, which achieves the greatest value or score when the individual similarity values in the column are added up.
  • This segment could, for example, be the segment No. 5 or the column 5 of the matrix in FIG. 7, since this segment has at least a certain similarity with three other segments.
  • Another candidate in which to Example of Fig. 7 also Segmen t ⁇ could be No.
  • segment selection device 16 selects segment No. 7, since it has the highest similarity score on the basis of the matrix elements (1, 7), (4, 7) and (10, 7) , In other words, this means that V (7) is the component of the vector V which has the maximum value among all the components of V.
  • segment similarity matrix for the seventh row or column it is checked which segment similarities are above the calculated threshold value, ie. H. with which segments the i-th segment has an above-average similarity. All these segments are now also assigned to a first segment class like the seventh segment.
  • segment no. 4 and segment no. 1 are also classified in the first segment class.
  • segment No. 10 is not classified in the first segment class due to the below-average similarity to segment No. 7.
  • V which belong to an assigned segment, are ignored in the next maximum search in a later iteration step.
  • a new maximum is now selected from the remaining elements of V, that is to say V (2), V (3), V (5), V (6), V (8), V (9) and V (IO) searched.
  • the segment no. 5, ie V (5), is expected to yield the largest similarity score.
  • the second segment class then obtains segments 5 and 6. Due to the fact that the similarities to segments 2 and 3 are below average, segments 2 and 3 are not placed in the second order clusters.
  • the elements V (6) and V (5) are set to 0 by the vector V due to the assignment that has been made, while still the components V (2), V (3), V (8), V ⁇ 9) and V (IO) of the vector for the selection of the third-order cluster remain.
  • V (IO) ie the component of V for the segment 10.
  • V (IO) the component of V for the segment 10.
  • Segment 10 thus comes in the third-order segment class.
  • the segment 7 also has an above-average similarity to the segment 10, although the segment 7 is already identified as belonging to the first segment class.
  • a simple kind of resolution could be to simply not assign the segment 7 into the third segment class and e.g. For example, instead of assigning the segment 4, if for the segment 4 would not also conflict exist.
  • the similarity between 7 and 10 is taken into account in the following algorithm.
  • the invention is designed not to discount the similarity between i and k. Therefore, the similarity values S s (i, k) of segment i and k are compared with the similarity value S s (i * , k), where i * is the first segment assigned to the cluster C * .
  • the cluster or the segment class C * is the cluster to which segment k is already assigned on the basis of a previous examination.
  • the similarity value S s (i * , k) is decisive for the fact that the segment k belongs to the cluster C * . If S s (i * , k) is greater than S s (i / k), segment k remains in cluster C * .
  • S s (i * , k) is smaller than S s (i, k)
  • the segment k is taken out of the cluster C * and assigned to the cluster C.
  • a tendency towards the cluster i is noted for the cluster C * .
  • this tendency is also noted when segment k changes cluster membership.
  • a tendency of this segment to the cluster in which it was originally recorded is noted.
  • the similarity value check is based on the fact that the segment 7 is the "original segment” in the first segment class, in favor of the first segment class. It will remain in the first segment class. However, this fact is taken into account by the fact that segment no. 10 in the third segment class is attested a trend towards the first segment class.
  • segmentation correcting device 20 In the following, the preferred implementation of the segmentation correcting device 20 will be described in detail with reference to FIG. 3.
  • the correction serves to completely eliminate segments that are too short, ie to merge with adjacent segments, and to segments that are short but not too short, ie that are short in length but longer than that Minimal lengths are still to undergo a special investigation, whether they may not yet be merged with a predecessor segment or a successor segment.
  • successive segments which belong to the same segment class are always fused together. If the scenario shown in FIG. B. that the segments 2 and 3 come in the same segment class, they are automatically ver ⁇ melted together, while the segments in the first Segmentklas ⁇ se, ie the segments 7, 4, 1 are spaced apart and therefore (at least initially) can not be merged.
  • FIG. 3 shows that the segments 2 and 3 come in the same segment class, they are automatically ver ⁇ melted together, while the segments in the first Segmentklas ⁇ se, ie the segments 7, 4, 1 are spaced apart and therefore (at least initially) can not be merged.
  • FIG. 3 shows that the segments in the first Segmentklas ⁇ se, ie the segments 7, 4,
  • Relatively short segments shorter than 11 seconds are examined at all, while later on even shorter segments (a second threshold smaller than the first) shorter than 9 seconds are examined and, later, any remaining segments which are shorter than 6 seconds (a third threshold which is shorter than the second threshold) will be treated again alternatively.
  • the segment length check in block 31 is initially directed to finding the segments shorter than 11 seconds. For the segments that are longer than 11 seconds, no post processing is done, as can be recognized by a "No" at block 31. For segments which are shorter than 11 seconds, a trend check (block 32) is first of all carried out, so that at first a check is made as to whether a segment 1 has an associated trend or associated tendency In the example of Fig. 7, this would be the segment 10 which has a trend towards the segment 7 or a trend towards the first segment class the tenth segment is shorter than 11 seconds, in the example shown in FIG.
  • segment no. 10 is the only segment in the third segment class. If it were shorter than 9 seconds, it is automatically assigned to the segment class to which segment No. 9 belongs. This automatically leads to a fusion of the segment 10 with the segment 9. If the segment 10 län ⁇ ger than 9 seconds, this merger is not made.
  • a block 33c an examination is then made for segments shorter than 9 seconds which are not the only segment in a corresponding cluster X than in a corresponding segment group. They are subjected to a more detailed check in which a regularity in the cluster sequence is to be ascertained. At first all segments from the segment group X are searched, which are shorter than the minimum length. Subsequently, it is checked for each of these segments whether the predecessor and successor segments each belong to a uniform cluster. If all predecessor segments are from a uniform cluster, all segments that are too short from cluster X are assigned to the predecessor cluster. If, on the other hand, all successor segments are from a uniform cluster, the segments too short from cluster X are each assigned to the successor cluster.
  • a novelty value check is performed by resorting to the novelty value curve shown in FIG. 9.
  • the novelty curve which has arisen from the kernel correlation, is read out at the locations of the affected segment boundaries, and the maximum of these values is determined. If the maximum occurs at the beginning of a segment, the segments that are too short become the cluster of the successor assigned to ge segments. If the maximum occurs at a segment end, the segments that are too short are assigned to the cluster of the precursor segment. If the segment labeled 90 in Fig.
  • This procedure according to the invention has the advantage that no elimination of parts of the piece has been carried out, ie that no simple elimination of the segments which are too short has been carried out by setting them to zero, but that the entire complete piece of music is still the one Entity of segments is represented. Due to the segmentation therefore no loss of information auf ⁇ occurs, which would be, however, if you z. B. as a reaction on over-segmentation, simply eliminating all too short segments "regardless of losses".
  • FIGS. 4a and 4b a preferred implementation of the segment class designator 22 of FIG. 1 is illustrated.
  • two clusters are assigned the labels "stanza” and "refrain” during labeling.
  • the cluster for the second largest singular word is used as the stanza.
  • each song begins with a stanza, ie that the cluster with the first segment is the stanza cluster and the other cluster is the refrain cluster.
  • the cluster in the candidate selection having the last segment is called a refrain, and the other cluster is called a stanza.
  • the cluster which has the segment which occurs as the last segment of the segments of the two segment groups in the song progression is checked (40) to designate the same as chorus.
  • the last segment may actually be the last segment in the song or else a segment which occurs later in the song than all segments of the other segment class. If this segment is not the actual last segment in the song, this means that there is still an outro.
  • all segments of this first (highest-order) segment class are referred to as a refrain, as represented by a block 41 in FIG. 4b.
  • all segments of the other segment class which is to be selected are marked as "stanza", since typically one of the two candidate segment classes will have one class of the refrain and thus immediately the other class will have the strokes.
  • the second segment group is designated as a stanza and the first segment group as a refrain, as indicated in a block 44
  • the denomination in block 44 occurs because the probability that the second segment class will utter the chorus is quite small. If the improbability that a piece of music is introduced with a chorus, there is some evidence of a clustering error out, eg that the last considered segment was erroneously assigned to the second segment class.
  • FIG. 4b shows how the stanza / refrain determination has been carried out on the basis of two available segment classes. After this stanza / refrain determination, the remaining segment classes can then be designated in a block 45, an outro possibly being the segment class which has the last segment of the piece, while an intro will be the segment class which has the first segment of a piece in itself.
  • an assignment of the labels "stroke” and "refrain” is carried out in labeling, whereby one segment group is marked as a stanza segment group, while the other segment group is marked as a refrain segment group.
  • this concept is based on the assumption (Al) that the two clusters (segment groups) with the highest similarity values, that is, cluster 1 and cluster 2, correspond to the regular and stanza clusters. The last of these two clusters is the refrain cluster, assuming that a verse follows a chorus.
  • cluster 1 in most cases corresponds to the refrain.
  • cluster 2 the assumption (Al) is often not fulfilled.
  • This situation usually occurs when there is either a third, frequently repeating part in the play, eg. B. a bridge, with a high ⁇ hn ⁇ probability of intro and outro, or for the not sel ⁇ th occurring case that a segment in the piece has a high similarity to the chorus, thus also a high
  • the resemblance to the chorus is not enough to be part of Cluster 1.
  • the cluster or the segment group with the highest similarity value (value of the component of V which was once a maximum for the first-determined segment class, ie segment 7 in the example of FIG. 7, was ), that is, the segment group determined in the first pass of FIG. 1, is included in the stanza refrain selection as the first candidate.
  • segment group will be the second participant in the verse-chorus selection.
  • the most probable candidate is the second highest segment class, ie the segment class which is found on the second pass through the concept described in FIG. However, this does not always have to be this way. Therefore, firstly for the second highest segment class (segment 5 in FIG. 1) 1 , cluster 2 is checked whether this class has only a single segment or exactly two segments, one of the two segments being the first segment and the other segment being both are the last segment in the song (block 47).
  • the second highest segment class for example, has at least three segments, or two segments, one of which is within the piece and not at the "edge" of the piece second segment class initially in the selection and is henceforth referred to as "Second Cluster".
  • Second clusters still have to measure themselves with a third segment class (48b), which is referred to as a "third cluster" in order to ultimately survive the selection process as a candidate.
  • the segment class "Third Cluster” corresponds to the cluster which occurs most frequently in the entire song, however, that the highest segment class (cluster 1) still corresponds to the segment class "second cluster", so to speak the next most frequently (often equally frequently) occurring clusters after cluster 1 and second clusters.
  • the first examination in block 49a is to examine whether each segment of third cluster ne certain minimum length has, as a threshold z. B. 4% of the total song length is preferred. Other values between 2% and 10% can also lead to meaningful results.
  • a block 49b it is then examined whether ThirdCluster has a greater total portion of the song than SecondCluster. For this purpose, the total time of all segments in ThirdCluster is added up and compared with the correspondingly added total number of all segments in SecondCluster, in which case ThirdCluster has a larger overall proportion of the song than Se ⁇ condCluster, if the added segments in ThirdC ⁇ luster give a larger value than the added up Segments in SecondCluster.
  • ThirdCluster enters the stanza-refrain selection, but if at least one of these conditions is not met, ThirdCluster does not enter the stanza-refrain selection the stanza-refrain selection, as represented by a block 50 in Fig. 4a, completes the "candidate search" for the stanza-refrain selection, and the algorithm shown in Fig. 4b is started in the end it is determined which segment class comprises the stanzas, and which segment class comprises the chorus.
  • the three conditions in blocks 49a, 49b, 49c could alternatively also be weighted, so that z.
  • a no answer in block 49a is "overruled” if both the query in block 49b and the query in block 49c are answered "yes".
  • it could also be a condition the three conditions are highlighted so that z.
  • it only examines whether there is regularity of the sequence between the third segment class and the first segment class, while the queries in blocks 49a and 49b are not performed or are only performed if the query in block 49c reads " No answer is given, but for example a relatively large total proportion in block 49b and relatively large minimum quantities are determined in block 49a.
  • the refrain possibility is to select a version of the female as a summary. This will attempt to choose a run of the Refxain that lasts between 20 and 30 seconds if possible. If a segment with such a length is not contained in the refrain cluster, then a version is chosen which has the smallest possible deviation to a length of 25 seconds. If the selected chorus is longer than 30 seconds, it is blanked out for 30 seconds in this embodiment and is shorter than 20 seconds, so that it is extended to 30 seconds with the following segment.
  • Storing a medley for the second option is more like an actual summary of a piece of music.
  • the third segment is selected from a cluster that has the largest total portion of the song and is not a verse or chorus.
  • the selected segments are not installed in their full length in the medley.
  • the length is preferably set to a fixed 10 seconds per segment, so that a total of 30 seconds is created again.
  • alternative values are also readily feasible.
  • a grouping of a plurality of feature vectors in block 510 is performed to save computation time by forming an average over the grouped feature vectors.
  • the grouping may be the next.
  • Processing step the calculation of the similarity matrix, saving computing time.
  • a distance is determined between all possible combinations of j & two feature vectors. This yields n x n calculations for n vectors over the entire piece.
  • a grouping factor g indicates how many; consecutive feature vectors are grouped into a vector via the averaging. This can reduce the number of calculations.
  • the grouping is also a type of noise suppression r in which small changes in the feature expression of successive vectors are compensated on the average. the. This property has a positive effect on finding large song structures.
  • the concept according to the invention makes it possible to navigate through the calculated segments by means of a special music player and selectively select individual segments, so that a consumer in a music shop can easily immediately return to the Re by pressing a certain key or activating a certain software command - Frain of a piece can jump to determine whether the chorus pleases him, and then perhaps listen to a stanza, so that the consumer can finally make a Kaufent ⁇ divorce. It is thus comfortably possible for a buyer to hear exactly what he is particularly interested in from a single piece, while he is, for example, interested in doing so. B. the solo or the bridge then actually save for the listening pleasure at home.
  • the concept according to the invention is also of great advantage for a music shop, since the customer can listen in and thus quickly and ultimately buy, so that the customers do not have to wait long to listen in, but also quickly get their turn , This is due to the fact that a user does not have to constantly go back and forth, but receives in a targeted and rapid manner all the information of the piece that he would like to have.
  • the present invention is also applicable in other applica tion scenarios, for example in advertising monitoring, ie where an advertiser wants to check whether the audio piece for which he has bought advertising time, has actually been played over the entire length.
  • An audio piece may include, for example, music segments, speaker segments, and noise segments.
  • the segmentation algorithm that is to say the segmentation and subsequent classification into segment groups, then makes it possible to carry out a quick and considerably less complicated check than a complete sample-wise comparison.
  • the efficient checking would simply consist in a segment class statistic, ie a comparison of how many segment classes were found and how many segments are in the individual segment classes, with a specification based on the ideal advertising piece. It is thus easily possible for an advertiser to recognize whether a broadcaster or television station has actually broadcast all the main parts (sections) of the commercial signal or not.
  • the present invention is further advantageous in that it can be used for searching in large music databases, for example, only to listen through the choruses of many pieces of music in order to then perform a music program selection.
  • segment class marked "chorus” would be selected from many different pieces and provided by a program provider, Alternatively, there could also be an interest, for example from an artist, for all the guitar solos According to the invention, these can likewise be provided without difficulty by always having one or more segments (if present) in the range marked "Solo".
  • segment class from a large number of pieces of music, for. B. assembled and provided as a file.
  • inventive concept can be easily automated, since it requires at no point a user intervention. This means that users of the inventive concept by no means require special training, except for. For example, a common skill in dealing with normal software user interfaces.
  • the inventive concept can be implemented in hardware or in software.
  • the implementation can be carried out on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can cooperate with a programmable computer system in such a way that the corresponding method is executed.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention when the computer program product runs on a computer.
  • the invention thus represents a computer program with a program code for carrying out the method when the computer program runs on a computer.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Zum Gruppieren von zeitlichen Segmenten eines Audiostücks, das in in dem Audiostück wiederholt auftretende Hauptteile gegliedert ist, in verschiedene Segmentklassen wird zunächst eine Ähnlichkeitsdarstellung für die Segmente bereitgestellt (10), wobei die Ähnlichkeitsdarstellung für jedes Segment eine zugeordnete Mehrzahl von Ähnlichkeitswerten aufweist, wobei die Ähnlichkeitswerte angeben, wie ähnlich das Segment zu jedem anderen Segment des Musikstücks ist. Hierauf wird unter Verwendung der Ähnlichkeitswerte, die dem Segment zugeordnet sind, ein Ähnlichkeits-Schwellwert für ein Segment berechnet (12), um dann ein Segment zu einer Segmentklasse zuzuordnen (14), wenn der Ähnlichkeitswert des Segments eine vorbestimmte Beziehung bezüglich des Ähnlichkeits-Schwellwerts erfüllt. Damit wird ein Clustering erreicht, das auch dort, wo es Segmente mit stark unterschiedlichen oder nahezu gleichen kombinierten Ähnlichkeitswerten gibt, effizient und korrekt arbeitet.

Description

Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Audiosegmen- tierung und insbesondere auf die Analyse von Musikstücken auf die in den Musikstücken enthaltenen einzelnen Haupttei¬ le, die in dem Musikstück wiederholt auftreten können.
Musik aus dem Rock- und Popbereicri besteht meistens aus mehr oder weniger eindeutigen Segmenten, wie beispielsweise Intro, Strophe, Refrain, Bridge, Oαtro, etc. Die Anfangs¬ und Endzeitpunkte solcher Segmente zu detektieren und die Segmente nach ihrer Zugehörigkeit zu den wichtigsten Klas¬ sen (Strophe und Refrain) zu gruppieren, ist Ziel der Au- diosegmentierung. Eine korrekte Segmentierung und auch Kennzeichnung der berechneten Segmente kann in verschiede¬ nen Bereichen sinnvoll eingesetzt werden. Beispielsweise können so Musikstücke von Online-Anbietern, wie Amazon, Mu- sicline, etc. intelligent „angespielt" werden.
Die meisten Anbieter im Internet beschränken sich bei ihren Hörbeispielen auf einen kurzen Ausschnitt aus den angebote¬ nen Musikstücken. In diesem Fall wäre es natürlich auch sinnvoll, dem Interessenten nicht nur die ersten 30 Sekun- den oder beliebige 30 Sekunden, sondern einen möglichst re¬ präsentativen Ausschnitt aus dem Lied anzubieten. Dies könnte z. B. der Refrain sein, oder: aber auch eine Zusam¬ menfassung des Liedes, bestehend aus Segmenten, die den verschiedenen Hauptklassen (Strophee Refrain, ...) angehö- ren.
Ein weiteres Anwendungsbeispiel für die Technik der Audio¬ segmentierung ist das Integrieren des Segmentierungs- /Gruppierungs-/Markierungsalgorithmus in einen Musicplayer. Die Informationen über Segmentanfänge und Segmentenden er¬ möglichen das gezielte Navigieren durch ein Musikstück. Durch die Klassenzugehörigkeit der Segmente, also ob ein Segment eine Strophe, ein Refrain, etc. ist, kann z. B. auch direkt zum nächsten Refrain oder zur nächsten Strophe gesprungen werden. Eine derartige Anwendung ist für große Musikmärkte von Interesse, die ihren Kunden die Möglichkeit bieten, in komplette Alben hinein zu hören. Dadurch erspart sich der Kunde das lästige, suchende Vorspulen zu charakte¬ ristischen Stellen im Lied, die ihn vielleicht dazu bewegen könnten, ein Musikstück am Ende tatsächlich zu kaufen.
Auf dem Gebiet der Audiosegmentierung existieren verschie- dene Ansätze. Nachfolgend wird der Ansatz von Jonathan Foo- te und Matthew Cooper beispielhaft dargestellt. Dieses Ver¬ fahren ist in FOOTE, J.T. / Cooper, M.L. : Summarizing Popu¬ lär Music via Structural Similarity Änalysis. Proceedings of the IEEE Workshop of Signal Processing to Audio and Acoustics 2003. FOOTE, J.T. / COOPER, M.L.: Media Segmenta- tion using Self-Similar Decomposition. Proceedings of SPIE Storage and Retrieval for Multimedia Databases, Bd. 5021, S. 167-75, Januar 2003, dargestellt.
Das bekannte Verfahren von Foote wird anhand des Block¬ schaltbilds von Fig. 5 beispielhaft erläutert. Zunächst wird eine WAV-Datei 500 bereitgestellt. In einem nachge¬ schalteten Extraktionsblock 502 findet dann eine Merk¬ malsextraktion statt, wobei als Merkmal die Spektralkoeffi- zienten an sich oder alternativ die Mel-Frequenz-Cepstral- Koeffizienten (MFCCs) extrahiert werden. Vor dieser Extrak¬ tion wird eine Kurzzeit-Fourier-Transformation (STFT) mit 0,05 Sekunden breiten nicht-überlappenden Fenstern mit der WAV-Datei durchgeführt. Die MFCC-Merkmale werden dann im Spektralbereich extrahiert. Hierbei sei darauf hingewiesen, dass die Parametrisierung nicht für eine Kompression, Über¬ tragung oder Rekonstruktion optimiert ist, sondern für eine Audioanalyse. Die Anforderung besteht dahingehend, dass ähnliche Audiostücke ähnliche Merkmale erzeugen.
Die extrahierten Merkmale werden dann in einem Speicher 504 abgelegt.
Auf den Merkmalsextraktionsalgorithmus findet nunmehr ein Segmentierungsalgorithmus statt, der in einer Ähnlichkeits¬ matrix endet, wie es in einem Block 506 dargestellt ist. Zunächst wird jedoch die Merkmalsmatrix eingelesen (508), um dann Merkmalsvektoren zu gruppieren (510) , um dann auf Grund der gruppierten Merkmalsvektoren eine Ähnlichkeits¬ matrix aufzubauen, die aus einer Distanzmessung zwischen jeweils allen Merkmalen besteht. Im Einzelnen werden alle paarweisen Kombinationen von Audiofenstern unter Verwendung eines quantitativen Ähnlichkeitsmaßes, also der Distanz, verglichen.
Der Aufbau der Ähnlichkeitsmatrix ist in Fig. 8 darge- stellt. So ist in Fig. 8 das Musikstück als Strom oder Stream 800 von Audioabtastwerten dargestellt. Das Audio¬ stück wird, wie es ausgeführt worden ist, gefenstert, wobei ein erstes Fenster mit i und ein zweites Fenster mit j be¬ zeichnet sind. Insgesamt hat das Audiostück z. B. K Fens- ter. Dies bedeutet, dass die Ähnlichkeitsmatrix K Zeilen und K Spalten hat. Dann wird für jedes Fenster i und für jedes Fenster j ein Ähnlichkeitsmaß zueinander berechnet, wobei das berechnete Ähnlichkeitsmaß oder Distanzmaß D(i,j) an der durch i und j bezeichneten Zeile bzw. Spalte in der Ähnlichkeitsmatrix eingegeben wird. Eine Spalte zeigt daher die Ähnlichkeit des durch j bezeichneten Fensters zu allen anderen Audiofenstern in dem Musikstück. Die Ähnlichkeit des Fensters j zum allerersten Fenster des Musikstücks wür¬ de dann in der Spalte j und in der Zeile 1 stehen. Die Ähn- lichkeit des Fensters j zum zweiten Fenster des Musikstücks würde dann in der Spalte j, aber nunmehr in der Zeile 2 stehen. Dagegen würde die Ähnlichkeit des zweiten Fensters - A -
zum ersten Fenster in der zweiten Spalte der Matrix und in der ersten Zeile der Matrix stehen.
Es ist zu sehen, dass die Matrix dahingehend redundant ist, dass sie zur Diagonalen symmetrisch ist, und dass auf der Diagonalen die Ähnlichkeit eines Fensters zu sich selbst steht, was den trivialen Fall einer 100%-igen Ähnlichkeit darstellt.
Ein Beispiel für eine Ähnlichkeitsmatrix eines Stücks ist in Fig. β zu sehen. Hier ist wieder die komplett symmetri¬ sche Struktur der Matrix bezüglich der Hauptdiagonalen er¬ kennbar, wobei die Hauptdiagonale als heller Streifen er¬ sichtlich ist. Ferner wird darauf hingewiesen, dass auf Grund der kleinen Fensterlänge im Vergleich zu der relativ groben Zeitauflösung in Fig. 6 die Hauptdiagonale nicht als heller durchgehender Strich zu sehen ist, sondern aus Fig. 6 nur in etwa erkennbar ist.
Hierauf wird unter Verwendung der Ähnlichkeitsmatrix, wie sie z. B. in Fig. 6 dargestellt ist, eine Kernel- Korrelation 512 mit einer Kernel-Matrix 514 durchgeführt, um ein Neuheitsmaß, das auch als „Novelty Score" bekannt ist, zu erhalten, das gemittelt werden könnte und in ge- glätteter Form in Fig. 9 dargestellt ist. Die Glättung die¬ ses Novelty Scores ist in Fig. 5 schematisch durch einen Block 516 dargestellt.
Hierauf werden in einem Block 518 die Segmentgrenzen unter Verwendung des geglätteten Neuheitswertverlaufs ausgelesen, wobei hierzu die lokalen Maxima im geglätteten Neuheitsver¬ lauf ermittelt und gegebenenfalls noch um eine durch die Glättung verursachte konstante Anzahl von Samples verscho¬ ben werden müssen, um tatsächlich die richtigen Segment- grenzen des Audiostücks als absolute oder relative Zeitan¬ gabe zu erhalten. — D
Hierauf wird, wie es bereits in einem mit Clustering be¬ zeichneten Block aus Fig. 5 ersichtlich ist, eine so ge¬ nannte Segmentähnlichkeitsdarstellung oder Segmentähnlich¬ keitsmatrix erstellt. Ein Beispiel für eine Segmentähnlich- 5 keitsmatrix ist in Fig. 7 dargestellt. Die Ähnlichkeitsmat¬ rix in Fig. 7 ist prinzipiell ähnlich zu der Merkmals- Ähnlichkeitsmatrix von Fig. 6, wobei nun jedoch nicht mehr, wie in Fig. 6, Merkmale aus Fenstern verwendet werden, son¬ dern Merkmale aus einem ganzen Segment. Die Segmentähnlich-
]_0 keitsmatrix hat eine ähnliche Aussage wie die Merkmalsähn¬ lichkeitsmatrix, jedoch mit einer wesentlich gröberen Auf¬ lösung, was natürlich gewünscht ist, wenn betrachtet wird, dass Fensterlängen im Bereich von 0,05 Sekunden liegen, während vernünftig lange Segmente im Bereich von vielleicht
1.5 10 Sekunden eines Stückes liegen.
Hierauf wird dann in einem Block 522 ein Clustering durch¬ geführt, also eine Einordnung der Segmente in Segmentklas- sen (eine Einordnung von ähnlichen Segmenten in dieselbe
20 Segmentklasse), um dann in einem Block 524 die gefundenen
Segmentklassen zu markieren, was auch als „Labeling" be¬ zeichnet wird. So wird im Labeling ermittelt, welche Seg¬ mentklasse Segmente enthält, die Strophen sind, die Re¬ frains sind, die Intros, Outros, Bridges, etc. sind. 25
Schließlich wird in einem mit 526 in Fig. 5 bezeichneten Block eine Musicsummary erstellt, die z. B. einem Benutzer bereitgestellt werden kann, um ohne Redundanz von einem Stück nur z. B. eine Strophe, einen Refrain und das Intro
30 zu hören.
Nachfolgend wird auf die einzelnen Blöcke noch detaillier¬ ter eingegangen.
35 Wie es bereits ausgeführt worden ist, findet die eigentli¬ che Segmentierung des Musikstücks erst dann statt, wenn die Merkmalsmatrizen generiert und gespeichert sind (Block - Q -
Je nach dem, anhand welchen Merkmals das Musikstück auf seine Struktur hin untersucht werden soll, wird die ent¬ sprechende Merkmalsmatrix ausgelesen und zur Weiterverar- beitung in einen Arbeitsspeicher geladen. Die Merkmalsmat¬ rix hat die Dimension Anzahl der Analysefenster mal Anzahl der Merkiinalskoeffizienten.
Durch die Ähnlichkeitsmatrix wird der Merkmalsverlauf eines Stücks ±n eine zweidimensionale Darstellung gebracht. Für jede paarweise Kombination von Merkmalsvektoren wird das Distanzmaß berechnet, das in der Ähnlichkeitsmatrix fest¬ gehalten wird. Zur Berechnung des Distanzmaßes zwischen zwei Vektoren gibt es verschiedene Möglichkeiten, nämlich beispieLsweise die Euklidsche Distanzmessung und die Cosi¬ nus-Distanzmessung. Ein Ergebnis D(i,j) zwischen den zwei MerkmalsVektoren wird im i,j-ten Element der Fenster- Ähnlichkieitsmatrix (Block 506) gespeichert. Die Hauptdiago¬ nale der Ähnlichkeitsmatrix repräsentiert den Verlauf über das gesamte Stück. Dementsprechend resultieren die Elemente der Hamptdiagonalen aus dem jeweiligen Vergleich eines Fensters mit sich selbst und weisen immer den Wert der größten Ähnlichkeit auf. Bei der Cosinus-Distanzmessung ist dies de:r Wert 1, bei der einfachen skalaren Differenz und der Euklidschen Distanz ist dieser Wert gleich 0.
Zur Visualisierung einer Ähnlichkeitsmatrix, wie sie in Fig. 6 dargestellt ist, bekommt jedes Element i, j einen Grauwert zugewiesen. Die Grauwerte sind proportional zu den Ähnlichkeitswerten abgestuft, so dass die maximale Ähnlich¬ keit (die Hauptdiagonale) der maximalen Ähnlichkeit ent¬ spricht . Durch diese Darstellung kann man die Struktur ei¬ nes Liedes bereits optisch auf Grund der Matrix erkennen. Bereiche ähnlicher Merkmalsausprägung entsprechen Quadran- ten ähnlicher Helligkeit entlang der Hauptdiagonalen. Die Grenzen zwischen den Bereichen zu finden, ist die Aufgabe der eigentlichen Segmentierung. Die Struktur der Ähnlichkeitsmatrix ist wichtig für das in der Kernel-Korrelation 512 berechnete Neuheitsmaß. Das Neu¬ heitsmaß entsteht durch die Korrelation eines speziellen Kernels entlang der Hauptdiagonalen der Ähnlichkeitsmatrix. Ein beispielhafter Kernel K ist in Fig. 5 dargestellt. Kor¬ reliert man diese Kernel-Matrix entlang der Hauptdiagonalen der Ähnlichkeitsinatrix S, und summiert dabei alle Produkte der übereinander liegenden Matrixelemente für jeden Zeit¬ punkt i des Stücks, so erhält man das Neuheitsmaß, das in geglätteter Form beispielhaft in Fig. 9 dargestellt ist. Vorzugsweise wird, nicht der Kernel K in Fig. 5 verwendet, sondern ein vergrößerter Kernel, der zudem mit einer Gauss¬ verteilung überlagert ist, so dass die Kanten der Matrix gegen 0 streben.
Die Selektion- de:r? markanten Maxima im Neuheitsverlauf ist wichtig für die Segmentierung. Die Auswahl aller Maxima des ungeglätteten Neiαheitsverlaufs würde zu einer starken Über¬ segmentierung des Audiosignals führen.
Daher sollte das Neuheitsmaß geglättet werden, und zwar mit verschiedenen Filtern, wie beispielsweise IIR-Filter oder FIR-Filter.
Sind die Segmentgrenzen eines Musikstücks extrahiert, so müssen nun ähnliche Segmente als solche gekennzeichnet und in Klassen gruppiert werden.
Foote und Cooper beschreiben die Berechnung einer segment- basierten Ähnlichkeitsmatrix mittels einer Cullback- Leibler-Distanz. Hierfür werden anhand der aus dem Neu¬ heitsverlauf gewonnenen Segmentgrenzen einzelne Segment¬ merkmalsmatrizen aus der gesamten Merkmalsmatrix extra¬ hiert, d. h. jede dieser Matrizen ist eine Submatrix der gesamten Merkmalsmatrix. Die damit entstandene Segmentähn¬ lichkeitsmatrix 520 wird nunmehr einer Singularwertzerle¬ gung (SVD; SVD = Singular Value Decomposition) unterzogen. Hierauf erhält man Singulärwerte in absteigender Reihenfol¬ ge.
Im Block 526 wird dann eine automatische Zusammenfassung eines Stücks anhand der Segmente und Cluster eines Musik¬ stücks durchgeführt. Hierzu werden zunächst die zwei Cluster mit den größten Sxngulärwerten ausgewählt. Dann wird das Segment mit dem Maximalwert des entsprechenden Cluster-Indikators zu dieser Summary hinzugefügt. Dies be- deutet, dass die Summary eine Strophe und einen Refrain umfasst. Alternativ können auch alle wiederholten Segmente entfernt werden, um sicherzustellen, dass alle Informatio¬ nen des Stücks bereitgestellt werden, jedoch immer genau einmal.
Bezüglich weiterer Techniken zur Segmentierung/Musikanalyse wird auf CHU, s. / LOGAN B.: Music Summary using Key Phra- ses. Technical Report, Cambridge Research Laboratory 2000, BARTSCH, M.A. / WAKEFIELD, g. H. : To Catch a Chorus: Using Chroma-Based Representation for Audio Thumbnailing. Pro- ceedings of the IEEE Workshop of Signal Processing to Audio and Acoustics 2001. http: //musen.engin.umich.edu/papers/ bartsch wakefield waspaaOl final.pdf, verwiesen
Nachteilig an dem bekannten Verfahren ist die Tatsache, dass die Singularwertzerlegung (SVD) zur Segmentklassenbil¬ dung, also zum Zuordnen von Segmenten zu Clustern zum einen sehr rechenaufwendig ist und zum anderen problematisch in der Beurteilung der Ergebnisse ist. So wird dann, wenn die Singularwerte nahezu gleich groß sind, eine möglicherweise falsche Entscheidung dahingehend getroffen, dass die beiden ähnlichen Singularwerte eigentlich die gleiche Segmentklas¬ se und nicht zwei unterschiedliche Segmentklassen darstel¬ len.
Ferner wurde herausgefunden, dass die Ergebnisse, die durch die Singularwertzerlegung eirhalten werden, dann immer prob¬ lematischer werden, wenn es starke Ähnlichkeitswertunter- schiede gibt, wenn also ein Stück sehtr ähnliche Anteile enthält, wie Strophe und Refrain, aber auch relativ unähn¬ liche Anteile, wie Intro, Outro oder Bridge.
Ferner problematisch an dem bekannten Verfahren ist, dass immer davon ausgegangen wird, dass der Cluster unter den beiden Clustern mit den höchsten Singularwerten, der das erste Segment im Lied hat, der Cluster „Strophe" ist, und dass der andere Cluster der Cluster „Refrain" ist. Dieses Prozedere basiert darauf, dass man im bekannten Verfahren davon ausgeht, dass ein Lied immer mit einer Strophe be¬ ginnt. Erfahrungen haben gezeigt, dass damit erhebliche La¬ belingfehler erhalten werden. Dies ist insofern problema¬ tisch, da das Labeling gewissermaßen die „Ernte" des gesam- ten Verfahrens ist, also das, was der Benutzer unmittelbar erfährt. Waren die vorhergehenden Schritte noch so präzise und aufwändig, so relativiert sich alles, wenn am Ende falsch gelabelt wird, da dann beim Benutzer das Vertrauen in das gesamte Konzept insgesamt Schaden nehmen könnte.
An dieser Stelle sei ferner darauf hingewiesen, dass insbe¬ sondere Bedarf nach automatischen Musikanalyseverfahren be¬ steht, ohne dass das Ergebnis immer überprüft und gegebe¬ nenfalls korrigiert werden kann. Statt dessen ist ein Ver- fahren nur dann am Markt einsetzbar, wenn es automatisch ohne menschliche Nachkorrektur ablaufen kann.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes und gleichzeitig effizientes Konzept zum Grup- pieren von zeitlichen Segmenten eines Musikstücks zu schaf¬ fen.
Diese Aufgabe wird durch eine Vorrichtung zum Gruppieren gemäß Patentanspruch 1, ein Verfahren zum Gruppieren gemäß Patentanspruch 16 oder ein Computer-Programm gemäß Patent¬ anspruch 17 gelöst. Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die Zuweisung eines Segments zu einer Segmentklasse auf der Basis eines adaptiven Ähnlichkeits-Mittelwerts für ein Segment durchzuführen ist, derart, dass durch den Ähra- lichkeits-Mittelwert berücksichtigt wird, welchen insgesam- ten Ähnlichkeits-Score ein Segment im gesamten Stück hat. Nachdem für ein Segment ein solcher Ähnlichkeits-Mittelwenrt berechnet worden ist, zu dessen Berechnung die Anzahl der Segmente und die Ähnlichkeitswerte der dem Segment zugeord- neten Mehrzahl von Ähnlichkeitswerten benötigt werden, wird dann die tatsächliche Zuweisung eines Segments zu einer Segmentklasse, also zu einem Cluster, auf der Basis dieses Ähnlichkeits-Mittelwerts durchgeführt. Liegt ein Ähnlicti- keitswert eines Segments zu dem gerade betrachteten Segment beispielsweise oberhalb des Ähnlichkeits-Mittelwerts, so wird das Segment als zu der gerade betrachteten Segmenii- klasse zugehörig zugewiesen. Liegt der Ähnlichkeitswert ei¬ nes Segments zu dem gerade betrachteten Segment dagegen un¬ terhalb dieses Ähnlichkeits-Mittelwerts, so wird es nicrit der Segmentklasse zugewiesen.
In anderen Worten ausgedrückt bedeutet dies, dass die Zu¬ weisung nicht mehr abhängig von der absoluten Größe der Ähnlichkeitswerte durchgeführt wird, sondern relativ zu dem Ähnlichkeits-Mittelwert. Dies bedeutet, dass für ein Seg¬ ment, das einen relativ geringen Ähnlichkeits-Score hat, also z. B. für ein Segment, das ein Intro oder Outro ha_t, der Ähnlichkeits-Mittelwert niedriger sein wird als für ein Segment, das eine Strophe oder ein Refrain ist. Damit wer- den die starken Abweichungen der Ähnlichkeiten von Segmen¬ ten in Stücken bzw. der Häufigkeit des Auftretens von be¬ stimmten Segmenten in Stücken berücksichtigt, wobei z. B. numerische Probleme und damit auch Mehrdeutigkeiten und da¬ mit verbundene Falsch-Zuweisungen vermieden werden können.
Das erfindungsgemäße Konzept eignet sich besonders für Mu-- sikstücke, die nicht nur aus Strophen und Refrains beste¬ hen, also die Segmente haben, die zu Segmentklasse gehören, die gleich große Ähnlichkeitswerte haben, sondern auch für Stücke, die neben Strophe und Refrain auch andere Teile ha¬ ben, nämlich eine Einführung (Intro), ein Zwischenspiel (Bridge) oder einen Ausklang (Outro) .
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden die Berechnung des adaptiven Ähnlichkeits- Mittelwertes und das Zuweisen eines Segments iterativ durchgeführt, wobei zugewiesene Segmente beim nächsten Iterationsdurchgang ignoriert werden. Damit ändert sich für den nächsten Iterationsdurchgang wieder der Ähnlichkeits- Absolutwert, also die Summe der Ähnlichkeitswerte in einer Spalte der Ähnlichkeitsmatrix, da bereits zugewiesene Seg¬ mente zu 0 gesetzt worden sind.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Segmentierungs-Nachkorrektur durchge¬ führt, und zwar dahingehend, dass nach der Segmentierung z. B. auf Grund des Neuheitswertes (der lokalen Maxima des Neuheitswertes) und nach einer anschließenden Zuordnung zu Segmentklassen relativ kurze Segmente untersucht werden, um zu sehen, ob sie dem Vorgänger-Segment oder dem Nachfol¬ ger-Segment zugeordnet werden können, da Segmente unterhalb einer minimalen Segmentlänge mit hoher Wahrscheinlichkeit auf eine Übersegmentierung hindeuten.
Bei einem alternativen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird nach der abschließenden Segmen¬ tierung und Zuordnung in die Segmentklassen ein Labeling durchgeführt, und zwar unter Verwendung eines speziellen Auswahlalgorithmus, um eine möglichst korrekte Kennzeich¬ nung der Segmentklassen als Strophe oder Refrain zu erhal¬ ten.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegende Zeich¬ nung detailliert erläutert. Es zeigen: Fig. 1 ein Blockschaltbild der erfindungsgemäßen Vor¬ richtung zum Gruppieren gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 2 ein Flussdiagramm zur Darstellung einer bevorzug¬ ten Ausführungsform der Erfindung zum iterativen Zuweisen;
Fig. 3 ein Blockdiagramm der Funktionsweise der Segmen- tierungskorrektureinrichtung;
Fig. 4a und Fig. 4b eine bevorzugte Ausführungsform der Segmentklassenbezeichnungseinrichtung;
Fig. 5 ein Gesamtblockschaltbild eines Audioanalysewerk¬ zeugs;
Fig. 6 eine Darstellung einer beispielhaften Merkmals¬ ähnlichkeitsmatrix;
Fig. 7 eine beispielhafte Darstellung einer Segmentähn¬ lichkeitsmatrix;
Fig. 8 eine schematische Darstellung zur Veranschauli- chung der Elemente in einer Ähnlichkeitsmatrix S; und
Fig. 9 eine schematische Darstellung eines geglätteten Neuheitswerts.
Fig. 1 zeigt eine Vorrichtung zum Gruppieren von zeitlichen Segmenten eines Musikstücks, das in in dem Musikstück wie¬ derholt auftretende Hauptteile gegliedert ist, in verschie¬ dene Segmentklassen, wobei eine Segmentklasse einem Haupt- teil zugeordnet ist. Die vorliegende Erfindung bezieht sich somit besonders auf Musikstücke, die einer gewissen Struk¬ tur unterliegen, in der ähnliche Abschnitte mehrmals er¬ scheinen und sich mit anderen Abschnitten abwechseln. Die meisten Rock- und Popsongs besitzen eine klare Struktur in Bezug auf ihre Hauptteile.
Die Literatur behandelt das Thema der Musikanalyse haupt- sächlich anhand klassischer Musik, davon gilt jedoch auch vieles für Rock- und Popmusik. Die Hauptteile eines Musik¬ stücks werden auch „Großformteile" genannt. Unter einem Großformteil eines Stücks versteht man einen Abschnitt, der hinsichtlich verschiedener Merkmale, z. B. Melodik, Rhyth- mik, Textur, usw., eine relativ einheitliche Beschaffenheit hat. Diese Definition gilt allgemein in der Musiktheorie.
Großformteile in der Rock- und Popmusik sind z. B. Strophe, Refrain, Bridge und Solo. In der klassischen Musik wird ein Wechselspiel von Refrain und anderen Teilen (Couplets) ei¬ ner Komposition auch Rondo genannt. Im Allgemeinen kontras¬ tieren die Couplets zum Refrain, beispielsweise hinsicht¬ lich Melodik, Rhythmik, Harmonik, Tonart oder Instrumenta¬ tion. Dies lässt sich auch auf moderne Unterhaltungsmusik übertragen. So wie es bei dem Rondo verschiedene Formen gibt (Kettenrondo, Bogenrondo, Sonatenrondo) , bestehen auch in Rock- und Popmusik bewährte Muster zum Aufbau eines Lie¬ des. Diese sind natürlich nur einige Möglichkeiten aus vie¬ len. Letztendlich entscheidet natürlich der Komponist, wie sein Stück aufgebaut ist. Ein Beispiel für einen typischen Aufbau eines Rockliedes ist das Muster.
A-B-A-B-C-D-A-B,
wobei A gleich Strophe, B gleich Refrain, C gleich Bridge und D gleich Solo gilt. Oftmals wird ein Musikstück mit ei¬ nem Vorspiel (Intro) eingeleitet. Intros bestehen häufig aus der gleichen Akkordfolge wie die Strophe, allerdings mit anderer Instrumentation, z. B. ohne Schlagzeug, ohne Bass oder ohne Verzerrung der Gitarre bei Rockliedern etc.
Die erfindungsgemäße Vorrichtung umfasst zunächst eine Ein¬ richtung 10 zum Bereitstellen einer Ähnlichkeitsdarstellung für die Segmente, wobei die Ähnlichkeitsdarstellung für je¬ des Segment eine zugeordnete Mehrzahl von Ähnlichkeitswer¬ ten aufweist, wobei die Ähnlichkeitswerte angeben, wie ähn¬ lich das Segment zu jedem anderen Segment ist. Die Ähnlich- keitsdarstellung ist vorzugsweise die in Fig. 7 gezeigte Segment-Ähnlichkeitsmatrix. Sie hat für jedes Segment (in Fig. 7 Segmente 1-10) eine eigene Spalte, die den Index „jλλ hat. Ferner hat die Ähnlichkeitsdarstellung für jedes Seg¬ ment eine eigene Zeile, wobei eine Zeile mit einem Zeilen- index i bezeichnet ist. Dies wird nachfolgend anhand des beispielhaften Segments 5 bezeichnet. Das Element (5,5) in der Hauptdiagonale der Matrix von Fig. 7 ist der Ähnlich¬ keitswert des Segments 5 mit sich selbst, also der maximale Ähnlichkeάtswert. Ferner ist das Segment 5 noch mittelähn- lieh zum Segment Nr. 6, wie es durch das Element (6,5) oder durch das Element (5,6) der Matrix in Fig. 7 bezeichnet ist. Darüber hinaus hat das Segment 5 noch Ähnlichkeiten zu den Segmenten 2 und 3, wie es durch die Elemente (2,5) oder (3,5) oder (5,2) oder (5,3) in Fig. 7 gezeigt ist. Zu den anderen Segmenten 1, 4, 7, 8, 9, 10 hat das Segment Nr. 5 eine Ähnlichkeit, die in Fig. 7 nicht mehr sichtbar ist.
Eine dem Segment zugeordnete Mehrzahl von Ähnlichkeitswer¬ ten ist beispielsweise eine Spalte oder eine Zeile der Seg- ment-ÄhnLichkeitsmatrix in Fig. 7, wobei diese Spalte oder Zeile auf Grund ihres Spalten-/Zeilen-Indexes angibt, auf welches Segment sie sich bezieht, nämlich beispielsweise auf das fünfte Segment, und wobei diese Zeile/Spalte die Ähnlichkeiten des fünften Segments zu jedem anderen Segment in dem Stück umfasst. Die Mehrzahl von Ähnlichkeitswerten ist also beispielsweise eine Zeile der Ähnlichkeitsmatrix oder, alternativ, eine Spalte der Ähnlichkeitsmatrix von Fig. 7.
Die Vorrichtung zum Gruppieren von zeitlichen Segmenten des Musikstücks umfasst ferner eine Einrichtung 12 zum Berech¬ nen eines Ähnlichkeits-Mittelwertes für ein Segment, unter Verwendung der Segmente und der Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten. Die Einrichtung 12 ist ausgebildet, um z. B. für die Spalte 5 in Fig. 7 einen Ähnlichkeits-Mittelwert zu berechnen. Wird bei einem bevorzugten Ausführungsbeispiel der arithmetische Mittelwert verwendet, so wird die Einrichtung 12 die Ähn¬ lichkeitswerte in der Spalte addieren und durch die Anzahl der Segmente insgesamt teilen. Um die Selbstähnlichkeit zu eliminieren, könnte von dem. Additionsergebnis auch die Ähn¬ lichkeit des Segments mit sich selbst abgezogen werden, wo- bei natürlich dann auch eine Teilung nicht mehr durch sämt¬ liche Elemente, sondern durch sämtliche Elemente weniger 1 durchzuführen ist.
Die Einrichtung 12 zum Berechnen könnte alternativ auch den geometrischen Mittelwert berechnen, also jeden Ähnlich¬ keitswert einer Spalte für: sich quadrieren, um die quad¬ rierten Ergebnisse zu summieren, um dann eine Wurzel aus dem Summationsergebnis zu berechnen, welche durch die An¬ zahl der Elemente in der Spalte (bzw. die Anzahl der EIe- mente in der Spalte weniger" 1) zu teilen ist. Beliebige an¬ dere Mittelwerte, wie beispielsweise der Median-Wert etc. sind verwendbar, so lange der Mittelwert für jede Spalte der Ähnlichkeitsmatrix adaptiv berechnet wird, also ein Wert ist, der unter Verwendung der Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten berechnet wird.
Der adaptiv berechnete Ähnlichkeits-Schwellenwert wird dann einer Einrichtung 14 zum Zuweisen eines Segments zu einer Segmentklasse geliefert. Die Einrichtung 14 zum Zuweisen ist ausgebildet, um ein Segment einer Segmentklasse zuzu¬ ordnen, wenn der Ähnlichkeitswert des Segments eine vorbe¬ stimmte Bedingung bezüglich des Ähnlichkeits-Mittelwerts erfüllt. Ist beispielsweise der Ähnlichkeits-Mittelwert so, dass ein größerer Wert auf eine größere Ähnlichkeit und ein kleinerer Wert auf eine geringere Ähnlichkeit hinweist, so wird die vorbestimmte Beziehung darin bestehen, dass der Ähnlichkeitswert eines Segments gleich oder oberhalb des Ähnlichkeits-Mittelwerts sein muss, damit das Segment einer Segmentklasse zugewiesen wird.
Bei einem bevorzugten Ausführungsbeispiel cder vorliegenden Erfindung existieren noch weitere Einrichtungen, um spe¬ zielle Ausführungsformen zu verwirklichen, auf die später eingegangen wird. Diese Einrichtungen sind eine Segmentaus¬ wahleinrichtung 16, eine Segmentzuweisungs konflikteinrich- tung 18, eine Segmentierungskorrektureinrichtung 20 sowie eine Segmentklassen-Bezeichnungseinrichtung 22.
Die Segmentauswahleinrichtung 16 in Fig. 1 ist ausgebildet, um zunächst für jede Spalte in der Matrix von Fig. 7 einen Gesamt-Ähnlichkeitswert V(j) zu berechnen, der folgenderma- ßen ermittelt wird:
V(j)=∑Ss(i,j)-SÄ j=\,...,P
(=1
P ist die Anzahl der Segmente. SÄ ist der Wert der Selbst- ähnlichkeit eines Segments mit sich selbst. Je nach verwen¬ deter Technik kann der Wert z. B. Null oder Eins sein. Die Segmentauswahleinrichtung 16 wird zunächst: den Wert V(j) für jedes Segment berechnen, um dann das Vektorelement i des Vektors V mit maximalem Wert herauszufinden. Anders ausgedrückt bedeutet dies, dass die Spalte in Fig. 7 ge¬ wählt wird, die bei der Aufaddition der einzelnen Ähnlich¬ keitswerte in der Spalte den größten Wert oder Score er¬ reicht. Dieses Segment könnte beispielsweise das Segment Nr. 5 bzw. die Spalte 5 der Matrix in Fig. 7 sein, da die- ses Segment mit drei anderen Segmenten zumindest eine ge¬ wisse Ähnlichkeit hat. Ein anderer Kandidat bei dem Bei¬ spiel von Fig. 7 könnte auch das Segmen~t mit der Nr. 7 sein, da dieses Segment ebenfalls zu drei anderen Segmenten eine gewisse Ähnlichkeit hat, die zudem noch größer ist als die Ähnlichkeit des Segments 5 zu den Segmenten 2 und 3 (höhere Grauschattierung in Fig. 7) . Für das nachfolgende Beispiel wird nunmehr angenommen, dass die Segmentauswahleinrichtung 16 das Segment Nr. 7 aus¬ wählt, da es den höchsten Ähnlichkeits-Score auf Grund der Matrixelemente (1,7), (4,7) und (10,7) hat. Dies bedeutet in anderen Worten, dass V(7) die Komponente des Vektors V ist, die den maximalen Wert unter allen Komponenten von V hat.
Nunmehr wird der Ähnlichkeits-Score der Spalte 7, also für das Segment Nr. 7 noch durch die Zahl „9" geteilt, um aus der Einrichtung 12 den Ähnlichkeits-Schwellwert für das Segment zu erhalten.
Hierauf wird in der Segment-Ähnlichkeitsmatrix für die siebte Zeile bzw. Spalte überprüft, welche Segmentähnlich¬ keiten über dem berechneten Schwellwert liegen, d. h. mit welchen Segmenten das i-te Segment eine überdurchschnittli¬ che Ähnlichkeit aufweist. All diese Segmente werden nunmehr ebenfalls wie das siebte Segment einer ersten Segmentklasse zugewiesen.
Für das vorliegende Beispiel wird angenommen, dass die Ähn¬ lichkeit des Segments 10 zum Segment 7 unterdurchschnitt¬ lich ist, dass jedoch die Ähnlichkeiten des Segments 4 und des Segments 1 zum Segment 7 überdurchschnittlich sind. Da¬ her werden in die erste Segmentklasse neben dem Segment Nr. 7 auch das Segment Nr. 4 und das Segment Nr. 1 eingeordnet. Dagegen wird das Segment Nr. 10 auf Grund der unterdurch¬ schnittlichen Ähnlichkeit zum Segment Nr. 7 nicht in die erste Segmentklasse eingeordnet.
Nach der Zuweisung werden die korrespondierenden Vektorrele- mente V(j) aller Segmente, die in dieser Schwellwertunter¬ suchung einem Cluster zugeordnet wurden, zu 0 gesetzt . Im Beispiel sind dies neben V(7) auch die Komponenten V(4) und V(I) . Dies bedeutet unmittelbar, dass die 7., 4. uad 1. Spalte der Matrix nicht mehr für eine spätere Maximalsuche zur Verfügung stehen werden, das sie Null sind, also kei¬ nesfalls ein Maximum sein können.
Dies ist in etwa gleichbedeutend damit, dass die Einträge (1,7), (4,7), (7,7) und (10,7) der Segmentähnlichkeitsmat- rix zu 0 gesetzt werden. Dasselbe Prozedere wird für die
Spalte 1 (Elemente (1,1), (4,1) und (7,1)) und die Spalte 4
(Elemente (1,4), (4,4) , (7,4) und (10, 4)) durchgeführt.
Aufgrund der einfacheren Handhabbarkeit, wird jedoch die Matrix nicht verändert, sondern werden die Komponenten von
V, die zu einem zugewiesenen Segment gehören, bei der nächsten Maximumsuche in einem späteren Iterationsschritt ignoriert.
In einem nächsten Iterationsschritt wird nunmehr ein neues Maximum unter den noch verbleibenden Elementen von V, also unter V(2), V(3), V(5), V(6,), V(8), V(9) und V(IO) ge¬ sucht. Voraussichtlich wird dann das Segment Nr. 5, also V(5), den größten Ähnlichkeits-Score ergeben. Die zweite Segmentklasse erhält dann die Segmente 5 und 6. Auf Grund der Tatsache, dass die Ähnlichkeiten zu den Segmenten 2 und 3 unterdurchschnittlich sind, werden die Segmente 2 und 3 nicht in den Cluster zweiter Ordnung gebracht. Damit werden die Elemente V(6) und V(5) vom Vektor V auf Grund der er- folgten Zuweisung zu 0 gesetzt, während noch die Komponen¬ ten V(2), V(3), V(8), V{9) und V(IO) des Vektors für die Auswahl des Clusters dritter Ordnung verbleiben.
Hierauf wird wieder ein neues Maximum unter den genannten verbleibenden Elementen von V gesucht. Das neue Maximum könnte V(IO) sein, also die Komponente von V für das Seg¬ ment 10. Segment 10 kommt also in die Segmentklasse dritter Ordnung. So könnte sich ferner herausstellen, dass das Seg¬ ment 7 auch zum Segment 10 eine überdurchschnittliche Ähn- lichkeit hat, obgleich das Segment 7 bereits der ersten Segmentklasse zugehörig gekennzeichnet ist. Es entsteht so¬ mit ein Zuweisungskonflikt, der durch die Segmentzuwei- sungskonflikteinrichtung 18 von Fig. 1 aufgelöst wird. Eine einfache Art der Auflösung könnte sein, einfach in die dritte Segmentklasse das Segment 7 nicht zuzuweisen und z. B. statt dessen das Segment 4 zuzuweisen, falls für das Segment 4 nicht ebenfalls ein Konflikt existieren würde.
Vorzugsweise wird jedoch, um die Ähnlichkeit zwischen dem Segment 7 und dem Segment 10 nicht unberücksichtigt zu las¬ sen, die Ähnlichkeit zwischen 7 und 10 in nachfolgendem Al- gorithmus berücksichtigt.
Allgemein ist die Erfindung ausgelegt, um die Ähnlichkeit zwischen i und k nicht unberücksichtigt zu lassen. Daher werden die Ähnlichkeitswerte Ss(i,k) von Segment i und k mit dem Ähnlichkeitswert Ss(i*,k) verglichen, wobei i* das erste Segment ist, das dem Cluster C* zugeordnet wurde. Der Cluster bzw. die Segmentklasse C* ist der Cluster, dem das Segment k bereits auf Grund einer vorherigen Untersuchung zugeordnet ist. Der Ähnlichkeitswert Ss(i*,k) ist aus- schlaggebend dafür, dass das Segment k dem Cluster C* zuge¬ hörig ist. Ist Ss(i*,k) größer als Ss(i/k), so bleibt das Segment k im Cluster C*. Ist Ss(i*,k) kleiner als Ss(i,k), so wird das Segment k aus dem Cluster C* herausgenommen und dem Cluster C zugewiesen. Für den ersten Fall, also wenn das Segment k nicht die Clusterzugehörigkeit wechselt, wird für das Segment i eine Tendenz zum Cluster C* vermerkt. Vorzugsweise wird diese Tendenz jedoch auch dann vermerkt, wenn das Segment k die Clusterzugehörigkeit wechselt. In diesem Fall wird eine Tendenz dieses Segments zum Cluster, in den es ursprünglich aufgenommen wurde, vermerkt. Diese Tendenzen können vorteilhafterweise bei einer Segmentie¬ rungskorrektur, die durch die Segmentierungskorrekturein¬ richtung 20 ausgeführt wird, verwendet werden.
Die Ähnlichkeitswertüberprüfung wird, auf Grund der Tatsa¬ che, dass das Segment 7 das „Ursprungssegment" in der ers¬ ten Segmentklasse ist, zugunsten der ersten Segmentklasse ausgehen. Das Segment 7 wird also seine Clusterzugehörig- keit (SegmentZugehörigkeit) nicht ändern, sondern es wird in der ersten Segmentklasse verbleiben. Diese Tatsache wird jedoch dadurch berücksichtigt, dass dem Segment Nr. 10 in der dritten Segmentklasse ein Trend zur ersten Segmentklas- se attestiert wird.
Erfindungsgemäß wird damit berücksichtigt, dass insbesonde¬ re für die Segmente, deren Segment-Ähnlichkeiten zu zwei unterschiedlichen Segmentklassen existieren, diese Ähnlich- keiten dennoch nicht ignoriert werden, sondern gegebenen¬ falls später durch den Trend bzw. die Tendenz doch noch be¬ rücksichtigt werden.
Das Prozedere wird so lange fortgeführt, bis alle Segmente in der Segment-Ähnlichkeitsmatrix zugeordnet sind, was der Fall ist, wenn alle Elemente vom Vektor V zu Null gesetzt sind.
Dies würde für das in Fig. 7 gezeigte Beispiel bedeuten, dass als nächstes, in die vierte Segmentklasse, das Maximum von V(2), V(3), V(8), V(9), also das Segment 2 und 3 einge¬ ordnet werden, um dann, in einer fünften Segmentklasse, die Segmente 8 bzw. 9 einzuordnen, bis alle Segmente zugeordnet worden sind. Damit ist der in Fig. 2 gezeigte iterative Al- gorithmus beendet.
Nachfolgend wird detailliert auf die bevorzugte Implemen¬ tierung der Segmentierungskorrektureinrichtung 20 anhand von Fig. 3 eingegangen.
So ergibt sich, dass bei der Berechnung der Segmentgrenzen mittels der Kernel-Korrelation, jedoch auch bei der Berech¬ nung von Segmentgrenzen mittels anderer Maßnahmen häufig eine Übersegmentierung eines Stücks entsteht, d. h. es wer- den zu viele Segmentgrenzen bzw. allgemein zu kurze Segmen¬ te berechnet. Eine Übersegmentierung, z. B. hervorgerufen durch eine falsche Unterteilung der Strophe, wird erfin¬ dungsgemäß dadurch korrigiert, dass auf Grund der Segment- länge und der Information, in welche Segmentklasse ein Vor¬ gänger- oder Nachfolger-Segment einsortiert worden ist, korrigiert wird. In anderen Worten ausgedrückt dient die Korrektur dazu, zu kurze Segmente vollständig zu eliminie- ren, also mit benachbarten Segmenten zu verschmelzen, und um Segmente, die kurz sind, jedoch nicht zu kurz sind, also die eine kurze Länge haben, jedoch länger als die Minimal¬ länge sind, noch einer besonderen Untersuchung zu unterzie¬ hen, ob sie vielleicht nicht doch noch mit einem Vorgänger- segment oder einem Nachfolgersegment verschmolzen werden können. Grundsätzlich werden erfindungsgemäß aufeinander folgende Segmente, die der gleichen Segmentklasse angehö¬ ren, immer verschmolzen. Ergibt das in Fig. 7 gezeigte Sze¬ nario z. B., dass die Segmente 2 und 3 in dieselbe Segment- klasse kommen, so werden diese automatisch miteinander ver¬ schmolzen, während die Segmente in der ersten Segmentklas¬ se, also die Segmente 7, 4, 1 voneinander beabstandet sind und daher (wenigstens zunächst) nicht verschmelzbar sind. Dies wird in Fig. 3 durch einen Block 30 angedeutet. Nun- mehr wird in einem Block 31 untersucht, ob Segmente eine Segmentlänge haben, die kleiner als eine Mindestlänge ist. So existieren vorzugsweise verschiedene Mindestlängen.
Es werden relativ kurze Segmente, die kürzer als 11 Sekun- den (eine erste Schwelle) sind, überhaupt nur untersucht, während später noch kürzere Segmente (eine zweite Schwelle, die kleiner als die erste ist) , die kürzer als 9 Sekunden sind, untersucht werden, und später noch verbleibende Seg¬ mente, die kürzer als 6 Sekunden (eine dritte Schwelle, die kürzer als die zweite Schwelle ist) sind, wieder alternativ behandelt werden.
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung, bei dem diese gestaffelte Längenüberprüfung stattfindet, ist die Segmentlängenüberprüfung im Block 31 zunächst darauf gerichtet, dass die Segmente kürzer als 11 Sekunden gefunden werden. Für die Segmente, die länger als 11 Sekunden sind, wird keine Nachbearbeitung vorgenommen, wie es durch ein „Nein" am Block 31 erkennbar ist. Für Seg¬ mente, die kürzer als 11 Sekunden sind, wird zunächst eine Tendenzenüberprüfung (Block 32) durchgeführt. So wird zu¬ nächst untersucht, ob ein Segment auf Grund der Funktiona- lität der Segmentzuweisungskonflikteinrichtung 18 von Fig. 1 einen zugeordneten Trend bzw. eine zugeordnete Tendenz hat. Bei dem Beispiel von Fig. 7 wäre dies das Segment 10, das einen Trend zu dem Segment 7 bzw. einen Trend zur ers¬ ten Segmentklasse hat. Ist das zehnte Segment kürzer als 11 Sekunden, so würde bei dem in Fig. 7 gezeigten Beispiel dennoch auch auf Grund der Tendenzüberprüfung nichts ge¬ schehen, da eine Verschmelzung des betrachteten Segments nur dann stattfindet, wenn es eine Tendenz nicht zu irgend¬ einem Cluster, also zu irgendeiner Segmentklasse hat, son- dern eine Tendenz zu einem Cluster eines angrenzenden (vor¬ her oder nachher) Segments. Dies ist jedoch für das Segment 10 bei dem in Fig. 7 gezeigten Beispiel nicht der Fall.
Um auch die zu kurzen Segmente zu vermeiden, die keine Ten- denz zu dem Cluster eines benachbarten Segments aufweisen, wird vorgegangen, wie es in den Blöcken 33a, 33b, 33c und 33d in Fig. 3 dargestellt ist. So wird an Segmenten, die länger als 9 Sekunden, jedoch kürzer als 11 Sekunden sind, nichts mehr gemacht. Sie werden belassen. In einem Block 33a wird nun jedoch für Segmente aus dem Cluster X, die kürzer als 9 Sekunden sind, und bei denen sowohl das Vor¬ gänger-Segment als auch das Nachfolge-Segment zum Cluster Y gehören, eine Zuweisung zum Cluster Y vorgenommen, was au¬ tomatisch bedeutet, dass ein solches Segment mit sowohl dem Vorgänger- als auch dem Nachfolger-Segment verschmolzen wird, so dass ein insgesamt längeres Segment entsteht, das sich aus dem betrachteten Segment sowie dem Vorgänger- als auch dem Nachfolger-Segment zusammensetzt. Somit kann durch eine nachfolgende Verschmelzung eine Zusammenfassung von zunächst getrennten Segmenten über ein zu verschmelzendes dazwischenliegendes Segment gelingen. In einem Block 33b ist ferner ausgeführt, was mit einem Segment geschieht, das kürzer als 9 Sekunden ist, und das das einzige Segment in einer Segmentgruppe ist. So ist in der dritten Segmentklasse das Segment Nr. 10 das einzige Segment. Wäre es nun kürzer als 9 Sekunden, so wird es au¬ tomatisch der Segmentklasse zugeordnet, zu der das Segment Nr. 9 gehört. Dies führt automatisch zu einer Verschmelzung des Segments 10 mit dem Segment 9. Ist das Segment 10 län¬ ger als 9 Sekunden, so wird diese Verschmelzung nicht vor- genommen.
In einem Block 33c wird dann eine Untersuchung vorgenommen für Segmente, die kürzer als 9 Sekunden sind, und die nicht das einzige Segment in einem entsprechenden Cluster X, als in einer entsprechenden Segmentgruppe sind. Sie werden ei¬ ner genaueren Überprüfung unterzogen, in der eine Regelmä¬ ßigkeit in der Clusterabfolge festgestellt werden soll. Zu¬ nächst werden alle Segmente aus der Segmentgruppe X ge¬ sucht, die kürzer als die Mindestlänge sind. Im Anschluss wird für jedes dieser Segmente geprüft, ob die Vorgänger¬ und Nachfolge-Segmente jeweils zu einem einheitlichen Cluster gehören. Sind alle Vorgänger-Segmente aus einem einheitlichen Cluster, so werden alle zu kurzen Segmente aus dem Cluster X dem Vorgänger-Cluster zugeordnet. Sind dagegen alle Nachfolger-Segmente aus einem einheitlichen Cluster, werden die zu kurzen Segmente aus dem Cluster X jeweils dem Nachfolger-Cluster zugeordnet.
In einem Block 33d ist ausgeführt, was passiert, wenn auch diese Bedingung für Segmente nicht erfüllt ist, die kürzer als 9 Sekunden sind. In diesem Fall wird eine Neuheitswert¬ überprüfung durchgeführt, indem auf die Neuheitswertkurve zurückgegriffen wird, die in Fig. 9 dargestellt ist. Insbe¬ sondere wird die Neuheitskurve, die aus der Kernel- Korrelation entstanden ist, an den Stellen der betroffenen Segmentgrenzen ausgelesen, und das Maximum dieser Werte wird ermittelt. Tritt das Maximum an einem Segmentanfang auf, werden die zu kurzen Segmente dem Cluster des Nachfol- ge-Segments zugeordnet. Tritt das Maximum an einem Segmen¬ tende auf, werden die zu kurzen Segmente dem Cluster des Vor-gänger-Segments zugeordnet. Wäre das in Fig. 9 mit 90 bezeichnete Segment ein Segment, das kürzer als 9 Sekunden ist , so würde die Neuheitsüberprüfung am Anfang des Seg¬ ments 90 einen höheren Neuheitswert 91 ergeben als am Ende des Segments, wobei der Neuheitswert am Ende des Segments mit 92 bezeichnet ist. Dies würde bedeuten, dass das Seg¬ ment 90 dem Nachfolger-Segment zugeordnet werden würde, da der: Neuheitswert zum Nachfolger-Segment geringer ist als der: Neuheitswert zum Vorgänger-Segment.
Ver-bleiben nunmehr noch Segmente, die kürzer als 9 Sekunden sind und noch nicht verschmolzen werden durften, so wird unter diesen noch einmal eine gestaffelte Auswahl durchge¬ führt. Insbesondere werden nunmehr alle Segmente unter den verbleibenden Segmenten, die kürzer als 6 Sekunden sind, ausgewählt. Die Segmente, deren Länge zwischen 6 und 9 Se¬ kunden aus dieser Gruppe sind, werden „unangetastet" zuge- lassen.
Die Segmente, die kürzer als 6 Sekunden sind, werden nun¬ mehr jedoch alle der anhand der Elemente 90, 91, 92 erklär¬ ten Neuheitsprüfung unterzogen und entweder dem Vorgänger- oder dem Nachfolger-Segment zugeordnet, so dass am Ende des in Fig. 3 gezeigten Nachkorrekturalgorithmus alle zu kurzen Segmente, nämlich alle Segmente unterhalb einer Länge von 6 Sekunden, mit Vorgänger- und Nachfolger-Segmenten intelli¬ gent verschmolzen worden sind.
Dieses erfindungsgemäße Prozedere hat den Vorteil, dass keine Elimination von Teilen des Stücks durchgeführt worden ist, dass also keine einfache Eliminierung der zu kurzen Segmente durch Zu-Null-Setzen durchgeführt worden ist, son- dern dass nach wie vor das gesamte komplette Musikstück dujrch die Gesamtheit der Segmente repräsentiert ist. Durch die Segmentierung ist daher kein Informationsverlust aufge¬ treten, der jedoch sein würde, wenn man z. B. als Reaktion auf die Übersegmentierung einfach alle zu kurzen Segmente „ohne Rücksicht auf Verluste" einfach eliminieren würde.
Nachfolgend wird Bezug nehmend auf Fig. 4a und Fig. 4b eine bevorzugte Implementierung der Segmentklassen- Bezeichnungseinrichtung 22 von Fig. 1 dargestellt. Erfin¬ dungsgemäß werden beim Labeling zwei Clustern die Label „Strophe" und „Refrain" zugewiesen.
Erfindungsgemäß wird nun nicht etwa ein größter Singular¬ wert einer: Singularwertzerlegung und der dazugehörige Cluster als Refrain und der Cluster für den zweitgrößten Singularwerrt als Strophe verwendet. Ferner wird nicht grundsätzlich davon ausgegangen, dass jedes Lied mit einer Strophe anfängt, dass also der Cluster mit dem ersten Seg¬ ment der Strophencluster ist und der andere Cluster der Refraincluster ist. Statt dessen wird erfindungsgemäß der Cluster in der Kandidatenauswahl, der das letzte Segment hat, als Refrain bezeichnet, und der andere Cluster wird als Strophe bezeichnet.
So wird also für die beiden letztendlich zur Strophe- /Refrain-Aiαswahl bereitstehenden Cluster überprüft (40), welcher Cluster das Segment hat, das als letztes Segment der Segmente der beiden Segmentgruppen im Liedverlauf vor¬ kommt, um denselben als Refrain zu bezeichnen.
Das letzte Segment kann das tatsächlich im Lied letzte Seg¬ ment sein oder aber ein Segment, das im Lied später auf- tritt als alle Segmente der anderen Segmentklasse. Ist die¬ ses Segment nicht das tatsächlich letzte Segment im Lied, so bedeutet dies, dass noch ein Outro vorliegt.
Diese Entscheidung basiert auf der Erkenntnis, dass der Re- frain in den allermeisten Fällen in einem Lied hinter der letzten Strophe kommt, also direkt als letztes Segment des
Liedes, wenn ein Stück z. B. mit dem Refrain ausgeblendet wird, oder als Segment vor einem Outro, das auf einen Re¬ frain folgt und mit dem das Stück beendet wird.
Ist das letzte Segment aus der ersten Segmentgruppe, dann werden alle Segmente dieser ersten (höchstwertigen) Seg¬ mentklasse als Refrain bezeichnet, wie es durch einen Block 41 in Fig. 4b dargestellt ist. Zusätzlich werden in diesem Fall alle Segmente der anderen Segmentklasse, die zur Aus¬ wahl steht, als „Strophe" gekennzeichnet, da typischerweise von den beiden Kandidaten-Segmentklassen eine Klasse der Refrain und damit unmittelbar die andere Klasse die Stro¬ phen haben wird.
Ergibt dagegen die Untersuchung im Block 40, nämlich welche Segmentklasse in der Auswahl das letzte Segment im Musik¬ stückverlauf hat, dass dies die zweite, also eher nieder- wertige Segmentklasse ist, so wird in einem Block 42 unter¬ sucht, ob die zweite Segmentklasse das erste Segment im Mu¬ sikstück hat. Diese Untersuchung basiert auf der Erkennt- nis, dass die Wahrscheinlichkeit sehr hoch ist, dass ein Lied mit einer Strophe, und nicht mit einem Refrain an¬ fängt.
Wird die Frage im Block 42 mit „Nein" beantwortet, hat also die zweite Segmentklasse nicht das erste Segment im Musik¬ stück, so wird die zweite SegmentkZLasse als Refrain be¬ zeichnet, und wird die erste Segmentkilasse als Strophe be¬ zeichnet, wie es in einem Block 43 angedeutet ist. Wird da¬ gegen die Abfrage im Block 42 mit „Ja^ beantwortet, so wird entgegen der Regel die zweite Segment«gruppe als Strophe und die erste Segmentgruppe als Refrain bezeichnet, wie es in einem Block 44 angedeutet ist. Die Bezeichnung im Block 44 geschieht deswegen, da die Wahrscheinlichkeit, dass die zweite Segmentklasse dem Refrain eatspricht, schon recht gering ist. Kommt nun noch die Unwahrscheinlichkeit hinzu, dass ein Musikstück mit einem Refrain eingeleitet wird, so deutet einiges auf einen Fehler im Clustering hin, z. B. dass das zuletzt betrachtete Segment fälschlicher Weise der zweiten Segmentklasse zugeordnet wurde.
In Fig. 4b wurde dargestellt, wie anhand von zwei zur Ver- fügung stehenden Segmentklassen die Strophe-/Refrain- Bestimmung durchgeführt worden ist. Nach dieser Strophe- /Refrain-Bestimmung können dann die restlichen Segmentklas¬ sen in einem Block 45 bezeichnet werden, wobei ein Outro gegebenenfalls die Segmentklasse sein wird, die das letzte Segment des Stücks an sich hat, während ein Intro die Seg¬ mentklasse sein wird, die das erste Segment eines Stücks an sich hat.
Nachfolgend wird anhand von Fig. 4a dargestellt, wie die beiden Segmentklassen ermittelt werden, die die Kandidaten für den in Fig. 4b gezeigten Algorithmus abgeben.
Allgemein wird im Labeling eine Zuweisung der Label „Stro¬ phe" und „Refrain" durchgeführt, wobei eine Segmentgruppe als Strophen-Segmentgruppe markiert wird, während die ande¬ re Segmentgruppe als Refrain-Segmentgruppe markiert wird. Grundsätzlich basiert dieses Konzept auf der Annahme (Al) , dass die beiden Cluster (Segmentgruppen) mit den höchsten Ähnlichkeitswerten, also Cluster 1 und Cluster 2, den Re- frain- und Strophenclustern entsprechen. Das von diesen beiden Clustern als letztes auftretende ist das Refrain- Cluster, wobei davon ausgegangen wird, dass eine Strophe auf einen Refrain folgt.
Die Erfahrung aus zahlreichen Tests hat gezeigt, dass Cluster 1 in den meisten Fällen dem Refrain entspricht. Für Cluster 2 wird die Annahme (Al) jedoch oftmals nicht er¬ füllt. Diese Situation tritt meistens dann auf, wenn es entweder noch einen dritten, sich häufig wiederholenden Teil im Stück gibt, z. B. eine Bridge, bei einer hohen Ähn¬ lichkeit von Intro und Outro, oder aber für den nicht sel¬ ten auftretenden Fall, dass ein Segment im Stück eine hohe Ähnlichkeit zum Refrain aufweist, somit auch eine hohe Ge- samtähnlichkeit hat, die Ähnlichkeit zum Refrain aber gera¬ de nicht groß genug ist, um noch zum Cluster 1 zu gehören.
Untersuchungen haben gezeigt, dass diese Situation häufig für Abwandlungen des Refrains am Ende des Stücks auftritt. Um mit möglichst hoher Sicherheit Refrain und Strophe rich¬ tig zu markieren (labein) , wird die in Fig. 4b beschriebene Segmentauswahl dahingehend verbessert, dass, wie es in Fig. 4a dargestellt wird, die beiden Kandidaten für die Strophe- Refrain-Auswahl abhängig von den in denselben vorhandenen Segmenten bestimmt wird.
Zunächst wird in einem Schritt 46 der Cluster bzw. die Seg¬ mentgruppe mit höchstem Ähnlichkeitswert (Wert der Kompo- nente von V, die einmal ein Maximum für die zuerst bestimm¬ te Segmentklasse, also Segment 7 bei dem Beispiel von Fig. 7, war) , also die Segmentgruppe, die beim ersten Durchlauf von Fig. 1 ermittelt worden ist, in die Strophe-Refrain- Auswahl als erster Kandidat einbezogen.
Fraglich ist nunmehr, welche weitere Segmentgruppe der zweite Teilnehmer an der Strophe-Refrain-Auswahl sein wird. Der wahrscheinlichste Kandidat ist die zweithöchste Seg¬ mentklasse, also die Segmentklasse, die beim zweiten Durch- lauf durch das in Fig. 1 beschriebene Konzept gefunden wird. Dies muß jedoch nicht immer so sein. Daher wird zu¬ nächst für die zweithöchste Segmentklasse (Segment 5 in Fig. I)1 also Cluster 2 überprüft, ob diese Klasse nur ein einziges Segment oder genau zwei Segment hat, wobei eines der beiden Segmente das erste Segment ist und das andere Segment der beiden das letzte Segment im Lied ist (Block 47) .
Wird die Frage dagegen mit „Nein" beantwortet, hat die zweithöchste Segmentklasse also z. B. wenigstens drei Seg¬ mente, oder zwei Segmente, von denen eines innerhalb des Stücks und nicht am „Rand" des Stücks ist, so bleibt die zweite Segmentklasse vorerst in der Auswahl und wird fortan als „Second Cluster" bezeichnet.
Wird die Frage im Block 47 dagegen mit „Ja" beantwortet, scheidet die zweithöchste Klasse also aus (Block 48a) , so wird sie durch die Segmentklasse ersetzt, die am häufigsten im gesamten Lied vorkommt (anders ausgedrückt: die am meis¬ ten Segmente beinhaltet) und nicht der höchsten Segment¬ klasse (Cluster 1) entspricht. Diese Segmentklasse wird fortan als „Second Cluster" bezeichnet.
„Second Cluster" muss sich, wie es nachfolgend dargelegt wird, noch mit einer dritten Segmentklasse messen (48b), welche als „Third Cluster" bezeichnet wird, um am Ende als Kandidat den Auswahlprozess zu überstehen.
Die Segmentklasse „Third Cluster" entspricht dem Cluster, welcher am häufigsten im gesamten Lied vorkommt, jedoch we¬ der der höchsten Segmentklasse (Cluster 1) noch der Seg- mentklasse „Second Cluster" entspricht, sozusagen das am nächsthäufigsten (oftmals auch gleich häufig) ' vorkommende Cluster nach Cluster 1 und „Second Cluster" .
Hinsichtlich der so genannten Bridge-Problematik wird nun für „Third Cluster" überprüft, ob es eher in die Strophe- Refrain-Auswahl gehört als „Second Cluster" oder nicht. Dies geschieht deshalb, da „Second Cluster" und „Third Cluster" oftmals gleich oft vorkommen, eins von beiden also evtl. eine Bridge oder ein anderes wiederkehrendes Zwi- schenteil darstellt. Um zu gewährleisten, dass die Segment¬ klasse von den beiden ausgewählt wird, die am ehesten der Strophe oder dem Refrain entspricht, also nicht einer Bridge oder einem anderen Zwischenstück, werden die in den Blöcken 49a, 49b, 49c dargestellten Untersuchungen durchge- führt.
Die erste Untersuchung in Block 49a lautet dahingehend, dass untersucht wird, ob jedes Segment aus ThirdCluster ei- ne gewisse Mindestlänge hat, wobei als Schwellwert z. B. 4% der gesamten Liedlänge bevorzugt wird. Andere Werte zwi¬ schen 2% und 10% können ebenfalls zu sinnvollen Ergebnissen führen.
In einem Block 49b wird dann untersucht, ob ThirdCluster einen größeren Gesamtanteil am Lied hat als SecondCluster. Hierzu wird die Gesamtzeit aller Segmente in ThirdCluster aufaddiert und mit der entsprechend aufaddierten Gesamtzahl aller Segmente in SecondCluster verglichen, wobei dann ThirdCluster einen größeren Gesamtanteil am Lied als Se¬ condCluster hat, wenn die aufaddierten Segmente in ThirdC¬ luster einen größeren Wert ergeben als die aufaddierten Segmente in SecondCluster.
In dem Block 49c wird schließlich überprüft, ob der Abstand der Segmente aus ThirdCluster zu den Segmenten aus Cluster 1, also dem häufigsten Cluster konstant sind, d. h. ob eine Regelmäßigkeit in der Abfolge ersichtlich ist.
Sind alle diese drei Bedingungen mit „Ja" beantwortet, so kommt ThirdCluster in die Strophe-Refrain-Auswahl. Ist da¬ gegen wenigstens eine dieser Bedingungen nicht erfüllt, so kommt ThirdCluster nicht in die Strophe-Refrain-Auswahl. Statt dessen kommt SecondCluster in die Strophe-Refrain- Auswahl, wie es durch einen Block 50 in Fig. 4a dargestellt ist. Damit ist die „Kandidatensuche" für die Strophe- Refrain-Auswahl beendet, und es wird der in Fig. 4b gezeig¬ te Algorithmus gestartet, bei dem am Ende feststeht, welche Segmentklasse die Strophen umfasst, und welche Segmentklas¬ se den Refrain umfasst.
An dieser Stelle sei darauf hingewiesen, dass die drei Be¬ dingungen in den Blöcken 49a, 49b, 49c alternativ auch ge- wichtet werden könnten, so dass z. B. eine Nein-Antwort im Block 49a dann „überstimmt" wird, wenn sowohl die Abfrage im Block 49b als auch die Abfrage im Block 49c mit „Ja" be¬ antwortet werden. Alternativ könnte auch eine Bedingung der drei Bedingungen hervorgehoben werden, so dass z. B. nur untersucht wird, ob es die Regelmäßigkeit der Abfolge zwischen der dritten Segmentklasse und der ersten Segment¬ klasse gibt, während die Abfragen in den Blöcken 49a und 49b nicht durchgeführt werden oder nur dann durchgeführt werden, wenn die Abfrage im Block 49c mit „Nein" beantwor¬ tet wird, jedoch z . B. ein relativ großer Gesamtanteil im Block 49b und relativ große Mindestmengen im Block 49a er¬ mittelt werden.
Alternative Kombinationen sind ebenfalls möglich, wobei für eine Low-Level-Üntersuchung auch nur die Abfrage eines der Blöcke 49a, 49b, 49c für bestimmte Implementierungen aus¬ reichend sein wird.
Nachfolgend werden beispielhafte Implementierungen des Blocks 526 zum Durchführen einer Music-Summary dargelegt. So existieren verschiedene Möglichkeiten, was als Music Summary abgespeichert werden kann. Zwei davon werden nach- folgend beschrieben, nämlich die Möglichkeit mit dem Titel „Refrain" und die Möglichkeit mit dem Titel „Medley".
Die Refrain-Möglicrikeit besteht darin, eine Version des Re¬ frains als Summary zu wählen. Hierbei wird versucht, eine Ausführung des Refxains zu wählen, die möglichst zwischen 20 und 30 Sekunden lang ist. Ist ein Segment mit einer sol¬ chen Länge im Refrain-Cluster nicht enthalten, so wird eine Version gewählt, die eine möglichst geringe Abweichung zu einer Länge von 25 Sekunden hat. Ist der gewählte Refrain länger als 30 Sekunden, wird er bei diesem Ausführungsbei¬ spiel über 30 Sekunden ausgeblendet und ist er kürzer als 20 Sekunden, so w±rd er mit dem darauf folgenden Segment auf 30 Sekunden verlängert.
Das Abspeichern eines Medleys für die zweite Möglichkeit entspricht noch eher einer tatsächlichen Zusammenfassung eines Musikstücks. Hierbei werden ein Ausschnitt der Stro¬ phe, ein Ausschnitt des Refrains und ein Ausschnitt eines dritten Segments in ihrer tatsächlichen chronologischen Reihenfolge als Medley konstruiert. Das dritte Segment wird aus einem Cluster ausgewählt, das den größten Gesamtanteil am Lied hat und nicht Strophe oder Refrain ist.
Mit folgender Priorität wird nach der geeignetsten Abfolge der Segmente gesucht:
- „drittes Segment"-Strophe-Refrain;
- Strophe-Refrain-,,drittes Segment"; oder
- Strophe-,,drittes Segment"~Refrain.
Die gewählten Segmente werden nicht in ihrer vollen Länge in des Medley eingebaut. Die Länge ist vorzugsweise auf feste 10 Sekunden pro Segment festgelegt, damit insgesamt wieder eine Summary von 30 Sekunden entsteht. Alternative Werte sind jedoch ebenfalls ohne weiteres realisierbar.
Vorzugsweise wird zur Rechenzeiteinsparung nach der Merk¬ malsextraktion im Block 502 bzw. nach dem Block 508 eine Gruppierung mehrerer Merkmalsvektoren im Block 510 durchge¬ führt, indem ein Mittelwert über die gruppierten Merkmals- vektoren gebildet wird. Die Gruppierung kann im nächsten. Verarbeitungsschritt, der Berechnung der Ähnlichkeitsmat¬ rix, Rechenzeit einsparen. Zur Berechnung der Ähnlichkeits— matrix wird zwischen allen möglichen Kombinationen von j& zwei Merkmalsvektoren eine Distanz ermittelt. Daraus erge— ben sich bei n Vektoren über das gesamte Stück n x n Be¬ rechnungen. Ein Gruppierungsfaktor g gibt an, wie viele; aufeinander folgende Merkmalsvektoren über die Mittelwert— bildung zu einem Vektor gruppiert werden. Dadurch kann die Anzahl der Berechnungen reduziert werden.
Die Gruppierung ist auch eine Art von Rauschunterdrückungr bei der kleine Änderungen in der Merkmalsausprägung von aufeinander folgenden Vektoren im Mittel kompensiert wer— den. Diese Eigenschaft hat eine positive Auswirkung auf das Auffinden von großen Liedstrukturen.
Das erfindungsgemäße Konzept ermöglicht es, mittels eines speziellen Music-Players durch die berechneten Segmente zu navigieren und gezielt einzelne Segmente anzuwählen, so dass ein Konsument in einem Musikladen durch beispielsweise Drücken einer bestimmten Taste oder durch Aktivieren eines bestimmten Software-Befehls ohne weiteres sofort zum Re- frain eines Stücks springen kann, um festzustellen, ob der Refrain ihm gefällt, um dann, vielleicht noch eine Strophe anzuhören, damit der Konsument schließlich eine Kaufent¬ scheidung treffen kann. Damit ist es einem Kaufinteressen- ten komfortabel möglich, von einem Stück genau das zu hö- ren, was ihn besonders interessiert, während er sich z. B. das Solo oder die Bridge dann tatsächlich für den Hörgenuss zu Hause aufsparen kann.
Alternativ ist das erfindungsgemäße Konzept auch für einen Musikladen von großem Vorteil, da der Kunde gezielt und da¬ mit auch schnell reinhören und letztendlich kaufen kann, so dass die Kunden nicht lange auf ein Reinhören warten müs¬ sen, sondern ebenfalls schnell an die Reihe kommen. Dies liegt daran, dass ein Benutzer nicht ständig hin- und her- spulen muss, sondern gezielt und schnell sämtliche Informa¬ tionen des Stücks erhält, die er auch haben möchte.
Ferner sei auf einen wesentlichen Vorteil des erfindungsge¬ mäßen Konzepts hingewiesen, nämlich dass insbesondere auf Grund der Nachkorrektur der Segmentierung keine Informatio¬ nen des Stücks verloren gehen. So werden zwar alle Segmen¬ te, die vorzugsweise kürzer als 6 Sekunden sind, mit dem Vorgänger- oder Nachfolger-Segment verschmolzen. Allerdings werden keine Segmente, so kurz sie auch sind, eliminiert. Dies hat den Vorteil, dass der Benutzer prinzipiell alles im Stück anhören kann, so dass ein zwar kurzes aber einem Benutzer doch sehr gut gefallendes markantes Stück, das bei einer Segmentierungs-Nachkorrektur weggefallen wäre, die tatsächlich einen Abschnitt des Stücks komplett eliminiert hätte, dennoch dem Benutzer zur Verfügung steht, damit er vielleicht gerade aufgrund des kurzen markanten Stücks eine wohl überlegte KaufentScheidung treffen kann.
Die vorliegende Erfindung ist jedoch auch in anderen Anwen¬ dungsszenarien anwendbar, beispielsweise beim Werbe- Monitoring, also dort, wo ein Werbekunde überprüfen möchte, ob das Audiostück, für das er Werbezeit gekauft hat, auch tatsächlich über die gesamte Länge abgespielt worden ist. Ein Audiostück kann beispielsweise Musiksegmente, Sprecher¬ segmente, und Geräuschsegmente umfassen. Der Segmentie¬ rungsalgorithmus, also die Segmentierung und nachfolgende Einordnung in Segmentgruppen ermöglicht dann eine schnelle und wesentlich weniger aufwendige Überprüfung als ein kom¬ pletter Sample-weiser Vergleich. Die effiziente Überprüfung würde einfach in einer Segmentklassen-Statistik bestehen, also einem Vergleich, wie viel Segmentklassen gefunden wor¬ den sind, und wie viel Segmente in den einzelnen Segment- klassen sind, mit einer Vorgabe aufgrund des idealen Werbe¬ stücks. Damit ist es einem Werbekunden ohne weiteres mög¬ lich, zu erkennen, ob ein Rundfunksender oder Fernsehsender tatsächlich alle Hauptteile (Abschnitte) des Werbesignals ausgestrahlt hat oder nicht.
Die vorliegende Erfindung ist ferner dahingehend von Vor¬ teil, dass sie zur Recherche in großen Musikdatenbanken eingesetzt werden kann, um beispielsweise nur die Refrains von vielen Musikstücken durchzuhören, um danach eine Musik- programmauswahl durchzuführen. In diesem Fall würden nur einzelne Segmente aus der mit „Refrain" markierten Segment¬ klasse von vielen verschiedenen Stücken ausgewählt werden und von einem Programmanbieter bereitgestellt werden. Al¬ ternativ könnte auch ein Interesse dahingehend bestehen, von einem Interpreten alle z. B. Gitarrensolos miteinander zu vergleichen. Erfindungsgemäß können diese ebenfalls ohne weiteres bereitgestellt werden, indem immer eines oder meh¬ rere Segmente (falls vorhanden) in der mit „Solo" bezeich- neten Segmentklasse aus einer großen Anzahl von Musikstü¬ cken z. B. zusammengefügt und als ein File bereitgestellt werden.
Wieder andere Anwendungsmöglichkeiten bestehen darin, aus verschiedenen Audiostücken Strophen und Refrains zu mi¬ schen, was insbesondere für DJs von Interesse sein wird und völlig neue Möglichkeiten der kreativen Musiksynthese er¬ öffnet, welche einfach und vor allem automatisch zielgenau durchgeführt werden können. So ist das erfindungsgemäße Konzept ohne weiteres automatisierbar, da es an keiner Stelle eine Benutzerintervention erfordert. Dies bedeutet, dass Nutzer des erfindungsgemäßen Konzepts keineswegs eine besondere Ausbildung benötigen, außer z. B. eine übliche Geschicktheit im Umgang mit normalen Software- Benutzeroberflächen.
Je nach den praktischen Gegebenheiten kann das erfindungs¬ gemäße Konzept in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Spei¬ chermedium, insbesondere einer Diskette oder CD mit elekt¬ ronisch auslesbaren Steuersignalen erfolgen, die so mit ei¬ nem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogramm- produkt mit einem auf einem maschinenlesbaren Träger ge¬ speicherten Programmcode zur Durchführung des erfindungsge¬ mäßen Verfahrens, wenn das Computerprogrammprodukt auf ei¬ nem Rechner abläuft. In anderen Worten ausgedrückt stellt die Erfindung somit ein Computerprogramm mit einem Pro¬ grammcode zur Durchführen des Verfahrens dar, wenn das Com¬ puterprogramm auf einem Computer abläuft.

Claims

Patentansprüche
1. Vorrichtung zum Gruppieren von zeitlichen Segmenten eines Audiostücks, das in in dem Audiostück wiederholt auftretende Hauptteile gegliedert ist, in verschiedene Segmentklassen, wobei eine Segmentklasse einem Haupt¬ teil zugeordnet ist, mit folgenden Merkmalen:
einer Einrichtung (10) zum Bereitstellen einer Ähn- lichkeitsdarstellung für die Segmente, wobei die Ähn¬ lichkeitsdarstellung für jedes Segment eine zugeordne¬ te Mehrzahl von Ähnlichkeitswerten aufweist, wobei die Ähnlichkeitswerte angeben, wie ähnlich das Segment zu jedem anderen Segment des Audiostücks ist;
einer Einrichtung (12) zum Berechnen eines Ähnlich- keits-Schwellwerts für ein Segment unter Verwendung der Mehrzahl der Ähnlichkeitswerte, die dem Segment zugeordnet sind; und
einer Einrichtung (14) zum Zuweisen eines Segments zu einer Segmentklasse, wenn der Ähnlichkeitswert des Segments eine vorbestimmte Bedingung bezüglich des Ähnlichkeits-Schwellwerts erfüllt.
2. Vorrichtung nach Anspruch 1, die ferner folgendes Merkmal aufweist:
eine Segmentauswahleinrichtung (16) zum Ermitteln ei- nes Extrem-Segments, dessen zugeordnete Mehrzahl von Ähnlichkeitswerten zusammen betrachtet ein Extremum aufweist,
wobei die Einrichtung (12) zum Berechnen ausgebildet ist, um für das Extremsegment den Ähnlichkeits- Schwellwert zu berechnen, und wobei die Einrichtung (14) zum Zuweisen ausgebildet ist, um die Segmentklasse mit einem Hinweis auf das Extremsegment zu kennzeichnen.
3. Vorrichtung nach Anspruch 1 oder 2, bei der die Ein¬ richtung (14) zum Zuweisen ausgebildet ist, um ein Segment, das die vorbestimmte Bedingung bezüglich des Ähnlichkeits-Schwellwerts nicht erfüllt, der Segment¬ klasse nicht zuzuordnen sondern für eine Zuordnung zu einer anderen Segmentklasse zu belassen, und
wobei die Einrichtung (14) zum Zuweisen ausgebildet ist, um für ein zugeordnetes Segment den Ähnlichkeits¬ wert des zugeordneten Segments bei einer Zuweisung zu einer anderen Segmentklasse nicht mehr zu berücksich¬ tigen.
4. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Berechnen des Ähn- lichkeits-Schwellwerts in einem späteren Durchgang ausgebildet ist, um nach einer früheren Zuweisung ei¬ ner Segmentklasse Ähnlichkeitswerte für früher zuge¬ wiesene Segmente in der Mehrzahl von Ähnlichkeitswer¬ ten zu ignorieren, und
bei der die Einrichtung (14) zum Zuweisen ausgebildet ist, um in einem späteren Durchgang eine Zuweisung zu einer anderen Segmentklasse als der Segmentklasse bei einem früheren Durchgang auszuführen.
5. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist:
eine Segmentzuweisungskonflikteinrichtung (18), die ausgebildet ist, um in dem Fall, in dem durch die Ein¬ richtung (14) zum Zuweisen ein Konfliktsegment zu zwei verschiedenen Segmentklassen zugeordnet werden sollte, einen ersten Ähnlichkeitswert des Konfliktsegments mit einem Segment einer ersten Segmentklasse zu ermitteln, und um einen zweiten Ähnlichkeitswert des Konfliktseg¬ ments mit einem Segment einer zweiten Segmentklasse zu ermitteln, und
wobei die Einrichtung (14) zum Zuweisen ausgebildet ist, um in dem Fall, in dem der zweite Ähnlichkeits¬ wert auf eine stärkere Ähnlichkeit des Konfliktseg¬ ments mit dem Segment der zweiten Segmentklasse hin- weist, das Konfliktsegment aus der ersten Segmentklas¬ se zu entfernen und der zweiten Segmentklasse zuzuwei¬ sen.
6. Vorrichtung nach Anspruch 5, bei der die Segmentzuwei- sungskonflikteinrichtung (18) ausgebildet ist, um im
Falle einer Entfernung des Segments aus der ersten Segmentklasse dem Segment eine Tendenz auf die erste Segmentklasse zuzuweisen, oder um im Falle einer nicht erfolgten Entfernung des Segments dem Segment eine Tendenz auf die zweite Segmentklasse zuzuweisen.
7. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist:
eine Segmentierungskorrektureinrichtung (20) , die aus¬ gebildet ist, um eine Segmentierung des Audiostücks zu korrigieren, wobei die Segmentierungskorrektureinrich¬ tung (20) ausgebildet ist, um Segmente abhängig von Segmentklasseninformationen für die Segmente mit einem vorangehenden Segment oder einem nachfolgenden Segment zu verschmelzen.
8. Vorrichtung nach Anspruch 7, bei der die Segmentie¬ rungskorrektureinrichtung (20) ausgebildet ist, um für ein Segment, das kürzer als eine vorbestimmte Minimal¬ länge ist, festzustellen, ob eine Tendenz des Segments mit einer Segmentklasse übereinstimmt, der ein unmit¬ telbar zeitlich vorausgehendes Segment angehört, und um in diesem Fall das Segment mit dem zeitlich unmit¬ telbar vorausgehenden Segment zu verschmelzen, oder die ausgebildet ist, um für ein Segment, das kürzer als eine vorbestimmte Minimallänge ist, festzustellen, ob eine Tendenz des Segments auf eine Segmentklasse hinweist, der ein zeitlich unmittelbar nachfolgendes Segment angehört, und um in diesem Fall das Segment mit dem zeitlich unmittelbar nachfolgenden Segment zu verschmelzen.
9. Vorrichtung nach einem der vorhergehenden Ansprüche, die eine Segmentierungskorrektureinrichtung (20) auf¬ weist, die ausgebildet ist, um zeitlich aufeinander folgende Segmente, die der gleichen Segmentklasse an- gehören, zu verschmelzen.
10. Vorrichtung nach einem der Ansprüche 6 bis 9, bei der die Segmentierungskorrektureinrichtung (20) ausgebil¬ det ist, um zum Korrigieren der Segmente lediglich Segmente auszuwählen, die eine zeitliche Segmentlänge haben, die kürzer als eine vorbestimmte Minimallänge -Lst.
11. Vorrichtung nach Anspruch 10, bei der die Segmentie- rrungskorrektureinrichtung (20) ausgebildet ist, um ein ausgewähltes Segment aus einer zweiten Segmentklasse, dessen zeitliches Vorläufersegment, und dessen zeitli¬ ches Nachfolgersegment einer ersten Segmentklasse an¬ gehören, mit dem Vorgänger-Segment und dem Nachfolger- Segment zu verschmelzen.
12. Vorrichtung nach Anspruch 10 oder 11, bei der die Seg¬ mentierungskorrektureinrichtung (20) ausgebildet ist, um ein Segment, das in einer Segmentklasse ist, die nur ein einziges Segment umfasst, mit dem vorausgehen¬ den Segment oder dem nachfolgenden Segment zu ver¬ schmelzen.
13. Vorrichtung nach Anspruch 10, 11 oder 12, bei der die Segmentierungskorrektureinrichtung (20) ausgebildet ist, um mehrere ausgewählte Segmente, die in derselben Segmentklasse sind, mit jeweils einem zeitlich voraus- gehenden Segment oder jeweils einem zeitlich nachfol¬ genden Segment zu verschmelzen, wenn sämtliche ausge¬ wählten Segmente der Segmentklasse Vorläufer-Segmente aus ein und derselben Segmentklasse oder Nachfolger- Segmente aus ein und derselben Segmentklasse umfassen.
14. Vorrichtung nach einem der Ansprüche 7 bis 13, bei der die Segmentierungskorrektureinrichtung ausgebildet ist, um für ein Segment, das eine kleinere zeitliche Länge als eine vorbestimmte Minimallänge aufweist, ei- nen ersten Neuheitswert an einem Anfang des Segments zu ermitteln, und einen zweiten Neuheitswert an einem Ende des Segments zu ermitteln, und um das Segment mit einem zeitlich folgenden Segment zu verschmelzen, wenn der erste Neuheitswert größer als der zweite Neuheits- ' wert ist, oder um das Segment mit einem zeitlich vor¬ hergehenden Segment zu verschmelzen, wenn der erste Neuheitswert kleiner als der zweite Neuheitswert ist.
15. Vorrichtung nach einem der Ansprüche 7 bis 14, bei der die Segmentierungskorrektureinrrichtung (20) ausgebil¬ det ist, um abhängig von verschiedenen vorbestimmten Segmentlängen verschiedene Korrrekturmaßnahmen durchzu¬ führen.
16. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner eine Segmentklassen—Bezeichnungseinrichtung aufweist, die ausgebildet ist, um abhängig von einer zeitlichen Position von Segmenten in verschiedenen Segmentklassen eine Bezeichnung von Segmentklassen zu unterschiedlichen Hauptteilen durchzuführen.
17. Vorrichtung nach Anspruch 16, bei der die Segmentklas¬ sen-Bezeichnungseinrichtung (22) ausgebildet ist, um vor einer Segmentklassen-Bezeichnung in einen Haupt¬ teil „Strophe" und in einen Hauptteil „Refrain" zwei Segmentklassen-Kandidaten zur Berücksichtigung der Segmente in den Segmentklassen auszuwählen.
18. Vorrichtung nach Anspruch 16 oder 17, bei der die Seg¬ mentklassen-Bezeichnungseinrichtung (22) ausgebildet ist, um eine Kandidaten-Segmentklasse als Refrain- Klasse zu bezeichnen, wenn die Kandidaten- Segmentklasse das Segment umfasst, das in dem Audio¬ stück zeitlich nach allen anderen Segmenten der ande¬ ren Kandidaten-Segmentklasse vorkommt.
19. Vorrichtung nach einem der Anspruch 16 bis 18, bei der Segmentklassen-Bezeichnungseinrichtung (22) ausgebil¬ det ist, um eine Kandidaten-Segmentklasse als Strophe- Klasse zu bezeichnen, wenn die Kandidaten- Segmentklasse nicht das Segment umfasst, das in dem Audiostück zeitlich nach allen anderen Segmenten der anderen Kandidaten-Segmentklasse vorkommt.
20. Verfahren zum Gruppieren von zeitlichen Segmenten ei¬ nes Audiostücks, das in in dem Audiostück wiederholt auftretende Hauptteile gegliedert ist, in verschiedene Segmentklassen, wobei eine Segmentklasse einem Haupt¬ teil zugeordnet ist, mit folgenden Schritten:
Bereitstellen (10) einer Ähnlichkeitsdarstellung für die Segmente, wobei die Ähnlichkeitsdarstellung für jedes Segment eine zugeordnete Mehrzahl von Ähnlich¬ keitswerten aufweist, wobei die Ähnlichkeitswerte an¬ geben, wie ähnlich das Segment zu jedem anderen Seg¬ ment des Audiostücks ist;
Berechnen (12) eines Ähnlichkeits-Schwellwerts für ein Segment unter Verwendung der Mehrzahl der Ähnlich¬ keitswerte, die dem Segment zugeordnet sind; und Zuweisen (14) eines Segments zu einer Segmentklasse, wenn der Ähnlichkeitswert des Segments eine vorbe¬ stimmte Bedingung bezüglich des Ähnlichkeits- Schwellwerts erfüllt.
21. Computer-Programm mit einem Programmcode zum Ausführen des Verfahrens nach Patentanspruch 20, wenn das Compu¬ ter-Programm auf einem Rechner läuft.
EP05760763.2A 2004-09-28 2005-07-15 Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks Not-in-force EP1794743B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004047068A DE102004047068A1 (de) 2004-09-28 2004-09-28 Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks
PCT/EP2005/007751 WO2006034743A1 (de) 2004-09-28 2005-07-15 Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks

Publications (2)

Publication Number Publication Date
EP1794743A1 true EP1794743A1 (de) 2007-06-13
EP1794743B1 EP1794743B1 (de) 2013-04-24

Family

ID=35005745

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05760763.2A Not-in-force EP1794743B1 (de) 2004-09-28 2005-07-15 Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks

Country Status (4)

Country Link
EP (1) EP1794743B1 (de)
JP (1) JP4775380B2 (de)
DE (1) DE102004047068A1 (de)
WO (1) WO2006034743A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4948118B2 (ja) 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4906565B2 (ja) * 2007-04-06 2012-03-28 アルパイン株式会社 メロディー推定方法及びメロディー推定装置
JP5083951B2 (ja) * 2007-07-13 2012-11-28 学校法人早稲田大学 音声処理装置およびプログラム
EP2180463A1 (de) * 2008-10-22 2010-04-28 Stefan M. Oertl Verfahren zur Erkennung von Notenmustern in Musikstücken
WO2016152132A1 (ja) * 2015-03-25 2016-09-29 日本電気株式会社 音声処理装置、音声処理システム、音声処理方法、および記録媒体
WO2017168644A1 (ja) 2016-03-30 2017-10-05 Pioneer DJ株式会社 楽曲展開解析装置、楽曲展開解析方法および楽曲展開解析プログラム
JPWO2017195292A1 (ja) * 2016-05-11 2019-03-07 Pioneer DJ株式会社 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム
CN109979418B (zh) * 2019-03-06 2022-11-29 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
WO2004038694A1 (ja) * 2002-10-24 2004-05-06 National Institute Of Advanced Industrial Science And Technology 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法
JP4243682B2 (ja) * 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP4203308B2 (ja) * 2002-12-04 2008-12-24 パイオニア株式会社 楽曲構造検出装置及び方法
JP4079260B2 (ja) * 2002-12-24 2008-04-23 独立行政法人科学技術振興機構 楽曲ミキシング装置、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2006034743A1 *

Also Published As

Publication number Publication date
JP2008515012A (ja) 2008-05-08
WO2006034743A1 (de) 2006-04-06
DE102004047068A1 (de) 2006-04-06
JP4775380B2 (ja) 2011-09-21
EP1794743B1 (de) 2013-04-24

Similar Documents

Publication Publication Date Title
EP1794745B1 (de) Vorrichtung und verfahren zum ändern einer segmentierung eines audiostücks
EP1774527B1 (de) Vorrichtung und verfahren zum bezeichnen von verschiedenen segmentklassen
EP1794743B1 (de) Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks
EP1523719B1 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
EP2351017B1 (de) Verfahren zur erkennung von notenmustern in musikstücken
EP1745464B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
DE60120417T2 (de) Verfahren zur suche in einer audiodatenbank
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
EP1797552B1 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE10123366C1 (de) Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
WO2006039995A1 (de) Verfahren und vorrichtung zur harmonischen aufbereitung einer melodielinie
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE102004049478A1 (de) Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments
DE102004049517B4 (de) Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
EP1671315B1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
WO2009013144A1 (de) Verfahren zur bestimmung einer ähnlichkeit, vorrichtung und verwendung hierfür
WO2005114651A1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20070301

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GRACENOTE, INC.

17Q First examination report despatched

Effective date: 20100729

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: SONY CORPORATION

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 609032

Country of ref document: AT

Kind code of ref document: T

Effective date: 20130515

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502005013660

Country of ref document: DE

Effective date: 20130620

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20130424

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130826

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130824

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130725

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130804

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130724

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

BERE Be: lapsed

Owner name: SONY CORP.

Effective date: 20130731

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20130724

26N No opposition filed

Effective date: 20140127

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20140331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130731

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130731

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130724

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130731

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502005013660

Country of ref document: DE

Effective date: 20140127

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130731

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130715

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 609032

Country of ref document: AT

Kind code of ref document: T

Effective date: 20130715

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20140721

Year of fee payment: 10

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130715

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20130424

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20050715

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130715

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502005013660

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160202