EP1794743B1 - Device and method for arranging in groups temporal segments of a piece of music - Google Patents
Device and method for arranging in groups temporal segments of a piece of music Download PDFInfo
- Publication number
- EP1794743B1 EP1794743B1 EP05760763.2A EP05760763A EP1794743B1 EP 1794743 B1 EP1794743 B1 EP 1794743B1 EP 05760763 A EP05760763 A EP 05760763A EP 1794743 B1 EP1794743 B1 EP 1794743B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- segment
- class
- similarity
- segments
- designed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Not-in-force
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
Definitions
- the present invention relates to audio segmentation, and more particularly to the analysis of pieces of music on the individual major parts contained in the pieces of music which may occur repeatedly in the piece of music.
- Rock and pop music mostly consists of more or less distinct segments, such as intro, verse, chorus, bridge, outro, etc. Detecting the start and end times of such segments and the segments according to their affiliation to the most important classes ( Stanza and chorus) is the target of audio segmentation. Correct segmentation and labeling of the calculated segments can be usefully used in different areas. For example, pieces of music from online providers, such as Amazon, Musicline, etc., can be intelligently "played”.
- Another application example of the technique of audio segmentation is to integrate the segmentation / grouping / marking algorithm into a music player.
- the information about segment beginnings and segment ends enables the targeted navigation through a piece of music. Due to the class affiliation of the segments, ie whether a segment is a verse, a chorus, etc., z. B. also jump directly to the next chorus or the next stanza.
- Such an application is of interest to large music markets, offering their customers the opportunity to listen to complete albums. This saves the customer the annoying, searching fast-forward to characteristic parts in the song, which might perhaps cause him to actually buy a piece of music in the end.
- a WAV file 500 is provided.
- a feature extraction then takes place, as a feature, extracting the spectral coefficients per se or, alternatively, the mel frequency cepstral coefficients (MFCCs).
- MFCCs mel frequency cepstral coefficients
- STFT short-term Fourier transform
- STFT short-term Fourier transform
- the MFCC features are then extracted in the spectral range.
- the extracted features are then stored in a memory 504.
- the feature extraction algorithm now has a segmentation algorithm that ends in a similarity matrix, as shown in block 506.
- the feature matrix is read in (508), to then group feature vectors (510), and then build a similarity matrix based on the grouped feature vectors, which consists of a distance measurement between each of all features.
- all pairs of audio window pairs are compared using a quantitative similarity measure, distance.
- the structure of the similarity matrix is in Fig. 8 shown. So is in Fig. 8 the music piece is represented as stream or stream 800 of audio samples. The audio piece is windowed as it has been executed, with a first window labeled i and a second window labeled j. Overall, the audio piece has z. B. K windows. This means that the similarity matrix has K rows and K columns. Then, for each window i and for each window j, a similarity measure to each other is calculated, and the calculated similarity measure or distance measure D (i, j) is input to the row or column designated by i and j in the similarity matrix. One column therefore shows the similarity of the window designated by j to all other audio windows in the piece of music.
- the similarity of the window j to the very first window of the piece of music would then be in the column j and in the line 1.
- the similarity of the window j to the second window of the piece of music would then be in the column j, but now in the line 2.
- the similarity of the second window to the first window in the second column of the matrix and in the first row of the matrix would then be in the column j and in the line 1.
- the matrix is redundant in that it is symmetric to the diagonal, and that on the diagonal the similarity of a window is to itself, which is the trivial case of 100% similarity.
- FIG. 6 An example of a similarity matrix of a piece is in Fig. 6 to see.
- the completely symmetrical structure of the matrix with respect to the main diagonal is recognizable, whereby the main diagonal is visible as a light stripe.
- the main diagonal is not to be seen as a lighter solid line, but off Fig. 6 only approximately recognizable.
- FIG. 6 A kernel correlation 512 is performed on a kernel matrix 514 to obtain a novelty measure, also known as a novelty score, that could be averaged and smoothed into Fig. 9 is shown.
- the smoothing of this Novelty Score is in Fig. 5 schematically represented by a block 516.
- the segment boundaries are read using the smoothed novelty value trace, whereupon the local maxima in the smoothed novelty curve must be determined and possibly even shifted by a constant number of samples caused by the smoothing to actually represent the correct segment boundaries of the audio piece as absolute or relative time.
- FIG. 7 An example of a segment similarity matrix is in Fig. 7 shown.
- the similarity matrix in Fig. 7 is basically similar to the feature similarity matrix of Fig. 6 , but now not more, as in Fig. 6
- Features are used in windows, but features from a whole segment.
- the segment similarity matrix has a similar meaning to the feature similarity matrix, but with a much coarser resolution, which of course is desired when considering that window lengths are in the order of 0.05 seconds while reasonably long segments are in the order of perhaps 10 seconds of a piece ,
- a clustering is carried out, ie an arrangement of the segments into segment classes (an arrangement of similar segments in the same segment class), in order then to mark the found segment classes in a block 524, which is also referred to as "labeling".
- labeling it is determined which segment class contains segments that are stanzas that are choruses that are intros, outros, bridges, and so on.
- z. B. can be provided to a user, without redundancy of a piece only z. B. a verse, a chorus and the intro to hear.
- the corresponding feature matrix is read out and loaded into a main memory for further processing.
- the feature matrix has the dimension number of analysis windows times the number of feature coefficients.
- the similarity matrix brings the feature course of a piece into a two-dimensional representation. For each pairwise combination of feature vectors, the distance measure is computed, which is recorded in the similarity matrix. There are various possibilities for calculating the distance measure between two vectors, namely the Euclidean distance measurement and the cosinus distance measurement.
- a result D (i, j) between the two feature vectors is stored in the i, jth element of the window similarity matrix (block 506).
- the main diagonal of the similarity matrix represents the course over the entire piece. Accordingly, the elements of the main diagonal result from the respective comparison of a window with itself and always have the value of the greatest similarity. For the cosine distance measurement this is the value 1, for the simple scalar difference and the Euclidean distance this value is 0.
- each element i, j is assigned a gray value.
- the gray values are graded in proportion to the similarity values, so that the maximum similarity (the main diagonal) corresponds to the maximum similarity.
- the structure of the similarity matrix is important to the novelty measure calculated in kernel correlation 512.
- the novelty measure arises from the correlation of a particular kernel along the main diagonal of the similarity matrix.
- An exemplary kernel K is in Fig. 5 shown. If one correlates this kernel matrix along the main diagonal of the similarity matrix S, and thereby sums all the products of the superimposed matrix elements for each time point i of the piece, one obtains the measure of novelty, which in a smoothed form is exemplified in FIG Fig. 9 is shown.
- the kernel K is not in Fig. 5 but an enlarged kernel, which is also superimposed with a Gaussian distribution, so that the edges of the matrix go to zero.
- the selection of the striking maxima in the novelty course is important for the segmentation.
- the selection of all maxima of the unsmoothed novelty course would lead to a strong over-segmentation of the audio signal.
- the novelty measure should be smoothed with different filters, such as IIR filters or FIR filters.
- segment boundaries of a piece of music are extracted, then similar segments must be identified as such and grouped into classes.
- Foote and Cooper describe the calculation of a segment-based similarity matrix using a Cullback-Leibler distance.
- individual segment feature matrices are extracted from the entire feature matrix on the basis of the segment boundaries obtained from the novelty process, ie each of these matrices is a submatrix of the entire feature matrix.
- the resulting segment similarity matrix 520 is now subjected to Singular Value Decomposition (SVD). Then one obtains singular values in descending order.
- an automatic digest of a piece is then performed based on the segments and clusters of a piece of music. For this purpose, first the two clusters with the largest singular values are selected. Then, the segment with the maximum value of the corresponding cluster indicator is added to this summary. This means that the summary includes a stanza and a chorus. Alternatively, all repeated segments can also be removed to ensure that all piece information is provided, but always exactly once.
- a disadvantage of the known method is the fact that the singular value decomposition (SVD) for segment class formation, that is to say for the assignment of segments to clusters, is very computationally intensive and is problematic in the evaluation of the results. Thus, if the singular values are nearly equal, then a possibly wrong decision is made that the two similar singular values actually represent the same segment class and not two different segment classes.
- SSVD singular value decomposition
- the EP 1577877 A1 discloses a method of automatically detecting a chorus portion, thereby solving several problems.
- the first problem is the study of acoustic features and a similarity of a portion of the audio signal to other portions.
- the second problem is the criterion of how high a similarity must be in order for a section to be understood as a repetition. This criterion depends on the audio piece itself.
- the third problem is the determination of both ends, ie the beginning and the end of repeated sections, and the fourth problem is the detection of a modulated repetition. For this purpose, a time-delay diagram is first created by generating the similarity between a 12-dimensional chroma vector of a section with a corresponding vector of each preceding section.
- a threshold value is determined to detect line segment candidate peaks, with only peaks in R all , (t, l) above the threshold being selected.
- the threshold is set to determine an intermediate class distribution, the threshold depending on both the number of peaks in each class, the total number of peaks, and the average of peak heights in each class.
- integrated repeat sections are determined, taking into account whether corresponding similarity line segments exist at previous delay positions with respect to the retard position of the retransmission section.
- the object of the present invention is to provide an improved and at the same time efficient concept for grouping temporal segments of a piece of music.
- the present invention is based on the recognition that the allocation of a segment to a segment class is to be performed on the basis of an adaptive similarity mean for a segment such that the similarity mean takes into account which overall similarity score a segment as a whole is taken into account Piece has.
- an adaptive similarity mean for a segment such that the similarity mean takes into account which overall similarity score a segment as a whole is taken into account Piece has.
- the similarity mean will be lower than for a segment that is a stanza or chorus.
- the concept according to the invention is particularly suitable for pieces of music which do not consist only of stanzas and choruses, that is to say have the segments belonging to the segment class. have the same similarity values, but also for pieces that have other parts in addition to stanza and chorus, namely an introduction (Intro), an interlude (Bridge) or a conclusion (Outro).
- the calculation of the adaptive similarity mean and the assignment of a segment are performed iteratively, ignoring assigned segments on the next iteration run.
- the similarity absolute value that is to say the sum of the similarity values in a column of the similarity matrix, changes again for the next iteration run since already assigned segments have been set to 0.
- a segmentation post-correction is performed, in that after segmentation, e.g. B. based on the novelty value (the local maxima of novelty value) and after a subsequent assignment to segment classes relatively short segments are examined to see if they can be assigned to the predecessor segment or the successor segment, since segments below a minimum Segment length is likely to indicate over-segmentation.
- a labeling is performed using a special selection algorithm to obtain the most correct labeling of the segment classes as a stanza or chorus.
- Fig. 1 shows a device for grouping temporal segments of a piece of music, which is divided into main parts repeatedly occurring in the piece of music, into different segment classes, one segment class being assigned to a main part.
- the present invention thus relates particularly to pieces of music which are subject to a certain structure in which similar sections appear several times and alternate with other sections.
- the Most rock and pop songs have a clear structure in terms of their main parts.
- the literature deals with the theme of music analysis mainly on the basis of classical music, but it also applies much to rock and pop music.
- the main parts of a piece of music are also called "large moldings".
- a large shaped part of a piece is understood to mean a section which, with respect to various features, e.g. B. melody, rhythm, texture, etc., has a relatively uniform nature. This definition applies generally in music theory.
- ABABCDAB where A equals strophe, B equals refrain, C equals bridge, and D equals solo. Often a piece of music is introduced with a prelude. Intros often consist of the same chord progression as the stanza, but with different instrumentation, eg. B. without drums, without bass or distortion of the guitar in rock songs etc.
- the device according to the invention initially comprises a device 10 for providing a similarity representation for the segments, wherein the similarity representation for each segment has an associated plurality of similarity values, the similarity values indicating how similar the segment is to each other segment.
- the similarity representation is preferably that in Fig. 7 shown segment similarity matrix. It has for each segment (in Fig. 7 Segments 1-10) has its own column, which has the index "j". Further, the similarity representation has a separate row for each segment, with one row labeled with a row index i. This will be referred to below with reference to the exemplary segment 5.
- the element (5,5) in the main diagonal of the matrix of Fig. 7 is the similarity value of the segment 5 with itself, ie the maximum similarity value.
- segment 5 is still medium-like to the segment No. 6, as it is by the element (6,5) or by the element (5,6) of the matrix in Fig. 7 is designated. Moreover, the segment 5 is still similar to the segments 2 and 3, as represented by elements (2,5) or (3,5) or (5,2) or (5,3) in FIG Fig. 7 is shown. As for the other segments 1, 4, 7, 8, 9, 10, the segment No. 5 has a similarity as described in FIG Fig. 7 is no longer visible.
- a plurality of similarity values associated with the segment is, for example, a column or a row of the segment similarity matrix in FIG Fig. 7 , which column or row indicates by its column / row index which segment it refers to, namely for example the fifth segment, and which row / column comprises the similarities of the fifth segment to each other segment in the piece ,
- the plurality of similarity values is, for example, a row of the similarity matrix or, alternatively, a column of the similarity matrix of Fig. 7 ,
- the device for grouping temporal segments of the piece of music further comprises means 12 for calculating a similarity mean value for a segment, using the segments and the similarity values of the segment Segment associated with a plurality of similarity values.
- the device 12 is designed to z. For column 5 in Fig. 7 to calculate a similarity mean.
- means 12 will add the similarity values in the column and divide by the number of segments in total. In order to eliminate self-similarity, the similarity of the segment to itself could also be deducted from the result of the addition, whereby, of course, a division should no longer be performed by all elements, but by all elements less 1.
- the means 12 for computing could also calculate the geometric mean, that is, squiggle each similarity value of a column separately to sum the squared results, and then calculate a root from the summation result represented by the number of elements in the column the number of elements in the column is less 1) to divide.
- Any other mean values, such as the median value, etc., are usable as long as the mean value for each column of the similarity matrix is adaptively calculated, that is, a value calculated using the similarity values of the plurality of similarity values associated with the segment.
- the adaptively calculated similarity threshold is then provided to a segment 14 for assigning a segment to a segment class.
- the means 14 for assigning is arranged to associate a segment with a segment class if the similarity value of the segment satisfies a predetermined condition with respect to the mean of similarity. For example, if the similarity mean value is such that a larger value indicates a greater similarity and a smaller value indicates a lower similarity, the predetermined relationship will be that the similarity value of a segment equal to or above the Similarity mean, in order for the segment to be assigned to a segment class.
- a segment selection device 16 In a preferred embodiment of the present invention, there are still other devices to realize specific embodiments, which will be discussed later. These devices are a segment selection device 16, a segment assignment conflict device 18, a segmentation correction device 20 and a segment class designation device 22.
- the segment selector 16 will first calculate the value V (j) for each segment to then find the vector element i of the maximum value vector V. In other words, this means that the column in Fig. 7 is chosen, which achieves the greatest value or score when adding up the individual similarity values in the column.
- this segment could be segment no. 5 or column 5 of the matrix in Fig. 7 be, since this segment has at least a certain similarity with three other segments.
- Another candidate in the example of Fig. 7 could also be the segment with the number 7, since this segment also has a certain similarity to three other segments, which is even greater than the similarity of the segment 5 to the segments 2 and 3 (higher shade of gray in FIG Fig. 7 ).
- V (7) is the component of the vector V which has the maximum value among all the components of V.
- segment similarity matrix for the seventh row or column it is checked which segment similarities are above the calculated threshold, i. H. with which segments the ith segment has an above-average similarity. All these segments are now also assigned to a first segment class like the seventh segment.
- segment no. 4 and segment no. 1 are classified in the first segment class in addition to segment no.
- segment no. 10 is not classified in the first segment class due to the below-average similarity to segment no.
- the corresponding vector elements V (j) of all segments which have been assigned to a cluster in this threshold value analysis are set to 0.
- these are beside V (7) also the components V (4) and V (1). This immediately means that the 7th, 4th and 1st columns of the matrix are no longer available for a later maximum search will be available that they are zero, so can not be a maximum.
- a new maximum is now selected from the remaining elements of V, that is to say V (2), V (3), V (5), V (6), V (8), V (9) and V (10) searched.
- the segment no. 5, ie V (5), is expected to yield the largest similarity score.
- the second segment class then obtains segments 5 and 6. Due to the fact that the similarities to segments 2 and 3 are below average, segments 2 and 3 are not placed in the second order clusters.
- the elements V (6) and V (5) are set to 0 by the vector V due to the assignment made, while still the components V (2), V (3), V (8), V (9) and V (10) of the vector for the selection of the third-order cluster remain.
- a simple kind of resolution could be to simply not assign the segment 7 into the third segment class and e.g. For example, instead of assigning the segment 4, if for the segment 4 would not also conflict exist.
- the similarity between 7 and 10 is considered in the following algorithm.
- the invention is designed not to discount the similarity between i and k. Therefore, the similarity values S s (i, k) of segment i and k are compared with the similarity value S s (i *, k), where i * is the first segment assigned to the cluster C *.
- the cluster or the segment class C * is the cluster to which segment k is already assigned on the basis of a previous examination.
- the similarity value S s (i *, k) is decisive for the fact that the segment k belongs to the cluster C *. If S s (i *, k) is greater than S s (i, k), segment k remains in cluster C *.
- S s (i *, k) is smaller than S s (i, k)
- the segment k is taken out of the cluster C * and assigned to the cluster C.
- a tendency towards the cluster i is noted for the cluster C *.
- this tendency is also noted when segment k changes cluster membership.
- a tendency of this segment to the cluster in which it was originally recorded is noted.
- the similarity value check will be in favor of the first segment class due to the fact that the segment 7 is the "source segment” in the first segment class.
- the segment 7 thus becomes its cluster affiliation (Segment membership), but it will remain in the first segment class.
- this fact is taken into account by the fact that segment no. 10 in the third segment class is attested a trend towards the first segment class.
- an over-segmentation of a piece often occurs, ie too many segment boundaries or generally too short segments are calculated.
- An over-segmentation, z. B. caused by an incorrect subdivision of the stanza is inventively corrected by the fact that due to the segment length and the information in which segment class a predecessor or successor segment has been sorted is corrected.
- the correction serves to completely eliminate segments that are too short, ie to merge with adjacent segments, and segments that are short but are not too short, ie that are short in length but longer than the minimum length to undergo a special investigation into whether they may not yet be merged with a predecessor segment or a successor segment.
- Relatively short segments shorter than 11 seconds are only examined at all, while later on even shorter segments (a second threshold smaller than the first one) shorter than 9 seconds are examined, and later remaining segments that are shorter than 6 seconds (a third threshold that is shorter than the second threshold) are again treated alternatively.
- the segment length check in block 31 is initially directed to finding the segments shorter than 11 seconds. For the segments that are longer than 11 seconds, no post processing is done, as can be seen by a "No" at block 31. For segments shorter than 11 seconds, a trend check (block 32) is first performed. Thus, it is first examined whether a segment due to the functionality of the segment allocation conflicting device 18 of Fig. 1 has an associated trend or an associated trend. In the example of Fig. 7 this would be the segment 10 that has a trend towards the segment 7 or a trend towards the first segment class. If the tenth segment is shorter than 11 seconds, the in Fig.
- segment no. 10 is the only segment in the third segment class. If it was shorter than 9 seconds, it will automatically be assigned to the segment class to which segment no. 9 belongs. This automatically leads to a fusion of the segment 10 with the segment 9. If the segment 10 is longer than 9 seconds, then this merger is not performed.
- a block 33c an examination is then made for segments shorter than 9 seconds which are not the only segment in a corresponding cluster X than in a corresponding segment group. They undergo closer scrutiny to establish regularity in clustering.
- a novelty value check is performed by resorting to the novelty value curve, which in Fig. 9 is shown.
- the novelty curve which resulted from the kernel correlation, is read out at the locations of the affected segment boundaries, and the maximum of these values is determined. If the maximum occurs at the beginning of a segment, the segments that are too short become the cluster of the successor segment assigned. If the maximum occurs at a segment end, the segments that are too short are assigned to the cluster of the predecessor segment.
- segment labeled 90 has a segment that is shorter than 9 seconds
- the novelty check at the beginning of segment 90 would give a higher novelty value 91 than at the end of the segment, with the novelty value at the end of the segment labeled 92. This would mean that the segment 90 would be assigned to the successor segment since the novelty value to the successor segment is less than the novelty value to the predecessor segment.
- This procedure according to the invention has the advantage that no elimination of parts of the piece has been carried out, ie that no simple elimination of the segments which are too short has been carried out by setting them to zero, but that the entire complete piece of music is still represented by the entirety of the piece Segments is represented. Due to the segmentation therefore no loss of information has occurred, which would be, however, if one z. B. as a reaction on over-segmentation, simply eliminating all too short segments "regardless of losses".
- Fig. 4a and Fig. 4b a preferred implementation of the segment class designator 22 of Fig. 1 shown.
- two clusters are assigned the labels "stanza" and "refrain” during labeling.
- a largest singular value of a singular value decomposition and the associated cluster are used as a refrain and the cluster for the second largest singular value as a stanza.
- each song starts with a stanza, so that the cluster with the first segment is the stanza cluster and the other cluster is the refrain cluster.
- the cluster in the candidate selection having the last segment is called a refrain, and the other cluster is called a stanza.
- the last segment may actually be the last segment in the song, or a segment later in the song than any segment of the other segment class. If this segment is not the actual last segment in the song, this means that there is still an outro.
- the last segment is from the first segment group, then all segments of that first (most significant) segment class are referred to as a refrain, as indicated by a block 41 in FIG Fig. 4b is shown.
- all segments of the other segment class to be selected are marked as "stanza", since typically of the two candidate segment classes, one class will have the chorus, and thus immediately the other class will have the stanzas.
- the examination in block 40 reveals that which segment class in the selection has the last segment in the music track progression, that this is the second, ie rather low-value segment class, it is examined in block 42 whether the second segment class has the first segment in the music piece , This investigation is based on the knowledge that the likelihood is very high that a song starts with a verse, not a chorus.
- the second segment class is referred to as a refrain, and the first segment class is referred to as a stanza, as indicated in a block 43 .
- the query in block 42 is answered with "yes”, then, contrary to the rule, the second segment group is referred to as a stanza and the first segment group as a refrain, as indicated in a block 44.
- the designation in block 44 occurs because the probability that the second segment class corresponds to the refrain is already quite low. If the improbability that a piece of music is introduced with a refrain comes to the fore, there are some signs of an error in clustering. B. that the last considered segment was erroneously assigned to the second segment class.
- Fig. 4b It was shown how the stanza / chorus determination was performed on the basis of two available segment classes. After this stanza / refrain determination, the remaining segment classes may then be designated in a block 45, where an outro will possibly be the segment class having the last segment of the piece, while an intro will be the segment class comprising the first Segment of a piece in itself.
- Fig. 4a It shows how to determine the two segment classes that represent the candidates for the in Fig. 4b given algorithm.
- an assignment of the label "stanza” and "refrain” is performed in the labeling, whereby one segment group is marked as a stanza segment group, while the other segment group is marked as a refrain segment group.
- this concept is based on the assumption (A1) that the two clusters (segment groups) with the highest similarity values, ie cluster 1 and cluster 2, correspond to the chorus and stanza clusters. The last of these two clusters is the refrain cluster, assuming that a verse follows a chorus.
- cluster 1 in most cases corresponds to the refrain.
- cluster 2 the assumption (A1) is often not fulfilled.
- This situation usually occurs when there is either a third, frequently repeating part in the play, eg. As a bridge, with a high similarity of intro and outro, or for the not uncommon case that a segment in the piece has a high similarity to the chorus, thus also a high overall similarity has the similarity to the chorus but just not big enough to belong to the cluster 1 yet.
- a step 46 the cluster or segment group with the highest similarity value (value of the component of V which is once a maximum for the segment class determined first, ie segment 7 in the example of FIG Fig. 7 , was), that is, the segment group that at the first pass of Fig. 1 has been identified as the first candidate included in the stanza refrain selection.
- the second highest segment class has, for example, B. at least three segments, or two segments, one of which is within the piece and not at the "edge" of the piece, so remains second segment class initially in the selection and is henceforth referred to as "Second Cluster".
- Second clusters still have to measure themselves with a third segment class (48b), which is referred to as a "third cluster" in order to ultimately survive the selection process as a candidate.
- the segment class "Third Cluster” corresponds to the cluster, which occurs most frequently in the entire song, but neither the highest segment class (cluster 1) nor the segment class "Second Cluster” corresponds, so to speak, the next most common (often equally common) occurring clusters by cluster 1 and "Second Cluster".
- the first examination in block 49a is to examine whether each segment of ThirdCluster has one has certain minimum length, z being the threshold.
- B 4% of the total song length is preferred. Other values between 2% and 10% can also lead to meaningful results.
- a block 49b it is then examined whether ThirdCluster has a greater total portion of the song than SecondCluster. To do this, the total time of all segments in ThirdCluster is added up and compared to the corresponding total of all Segments in SecondCluster, where ThirdCluster has a larger overall song share than SecondCluster if the accumulated segments in ThirdCluster are greater than the accumulated SecondCluster segments.
- ThirdCluster enters the verse-chorus selection. If, on the other hand, at least one of these conditions is not met, ThirdCluster does not get into the stanza-refrain selection. Instead, SecondCluster enters the stanza-refrain selection as it passes through a block 50 in Fig. 4a is shown. This completes the "Candidate search" for the verse-chorus selection, and the in Fig. 4b algorithm which finally determines which segment class comprises the stanzas and which segment class comprises the chorus.
- the three conditions in the blocks 49a, 49b, 49c could alternatively also be weighted, so that z.
- a no answer in block 49a will be "overruled” if both the query in block 49b and the query in block 49c are answered "yes.”
- it could also be a condition the three conditions are highlighted so that z.
- it only examines whether there is regularity of the sequence between the third segment class and the first segment class, while the queries in blocks 49a and 49b are not performed or performed only if the query in block 49c is "no". answered, but z. B. a relatively large total amount in block 49b and relatively large minimum quantities in block 49a are determined.
- the refrain option is to choose a version of the chorus as a summary. This will attempt to choose a chorus version that lasts between 20 and 30 seconds if possible. If a segment with such a length is not contained in the refrain cluster, a version is chosen which has the smallest possible deviation to a length of 25 seconds. If the selected chorus is longer than 30 seconds, it will be hidden for more than 30 seconds in this embodiment, and if it is shorter than 20 seconds, it will be extended to 30 seconds with the following segment.
- Storing a medley for the second option is more like an actual summary of a piece of music.
- the third segment is selected from a cluster that has the largest total portion of the song and is not a verse or chorus.
- the selected segments are not installed in their full length in the medley.
- the length is preferably set to a fixed 10 seconds per segment, so that a total of 30 seconds is created again.
- alternative values are also readily feasible.
- a grouping of a plurality of feature vectors is performed in block 510 by forming an average over the grouped feature vectors.
- the calculation of the similarity matrix the grouping can save computing time.
- a distance is determined between all possible combinations of two feature vectors. This results in n vectors over the entire piece n x n calculations.
- a grouping factor g indicates how many consecutive feature vectors are grouped into a vector by averaging. This can reduce the number of calculations.
- the grouping is also a kind of noise suppression in which small changes in the feature expression of successive vectors are compensated on average. This property has a positive effect on finding large song structures.
- the concept according to the invention makes it possible to navigate through the calculated segments by means of a special music player and to selectively select individual segments, so that a consumer in a music shop can immediately immediately refrain, for example by pressing a certain key or by activating a certain software command jump to see if the chorus pleases him, and then maybe listen to a stanza so that the consumer can finally make a purchase decision.
- This makes it easy for a prospective buyer to hear from a piece exactly what he is particularly interested in, while he z. B. the solo or the bridge then actually save for the listening pleasure at home.
- the concept according to the invention is also of great advantage for a music store, since the customer can listen in and therefore also quickly and ultimately buy, so that the customers do not have to wait long to listen in, but also quickly get their turn. This is because a user does not have to constantly go back and forth, but gets targeted and quickly all the information of the piece he would like to have.
- the present invention is also applicable in other application scenarios, for example in advertising monitoring, ie where an advertiser wants to check whether the audio piece for which he has bought advertising time, has actually been played over the entire length.
- An audio piece may include, for example, music segments, speaker segments, and noise segments.
- the segmentation algorithm ie the segmentation and subsequent classification into segment groups, then makes it possible to carry out a quick and considerably less complicated check than a complete sample-wise comparison.
- the efficient checking would simply consist of segment class statistics, that is, a comparison of how many segment classes have been found and how many segments are in each segment class, with a default given the ideal ad item.
- segment class statistics that is, a comparison of how many segment classes have been found and how many segments are in each segment class, with a default given the ideal ad item.
- the present invention is further advantageous in that it can be used for searching in large music databases, for example, to listen only to the choruses of many pieces of music in order to then perform a music program selection.
- only individual segments would be selected from the "class" segmented class of many different pieces and provided by a program provider.
- these can also be easily provided by always one or more segments (if any) in the "solo" designated Segment class from a large number of pieces of music z. B. assembled and provided as a file.
- inventive concept can be easily automated, since it requires at no point a user intervention. This means that users of the inventive concept by no means require special training, except for. For example, a common skill in dealing with normal software user interfaces.
- the inventive concept can be implemented in hardware or in software.
- the implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the corresponding method is executed.
- the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, when the computer program product runs on a computer.
- the invention thus represents a computer program with a program code for carrying out the method when the computer program runs on a computer.
Description
Die vorliegende Erfindung bezieht sich auf die Audiosegmentierung und insbesondere auf die Analyse von Musikstücken auf die in den Musikstücken enthaltenen einzelnen Hauptteile, die in dem Musikstück wiederholt auftreten können.The present invention relates to audio segmentation, and more particularly to the analysis of pieces of music on the individual major parts contained in the pieces of music which may occur repeatedly in the piece of music.
Musik aus dem Rock- und Popbereich besteht meistens aus mehr oder weniger eindeutigen Segmenten, wie beispielsweise Intro, Strophe, Refrain, Bridge, Outro, etc. Die Anfangs- und Endzeitpunkte solcher Segmente zu detektieren und die Segmente nach ihrer Zugehörigkeit zu den wichtigsten Klassen (Strophe und Refrain) zu gruppieren, ist Ziel der Audiosegmentierung. Eine korrekte Segmentierung und auch Kennzeichnung der berechneten Segmente kann in verschiedenen Bereichen sinnvoll eingesetzt werden. Beispielsweise können so Musikstücke von Online-Anbietern, wie Amazon, Musicline, etc. intelligent "angespielt" werden.Rock and pop music mostly consists of more or less distinct segments, such as intro, verse, chorus, bridge, outro, etc. Detecting the start and end times of such segments and the segments according to their affiliation to the most important classes ( Stanza and chorus) is the target of audio segmentation. Correct segmentation and labeling of the calculated segments can be usefully used in different areas. For example, pieces of music from online providers, such as Amazon, Musicline, etc., can be intelligently "played".
Die meisten Anbieter im Internet beschränken sich bei ihren Hörbeispielen auf einen kurzen Ausschnitt aus den angebotenen Musikstücken. In diesem Fall wäre es natürlich auch sinnvoll, dem Interessenten nicht nur die ersten 30 Sekunden oder beliebige 30 Sekunden, sondern einen möglichst repräsentativen Ausschnitt aus dem Lied anzubieten. Dies könnte z. B. der Refrain sein, oder aber auch eine Zusammenfassung des Liedes, bestehend aus Segmenten, die den verschiedenen Hauptklassen (Strophe, Refrain, ...) angehören.Most providers on the Internet are limited to a short excerpt from the offered pieces of music in their audio samples. In this case, it would of course also make sense to offer the interested parties not only the first 30 seconds or any 30 seconds, but a most representative excerpt from the song. This could be z. B. the refrain, or else a summary of the song, consisting of segments that belong to the various main classes (stanza, chorus, ...).
Ein weiteres Anwendungsbeispiel für die Technik der Audiosegmentierung ist das Integrieren des Segmentierungs-/Gruppierungs-/Markierungsalgorithmus in einen Musicplayer. Die Informationen über Segmentanfänge und Segmentenden ermöglichen das gezielte Navigieren durch ein Musikstück. Durch die Klassenzugehörigkeit der Segmente, also ob ein Segment eine Strophe, ein Refrain, etc. ist, kann z. B. auch direkt zum nächsten Refrain oder zur nächsten Strophe gesprungen werden. Eine derartige Anwendung ist für große Musikmärkte von Interesse, die ihren Kunden die Möglichkeit bieten, in komplette Alben hinein zu hören. Dadurch erspart sich der Kunde das lästige, suchende Vorspulen zu charakteristischen Stellen im Lied, die ihn vielleicht dazu bewegen könnten, ein Musikstück am Ende tatsächlich zu kaufen.Another application example of the technique of audio segmentation is to integrate the segmentation / grouping / marking algorithm into a music player. The information about segment beginnings and segment ends enables the targeted navigation through a piece of music. Due to the class affiliation of the segments, ie whether a segment is a verse, a chorus, etc., z. B. also jump directly to the next chorus or the next stanza. Such an application is of interest to large music markets, offering their customers the opportunity to listen to complete albums. This saves the customer the annoying, searching fast-forward to characteristic parts in the song, which might perhaps cause him to actually buy a piece of music in the end.
Auf dem Gebiet der Audiosegmentierung existieren verschiedene Ansätze. Nachfolgend wird der Ansatz von Jonathan Foote und Matthew Cooper beispielhaft dargestellt. Dieses Verfahren ist in
Das bekannte Verfahren von Foote wird anhand des Blockschaltbilds von
Die extrahierten Merkmale werden dann in einem Speicher 504 abgelegt.The extracted features are then stored in a
Auf den Merkmalsextraktionsalgorithmus findet nunmehr ein Segmentierungsalgorithmus statt, der in einer Ähnlichkeitsmatrix endet, wie es in einem Block 506 dargestellt ist. Zunächst wird jedoch die Merkmalsmatrix eingelesen (508), um dann Merkmalsvektoren zu gruppieren (510), um dann auf Grund der gruppierten Merkmalsvektoren eine Ähnlichkeitsmatrix aufzubauen, die aus einer Distanzmessung zwischen jeweils allen Merkmalen besteht. Im Einzelnen werden alle paarweisen Kombinationen von Audiofenstern unter Verwendung eines quantitativen Ähnlichkeitsmaßes, also der Distanz, verglichen.The feature extraction algorithm now has a segmentation algorithm that ends in a similarity matrix, as shown in
Der Aufbau der Ähnlichkeitsmatrix ist in
Es ist zu sehen, dass die Matrix dahingehend redundant ist, dass sie zur Diagonalen symmetrisch ist, und dass auf der Diagonalen die Ähnlichkeit eines Fensters zu sich selbst steht, was den trivialen Fall einer 100%-igen Ähnlichkeit darstellt.It can be seen that the matrix is redundant in that it is symmetric to the diagonal, and that on the diagonal the similarity of a window is to itself, which is the trivial case of 100% similarity.
Ein Beispiel für eine Ähnlichkeitsmatrix eines Stücks ist in
Hierauf wird unter Verwendung der Ähnlichkeitsmatrix, wie sie z. B. in
Hierauf werden in einem Block 518 die Segmentgrenzen unter Verwendung des geglätteten Neuheitswertverlaufs ausgelesen, wobei hierzu die lokalen Maxima im geglätteten Neuheitsverlauf ermittelt und gegebenenfalls noch um eine durch die Glättung verursachte konstante Anzahl von Samples verschoben werden müssen, um tatsächlich die richtigen Segmentgrenzen des Audiostücks als absolute oder relative Zeitangabe zu erhalten.Thereafter, in a
Hierauf wird, wie es bereits in einem mit Clustering bezeichneten Block aus
Hierauf wird dann in einem Block 522 ein Clustering durchgeführt, also eine Einordnung der Segmente in Segmentklassen (eine Einordnung von ähnlichen Segmenten in dieselbe Segmentklasse), um dann in einem Block 524 die gefundenen Segmentklassen zu markieren, was auch als "Labeling" bezeichnet wird. So wird im Labeling ermittelt, welche Segmentklasse Segmente enthält, die Strophen sind, die Refrains sind, die Intros, Outros, Bridges, etc. sind.Then, in a
Schließlich wird in einem mit 526 in
Nachfolgend wird auf die einzelnen Blöcke noch detaillierter eingegangen.Below, the individual blocks are discussed in more detail.
Wie es bereits ausgeführt worden ist, findet die eigentliche Segmentierung des Musikstücks erst dann statt, wenn die Merkmalsmatrizen generiert und gespeichert sind (Block 504).As already stated, the actual segmentation of the piece of music does not take place until the feature matrices have been generated and stored (block 504).
Je nach dem, anhand welchen Merkmals das Musikstück auf seine Struktur hin untersucht werden soll, wird die entsprechende Merkmalsmatrix ausgelesen und zur Weiterverarbeitung in einen Arbeitsspeicher geladen. Die Merkmalsmatrix hat die Dimension Anzahl der Analysefenster mal Anzahl der Merkmalskoeffizienten.Depending on which feature the piece of music is to be examined for its structure, the corresponding feature matrix is read out and loaded into a main memory for further processing. The feature matrix has the dimension number of analysis windows times the number of feature coefficients.
Durch die Ähnlichkeitsmatrix wird der Merkmalsverlauf eines Stücks in eine zweidimensionale Darstellung gebracht. Für jede paarweise Kombination von Merkmalsvektoren wird das Distanzmaß berechnet, das in der Ähnlichkeitsmatrix festgehalten wird. Zur Berechnung des Distanzmaßes zwischen zwei Vektoren gibt es verschiedene Möglichkeiten, nämlich beilspielsweise die Euklidsche Distanzmessung und die Cosinus-Distanzmessung. Ein Ergebnis D(i,j) zwischen den zwei Merkmalsvektoren wird im i,j-ten Element der Fenster-Ähnlichkeitsmatrix (Block 506) gespeichert. Die Hauptdiagonale der Ähnlichkeitsmatrix repräsentiert den Verlauf über das gesamte Stück. Dementsprechend resultieren die Elemente der Hauptdiagonalen aus dem jeweiligen Vergleich eines Fensters mit sich selbst und weisen immer den Wert der größten Ähnlichkeit auf. Bei der Cosinus-Distanzmessung ist dies der Wert 1, bei der einfachen skalaren Differenz und der Euklidschen Distanz ist dieser Wert gleich 0.The similarity matrix brings the feature course of a piece into a two-dimensional representation. For each pairwise combination of feature vectors, the distance measure is computed, which is recorded in the similarity matrix. There are various possibilities for calculating the distance measure between two vectors, namely the Euclidean distance measurement and the cosinus distance measurement. A result D (i, j) between the two feature vectors is stored in the i, jth element of the window similarity matrix (block 506). The main diagonal of the similarity matrix represents the course over the entire piece. Accordingly, the elements of the main diagonal result from the respective comparison of a window with itself and always have the value of the greatest similarity. For the cosine distance measurement this is the
Zur Visualisierung einer Ähnlichkeitsmatrix, wie sie in
Die Struktur der Ähnlichkeitsmatrix ist wichtig für das in der Kernel-Korrelation 512 berechnete Neuheitsmaß. Das Neuheitsmaß entsteht durch die Korrelation eines speziellen Kernels entlang der Hauptdiagonalen der Ähnlichkeitsmatrix. Ein beispielhafter Kernel K ist in
Die Selektion der markanten Maxima im Neuheitsverlauf ist wichtig für die Segmentierung. Die Auswahl aller Maxima des ungeglätteten Neuheitsverlaufs würde zu einer starken Übersegmentierung des Audiosignals führen.The selection of the striking maxima in the novelty course is important for the segmentation. The selection of all maxima of the unsmoothed novelty course would lead to a strong over-segmentation of the audio signal.
Daher sollte das Neuheitsmaß geglättet werden, und zwar mit verschiedenen Filtern, wie beispielsweise IIR-Filter oder FIR-Filter.Therefore, the novelty measure should be smoothed with different filters, such as IIR filters or FIR filters.
Sind die Segmentgrenzen eines Musikstücks extrahiert, so müssen nun ähnliche Segmente als solche gekennzeichnet und in Klassen gruppiert werden.If the segment boundaries of a piece of music are extracted, then similar segments must be identified as such and grouped into classes.
Foote und Cooper beschreiben die Berechnung einer segmentbasierten Ähnlichkeitsmatrix mittels einer Cullback-Leibler-Distanz. Hierfür werden anhand der aus dem Neuheitsverlauf gewonnenen Segmentgrenzen einzelne Segmentmerkmalsmatrizen aus der gesamten Merkmalsmatrix extrahiert, d. h. jede dieser Matrizen ist eine Submatrix der gesamten Merkmalsmatrix. Die damit entstandene Segmentähnlichkeitsmatrix 520 wird nunmehr einer Singularwertzerlegung (SVD; SVD = Singular Value Decomposition) unterzogen. Hierauf erhält man Singulärwerte in absteigender Reihenfolge.Foote and Cooper describe the calculation of a segment-based similarity matrix using a Cullback-Leibler distance. For this purpose, individual segment feature matrices are extracted from the entire feature matrix on the basis of the segment boundaries obtained from the novelty process, ie each of these matrices is a submatrix of the entire feature matrix. The resulting segment similarity matrix 520 is now subjected to Singular Value Decomposition (SVD). Then one obtains singular values in descending order.
Im Block 526 wird dann eine automatische Zusammenfassung eines Stücks anhand der Segmente und Cluster eines Musikstücks durchgeführt. Hierzu werden zunächst die zwei Cluster mit den größten Singulärwerten ausgewählt. Dann wird das Segment mit dem Maximalwert des entsprechenden Cluster-Indikators zu dieser Summary hinzugefügt. Dies bedeutet, dass die Summary eine Strophe und einen Refrain umfasst. Alternativ können auch alle wiederholten Segmente entfernt werden, um sicherzustellen, dass alle Informationen des Stücks bereitgestellt werden, jedoch immer genau einmal.At block 526, an automatic digest of a piece is then performed based on the segments and clusters of a piece of music. For this purpose, first the two clusters with the largest singular values are selected. Then, the segment with the maximum value of the corresponding cluster indicator is added to this summary. This means that the summary includes a stanza and a chorus. Alternatively, all repeated segments can also be removed to ensure that all piece information is provided, but always exactly once.
Bezüglich weiterer Techniken zur Segmentierung/Musikanalyse wird auf
Nachteilig an dem bekannten Verfahren ist die Tatsache, dass die Singularwertzerlegung (SVD) zur Segmentklassenbildung, also zum Zuordnen von Segmenten zu Clustern zum einen sehr rechenaufwendig ist und zum anderen problematisch in der Beurteilung der Ergebnisse ist. So wird dann, wenn die Singularwerte nahezu gleich groß sind, eine möglicherweise falsche Entscheidung dahingehend getroffen, dass die beiden ähnlichen Singularwerte eigentlich die gleiche Segmentklasse und nicht zwei unterschiedliche Segmentklassen darstellen.A disadvantage of the known method is the fact that the singular value decomposition (SVD) for segment class formation, that is to say for the assignment of segments to clusters, is very computationally intensive and is problematic in the evaluation of the results. Thus, if the singular values are nearly equal, then a possibly wrong decision is made that the two similar singular values actually represent the same segment class and not two different segment classes.
Ferner wurde herausgefunden, dass die Ergebnisse, die durch die Singularwertzerlegung erhalten werden, dann immer problematischer werden, wenn es starke Ähnlichkeitswertunterschiede gibt, wenn also ein Stück sehr ähnliche Anteile enthält, wie Strophe und Refrain, aber auch relativ unähnliche Anteile, wie Intro, Outro oder Bridge.Further, it has been found that the results obtained by the singular value decomposition become more and more problematic when it differentiates strong similarity values So, if a piece contains very similar parts, such as stanza and chorus, but also relatively dissimilar parts, such as Intro, Outro or Bridge.
Ferner problematisch an dem bekannten Verfahren ist, dass immer davon ausgegangen wird, dass der Cluster unter den beiden Clustern mit den höchsten Singularwerten, der das erste Segment im Lied hat, der Cluster "Strophe" ist, und dass der andere Cluster der Cluster "Refrain" ist. Dieses Prozedere basiert darauf, dass man im bekannten Verfahren davon ausgeht, dass ein Lied immer mit einer Strophe beginnt. Erfahrungen haben gezeigt, dass damit erhebliche Labelingfehler erhalten werden. Dies ist insofern problematisch, da das Labeling gewissermaßen die "Ernte" des gesamten Verfahrens ist, also das, was der Benutzer unmittelbar erfährt. Waren die vorhergehenden Schritte noch so präzise und aufwändig, so relativiert sich alles, wenn am Ende falsch gelabelt wird, da dann beim Benutzer das Vertrauen in das gesamte Konzept insgesamt Schaden nehmen könnte.Further problematic in the known method is that it is always assumed that the cluster among the two clusters with the highest singular values having the first segment in the song is the cluster "stanza", and that the other cluster is the cluster "chorus "is. This procedure is based on the assumption in the known method that a song always begins with a stanza. Experience has shown that this will result in significant labeling errors. This is problematic insofar as the labeling is effectively the "harvest" of the entire process, that is, what the user experiences directly. Even if the previous steps were so precise and time-consuming, everything becomes relative if the label is incorrectly labeled at the end, because then the user's overall confidence in the entire concept could be damaged.
An dieser Stelle sei ferner darauf hingewiesen, dass insbesondere Bedarf nach automatischen Musikanalyseverfahren besteht, ohne dass das Ergebnis immer überprüft und gegebenenfalls korrigiert werden kann. Statt dessen ist ein Verfahren nur dann am Markt einsetzbar, wenn es automatisch ohne menschliche Nachkorrektur ablaufen kann.It should also be noted at this point that there is a particular need for automatic music analysis methods, without the result always being able to be checked and, if necessary, corrected. Instead, a method can only be used on the market if it can run automatically without human correction.
Die
Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes und gleichzeitig effizientes Konzept zum Gruppieren von zeitlichen Segmenten eines Musikstücks zu schaffen.The object of the present invention is to provide an improved and at the same time efficient concept for grouping temporal segments of a piece of music.
Diese Aufgabe wird durch eine Vorrichtung zum Gruppieren gemäß Patentanspruch 1, ein Verfahren zum Gruppieren gemäß Patentanspruch 20 oder ein Computer-Programm gemäß Patentanspruch 21 gelöst.This object is achieved by a device for grouping according to
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die Zuweisung eines Segments zu einer Segmentklasse auf der Basis eines adaptiven Ähnlichkeits-Mittelwerts für ein Segment durchzuführen ist, derart, dass durch den Ähnlichkeits-Mittelwert berücksichtigt wird, welchen insgesamten Ähnlichkeits-Score ein Segment im gesamten Stück hat. Nachdem für ein Segment ein solcher Ähnlichkeits-Mittelwert berechnet worden ist, zu dessen Berechnung die Anzahl der Segmente und die Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten benötigt werden, wird dann die tatsächliche Zuweisung eines Segments zu einer Segmentklasse, also zu einem Cluster, auf der Basis dieses Ähnlichkeits-Mittelwerts durchgeführt. Liegt ein Ähnlichkeitswert eines Segments zu dem gerade betrachteten Segment beispielsweise oberhalb des Ähnlichkeits-Mittelwerts, so wird das Segment als zu der gerade betrachteten Segmentklasse zugehörig zugewiesen. Liegt der Ähnlichkeitswert eines Segments zu dem gerade betrachteten Segment dagegen unterhalb dieses Ähnlichkeits-Mittelwerts, so wird es nicht der Segmentklasse zugewiesen.The present invention is based on the recognition that the allocation of a segment to a segment class is to be performed on the basis of an adaptive similarity mean for a segment such that the similarity mean takes into account which overall similarity score a segment as a whole is taken into account Piece has. After such a similarity mean has been calculated for a segment, for the calculation of which the number of segments and the similarity values of the plurality of similarity values assigned to the segment are required, the actual assignment of a segment to a segment class, ie to a cluster, then becomes apparent based on this similarity mean. For example, if a similarity value of a segment to the segment under consideration is above the similarity mean, then the segment is assigned as belonging to the currently considered segment class. Conversely, if the similarity value of a segment to the segment under consideration is below that similarity mean, it will not be assigned to the segment class.
In anderen Worten ausgedrückt bedeutet dies, dass die Zuweisung nicht mehr abhängig von der absoluten Größe der Ähnlichkeitswerte durchgeführt wird, sondern relativ zu dem Ähnlichkeits-Mittelwert. Dies bedeutet, dass für ein Segment, das einen relativ geringen Ähnlichkeits-Score hat, also z. B. für ein Segment, das ein Intro oder Outro hat, der Ähnlichkeits-Mittelwert niedriger sein wird als für ein Segment, das eine Strophe oder ein Refrain ist. Damit werden die starken Abweichungen der Ähnlichkeiten von Segmenten in Stücken bzw. der Häufigkeit des Auftretens von bestimmten Segmenten in Stücken berücksichtigt, wobei z. B. numerische Probleme und damit auch Mehrdeutigkeiten und damit verbundene Falsch-Zuweisungen vermieden werden können.In other words, this means that the assignment is no longer made dependent on the absolute size of the similarity values, but relative to the similarity mean. This means that for a segment that has a relatively low similarity score, so z. For example, for a segment having an intro or outro, the similarity mean will be lower than for a segment that is a stanza or chorus. Thus, the strong deviations of the similarities of segments in pieces or the frequency of occurrence of certain segments are considered in pieces, with z. B. numerical problems and thus ambiguities and associated misallocations can be avoided.
Das erfindungsgemäße Konzept eignet sich besonders für Musikstücke, die nicht nur aus Strophen und Refrains bestehen, also die Segmente haben, die zu Segmentklasse gehören, die gleich große Ähnlichkeitswerte haben, sondern auch für Stücke, die neben Strophe und Refrain auch andere Teile haben, nämlich eine Einführung (Intro), ein Zwischenspiel (Bridge) oder einen Ausklang (Outro).The concept according to the invention is particularly suitable for pieces of music which do not consist only of stanzas and choruses, that is to say have the segments belonging to the segment class. have the same similarity values, but also for pieces that have other parts in addition to stanza and chorus, namely an introduction (Intro), an interlude (Bridge) or a conclusion (Outro).
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden die Berechnung des adaptiven Ähnlichkeits-Mittelwertes und das Zuweisen eines Segments iterativ durchgeführt, wobei zugewiesene Segmente beim nächsten Iterationsdurchgang ignoriert werden. Damit ändert sich für den nächsten Iterationsdurchgang wieder der Ähnlichkeits-Absolutwert, also die Summe der Ähnlichkeitswerte in einer Spalte der Ähnlichkeitsmatrix, da bereits zugewiesene Segmente zu 0 gesetzt worden sind.In a preferred embodiment of the present invention, the calculation of the adaptive similarity mean and the assignment of a segment are performed iteratively, ignoring assigned segments on the next iteration run. Thus, the similarity absolute value, that is to say the sum of the similarity values in a column of the similarity matrix, changes again for the next iteration run since already assigned segments have been set to 0.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Segmentierungs-Nachkorrektur durchgeführt, und zwar dahingehend, dass nach der Segmentierung z. B. auf Grund des Neuheitswertes (der lokalen Maxima des Neuheitswertes) und nach einer anschließenden Zuordnung zu Segmentklassen relativ kurze Segmente untersucht werden, um zu sehen, ob sie dem Vorgänger-Segment oder dem Nachfolger-Segment zugeordnet werden können, da Segmente unterhalb einer minimalen Segmentlänge mit hoher Wahrscheinlichkeit auf eine Übersegmentierung hindeuten.In a preferred embodiment of the present invention, a segmentation post-correction is performed, in that after segmentation, e.g. B. based on the novelty value (the local maxima of novelty value) and after a subsequent assignment to segment classes relatively short segments are examined to see if they can be assigned to the predecessor segment or the successor segment, since segments below a minimum Segment length is likely to indicate over-segmentation.
Bei einem alternativen bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird nach der abschließenden Segmentierung und Zuordnung in die Segmentklassen ein Labeling durchgeführt, und zwar unter Verwendung eines speziellen Auswahlalgorithmus, um eine möglichst korrekte Kennzeichnung der Segmentklassen als Strophe oder Refrain zu erhalten.In an alternative preferred embodiment of the present invention, after the final segmentation and assignment into the segment classes, a labeling is performed using a special selection algorithm to obtain the most correct labeling of the segment classes as a stanza or chorus.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegende Zeichnung detailliert erläutert. Es zeigen:
- Fig. 1
- ein Blockschaltbild der erfindungsgemäßen Vorrichtung zum Gruppieren gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 2
- ein Flussdiagramm zur Darstellung einer bevorzugten Ausführungsform der Erfindung zum iterativen Zuweisen;
- Fig. 3
- ein Blockdiagramm der Funktionsweise der Segmentierungskorrektureinrichtung;
- Fig. 4a und Fig. 4b
- eine bevorzugte Ausführungsform der Segmentklassenbezeichnungseinrichtung;
- Fig. 5
- ein Gesamtblockschaltbild eines Audioanalysewerkzeugs;
- Fig. 6
- eine Darstellung einer beispielhaften Merkmalsähnlichkeitsmatrix;
- Fig. 7
- eine beispielhafte Darstellung einer Segmentähnlichkeitsmatrix;
- Fig. 8
- eine schematische Darstellung zur Veranschaulichung der Elemente in einer Ähnlichkeitsmatrix S; und
- Fig. 9
- eine schematische Darstellung eines geglätteten Neuheitswerts.
- Fig. 1
- a block diagram of the device according to the invention for grouping according to a preferred embodiment of the present invention;
- Fig. 2
- a flow chart for illustrating a preferred embodiment of the invention for iterative assignment;
- Fig. 3
- a block diagram of the operation of the Segmentierungskorrektureinrichtung;
- Fig. 4a and Fig. 4b
- a preferred embodiment of the segment class designator;
- Fig. 5
- an overall block diagram of an audio analysis tool;
- Fig. 6
- a representation of an exemplary feature similarity matrix;
- Fig. 7
- an exemplary representation of a segment similarity matrix;
- Fig. 8
- a schematic representation for illustrating the elements in a similarity matrix S; and
- Fig. 9
- a schematic representation of a smoothed novelty value.
Die Literatur behandelt das Thema der Musikanalyse hauptsächlich anhand klassischer Musik, davon gilt jedoch auch vieles für Rock- und Popmusik. Die Hauptteile eines Musikstücks werden auch "Großformteile" genannt. Unter einem Großformteil eines Stücks versteht man einen Abschnitt, der hinsichtlich verschiedener Merkmale, z. B. Melodik, Rhythmik, Textur, usw., eine relativ einheitliche Beschaffenheit hat. Diese Definition gilt allgemein in der Musiktheorie.The literature deals with the theme of music analysis mainly on the basis of classical music, but it also applies much to rock and pop music. The main parts of a piece of music are also called "large moldings". A large shaped part of a piece is understood to mean a section which, with respect to various features, e.g. B. melody, rhythm, texture, etc., has a relatively uniform nature. This definition applies generally in music theory.
Großformteile in der Rock- und Popmusik sind z. B. Strophe, Refrain, Bridge und Solo. In der klassischen Musik wird ein Wechselspiel von Refrain und anderen Teilen (Couplets) einer Komposition auch Rondo genannt. Im Allgemeinen kontrastieren die Couplets zum Refrain, beispielsweise hinsichtlich Melodik, Rhythmik, Harmonik, Tonart oder Instrumentation. Dies lässt sich auch auf moderne Unterhaltungsmusik übertragen. So wie es bei dem Rondo verschiedene Formen gibt (Kettenrondo, Bogenrondo, Sonatenrondo), bestehen auch in Rock- und Popmusik bewährte Muster zum Aufbau eines Liedes. Diese sind natürlich nur einige Möglichkeiten aus vielen. Letztendlich entscheidet natürlich der Komponist, wie sein Stück aufgebaut ist. Ein Beispiel für einen typischen Aufbau eines Rockliedes ist das Muster.
A-B-A-B-C-D-A-B,
wobei A gleich Strophe, B gleich Refrain, C gleich Bridge und D gleich Solo gilt. Oftmals wird ein Musikstück mit einem Vorspiel (Intro) eingeleitet. Intros bestehen häufig aus der gleichen Akkordfolge wie die Strophe, allerdings mit anderer Instrumentation, z. B. ohne Schlagzeug, ohne Bass oder ohne Verzerrung der Gitarre bei Rockliedern etc.Large moldings in rock and pop music are z. Eg verse, chorus, bridge and solo. In classical music, an interplay of chorus and other parts (couplets) of a composition is also called rondo. In general, the couplets contrast with the chorus, for example in terms of melody, rhythm, harmony, key or instrumentation. This can also be transferred to modern light music. Just as there are different forms in the rondo (chain rondo, bowed rondo, sonata rondo), there are also proven patterns in rock and pop music for setting up a song. Of course these are just a few options out of many. Ultimately, of course, the composer decides how his piece is constructed. An example of a typical structure of a rock song is the pattern.
ABABCDAB,
where A equals strophe, B equals refrain, C equals bridge, and D equals solo. Often a piece of music is introduced with a prelude. Intros often consist of the same chord progression as the stanza, but with different instrumentation, eg. B. without drums, without bass or distortion of the guitar in rock songs etc.
Die erfindungsgemäße Vorrichtung umfasst zunächst eine Einrichtung 10 zum Bereitstellen einer Ähnlichkeitsdarstellung für die Segmente, wobei die Ähnlichkeitsdarstellung für jedes Segment eine zugeordnete Mehrzahl von Ähnlichkeitswerten aufweist, wobei die Ähnlichkeitswerte angeben, wie ähnlich das Segment zu jedem anderen Segment ist. Die Ähnlichkeitsdarstellung ist vorzugsweise die in
Eine dem Segment zugeordnete Mehrzahl von Ähnlichkeitswerten ist beispielsweise eine Spalte oder eine Zeile der Segment-Ähnlichkeitsmatrix in
Die Vorrichtung zum Gruppieren von zeitlichen Segmenten des Musikstücks umfasst ferner eine Einrichtung 12 zum Berechnen eines Ähnlichkeits-Mittelwertes für ein Segment, unter Verwendung der Segmente und der Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten. Die Einrichtung 12 ist ausgebildet, um z. B. für die Spalte 5 in
Die Einrichtung 12 zum Berechnen könnte alternativ auch den geometrischen Mittelwert berechnen, also jeden Ähnlichkeitswert einer Spalte für sich quadrieren, um die quadrierten Ergebnisse zu summieren, um dann eine Wurzel aus dem Summationsergebnis zu berechnen, welche durch die Anzahl der Elemente in der Spalte (bzw. die Anzahl der Elemente in der Spalte weniger 1) zu teilen ist. Beliebige andere Mittelwerte, wie beispielsweise der Median-Wert etc. sind verwendbar, so lange der Mittelwert für jede Spalte der Ähnlichkeitsmatrix adaptiv berechnet wird, also ein Wert ist, der unter Verwendung der Ähnlichkeitswerte der dem Segment zugeordneten Mehrzahl von Ähnlichkeitswerten berechnet wird.Alternatively, the
Der adaptiv berechnete Ähnlichkeits-Schwellenwert wird dann einer Einrichtung 14 zum Zuweisen eines Segments zu einer Segmentklasse geliefert. Die Einrichtung 14 zum Zuweisen ist ausgebildet, um ein Segment einer Segmentklasse zuzuordnen, wenn der Ähnlichkeitswert des Segments eine vorbestimmte Bedingung bezüglich des Ähnlichkeits-Mittelwerts erfüllt. Ist beispielsweise der Ähnlichkeits-Mittelwert so, dass ein größerer Wert auf eine größere Ähnlichkeit und ein kleinerer Wert auf eine geringere Ähnlichkeit hinweist, so wird die vorbestimmte Beziehung darin bestehen, dass der Ähnlichkeitswert eines Segments gleich oder oberhalb des Ähnlichkeits-Mittelwerts sein muss, damit das Segment einer Segmentklasse zugewiesen wird.The adaptively calculated similarity threshold is then provided to a
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung existieren noch weitere Einrichtungen, um spezielle Ausführungsformen zu verwirklichen, auf die später eingegangen wird. Diese Einrichtungen sind eine Segmentauswahleinrichtung 16, eine Segmentzuweisungskonflikteinrichtung 18, eine Segmentierungskorrektureinrichtung 20 sowie eine Segmentklassen-Bezeichnungseinrichtung 22.In a preferred embodiment of the present invention, there are still other devices to realize specific embodiments, which will be discussed later. These devices are a
Die Segmentauswahleinrichtung 16 in
P ist die Anzahl der Segmente. SÄ ist der Wert der Selbstähnlichkeit eines Segments mit sich selbst. Je nach verwendeter Technik kann der Wert z. B. Null oder Eins sein. Die Segmentauswahleinrichtung 16 wird zunächst den Wert V(j) für jedes Segment berechnen, um dann das Vektorelement i des Vektors V mit maximalem Wert herauszufinden. Anders ausgedrückt bedeutet dies, dass die Spalte in
P is the number of segments. SÄ is the value of self-similarity of a segment to itself. Depending on the technique used, the value z. B. zero or one. The
Für das nachfolgende Beispiel wird nunmehr angenommen, dass die Segmentauswahleinrichtung 16 das Segment Nr. 7 auswählt, da es den höchsten Ähnlichkeits-Score auf Grund der Matrixelemente (1,7), (4,7) und (10,7) hat. Dies bedeutet in anderen Worten, dass V(7) die Komponente des Vektors V ist, die den maximalen Wert unter allen Komponenten von V hat.For the following example, it is now assumed that the
Nunmehr wird der Ähnlichkeits-Score der Spalte 7, also für das Segment Nr. 7 noch durch die Zahl "9" geteilt, um aus der Einrichtung 12 den Ähnlichkeits-Schwellwert für das Segment zu erhalten.Now, the similarity score of
Hierauf wird in der Segment-Ähnlichkeitsmatrix für die siebte Zeile bzw. Spalte überprüft, welche Segmentähnlichkeiten über dem berechneten Schwellwert liegen, d. h. mit welchen Segmenten das i-te Segment eine überdurchschnittliche Ähnlichkeit aufweist. All diese Segmente werden nunmehr ebenfalls wie das siebte Segment einer ersten Segmentklasse zugewiesen.Then, in the segment similarity matrix for the seventh row or column, it is checked which segment similarities are above the calculated threshold, i. H. with which segments the ith segment has an above-average similarity. All these segments are now also assigned to a first segment class like the seventh segment.
Für das vorliegende Beispiel wird angenommen, dass die Ähnlichkeit des Segments 10 zum Segment 7 unterdurchschnittlich ist, dass jedoch die Ähnlichkeiten des Segments 4 und des Segments 1 zum Segment 7 überdurchschnittlich sind. Daher werden in die erste Segmentklasse neben dem Segment Nr. 7 auch das Segment Nr. 4 und das Segment Nr. 1 eingeordnet. Dagegen wird das Segment Nr. 10 auf Grund der unterdurchschnittlichen Ähnlichkeit zum Segment Nr. 7 nicht in die erste Segmentklasse eingeordnet.For the present example, it is assumed that the similarity of the
Nach der Zuweisung werden die korrespondierenden Vektorelemente V(j) aller Segmente, die in dieser Schwellwertuntersuchung einem Cluster zugeordnet wurden, zu 0 gesetzt. Im Beispiel sind dies neben V(7) auch die Komponenten V(4) und V(1). Dies bedeutet unmittelbar, dass die 7., 4. und 1. Spalte der Matrix nicht mehr für eine spätere Maximalsuche zur Verfügung stehen werden, das sie Null sind, also keinesfalls ein Maximum sein können.After the assignment, the corresponding vector elements V (j) of all segments which have been assigned to a cluster in this threshold value analysis are set to 0. In the example these are beside V (7) also the components V (4) and V (1). This immediately means that the 7th, 4th and 1st columns of the matrix are no longer available for a later maximum search will be available that they are zero, so can not be a maximum.
Dies ist in etwa gleichbedeutend damit, dass die Einträge (1,7), (4,7), (7,7) und (10,7) der Segmentähnlichkeitsmatrix zu 0 gesetzt werden. Dasselbe Prozedere wird für die Spalte 1 (Elemente (1,1), (4,1) und (7,1)) und die Spalte 4 (Elemente (1,4), (4,4), (7,4) und (10, 4)) durchgeführt. Aufgrund der einfacheren Handhabbarkeit, wird jedoch die Matrix nicht verändert, sondern werden die Komponenten von V, die zu einem zugewiesenen Segment gehören, bei der nächsten Maximumsuche in einem späteren Iterationsschritt ignoriert.This is roughly equivalent to setting the entries (1,7), (4,7), (7,7) and (10,7) of the segment similarity matrix to 0. The same procedure is used for column 1 (elements (1,1), (4,1) and (7,1)) and column 4 (elements (1,4), (4,4), (7,4) and (10, 4)). However, because of the ease of handling, the matrix is not changed, but the components of V that belong to an assigned segment are ignored on the next maximum search in a later iteration step.
In einem nächsten Iterationsschritt wird nunmehr ein neues Maximum unter den noch verbleibenden Elementen von V, also unter V(2), V(3), V(5), V(6,), V(8), V(9) und V(10) gesucht. Voraussichtlich wird dann das Segment Nr. 5, also V(5), den größten Ähnlichkeits-Score ergeben. Die zweite Segmentklasse erhält dann die Segmente 5 und 6. Auf Grund der Tatsache, dass die Ähnlichkeiten zu den Segmenten 2 und 3 unterdurchschnittlich sind, werden die Segmente 2 und 3 nicht in den Cluster zweiter Ordnung gebracht. Damit werden die Elemente V(6) und V(5) vom Vektor V auf Grund der erfolgten Zuweisung zu 0 gesetzt, während noch die Komponenten V(2), V(3), V(8), V(9) und V(10) des Vektors für die Auswahl des Clusters dritter Ordnung verbleiben.In a next iteration step, a new maximum is now selected from the remaining elements of V, that is to say V (2), V (3), V (5), V (6), V (8), V (9) and V (10) searched. The segment no. 5, ie V (5), is expected to yield the largest similarity score. The second segment class then obtains
Hierauf wird wieder ein neues Maximum unter den genannten verbleibenden Elementen von V gesucht. Das neue Maximum könnte V(10) sein, also die Komponente von V für das Segment 10. Segment 10 kommt also in die Segmentklasse dritter Ordnung. So könnte sich ferner herausstellen, dass das Segment 7 auch zum Segment 10 eine überdurchschnittliche Ähnlichkeit hat, obgleich das Segment 7 bereits der ersten Segmentklasse zugehörig gekennzeichnet ist. Es entsteht somit ein Zuweisungskonflikt, der durch die Segmentzuweisungskonflikteinrichtung 18 von
Eine einfache Art der Auflösung könnte sein, einfach in die dritte Segmentklasse das Segment 7 nicht zuzuweisen und z. B. statt dessen das Segment 4 zuzuweisen, falls für das Segment 4 nicht ebenfalls ein Konflikt existieren würde.A simple kind of resolution could be to simply not assign the
Vorzugsweise wird jedoch, um die Ähnlichkeit zwischen dem Segment 7 und dem Segment 10 nicht unberücksichtigt zu lassen, die Ähnlichkeit zwischen 7 und 10 in nachfolgendem Algorithmus berücksichtigt.Preferably, however, in order not to disregard the similarity between the
Allgemein ist die Erfindung ausgelegt, um die Ähnlichkeit zwischen i und k nicht unberücksichtigt zu lassen. Daher werden die Ähnlichkeitswerte Ss(i,k) von Segment i und k mit dem Ähnlichkeitswert Ss(i*,k) verglichen, wobei i* das erste Segment ist, das dem Cluster C* zugeordnet wurde. Der Cluster bzw. die Segmentklasse C* ist der Cluster, dem das Segment k bereits auf Grund einer vorherigen Untersuchung zugeordnet ist. Der Ähnlichkeitswert Ss(i*,k) ist ausschlaggebend dafür, dass das Segment k dem Cluster C* zugehörig ist. Ist Ss(i*,k) größer als Ss(i,k), so bleibt das Segment k im Cluster C*. Ist Ss(i*,k) kleiner als Ss(i,k), so wird das Segment k aus dem Cluster C* herausgenommen und dem Cluster C zugewiesen. Für den ersten Fall, also wenn das Segment k nicht die Clusterzugehörigkeit wechselt, wird für das Segment i eine Tendenz zum Cluster C* vermerkt. Vorzugsweise wird diese Tendenz jedoch auch dann vermerkt, wenn das Segment k die Clusterzugehörigkeit wechselt. In diesem Fall wird eine Tendenz dieses Segments zum Cluster, in den es ursprünglich aufgenommen wurde, vermerkt. Diese Tendenzen können vorteilhafterweise bei einer Segmentierungskorrektur, die durch die Segmentierungskorrektureinrichtung 20 ausgeführt wird, verwendet werden.Generally, the invention is designed not to discount the similarity between i and k. Therefore, the similarity values S s (i, k) of segment i and k are compared with the similarity value S s (i *, k), where i * is the first segment assigned to the cluster C *. The cluster or the segment class C * is the cluster to which segment k is already assigned on the basis of a previous examination. The similarity value S s (i *, k) is decisive for the fact that the segment k belongs to the cluster C *. If S s (i *, k) is greater than S s (i, k), segment k remains in cluster C *. If S s (i *, k) is smaller than S s (i, k), the segment k is taken out of the cluster C * and assigned to the cluster C. For the first case, ie if the segment k does not change the cluster membership, a tendency towards the cluster i is noted for the cluster C *. Preferably, however, this tendency is also noted when segment k changes cluster membership. In this case, a tendency of this segment to the cluster in which it was originally recorded is noted. These tendencies may be advantageously used in a segmentation correction performed by the segmentation correction means 20.
Die Ähnlichkeitswertüberprüfung wird, auf Grund der Tatsache, dass das Segment 7 das "Ursprungssegment" in der ersten Segmentklasse ist, zugunsten der ersten Segmentklasse ausgehen. Das Segment 7 wird also seine Clusterzugehörigkeit (Segmentzugehörigkeit) nicht ändern, sondern es wird in der ersten Segmentklasse verbleiben. Diese Tatsache wird jedoch dadurch berücksichtigt, dass dem Segment Nr. 10 in der dritten Segmentklasse ein Trend zur ersten Segmentklasse attestiert wird.The similarity value check will be in favor of the first segment class due to the fact that the
Erfindungsgemäß wird damit berücksichtigt, dass insbesondere für die Segmente, deren Segment-Ähnlichkeiten zu zwei unterschiedlichen Segmentklassen existieren, diese Ähnlichkeiten dennoch nicht ignoriert werden, sondern gegebenenfalls später durch den Trend bzw. die Tendenz doch noch berücksichtigt werden.According to the invention, it is thus taken into account that, in particular for the segments whose segment similarities to two different segment classes exist, these similarities are nevertheless not ignored, but may eventually be taken into account later by the trend or the tendency.
Das Prozedere wird so lange fortgeführt, bis alle Segmente in der Segment-Ähnlichkeitsmatrix zugeordnet sind, was der Fall ist, wenn alle Elemente vom Vektor V zu Null gesetzt sind.The procedure continues until all segments in the segment similarity matrix are assigned, which is the case when all elements of vector V are set to zero.
Dies würde für das in
Nachfolgend wird detailliert auf die bevorzugte Implementierung der Segmentierungskorrektureinrichtung 20 anhand von
So ergibt sich, dass bei der Berechnung der Segmentgrenzen mittels der Kernel-Korrelation, jedoch auch bei der Berechnung von Segmentgrenzen mittels anderer Maßnahmen häufig eine Übersegmentierung eines Stücks entsteht, d. h. es werden zu viele Segmentgrenzen bzw. allgemein zu kurze Segmente berechnet. Eine Übersegmentierung, z. B. hervorgerufen durch eine falsche Unterteilung der Strophe, wird erfindungsgemäß dadurch korrigiert, dass auf Grund der Segmentlänge und der Information, in welche Segmentklasse ein Vorgänger- oder Nachfolger-Segment einsortiert worden ist, korrigiert wird. In anderen Worten ausgedrückt dient die Korrektur dazu, zu kurze Segmente vollständig zu eliminieren, also mit benachbarten Segmenten zu verschmelzen, und um Segmente, die kurz sind, jedoch nicht zu kurz sind, also die eine kurze Länge haben, jedoch länger als die Minimallänge sind, noch einer besonderen Untersuchung zu unterziehen, ob sie vielleicht nicht doch noch mit einem Vorgänger-segment oder einem Nachfolgersegment verschmolzen werden können. Grundsätzlich werden erfindungsgemäß aufeinander folgende Segmente, die der gleichen Segmentklasse angehören, immer verschmolzen. Ergibt das in
Es werden relativ kurze Segmente, die kürzer als 11 Sekunden (eine erste Schwelle) sind, überhaupt nur untersucht, während später noch kürzere Segmente (eine zweite Schwelle, die kleiner als die erste ist), die kürzer als 9 Sekunden sind, untersucht werden, und später noch verbleibende Segmente, die kürzer als 6 Sekunden (eine dritte Schwelle, die kürzer als die zweite Schwelle ist) sind, wieder alternativ behandelt werden.Relatively short segments shorter than 11 seconds (a first threshold) are only examined at all, while later on even shorter segments (a second threshold smaller than the first one) shorter than 9 seconds are examined, and later remaining segments that are shorter than 6 seconds (a third threshold that is shorter than the second threshold) are again treated alternatively.
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung, bei dem diese gestaffelte Längenüberprüfung stattfindet, ist die Segmentlängenüberprüfung im Block 31 zunächst darauf gerichtet, dass die Segmente kürzer als 11 Sekunden gefunden werden. Für die Segmente, die länger als 11 Sekunden sind, wird keine Nachbearbeitung vorgenommen, wie es durch ein "Nein" am Block 31 erkennbar ist. Für Segmente, die kürzer als 11 Sekunden sind, wird zunächst eine Tendenzenüberprüfung (Block 32) durchgeführt. So wird zunächst untersucht, ob ein Segment auf Grund der Funktionalität der Segmentzuweisungskonflikteinrichtung 18 von
Um auch die zu kurzen Segmente zu vermeiden, die keine Tendenz zu dem Cluster eines benachbarten Segments aufweisen, wird vorgegangen, wie es in den Blöcken 33a, 33b, 33c und 33d in
In einem Block 33b ist ferner ausgeführt, was mit einem Segment geschieht, das kürzer als 9 Sekunden ist, und das das einzige Segment in einer Segmentgruppe ist. So ist in der dritten Segmentklasse das Segment Nr. 10 das einzige Segment. Wäre es nun kürzer als 9 Sekunden, so wird es automatisch der Segmentklasse zugeordnet, zu der das Segment Nr. 9 gehört. Dies führt automatisch zu einer Verschmelzung des Segments 10 mit dem Segment 9. Ist das Segment 10 länger als 9 Sekunden, so wird diese Verschmelzung nicht vorgenommen.In a
In einem Block 33c wird dann eine Untersuchung vorgenommen für Segmente, die kürzer als 9 Sekunden sind, und die nicht das einzige Segment in einem entsprechenden Cluster X, als in einer entsprechenden Segmentgruppe sind. Sie werden einer genaueren Überprüfung unterzogen, in der eine Regelmäßigkeit in der Clusterabfolge festgestellt werden soll. Zunächst werden alle Segmente aus der Segmentgruppe X gesucht, die kürzer als die Mindestlänge sind. Im Anschluss wird für jedes dieser Segmente geprüft, ob die Vorgänger- und Nachfolge-Segmente jeweils zu einem einheitlichen Cluster gehören. Sind alle Vorgänger-Segmente aus einem einheitlichen Cluster, so werden alle zu kurzen Segmente aus dem Cluster X dem Vorgänger-Cluster zugeordnet. Sind dagegen alle Nachfolger-Segmente aus einem einheitlichen Cluster, werden die zu kurzen Segmente aus dem Cluster X jeweils dem Nachfolger-Cluster zugeordnet.In a
In einem Block 33d ist ausgeführt, was passiert, wenn auch diese Bedingung für Segmente nicht erfüllt ist, die kürzer als 9 Sekunden sind. In diesem Fall wird eine Neuheitswertüberprüfung durchgeführt, indem auf die Neuheitswertkurve zurückgegriffen wird, die in
Verbleiben nunmehr noch Segmente, die kürzer als 9 Sekunden sind und noch nicht verschmolzen werden durften, so wird unter diesen noch einmal eine gestaffelte Auswahl durchgeführt. Insbesondere werden nunmehr alle Segmente unter den verbleibenden Segmenten, die kürzer als 6 Sekunden sind, ausgewählt. Die Segmente, deren Länge zwischen 6 und 9 Sekunden aus dieser Gruppe sind, werden "unangetastet" zugelassen.If segments still remain that are shorter than 9 seconds and could not yet be merged, a staggered selection will be carried out among them. In particular, now all segments among the remaining segments shorter than 6 seconds are selected. The segments whose length is between 6 and 9 seconds from this group are allowed "untouched".
Die Segmente, die kürzer als 6 Sekunden sind, werden nunmehr jedoch alle der anhand der Elemente 90, 91, 92 erklärten Neuheitsprüfung unterzogen und entweder dem Vorgänger- oder dem Nachfolger-Segment zugeordnet, so dass am Ende des in
Dieses erfindungsgemäße Prozedere hat den Vorteil, dass keine Elimination von Teilen des Stücks durchgeführt worden ist, dass also keine einfache Eliminierung der zu kurzen Segmente durch Zu-Null-Setzen durchgeführt worden ist, sondern dass nach wie vor das gesamte komplette Musikstück durch die Gesamtheit der Segmente repräsentiert ist. Durch die Segmentierung ist daher kein Informationsverlust aufgetreten, der jedoch sein würde, wenn man z. B. als Reaktion auf die Übersegmentierung einfach alle zu kurzen Segmente "ohne Rücksicht auf Verluste" einfach eliminieren würde.This procedure according to the invention has the advantage that no elimination of parts of the piece has been carried out, ie that no simple elimination of the segments which are too short has been carried out by setting them to zero, but that the entire complete piece of music is still represented by the entirety of the piece Segments is represented. Due to the segmentation therefore no loss of information has occurred, which would be, however, if one z. B. as a reaction on over-segmentation, simply eliminating all too short segments "regardless of losses".
Nachfolgend wird Bezug nehmend auf
Erfindungsgemäß wird nun nicht etwa ein größter Singularwert einer Singularwertzerlegung und der dazugehörige Cluster als Refrain und der Cluster für den zweitgrößten Singularwert als Strophe verwendet. Ferner wird nicht grundsätzlich davon ausgegangen, dass jedes Lied mit einer Strophe anfängt, dass also der Cluster mit dem ersten Segment der Strophencluster ist und der andere Cluster der Refraincluster ist. Statt dessen wird erfindungsgemäß der Cluster in der Kandidatenauswahl, der das letzte Segment hat, als Refrain bezeichnet, und der andere Cluster wird als Strophe bezeichnet.According to the present invention, not a largest singular value of a singular value decomposition and the associated cluster are used as a refrain and the cluster for the second largest singular value as a stanza. Furthermore, it is not generally assumed that each song starts with a stanza, so that the cluster with the first segment is the stanza cluster and the other cluster is the refrain cluster. Instead, according to the invention, the cluster in the candidate selection having the last segment is called a refrain, and the other cluster is called a stanza.
So wird also für die beiden letztendlich zur Strophe-/Refrain-Auswahl bereitstehenden Cluster überprüft (40), welcher Cluster das Segment hat, das als letztes Segment der Segmente der beiden Segmentgruppen im Liedverlauf vorkommt, um denselben als Refrain zu bezeichnen.Thus, for the two clusters finally available for stanza / refrain selection, it is checked (40) which cluster has the segment which occurs as the last segment of the segments of the two segment groups in the song progression, in order to designate it as refrain.
Das letzte Segment kann das tatsächlich im Lied letzte Segment sein oder aber ein Segment, das im Lied später auftritt als alle Segmente der anderen Segmentklasse. Ist dieses Segment nicht das tatsächlich letzte Segment im Lied, so bedeutet dies, dass noch ein Outro vorliegt.The last segment may actually be the last segment in the song, or a segment later in the song than any segment of the other segment class. If this segment is not the actual last segment in the song, this means that there is still an outro.
Diese Entscheidung basiert auf der Erkenntnis, dass der Refrain in den allermeisten Fällen in einem Lied hinter der letzten Strophe kommt, also direkt als letztes Segment des Liedes, wenn ein Stück z. B. mit dem Refrain ausgeblendet wird, oder als Segment vor einem Outro, das auf einen Refrain folgt und mit dem das Stück beendet wird.This decision is based on the realization that the chorus comes in the vast majority of cases in a song behind the last stanza, so directly as the last segment of the song, if a piece z. B. hidden with the refrain or as a segment in front of an outro that follows a chorus and ends the piece.
Ist das letzte Segment aus der ersten Segmentgruppe, dann werden alle Segmente dieser ersten (höchstwertigen) Segmentklasse als Refrain bezeichnet, wie es durch einen Block 41 in
Ergibt dagegen die Untersuchung im Block 40, nämlich welche Segmentklasse in der Auswahl das letzte Segment im Musikstückverlauf hat, dass dies die zweite, also eher niederwertige Segmentklasse ist, so wird in einem Block 42 untersucht, ob die zweite Segmentklasse das erste Segment im Musikstück hat. Diese Untersuchung basiert auf der Erkenntnis, dass die Wahrscheinlichkeit sehr hoch ist, dass ein Lied mit einer Strophe, und nicht mit einem Refrain anfängt.If, on the other hand, the examination in
Wird die Frage im Block 42 mit "Nein" beantwortet, hat also die zweite Segmentklasse nicht das erste Segment im Musikstück, so wird die zweite Segmentklasse als Refrain bezeichnet, und wird die erste Segmentklasse als Strophe bezeichnet, wie es in einem Block 43 angedeutet ist. Wird dagegen die Abfrage im Block 42 mit "Ja" beantwortet, so wird entgegen der Regel die zweite Segmentgruppe als Strophe und die erste Segmentgruppe als Refrain bezeichnet, wie es in einem Block 44 angedeutet ist. Die Bezeichnung im Block 44 geschieht deswegen, da die Wahrscheinlichkeit, dass die zweite Segmentklasse dem Refrain entspricht, schon recht gering ist. Kommt nun noch die Unwahrscheinlichkeit hinzu, dass ein Musikstück mit einem Refrain eingeleitet wird, so deutet einiges auf einen Fehler im Clustering hin, z. B. dass das zuletzt betrachtete Segment fälschlicher Weise der zweiten Segmentklasse zugeordnet wurde.If the question is answered with "No" in
In
Nachfolgend wird anhand von
Allgemein wird im Labeling eine Zuweisung der Label "Strophe" und "Refrain" durchgeführt, wobei eine Segmentgruppe als Strophen-Segmentgruppe markiert wird, während die andere Segmentgruppe als Refrain-Segmentgruppe markiert wird. Grundsätzlich basiert dieses Konzept auf der Annahme (A1), dass die beiden Cluster (Segmentgruppen) mit den höchsten Ähnlichkeitswerten, also Cluster 1 und Cluster 2, den Refrain- und Strophenclustern entsprechen. Das von diesen beiden Clustern als letztes auftretende ist das Refrain-Cluster, wobei davon ausgegangen wird, dass eine Strophe auf einen Refrain folgt.In general, an assignment of the label "stanza" and "refrain" is performed in the labeling, whereby one segment group is marked as a stanza segment group, while the other segment group is marked as a refrain segment group. Basically, this concept is based on the assumption (A1) that the two clusters (segment groups) with the highest similarity values,
Die Erfahrung aus zahlreichen Tests hat gezeigt, dass Cluster 1 in den meisten Fällen dem Refrain entspricht. Für Cluster 2 wird die Annahme (A1) jedoch oftmals nicht erfüllt. Diese Situation tritt meistens dann auf, wenn es entweder noch einen dritten, sich häufig wiederholenden Teil im Stück gibt, z. B. eine Bridge, bei einer hohen Ähnlichkeit von Intro und Outro, oder aber für den nicht selten auftretenden Fall, dass ein Segment im Stück eine hohe Ähnlichkeit zum Refrain aufweist, somit auch eine hohe Gesamtähnlichkeit hat, die Ähnlichkeit zum Refrain aber gerade nicht groß genug ist, um noch zum Cluster 1 zu gehören.The experience from numerous tests has shown that
Untersuchungen haben gezeigt, dass diese Situation häufig für Abwandlungen des Refrains am Ende des Stücks auftritt. Um mit möglichst hoher Sicherheit Refrain und Strophe richtig zu markieren (labeln), wird die in
Zunächst wird in einem Schritt 46 der Cluster bzw. die Segmentgruppe mit höchstem Ähnlichkeitswert (Wert der Komponente von V, die einmal ein Maximum für die zuerst bestimmte Segmentklasse, also Segment 7 bei dem Beispiel von
Fraglich ist nunmehr, welche weitere Segmentgruppe der zweite Teilnehmer an der Strophe-Refrain-Auswahl sein wird. Der wahrscheinlichste Kandidat ist die zweithöchste Segmentklasse, also die Segmentklasse, die beim zweiten Durchlauf durch das in
Wird die Frage dagegen mit "Nein" beantwortet, hat die zweithöchste Segmentklasse also z. B. wenigstens drei Segmente, oder zwei Segmente, von denen eines innerhalb des Stücks und nicht am "Rand" des Stücks ist, so bleibt die zweite Segmentklasse vorerst in der Auswahl und wird fortan als "Second Cluster" bezeichnet.If, on the other hand, the question is answered with "No", the second highest segment class has, for example, B. at least three segments, or two segments, one of which is within the piece and not at the "edge" of the piece, so remains second segment class initially in the selection and is henceforth referred to as "Second Cluster".
Wird die Frage im Block 47 dagegen mit "Ja" beantwortet, scheidet die zweithöchste Klasse also aus (Block 48a), so wird sie durch die Segmentklasse ersetzt, die am häufigsten im gesamten Lied vorkommt (anders ausgedrückt: die am meisten Segmente beinhaltet) und nicht der höchsten Segmentklasse (Cluster 1) entspricht. Diese Segmentklasse wird fortan als "Second Cluster" bezeichnet.On the other hand, if the question is answered "yes" in
"Second Cluster" muss sich, wie es nachfolgend dargelegt wird, noch mit einer dritten Segmentklasse messen (48b), welche als "Third Cluster" bezeichnet wird, um am Ende als Kandidat den Auswahlprozess zu überstehen.Second clusters, as explained below, still have to measure themselves with a third segment class (48b), which is referred to as a "third cluster" in order to ultimately survive the selection process as a candidate.
Die Segmentklasse "Third Cluster" entspricht dem Cluster, welcher am häufigsten im gesamten Lied vorkommt, jedoch weder der höchsten Segmentklasse (Cluster 1) noch der Segmentklasse "Second Cluster" entspricht, sozusagen das am nächsthäufigsten (oftmals auch gleich häufig) vorkommende Cluster nach Cluster 1 und "Second Cluster".The segment class "Third Cluster" corresponds to the cluster, which occurs most frequently in the entire song, but neither the highest segment class (cluster 1) nor the segment class "Second Cluster" corresponds, so to speak, the next most common (often equally common) occurring clusters by
Hinsichtlich der so genannten Bridge-Problematik wird nun für "Third Cluster" überprüft, ob es eher in die Strophe-Refrain-Auswahl gehört als "Second Cluster" oder nicht. Dies geschieht deshalb, da "Second Cluster" und "Third Cluster" oftmals gleich oft vorkommen, eins von beiden also evtl. eine Bridge oder ein anderes wiederkehrendes Zwischenteil darstellt. Um zu gewährleisten, dass die Segmentklasse von den beiden ausgewählt wird, die am ehesten der Strophe oder dem Refrain entspricht, also nicht einer Bridge oder einem anderen Zwischenstück, werden die in den Blöcken 49a, 49b, 49c dargestellten Untersuchungen durchgeführt.With regard to the so-called bridge problem, it is now checked for "third cluster" whether it belongs more in the stanza-refrain selection than "second cluster" or not. This happens because "Second Cluster" and "Third Cluster" often occur the same number of times, so one of them may represent a bridge or another recurring intermediate part. In order to ensure that the segment class is selected from the two closest to the stanza or chorus, ie not a bridge or other intermediate, the examinations shown in
Die erste Untersuchung in Block 49a lautet dahingehend, dass untersucht wird, ob jedes Segment aus ThirdCluster eine gewisse Mindestlänge hat, wobei als Schwellwert z. B. 4% der gesamten Liedlänge bevorzugt wird. Andere Werte zwischen 2% und 10% können ebenfalls zu sinnvollen Ergebnissen führen.The first examination in
In einem Block 49b wird dann untersucht, ob ThirdCluster einen größeren Gesamtanteil am Lied hat als SecondCluster. Hierzu wird die Gesamtzeit aller Segmente in ThirdCluster aufaddiert und mit der entsprechend aufaddierten Gesamtzahl aller Segmente in SecondCluster verglichen, wobei dann ThirdCluster einen größeren Gesamtanteil am Lied als SecondCluster hat, wenn die aufaddierten Segmente in ThirdCluster einen größeren Wert ergeben als die aufaddierten Segmente in SecondCluster.In a
In dem Block 49c wird schließlich überprüft, ob der Abstand der Segmente aus ThirdCluster zu den Segmenten aus Cluster 1, also dem häufigsten Cluster konstant sind, d. h. ob eine Regelmäßigkeit in der Abfolge ersichtlich ist.In
Sind alle diese drei Bedingungen mit "Ja" beantwortet, so kommt ThirdCluster in die Strophe-Refrain-Auswahl. Ist dagegen wenigstens eine dieser Bedingungen nicht erfüllt, so kommt ThirdCluster nicht in die Strophe-Refrain-Auswahl. Statt dessen kommt SecondCluster in die Strophe-Refrain-Auswahl, wie es durch einen Block 50 in
An dieser Stelle sei darauf hingewiesen, dass die drei Bedingungen in den Blöcken 49a, 49b, 49c alternativ auch gewichtet werden könnten, so dass z. B. eine Nein-Antwort im Block 49a dann "überstimmt" wird, wenn sowohl die Abfrage im Block 49b als auch die Abfrage im Block 49c mit "Ja" beantwortet werden. Alternativ könnte auch eine Bedingung der drei Bedingungen hervorgehoben werden, so dass z. B. nur untersucht wird, ob es die Regelmäßigkeit der Abfolge zwischen der dritten Segmentklasse und der ersten Segmentklasse gibt, während die Abfragen in den Blöcken 49a und 49b nicht durchgeführt werden oder nur dann durchgeführt werden, wenn die Abfrage im Block 49c mit "Nein" beantwortet wird, jedoch z. B. ein relativ großer Gesamtanteil im Block 49b und relativ große Mindestmengen im Block 49a ermittelt werden.It should be noted at this point that the three conditions in the
Alternative Kombinationen sind ebenfalls möglich, wobei für eine Low-Level-Untersuchung auch nur die Abfrage eines der Blöcke 49a, 49b, 49c für bestimmte Implementierungen ausreichend sein wird.Alternative combinations are also possible, and for a low-level investigation, only polling one of the
Nachfolgend werden beispielhafte Implementierungen des Blocks 526 zum Durchführen einer Music-Summary dargelegt. So existieren verschiedene Möglichkeiten, was als Music Summary abgespeichert werden kann. Zwei davon werden nachfolgend beschrieben, nämlich die Möglichkeit mit dem Titel "Refrain" und die Möglichkeit mit dem Titel "Medley".Hereinafter, exemplary implementations of the block 526 for performing a music summary are set forth. So there are different possibilities, which can be stored as music summary. Two of them are described below, namely the option entitled "Refrain" and the option entitled "Medley".
Die Refrain-Möglichkeit besteht darin, eine Version des Refrains als Summary zu wählen. Hierbei wird versucht, eine Ausführung des Refrains zu wählen, die möglichst zwischen 20 und 30 Sekunden lang ist. Ist ein Segment mit einer solchen Länge im Refrain-Cluster nicht enthalten, so wird eine Version gewählt, die eine möglichst geringe Abweichung zu einer Länge von 25 Sekunden hat. Ist der gewählte Refrain länger als 30 Sekunden, wird er bei diesem Ausführungsbeispiel über 30 Sekunden ausgeblendet und ist er kürzer als 20 Sekunden, so wird er mit dem darauf folgenden Segment auf 30 Sekunden verlängert.The refrain option is to choose a version of the chorus as a summary. This will attempt to choose a chorus version that lasts between 20 and 30 seconds if possible. If a segment with such a length is not contained in the refrain cluster, a version is chosen which has the smallest possible deviation to a length of 25 seconds. If the selected chorus is longer than 30 seconds, it will be hidden for more than 30 seconds in this embodiment, and if it is shorter than 20 seconds, it will be extended to 30 seconds with the following segment.
Das Abspeichern eines Medleys für die zweite Möglichkeit entspricht noch eher einer tatsächlichen Zusammenfassung eines Musikstücks. Hierbei werden ein Ausschnitt der Strophe, ein Ausschnitt des Refrains und ein Ausschnitt eines dritten Segments in ihrer tatsächlichen chronologischen Reihenfolge als Medley konstruiert. Das dritte Segment wird aus einem Cluster ausgewählt, das den größten Gesamtanteil am Lied hat und nicht Strophe oder Refrain ist.Storing a medley for the second option is more like an actual summary of a piece of music. Here are a section of the stanza, a section of the chorus and a section of a third segment in its actual chronological order as a medley constructed. The third segment is selected from a cluster that has the largest total portion of the song and is not a verse or chorus.
Mit folgender Priorität wird nach der geeignetsten Abfolge der Segmente gesucht:
- "drittes Segment"-Strophe-Refrain;
- Strophe-Refrain-"drittes Segment"; oder
- Strophe-"drittes Segment"-Refrain.
- "third segment" stanza refrain;
- Stanza refrain "third segment"; or
- Stanza "third segment" refrain.
Die gewählten Segmente werden nicht in ihrer vollen Länge in des Medley eingebaut. Die Länge ist vorzugsweise auf feste 10 Sekunden pro Segment festgelegt, damit insgesamt wieder eine Summary von 30 Sekunden entsteht. Alternative Werte sind jedoch ebenfalls ohne weiteres realisierbar.The selected segments are not installed in their full length in the medley. The length is preferably set to a fixed 10 seconds per segment, so that a total of 30 seconds is created again. However, alternative values are also readily feasible.
Vorzugsweise wird zur Rechenzeiteinsparung nach der Merkmalsextraktion im Block 502 bzw. nach dem Block 508 eine Gruppierung mehrerer Merkmalsvektoren im Block 510 durchgeführt, indem ein Mittelwert über die gruppierten Merkmalsvektoren gebildet wird. Die Gruppierung kann im nächsten-Verarbeitungsschritt, der Berechnung der Ähnlichkeitsmatrix, Rechenzeit einsparen. Zur Berechnung der Ähnlichkeitsmatrix wird zwischen allen möglichen Kombinationen von je zwei Merkmalsvektoren eine Distanz ermittelt. Daraus ergeben sich bei n Vektoren über das gesamte Stück n x n Berechnungen. Ein Gruppierungsfaktor g gibt an, wie viele aufeinander folgende Merkmalsvektoren über die Mittelwertbildung zu einem Vektor gruppiert werden. Dadurch kann die Anzahl der Berechnungen reduziert werden.Preferably, in order to save computation time after the feature extraction in
Die Gruppierung ist auch eine Art von Rauschunterdrückung, bei der kleine Änderungen in der Merkmalsausprägung von aufeinander folgenden Vektoren im Mittel kompensiert werden. Diese Eigenschaft hat eine positive Auswirkung auf das Auffinden von großen Liedstrukturen.The grouping is also a kind of noise suppression in which small changes in the feature expression of successive vectors are compensated on average. This property has a positive effect on finding large song structures.
Das erfindungsgemäße Konzept ermöglicht es, mittels eines speziellen Music-Players durch die berechneten Segmente zu navigieren und gezielt einzelne Segmente anzuwählen, so dass ein Konsument in einem Musikladen durch beispielsweise Drücken einer bestimmten Taste oder durch Aktivieren eines bestimmten Software-Befehls ohne weiteres sofort zum Refrain eines Stücks springen kann, um festzustellen, ob der Refrain ihm gefällt, um dann, vielleicht noch eine Strophe anzuhören, damit der Konsument schließlich eine Kaufentscheidung treffen kann. Damit ist es einem Kaufinteressenten komfortabel möglich, von einem Stück genau das zu hören, was ihn besonders interessiert, während er sich z. B. das Solo oder die Bridge dann tatsächlich für den Hörgenuss zu Hause aufsparen kann.The concept according to the invention makes it possible to navigate through the calculated segments by means of a special music player and to selectively select individual segments, so that a consumer in a music shop can immediately immediately refrain, for example by pressing a certain key or by activating a certain software command jump to see if the chorus pleases him, and then maybe listen to a stanza so that the consumer can finally make a purchase decision. This makes it easy for a prospective buyer to hear from a piece exactly what he is particularly interested in, while he z. B. the solo or the bridge then actually save for the listening pleasure at home.
Alternativ ist das erfindungsgemäße Konzept auch für einen Musikladen von großem Vorteil, da der Kunde gezielt und damit auch schnell reinhören und letztendlich kaufen kann, so dass die Kunden nicht lange auf ein Reinhören warten müssen, sondern ebenfalls schnell an die Reihe kommen. Dies liegt daran, dass ein Benutzer nicht ständig hin- und herspulen muss, sondern gezielt und schnell sämtliche Informationen des Stücks erhält, die er auch haben möchte.Alternatively, the concept according to the invention is also of great advantage for a music store, since the customer can listen in and therefore also quickly and ultimately buy, so that the customers do not have to wait long to listen in, but also quickly get their turn. This is because a user does not have to constantly go back and forth, but gets targeted and quickly all the information of the piece he would like to have.
Ferner sei auf einen wesentlichen Vorteil des erfindungsgemäßen Konzepts hingewiesen, nämlich dass insbesondere auf Grund der Nachkorrektur der Segmentierung keine Informationen des Stücks verloren gehen. So werden zwar alle Segmente, die vorzugsweise kürzer als 6 Sekunden sind, mit dem Vorgänger- oder Nachfolger-Segment verschmolzen. Allerdings werden keine Segmente, so kurz sie auch sind, eliminiert. Dies hat den Vorteil, dass der Benutzer prinzipiell alles im Stück anhören kann, so dass ein zwar kurzes aber einem Benutzer doch sehr gut gefallendes markantes Stück, das bei einer Segmentierungs-Nachkorrektur weggefallen wäre, die tatsächlich einen Abschnitt des Stücks komplett eliminiert hätte, dennoch dem Benutzer zur Verfügung steht, damit er vielleicht gerade aufgrund des kurzen markanten Stücks eine wohl überlegte Kaufentscheidung treffen kann.Furthermore, reference is made to a significant advantage of the inventive concept, namely that no information of the piece is lost, in particular due to the post-correction of the segmentation. Thus, although all segments, which are preferably shorter than 6 seconds, merged with the predecessor or successor segment. However, no segments as short as they are will be eliminated. This has the advantage that the user can in principle hear everything in the play, so that a short but a user but very good liking striking piece that would have been omitted in a segmentation post-correction, the indeed completely eliminated a portion of the piece, yet is available to the user, so perhaps he may make a well considered purchase decision just because of the short distinctive piece.
Die vorliegende Erfindung ist jedoch auch in anderen Anwendungsszenarien anwendbar, beispielsweise beim Werbe-Monitoring, also dort, wo ein Werbekunde überprüfen möchte, ob das Audiostück, für das er Werbezeit gekauft hat, auch tatsächlich über die gesamte Länge abgespielt worden ist. Ein Audiostück kann beispielsweise Musiksegmente, Sprechersegmente, und Geräuschsegmente umfassen. Der Segmentierungsalgorithmus, also die Segmentierung und nachfolgende Einordnung in Segmentgruppen ermöglicht dann eine schnelle und wesentlich weniger aufwendige Überprüfung als ein kompletter Sample-weiser Vergleich. Die effiziente Überprüfung würde einfach in einer Segmentklassen-Statistik bestehen, also einem Vergleich, wie viel Segmentklassen gefunden worden sind, und wie viel Segmente in den einzelnen Segmentklassen sind, mit einer Vorgabe aufgrund des idealen Werbestücks. Damit ist es einem Werbekunden ohne weiteres möglich, zu erkennen, ob ein Rundfunksender oder Fernsehsender tatsächlich alle Hauptteile (Abschnitte) des Werbesignals ausgestrahlt hat oder nicht.However, the present invention is also applicable in other application scenarios, for example in advertising monitoring, ie where an advertiser wants to check whether the audio piece for which he has bought advertising time, has actually been played over the entire length. An audio piece may include, for example, music segments, speaker segments, and noise segments. The segmentation algorithm, ie the segmentation and subsequent classification into segment groups, then makes it possible to carry out a quick and considerably less complicated check than a complete sample-wise comparison. The efficient checking would simply consist of segment class statistics, that is, a comparison of how many segment classes have been found and how many segments are in each segment class, with a default given the ideal ad item. Thus, it is readily possible for an advertiser to recognize whether or not a broadcaster or television station has actually broadcast all the main parts (sections) of the commercial signal.
Die vorliegende Erfindung ist ferner dahingehend von Vorteil, dass sie zur Recherche in großen Musikdatenbanken eingesetzt werden kann, um beispielsweise nur die Refrains von vielen Musikstücken durchzuhören, um danach eine Musikprogrammauswahl durchzuführen. In diesem Fall würden nur einzelne Segmente aus der mit "Refrain" markierten Segmentklasse von vielen verschiedenen Stücken ausgewählt werden und von einem Programmanbieter bereitgestellt werden. Alternativ könnte auch ein Interesse dahingehend bestehen, von einem Interpreten alle z. B. Gitarrensolos miteinander zu vergleichen. Erfindungsgemäß können diese ebenfalls ohne weiteres bereitgestellt werden, indem immer eines oder mehrere Segmente (falls vorhanden) in der mit "Solo" bezeichneten Segmentklasse aus einer großen Anzahl von Musikstücken z. B. zusammengefügt und als ein File bereitgestellt werden.The present invention is further advantageous in that it can be used for searching in large music databases, for example, to listen only to the choruses of many pieces of music in order to then perform a music program selection. In this case, only individual segments would be selected from the "class" segmented class of many different pieces and provided by a program provider. Alternatively, there could also be an interest, from an interpreter all z. B. to compare guitar solo with each other. According to the invention, these can also be easily provided by always one or more segments (if any) in the "solo" designated Segment class from a large number of pieces of music z. B. assembled and provided as a file.
Wieder andere Anwendungsmöglichkeiten bestehen darin, aus verschiedenen Audiostücken Strophen und Refrains zu mischen, was insbesondere für DJs von Interesse sein wird und völlig neue Möglichkeiten der kreativen Musiksynthese eröffnet, welche einfach und vor allem automatisch zielgenau durchgeführt werden können. So ist das erfindungsgemäße Konzept ohne weiteres automatisierbar, da es an keiner Stelle eine Benutzerintervention erfordert. Dies bedeutet, dass Nutzer des erfindungsgemäßen Konzepts keineswegs eine besondere Ausbildung benötigen, außer z. B. eine übliche Geschicktheit im Umgang mit normalen Software-Benutzeroberflächen.Still other applications are to mix stanzas and choruses from different audio pieces, which will be particularly interesting for DJs and opens up completely new possibilities of creative music synthesis, which can be carried out easily and above all automatically accurately. Thus, the inventive concept can be easily automated, since it requires at no point a user intervention. This means that users of the inventive concept by no means require special training, except for. For example, a common skill in dealing with normal software user interfaces.
Je nach den praktischen Gegebenheiten kann das erfindungsgemäße Konzept in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen Worten ausgedrückt stellt die Erfindung somit ein Computerprogramm mit einem Programmcode zur Durchführen des Verfahrens dar, wenn das Computerprogramm auf einem Computer abläuft.Depending on the practical circumstances, the inventive concept can be implemented in hardware or in software. The implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the corresponding method is executed. In general, the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, when the computer program product runs on a computer. In other words, the invention thus represents a computer program with a program code for carrying out the method when the computer program runs on a computer.
Claims (21)
- Apparatus for grouping temporal segments of an audio track, which is subdivided into main parts occurring repeatedly in the audio track, into different segment classes, a segment class being associated with a main part, having the following features:a device (10) for providing a similarity representation for the segments, the similarity representation for each segment having an associated plurality of similarity values, the associated plurality of similarity values indicating how similar the segment is to each other segment of the audio track;a device (12) for calculating a similarity threshold value for a specific segment solely using the plurality of similarity values associated with the segment; anda device (14) for allocating a segment to a segment class if the similarity value of the segment meets a predetermined condition with respect to the similarity threshold value.
- Apparatus according to Claim 1, which also has the following feature:a segment selection device (16) for determining an extreme segment whose associated plurality of similarity values, added together, has an extremum,the calculating device (12) being designed to calculate the similarity threshold value for the extreme segment, andthe allocating device (14) being designed to label the segment class with an indication of the extreme segment.
- Apparatus according to Claim 1 or 2, in which the allocating device (14) is designed not to associate a segment, which does not meet the predetermined condition with respect to the similarity threshold value, with the segment class, but rather to leave it for association with a different segment class, and
the allocating device (14) being designed to no longer take into account, for an associated segment, the similarity value of the associated segment during allocation to a different segment class. - Apparatus according to one of the preceding claims, in which the device (12) for calculating the similarity threshold value is designed, in a subsequent pass, following previous allocation to a segment class, to ignore similarity values for previously allocated segments in the plurality of similarity values, and
in which the allocating device (14) is designed, in a subsequent pass, to carry out allocation to a segment class other than the segment class in a previous pass. - Apparatus according to one of the preceding claims, which also has the following feature:a segment allocation conflict device (18) which is designed, in the case in which a conflict segment should be associated with two different segment classes by the allocating device (14), to determine a first similarity value of the conflict segment to a segment in a first segment class and to determine a second similarity value of the conflict segment to a segment in a second segment class, andthe allocating device (14) being designed, in the case in which the second similarity value indicates stronger similarity of the conflict segment to the segment in the second segment class, to remove the conflict segment from the first segment class and to allocate it to the second segment class.
- Apparatus according to Claim 5, in which the segment allocation conflict device (18) is designed, if the segment is removed from the first segment class, to allocate a tendency towards the first segment class to the segment or, if the segment has not been removed, to allocate a tendency towards the second segment class to the segment.
- Apparatus according to one of the preceding claims, which also has the following feature:a segmentation correction device (20) which is designed to correct segmentation of the audio track, the segmentation correction device (20) being designed to merge segments with a preceding segment or a subsequent segment depending on segment class information for the segments.
- Apparatus according to Claim 7, in which the segmentation correction device (20) is designed to determine, for a segment which is shorter than a predetermined minimum length, whether a tendency of the segment corresponds to a segment class to which an immediately temporally preceding segment belongs, and, in this case, to merge the segment with the temporally immediately preceding segment, or is designed to determine, for a segment which is shorter than a predetermined minimum length, whether a tendency of the segment indicates a segment class to which a temporally immediately subsequent segment belongs, and, in this case, to merge the segment with the temporally immediately subsequent segment.
- Apparatus according to one of the preceding claims, which has a segmentation correction device (20) designed to merge temporally successive segments belonging to the same segment class.
- Apparatus according to one of Claims 7 to 9, in which the segmentation correction device (20), in order to correct the segments, is designed to select only segments having a temporal segment length which is shorter than a predetermined minimum length.
- Apparatus according to Claim 10, in which the segmentation correction device (20) is designed to merge a selected segment from a second segment class, the temporal precursor segment of which and the temporal successor segment of which belong to a first segment class, with the precursor segment and the successor segment.
- Apparatus according to Claim 10 or 11, in which the segmentation correction device (20) is designed to merge a segment, which is in a segment class comprising only a single segment, with the preceding segment or the subsequent segment.
- Apparatus according to Claim 10, 11 or 12, in which the segmentation correction device (20) is designed to merge a plurality of selected segments, which are in the same segment class, with a temporally preceding segment or a temporally subsequent segment in each case if all selected segments in the segment class comprise precursor segments from the same segment class or successor segments from the same segment class.
- Apparatus according to one of Claims 7 to 13, in which the segmentation correction device is designed to determine, for a segment having a shorter temporal length than a predetermined minimum length, a first novelty value at a start of the segment and to determine a second novelty value at an end of the segment and to merge the segment with a temporally subsequent segment if the first novelty value is greater than the second novelty value or to merge the segment with a temporally preceding segment if the first novelty value is less than the second novelty value.
- Apparatus according to one of Claims 7 to 14, in which the segmentation correction device (20) is designed to carry out different corrective measures on the basis of different predetermined segment lengths.
- Apparatus according to one of the preceding claims, which also has a segment class naming device which is designed to name segment classes for different main parts depending on a temporal position of segments in different segment classes.
- Apparatus according to Claim 16, in which the segment class naming device (22) is designed, before naming segment classes as a "verse" main part and a "refrain" main part, to select two segment class candidates for taking into account the segments in the segment classes.
- Apparatus according to Claim 16 or 17, in which the segment class naming device (22) is designed to name a candidate segment class as a refrain class if the candidate segment class comprises the segment which temporally occurs after all other segments in the other candidate segment class in the audio track.
- Apparatus according to one of Claims 16 to 18, in which the segment class naming device (22) is designed to name a candidate segment class as a verse class if the candidate segment class does not comprise the segment which temporally occurs after all other segments in the other candidate segment class in the audio track.
- Method for grouping temporal segments of an audio track, which is subdivided into main parts occurring repeatedly in the audio track, into different segment classes, a segment class being associated with a main part, having the following steps of:providing (10) a similarity representation for the segments, the similarity representation for each segment having an associated plurality of similarity values, the associated plurality of similarity values indicating how similar the segment is to each other segment of the audio track;calculating (12) a similarity threshold value for a specific segment solely using the plurality of similarity values associated with the segment; andallocating (14) a segment to a segment class if the similarity value of the segment meets a predetermined condition with respect to the similarity threshold value.
- Computer program having a program code for carrying out the method according to Patent Claim 20 when the computer program runs on a computer.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004047068A DE102004047068A1 (en) | 2004-09-28 | 2004-09-28 | Apparatus and method for grouping temporal segments of a piece of music |
PCT/EP2005/007751 WO2006034743A1 (en) | 2004-09-28 | 2005-07-15 | Device and method for arranging in groups temporal segments of a piece of music |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1794743A1 EP1794743A1 (en) | 2007-06-13 |
EP1794743B1 true EP1794743B1 (en) | 2013-04-24 |
Family
ID=35005745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP05760763.2A Not-in-force EP1794743B1 (en) | 2004-09-28 | 2005-07-15 | Device and method for arranging in groups temporal segments of a piece of music |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1794743B1 (en) |
JP (1) | JP4775380B2 (en) |
DE (1) | DE102004047068A1 (en) |
WO (1) | WO2006034743A1 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4948118B2 (en) | 2005-10-25 | 2012-06-06 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP4465626B2 (en) | 2005-11-08 | 2010-05-19 | ソニー株式会社 | Information processing apparatus and method, and program |
JP4906565B2 (en) * | 2007-04-06 | 2012-03-28 | アルパイン株式会社 | Melody estimation method and melody estimation device |
JP5083951B2 (en) * | 2007-07-13 | 2012-11-28 | 学校法人早稲田大学 | Voice processing apparatus and program |
EP2180463A1 (en) | 2008-10-22 | 2010-04-28 | Stefan M. Oertl | Method to detect note patterns in pieces of music |
JP6784255B2 (en) * | 2015-03-25 | 2020-11-11 | 日本電気株式会社 | Speech processor, audio processor, audio processing method, and program |
US10629173B2 (en) | 2016-03-30 | 2020-04-21 | Pioneer DJ Coporation | Musical piece development analysis device, musical piece development analysis method and musical piece development analysis program |
WO2017195292A1 (en) | 2016-05-11 | 2017-11-16 | Pioneer DJ株式会社 | Music structure analysis device, method for analyzing music structure, and music structure analysis program |
CN109979418B (en) * | 2019-03-06 | 2022-11-29 | 腾讯音乐娱乐科技(深圳)有限公司 | Audio processing method and device, electronic equipment and storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
AUPS270902A0 (en) * | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
JP4243682B2 (en) * | 2002-10-24 | 2009-03-25 | 独立行政法人産業技術総合研究所 | Method and apparatus for detecting rust section in music acoustic data and program for executing the method |
ATE556404T1 (en) * | 2002-10-24 | 2012-05-15 | Nat Inst Of Advanced Ind Scien | PLAYBACK METHOD FOR MUSICAL COMPOSITIONS AND DEVICE AND METHOD FOR RECOGNIZING A REPRESENTATIVE MOTIVE PART IN MUSIC COMPOSITION DATA |
JP4203308B2 (en) * | 2002-12-04 | 2008-12-24 | パイオニア株式会社 | Music structure detection apparatus and method |
JP4079260B2 (en) * | 2002-12-24 | 2008-04-23 | 独立行政法人科学技術振興機構 | Music mixing apparatus, method and program |
-
2004
- 2004-09-28 DE DE102004047068A patent/DE102004047068A1/en not_active Withdrawn
-
2005
- 2005-07-15 JP JP2007533882A patent/JP4775380B2/en not_active Expired - Fee Related
- 2005-07-15 WO PCT/EP2005/007751 patent/WO2006034743A1/en active Application Filing
- 2005-07-15 EP EP05760763.2A patent/EP1794743B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
EP1794743A1 (en) | 2007-06-13 |
DE102004047068A1 (en) | 2006-04-06 |
WO2006034743A1 (en) | 2006-04-06 |
JP2008515012A (en) | 2008-05-08 |
JP4775380B2 (en) | 2011-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1794745B1 (en) | Device and method for changing the segmentation of an audio piece | |
EP1774527B1 (en) | Device and method for labeling different segment classes | |
EP1794743B1 (en) | Device and method for arranging in groups temporal segments of a piece of music | |
EP1523719B1 (en) | Device and method for characterising an information signal | |
EP1407446B1 (en) | Method and device for characterising a signal and for producing an indexed signal | |
EP2099024B1 (en) | Method for acoustic object-oriented analysis and note object-oriented processing of polyphonic sound recordings | |
EP1371055B1 (en) | Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function | |
DE69908226T2 (en) | Device and method for finding melodies | |
EP1405222B9 (en) | Method and device for producing a fingerprint and method and device for identifying an audio signal | |
WO2005111998A1 (en) | Device and method for analyzing an information signal | |
EP2351017B1 (en) | Method for recognizing note patterns in pieces of music | |
DE10058811A1 (en) | Method for identifying pieces of music e.g. for discotheques, department stores etc., involves determining agreement of melodies and/or lyrics with music pieces known by analysis device | |
EP1388145B1 (en) | Device and method for analysing an audio signal in view of obtaining rhythm information | |
WO2006039993A1 (en) | Method and device for smoothing a melody line segment | |
DE102004028693A1 (en) | Apparatus and method for determining a chord type underlying a test signal | |
EP1377924B1 (en) | Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal | |
WO2009013144A1 (en) | Method for determining a similarity, device, and the use thereof | |
DE112020002116T5 (en) | Information processing device and method and program | |
WO2005114650A1 (en) | Process and device for characterising an audio signal | |
EP1381024B1 (en) | Method for retrieving a tone sequence | |
DE102007034030A1 (en) | Method of performing an adaptation of descriptors, apparatus and use thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20070301 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
DAX | Request for extension of the european patent (deleted) | ||
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: GRACENOTE, INC. |
|
17Q | First examination report despatched |
Effective date: 20100729 |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: SONY CORPORATION |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: REF Ref document number: 609032 Country of ref document: AT Kind code of ref document: T Effective date: 20130515 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: GERMAN |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 502005013660 Country of ref document: DE Effective date: 20130620 |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG4D |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: VDEP Effective date: 20130424 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130826 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130824 Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130725 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130804 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130724 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 |
|
BERE | Be: lapsed |
Owner name: SONY CORP. Effective date: 20130731 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20130724 |
|
26N | No opposition filed |
Effective date: 20140127 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: MM4A |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20140331 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130731 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130731 Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130724 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130731 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 502005013660 Country of ref document: DE Effective date: 20140127 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130731 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130715 |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MM01 Ref document number: 609032 Country of ref document: AT Kind code of ref document: T Effective date: 20130715 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20140721 Year of fee payment: 10 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130715 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20130424 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO Effective date: 20050715 Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130715 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 502005013660 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20160202 |