EP1671315B1 - Process and device for characterising an audio signal - Google Patents

Process and device for characterising an audio signal Download PDF

Info

Publication number
EP1671315B1
EP1671315B1 EP05735854A EP05735854A EP1671315B1 EP 1671315 B1 EP1671315 B1 EP 1671315B1 EP 05735854 A EP05735854 A EP 05735854A EP 05735854 A EP05735854 A EP 05735854A EP 1671315 B1 EP1671315 B1 EP 1671315B1
Authority
EP
European Patent Office
Prior art keywords
sequence
implemented
tone
sub
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
EP05735854A
Other languages
German (de)
French (fr)
Other versions
EP1671315A1 (en
Inventor
Markus Cremer
Christian Uhle
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1671315A1 publication Critical patent/EP1671315A1/en
Application granted granted Critical
Publication of EP1671315B1 publication Critical patent/EP1671315B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition

Definitions

  • the present invention relates to the analysis of audio signals, and more particularly to the analysis of audio signals for purposes of classifying and identifying audio signals to characterize the audio signals.
  • the aim is also to "enrich" audio data with metadata to z. B. to recover a piece of music based on a fingerprint metadata.
  • the "fingerprint” should on the one hand be meaningful, and on the other hand be as short and concise as possible. "Fingerprint” thus refers to a compressed generated from a music signal Information signal, which does not contain the metadata, but for referencing to the metadata eg by searching in a database is used, for example in a system for the identification of audio material ("AudioID").
  • music data consists of the superposition of sub-signals from single sources. While pop music typically has relatively few individual sources, namely the singer, the guitar, the bass guitar, the drums, and a keyboard, the number of sources for an orchestral piece can become very large.
  • An orchestral piece and a pop music piece for example, consist of a superposition of the tones emitted by the individual instruments.
  • An orchestral piece or piece of music thus represents a superimposition of partial signals from individual sources, the partial signals being the sounds produced by the individual instruments of the orchestra or pop music ensemble, and the individual instruments being individual sources.
  • groups of original sources can also be considered as individual sources, so that at least two individual sources can be assigned to one signal.
  • An analysis of a general information signal is shown below by way of example only with reference to an orchestra signal.
  • the analysis of an orchestra signal can be done in many ways.
  • Other possibilities of analysis exist in extracting a dominant rhythm, whereby rhythm extraction on the basis of the percussion instruments is better than on the basis of the more sound-giving instruments, which are also referred to as harmonic-sustained or "harmonic sustained" instruments.
  • harmonic-sustained or "harmonic sustained” instruments While percussion instruments typically include timpani, drums, rattles or other percussion instruments, the harmonic sustained instruments include all other instruments such as violins, wind instruments, etc.
  • the percussion instruments include all those acoustic or synthetic tone generators that contribute to the rhythm section due to their sound characteristics (e.g., rhythm guitar).
  • rhythm extraction of a piece of music it would be desirable for the rhythm extraction of a piece of music to extract only percussive parts from the entire piece of music and then perform rhythm recognition on the basis of these percussive parts, without the rhythm recognition being "disturbed” by signals from the harmonically sustained instruments.
  • melodic fragments In contrast to the usual structure of occidental music, melodic fragments, unlike the rhythmic structure, usually do not appear periodically. For this reason, many methods of searching for melodic fragments are limited to the individual finding of their occurrence. In contrast to this, in the field of rhythmic analysis, the interest is preferentially in finding periodic structures.
  • Methods for identifying melodic themes are only of limited suitability for identifying periodicities present in a sound signal, since, as has been said, musical themes are recurrent, but not so much a basic periodicity in a piece of music, but rather, when have at all higher-level periodicity information in itself.
  • methods for the identification of melodic themes are very complex, since in the search for melodic themes the different variations of the topics must be considered. So it is known from the music world that topics are usually varied, namely, for example, by transposition, mirroring, etc.
  • the object of the present invention is to provide an efficient and reliable concept for characterizing a sound signal.
  • This object is achieved by a device for characterizing a sound signal according to claim 1, a method for characterizing a sound signal according to claim 20 or a computer program according to claim 21.
  • the present invention is based on the finding that a characteristic of a sound signal which can be calculated efficiently and is informative with respect to many information can be determined on the basis of a sequence of application times by period length determination, division into subsequences and summary into a combined subsequence as a characteristic.
  • each sequence of deployment times is subdivided into respective subsequences, wherein a length of a subsequence is equal to the common period length.
  • the characteristic extraction then takes place on the basis of a summary of the subsequences for the first sound source into a first combined subsequence and on the basis of a summary of the subsequences for the second sound source into a second combined subsequence, the combined subsequences being characteristic of the sound signal can be used and used for further processing, such as for extracting semantically meaningful information about the entire piece of music, such as genre, tempo, time signature, similarity to other pieces of music, etc.
  • the combined subsequence for the first sound source and the combined subsequence for the second sound source thus form a drum pattern of the sound signal if the two sound sources, which have been taken into account based on the sequence of application times, are percussive sound sources, such as drums, other drum Instruments or any other percussive instruments, which are characterized by the fact that their pitch does not decide their pitch, but that their characteristic spectrum or the rise and fall of an output sound and not the pitch of higher musical importance.
  • the procedure according to the invention thus serves for the automatic extraction of preferably drum patterns from a preferably transcribed, so z.
  • B. note representation of a music signal This representation may be in MIDI format or automatically determined from an audio signal using digital signal processing techniques.
  • ICA Independent Component Analysis
  • BSS Blind Source Separation
  • recognition of the note inserts ie start times, for each different instrument and pitch for tonal instruments is first performed.
  • a reading out of a score can take place, wherein this reading can consist in a reading in of a MIDI file or can consist in a scanning and image processing of a musical notation or in the acceptance of manually typed notes.
  • a raster is determined according to which the billet times are quantized, after which the billboard times are then quantized.
  • the length of the drum pattern is then determined as the length of a musical measure, as an integral multiple of the length of a musical measure, or as an integral multiple of the length of a musical count.
  • the pattern histogram can be processed as such.
  • the pattern histogram is also a compressed representation of the musical events, ie the score, and contains information on the degree of variation and preferred beats, with flatness of the histogram indicative of a large variation, while a very "mountainous" histogram indicates a high indicates stationary signal in the sense of a self-similarity.
  • the histogram it is preferred to first perform a preprocessing to subdivide a signal into characteristic mutually similar regions of the signal and to extract a drum pattern only for mutually similar regions in the signal and another for other characteristic regions in the signal Determine drum pattern.
  • the present invention is advantageous in that a robust and efficient way of calculating a characteristic of a sound signal is obtained, in particular due to the subdivision carried out, which is very robust and equally feasible for all signals according to the period length which can also be determined by statistical methods.
  • the concept according to the invention is scalable to the extent that the meaningfulness and accuracy of the concept can be increased at the price of a higher computing time without further ado that more and more episodes of occurrence of more and more different sound sources, ie instruments, in the determination of common Period length and are included in the determination of the drum pattern, so that the calculation of the summarized subsequences becomes more and more complex.
  • an alternative scalability is also to calculate a certain number of combined subsequences for a certain number of sound sources, and then, depending on the further processing interest to rework the resulting summarized subsequences and thus reduce their explanatory power as needed. Histogram entries below a certain threshold may e.g. B. be ignored. However, histogram entries can also be quantized per se or only be generally binarized depending on the threshold decision to the effect that a histogram merely contains the statement that a histogram entry is or is not in the summarized subsequence at a specific point in time.
  • the concept according to the invention is a robust method due to the fact that many subsequences are "merged" into a combined subsequence, but nevertheless can be executed efficiently since no numerically intensive processing steps are required.
  • percussive instruments without pitch which are also called drums in the following, play an essential role, especially in popular music.
  • Lots of information about rhythm and musical genre is in the drums played "notes", which z. B. could be used in an intelligent and intuitive search in music archives to perform classifications or at least Vorklasstechniken can.
  • drum patterns The notes played by drums often form recurring patterns, also known as drum patterns.
  • a drum pattern can serve as a compressed representation of the played notes by extracting a note of the length of a drum pattern from a longer note image. This can be extracted from drum pattern semantically meaningful information about the entire piece of music, such as genre, tempo, time signature, similarity to other pieces of music, etc.
  • FIG. 1 shows an inventive device for characterizing a sound signal.
  • FIG. 1 includes means 10 for providing a sequence of deployment times for each sound source from at least two sound sources over time.
  • the deployment times are preferably already quantized deployment times, which are present in a quantization grid.
  • FIG. 2 shows a sequence of application times of notes from different sound sources, ie instruments 1, 2,..., N, which are designated by "x" in FIG. 2
  • FIG. 3 shows one in a raster in FIG FIG. 3 shows a quantized sequence of quantized use times for each sound source, ie for each instrument 1, 2,..., N.
  • FIG. 3 simultaneously represents a matrix or list of insertion times, wherein a column in FIG. 3 corresponds to a distance between two grid points or grid lines and thus represents a time interval in which a note insert is present or not depending on the sequence of use times.
  • a note insert from instrument 1 and this also applies to the instrument 2, as indicated by the "x" in the two lines 1 and 2 associated with the instruments in FIG. 3 is indicated.
  • the instrument n has no note insertion time in the time interval shown by the reference numeral 30.
  • the plurality of sequences of preferably quantized application times are supplied by the device 10 to a means 12 for determining a common period length.
  • the means 12 for determining a common period length is designed so as not to determine its own period length itself for each succession of application times, but to find a common period length which is most likely to underlie the at least two sound sources. This is based on the fact that even if z. B. play several percussion instruments in one piece, all play more or less the same rhythm, so that a common period length must exist to which virtually all instruments that contribute to the audio signal, so all sound sources will hold.
  • the common tone period length is then supplied to a means 14 for dividing each sequence of use times to obtain on the output side a set of subsequences for each sound source.
  • a common period length 40 has been found for all of the instruments 1, 2,..., N, where the means 14 is arranged to be divided into subsequences to all To divide sequences of deployment times into subsequences of the length of the common period length 40.
  • the sequence of application instants for the instrument would then, as shown in FIG. 4, be divided into a first subsequence 41, a subsequent second subsequence 42 and a subsequent subsequence 43, in order thus to illustrate the example of FIG the sequence for the instrument 1 to obtain three subsequences.
  • the other consequences for the instruments 2, ..., n also become divided into corresponding contiguous subsequences, as illustrated by the sequence of deployment times for the instrument 1.
  • the sets of subsequences for the sound sources are then supplied to a means 16 for combining for each sound source to obtain a combined subsequence for the first sound source and a combined subsequence for the second sound source as a characteristic for the sound signal.
  • the summary preferably takes place in the form of a pattern histogram.
  • the subsequences for the first instrument are superimposed aligned with each other such that the first interval of each subsequence is effectively "above" the first interval of each other subsequence.
  • the entries in each slot of a combined suborder and in each histogram bin of the pattern histogram are counted. In the example shown in FIG.
  • the combined subsequence for the first sound source would thus be a first line 50 of the pattern histogram.
  • the combined subsequence would be the second line 52 of the pattern histogram, etc.
  • the pattern histogram in Fig. 5 thus represents the characteristic for the sound signal, which can then be used for various other purposes.
  • the finding of the pattern length can be realized in various ways, namely, for example, from an a-priori criterion, which immediately gives an estimate of the periodicity / pattern length due to the existing Provides note information, or alternatively z.
  • a preferably iterative search algorithm which accepts a number of hypotheses for the pattern length and checks their plausibility based on the resulting results. For example, this may also be done again by evaluating a pattern histogram, as is also preferably implemented by the merge means 16, or using other self-similarity measures.
  • the pattern histogram may be generated by the merge means 16.
  • the pattern histogram may also consider the intensities of the individual notes in order to weight the notes according to their relevance.
  • the histogram may only contain information as to whether there is a sound in a subsequence or in a bin or time slot of a subsequence, or not. In this case, a weighting of the individual notes would not be included in the histogram in terms of their relevance.
  • the characteristic shown in Fig. 5, which is here preferably a pattern histogram is further processed.
  • note selection can be made on the basis of a criterion, for example by comparing the frequency or the combined intensity values with a threshold value. This threshold may also depend on the type of instrument or the flatness of the histogram, among other things.
  • the Drum Pattern entries can be Boolean sizes, with a "1" for the fact would stand for a note, while a "0" would stand for the fact that no note occurs.
  • an entry in the histogram can also be a measure of how high the intensity (loudness) or relevance of the note occurring in this time slot over the music signal is considered.
  • the threshold was chosen to mark all time slots or bins in the pattern histogram for each instrument with an "x" where the number of entries is greater than or equal to 3 is.
  • all bins are deleted in which the number of entries is less than 3, namely, for example, 2 or 1 amounts.
  • a musical "result" or score is generated from percussive instruments that are not or not significantly characterized by a pitch.
  • a musical event is defined as the occurrence of a sound of a musical instrument.
  • Events are detected in the audio signal and classified into instrument classes, with the timing of events being quantized on a quantization grid, also referred to as a tatum grid.
  • the musical measure or the length of a clock is calculated in milliseconds or else a number of quantization intervals, and furthermore preferably also clocks are identified. The identification of rhythmic structures based on the frequency of the occurrence of musical events at certain positions in the drum pattern allows a robust identification of the tempo and provides valuable information for the positioning the timing lines, when also musical background knowledge is used.
  • the musical score or characteristic preferably comprises the rhythmic information such as start time and duration.
  • this metric information namely a time signature
  • an automatic transcription process can be divided into two tasks, namely the detection and classification of the musical events, ie notes, and the generation of a musical score from the detected notes, ie the drum pattern, as has already been explained above.
  • the metric structure of the music is preferably estimated, wherein a quantization of the temporal positions of the detected notes as well as a detection of upbeats and a determination of the position of the clock lines can be made.
  • the detection and classification of the events is preferably performed by the method of independent subspace analysis.
  • means 10 for providing sequences of times of use for a plurality of sound sources performs quantization.
  • the detected events are preferably quantized in the Tatum grid.
  • the tatum grid is estimated using the note usage times of the recorded events along with note times that operate using conventional note-taking techniques.
  • the Creating the Tatum Grid based on the detected percussive events works reliably and robustly. It should be noted that the distance between two halftone dots in a piece of music usually represents the fastest played note. Thus, if there are at most sixteenth notes in a piece of music and no ones faster than the sixteenth notes, the distance between two dots of the tatum grid is equal to the length of a sixteenth note of the tone signal.
  • the distance between two halftone dots corresponds to the largest note value needed to represent all occurring note values or time periods by forming integer multiples of this note value.
  • the grid spacing is thus the largest common divisor of all occurring note durations / period lengths etc.
  • the tatum grid is represented using a 2-way mismatch procedure (TWM).
  • TWM 2-way mismatch procedure
  • a series of trial values for the tatum period that is, the spacing of two halftone dots, is derived from a histogram for an inter-onset interval (IOI).
  • IOI inter-onset interval
  • the calculation of the IOI is not limited to consecutive onsets, but to virtually all pairs of onsets in a timeframe.
  • Tatum candidates are calculated as integer fractions of the most common IOI. The candidate is selected that best predicts the harmonic structure of the IOI according to the 2-way mismatch error function.
  • the estimated tatum period is subsequently calculated by calculating the error function between the comb grid and the tatum period is derived and calculates the onset times of the signal.
  • the histogram of the IOI is generated and smoothed by means of an FIR low-pass filter.
  • Tatum candidates are calculated by dividing the IOI according to the peaks in the IOI histogram by a set of values between e.g. B. 1 and 4 received.
  • a raw estimate for the Tatum period is derived from the IOI histogram after applying the TWM. Thereafter, the phase of the tatum grid and an exact estimate of the tatum period are calculated by means of the TWM between the billets and several tatum grids with periods close to the previously estimated tatum period.
  • the second method refines and presents the tatum grid by computing the best match between the note insert vector and the tatum grid, using a correlation coefficient R xy between the note insert vector x and the tatum y.
  • ⁇ i 1 n x i - x ⁇ 2
  • ⁇ i 1 n y i - y ⁇ 2
  • the tatum grid for adjacent frames with z. B. a length of 2.5 seconds estimated.
  • the transitions between the tatum grids of adjacent frames are smoothed by low-pass filtering the IOI vector of the tatum grid points, and the tatum grid is restored from the smoothed IOI vector. Then each event is assigned to its closest grid position. This is a kind of quantization.
  • the intensity of the detected events can either be removed or used, resulting in a Boolean matrix or resulting in a matrix of intensity values.
  • the quantized representation of the percussive events provides valuable information for the estimation of the musical measure or a periodicity that underlies the playing of the sound sources.
  • the periodicity at the clock level for example, is determined in two stages. First, a periodicity is calculated to then estimate the cycle length.
  • the periodic functions used are the autocorrelation function (ACF) or the mean magnitude difference function (AMDF), as shown in the following equations.
  • the AMDF is also used to estimate the fundamental frequency for music and speech signals and to estimate the musical measure.
  • a suitable extension for the comparison of the rhythmic structures results from the different weighting of similar hits and rest periods.
  • the similarity B between two sections of a score T 1 and T 2 is then calculated by weighted summation of the Boolean operations, as shown below.
  • B a ⁇ T 1 ⁇ T 2 + b ⁇ ⁇ ⁇ ⁇ T 1 ⁇ ⁇ ⁇ ⁇ T 2 - c ⁇ T 1 ⁇ ⁇ ⁇ T 2
  • the similarity measure M is obtained by summing the elements of B, as set forth below.
  • the similarity measures for Boolean matrices can be extended by weighting B with the average of T 1 and T 2 to account for intensity values. Distances or dissimilarities are regarded as negative similarities.
  • the time signature is determined by comparing P with a number of metric models.
  • the implemented metric models Q consist of a train of spikes with typical accent positions for different time signatures and micro times.
  • a micro-time is the integer ratio between the duration of a musical beat, that is, the note value that determines the musical tempo (eg, quarter-note), and the duration of a tatum period.
  • T ' is referred to as a score histogram or a pattern histogram.
  • Drum patterns are obtained from the score histogram T 'by searching for score elements T' i, j with large histogram values. Patterns longer than one clock are retrieved by repeating the procedure described above for integer values of the measured length. The pattern length with the most hits, relative to the pattern length itself, is selected to obtain a maximum representative pattern as a further or alternative characteristic for the sound signal.
  • the identified rhythmic patterns are interpreted using a set of rules derived from musical knowledge.
  • equidistant occurrences occur identified by individual instruments and evaluated with reference to the instrument class. This leads to an identification of playing styles that often occur in popular music.
  • An example is the very frequent use of the snare-drum or tambourines, or hand claps in the second and fourth beats in a four-quarter cycle.
  • This concept serves as an indicator of the position of the timing lines. If there is a backbeat pattern, a measure starts between two small drum attacks.
  • Timing lines Another indication of the positioning of the timing lines is the occurrence of kick drum events, that is, events of a typically foot operated large drum.
  • a classification of different playing styles is performed, each of which is assigned to individual instruments.
  • playing style is that events occur only on every quarter note.
  • An associated instrument for this style of play is the kick-drum, so the big drum of the drums operated by the foot.
  • This style of playing is abbreviated FS.
  • an alternate style of playing is that events occur in every second and fourth quarter note of a four-fourths beat. This is mainly played by the small drum (snare drum) and tambourines, so the hand claps.
  • This style of play is abbreviated as BS.
  • Exemplary other play styles are that notes often appear on the first and third notes of a triplet. This is abbreviated as SP and is often observed in a hi-hat or cymbal.
  • the first feature FS is a boolean value and true if kick-drum events occur only on each quarter note. Only for certain values are Boolean variables not calculated, but certain numbers are determined, such as the relation between the number of off-beat events and the number of on-beat events, such as those from a hi-hat, a shaker or a tambourine.
  • drum instruments are classified into one of the various drum set types, such as rock, jazz, latin, disco, and techno, to provide another feature for genre classification.
  • the classification of the drum set is not derived using the instrument sounds, but by generally examining the occurrence of drum instruments in various pieces belonging to each genre.
  • the drum set type Rock is characterized by a kick drum, a snare drum, a hi-hat and a pelvis.
  • the type "Latin" a bongo, a conga, claves and shakers.
  • rhythmic features of the drum score or drum pattern are derived from the rhythmic features of the drum score or drum pattern. These features include musical tempo, time signature, micro-time, etc.
  • a measure of the variation in the occurrence of kick drum notes is obtained by counting the number of different IOI that occur in the drum pattern.
  • the classification of the musical genre using the drum pattern is performed using a rule-based decision network. Potential genre candidates will be rewarded if they fulfill a hypothesis currently under investigation and will be "punished” if they do not fulfill aspects of a hypothesis that is currently under investigation. This process results in the selection of favorable feature combinations for each genre.
  • the rules for a rational decision become more representative of observations Pieces and derived from musical knowledge in itself. Values for reward or punishment are set empirically considering the robustness of the extraction concept. The resulting decision for a particular musical genre is made for the genre candidate who has the maximum number of rewards.
  • the disco genre is recognized when a drum set type is disco, when the tempo is in the range of 115 to 132 bpm, when a time signature is 4/4 bit and the micro time is equal to 2.
  • a play style FS z. B. is present, and that z. B. yet another style of play is present, namely the events occur on each off-beat position. Similar criteria can be applied to other genres such as hip-hop, soul / funk, drum and bass, jazz / swing, rock / pop, heavy metal, Latin, waltz, polka / punk or techno.
  • the inventive method for characterizing a sound signal can be implemented in hardware or in software.
  • the implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the method is executed.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method when the computer program product runs on a computer.
  • the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

In order to characterise an audio signal, a sequence of quantified application points in time for each of at least two audio sources is prepared on the basis of a quantification grid (1). A common period length at the basis of the at least two audio sources is determined using the sequences of application points (12). The sequence of application points is then subdivided into corresponding subsequences (14), the length of a subsequence being equal to the common period length. Finally, the subsequences for the first audio source are combined into a first combined subsequence and the subsequences for the second audio source are combined into a second combined subsequence (16), using a pattern histogram, for example, in order to characterise the audio signal, for example, its rhythm, speed or type, on the basis of the first combined subsequence and of the second combined subsequence.

Description

Die vorliegende Erfindung bezieht sich auf die Analyse von Tonsignalen und insbesondere auf die Analyse von Tonsignalen zu Zwecken der Klassifikation und Identifikation von Tonsignalen, um die Tonsignale zu Charakterisieren.The present invention relates to the analysis of audio signals, and more particularly to the analysis of audio signals for purposes of classifying and identifying audio signals to characterize the audio signals.

Die fortschreitende Entwicklung digitaler Distributionsmedien für multimediale Inhalte führt zu einer großen Vielfalt angebotener Daten. Für den menschlichen Nutzer ist die Grenze des Überschaubaren dabei längst überschritten. So gewinnt die inhaltliche Beschreibung der Daten durch Metadaten zunehmend an Bedeutung. Grundsätzlich besteht das Ziel, nicht nur Text-Dateien sondern auch z. B. Musikdateien, Videodateien oder sonstige Informationssignaldateien durchsuchbar zu machen, wobei derselbe Komfort wie bei gängigen Textdatenbanken angestrebt wird. Ein Ansatz hierfür ist der bekannte MPEG 7-Standard.The progressive development of digital distribution media for multimedia content leads to a large variety of data offered. For the human user, the limit of the manageable has long been exceeded. Thus, the content description of the data by metadata becomes increasingly important. Basically, the goal is not only text files but also z. B. music files, video files or other information signal files to make searchable, with the same comfort as in common text databases is sought. One approach to this is the well-known MPEG 7 standard.

Insbesondere bei der Analyse von Audiosignalen, also Signalen, die Musik und/oder Sprache umfassen, ist die Extraktion von Fingerabdrücken von großer Bedeutung.In particular, in the analysis of audio signals, ie signals that include music and / or speech, the extraction of fingerprints is of great importance.

Angestrebt wird ferner, Audiodaten mit Metadaten "anzureichern", um für z. B. ein Musikstück auf der Basis eines Fingerabdrucks Metadaten wiederzugewinnen. Der "Fingerabdruck" soll einerseits aussagekräftig sein, und andererseits möglichst kurz und prägnant sein. "Fingerabdruck" bezeichnet somit ein aus einem Musik-Signal generiertes komprimiertes Informationssignal, welches nicht die Metadaten enthält, sondern zur Referenzierung auf die Metadaten z.B. durch Suche in einer Datenbank dient, z.B. in einem System zur Identifikation von Audiomaterial ("AudioID").The aim is also to "enrich" audio data with metadata to z. B. to recover a piece of music based on a fingerprint metadata. The "fingerprint" should on the one hand be meaningful, and on the other hand be as short and concise as possible. "Fingerprint" thus refers to a compressed generated from a music signal Information signal, which does not contain the metadata, but for referencing to the metadata eg by searching in a database is used, for example in a system for the identification of audio material ("AudioID").

Normalerweise bestehen Musikdaten aus der Überlagerung von Teilsignalen von Einzelquellen. Während es bei einer Popmusik typischerweise relativ wenige Einzelquellen gibt, nämlich den Sänger, die Gitarre, die Bassgitarre, das Schlagzeug und ein Keyboard, so kann die Anzahl von Quellen für ein Orchesterstück sehr groß werden. Ein Orchesterstück und ein Popmusikstück beispielsweise bestehen aus einer Überlagerung der von den einzelnen Instrumenten abgegebenen Töne. Ein Orchesterstück bzw. irgendein Musikstück stellt somit eine Überlagerung von Teilsignalen von einzelnen Quellen dar, wobei die Teilsignale die von den einzelnen Instrumenten des Orchesters bzw. Popmusikensembles erzeugten Töne sind, und wobei die einzelnen Instrumente Einzelquellen sind.Usually, music data consists of the superposition of sub-signals from single sources. While pop music typically has relatively few individual sources, namely the singer, the guitar, the bass guitar, the drums, and a keyboard, the number of sources for an orchestral piece can become very large. An orchestral piece and a pop music piece, for example, consist of a superposition of the tones emitted by the individual instruments. An orchestral piece or piece of music thus represents a superimposition of partial signals from individual sources, the partial signals being the sounds produced by the individual instruments of the orchestra or pop music ensemble, and the individual instruments being individual sources.

Alternativ können auch Gruppen von ursprünglichen Quellen als Einzelquellen aufgefasst werden, so dass einem Signal wenigstens zwei Einzelquellen zugewiesen werden können.Alternatively, groups of original sources can also be considered as individual sources, so that at least two individual sources can be assigned to one signal.

Eine Analyse eines allgemeinen Informationssignals wird nachfolgend lediglich beispielhaft anhand eines Orchestersignals dargestellt. Die Analyse eines Orchestersignals kann auf vielerlei Arten und Weisen durchgeführt werden. So kann der Wunsch bestehen, die einzelnen Instrumente zu erkennen und aus dem Gesamtsignal die Einzelsignale der Instrumente zu extrahieren und gegebenenfalls in eine Notenschrift umzusetzen, wobei die Notenschrift als "Metadaten" fungieren würde. Weitere Möglichkeiten der Analyse bestehen darin, einen dominanten Rhythmus zu extrahieren, wobei eine Rhythmusextraktion auf der Basis der Schlaginstrumente besser vonstatten geht als auf der Basis der eher Ton-gebenden Instrumente, die auch als harmonisch-ausgehaltene oder "harmonic sustained" Instrumente bezeichnet werden. Während Schlaginstrumente typischerweise Pauken, Schlagzeuge, Rasseln oder sonstige Percussion-Instrumente umfassen, gehören zu den harmonisch ausgehaltenen Instrumenten alle sonstigen Instrumente, wie beispielsweise Geigen, Blasinstrumente, etc.An analysis of a general information signal is shown below by way of example only with reference to an orchestra signal. The analysis of an orchestra signal can be done in many ways. Thus, there may be a desire to recognize the individual instruments and to extract from the overall signal the individual signals of the instruments and possibly to convert them into a musical notation, wherein the notation would act as "metadata". Other possibilities of analysis exist in extracting a dominant rhythm, whereby rhythm extraction on the basis of the percussion instruments is better than on the basis of the more sound-giving instruments, which are also referred to as harmonic-sustained or "harmonic sustained" instruments. While percussion instruments typically include timpani, drums, rattles or other percussion instruments, the harmonic sustained instruments include all other instruments such as violins, wind instruments, etc.

Weiterhin werden zu den Schlaginstrumenten alle jene akustischen oder synthetischen Klangerzeuger gezählt, die aufgrund ihrer Klangeigenschaften zur Rhythmussektion beitragen (z.B. Rhythmusgitarre).Furthermore, the percussion instruments include all those acoustic or synthetic tone generators that contribute to the rhythm section due to their sound characteristics (e.g., rhythm guitar).

So wäre es beispielsweise zur Rhythmusextraktion eines Musikstücks wünschenswert, aus dem gesamten Musikstück lediglich perkussive Anteile zu extrahieren und eine Rhythmuserkennung dann auf der Basis dieser percussiven Anteile durchzuführen, ohne dass die Rhythmuserkennung durch Signale von den harmonisch ausgehaltenen Instrumenten "gestört" wird.For example, it would be desirable for the rhythm extraction of a piece of music to extract only percussive parts from the entire piece of music and then perform rhythm recognition on the basis of these percussive parts, without the rhythm recognition being "disturbed" by signals from the harmonically sustained instruments.

In der Technik existieren verschiedene Möglichkeiten, um automatisch verschiedene Muster aus Musikstücken zu extrahieren bzw. die Anwesenheit von Mustern zu detektieren. In Coyle, E. J., Shmulevich, I., "A System for Machine Recognition of Music Patterns", IEEE Int. Conf. on Acoustic, Speech, and Signal Processing, 1998, http://www2.mdanderson.org/app/ilya/Publications/icassp98mp r.pdf, wird nach melodischen Themen gesucht. Hierzu wird ein Thema vorgegeben. Dann wird gesucht, wo es auftritt.There are various possibilities in the art for automatically extracting different patterns from pieces of music or detecting the presence of patterns. In Coyle, EJ, Shmulevich, I., "A System for Machine Recognition of Music Patterns", IEEE Int. Conf. on Acoustic, Speech, and Signal Processing, 1998, http://www2.mdanderson.org/app/ilya/Publications/icassp98mp r.pdf , searches for melodic themes. For this purpose, a topic is given. Then it is searched where it occurs.

In Schroeter, T., Doraisamy, S., Rüger, S., "From Raw Polyphonic Audio to Locating Recurring Themes", ISMIR, 2000, http//ismir2000.ismir.net/posters/shroeter ruger.pdf, wird nach melodischen Themen in einer transkribierten Darstellung des Musiksignals gesucht. Wieder wird das Thema vorgegeben, und es wird gesucht, wo es auftritt.In Schroeter, T., Doraisamy, S., Rüger, S., "From Raw Polyphonic Audio to Locating Recurring Themes", ISMIR, 2000, http://ismir2000.ismir.net/poster/shroeter_ruger.pdf, is becoming melodic Searching for topics in a transcribed representation of the music signal. Again, the topic is given and searched where it occurs.

Entsprechend der üblichen Struktur abendländischer Musik treten melodische Fragmente im Gegensatz zur rhythmischen Struktur meistens nicht periodisch auf. Aus diesem Grund beschränken sich viele Verfahren zur Suche melodischer Fragmente auf das individuelle Auffinden ihres Vorkommens. Im Gegensatz hierzu gilt im Bereich der rhythmischen Analyse das Interesse bevorzugt im Auffinden periodischer Strukturen.In contrast to the usual structure of occidental music, melodic fragments, unlike the rhythmic structure, usually do not appear periodically. For this reason, many methods of searching for melodic fragments are limited to the individual finding of their occurrence. In contrast to this, in the field of rhythmic analysis, the interest is preferentially in finding periodic structures.

In Meudic, B., "Musical Pattern Extraction: from Repetition to Musical Structure", in Proc. CMMR, 2003, http:// www.ircam.fr/equipes/repmus/RMPapers/ CMMR-meudic2003.pdf werden melodische Pattern mit Hilfe einer Selbstähnlichkeitsmatrix identifiziert.In Meudic, B., "Musical Pattern Extraction: from Repetition to Musical Structure", in Proc. CMMR, 2003, http: //www.ircam.fr/equipes/repmus/RMPapers/ CMMR-meudic2003.pdf identify melodic patterns using a self-similarity matrix .

In Meek, Colin, Birmingham, W. P., "Thematic Extractor", ISMIR, 2001, http://ismir2001.ismir.net/pdf/meek.pdf, wird nach melodischen Themen gesucht. Insbesondere werden Sequenzen gesucht, wobei die Länge einer Sequenz von zwei Noten bis zu einer vorgegebenen Anzahl sein kann.Meek, Colin, Birmingham, WP, "Thematic Extractor", ISMIR, 2001, http://ismir2001.ismir.net/pdf/meek.pdf, is looking for melodic themes. In particular, sequences are searched, wherein the length of a sequence of two notes can be up to a predetermined number.

In Smith, L., Medina, R. "Discovering Themes by Exact Pattern Matching", 2001, http://citeseer.ist.psu. edu/498226.html wird nach melodischen Themen mit einer Selbst-Ähnlichkeits-Matrix gesucht.Smith, L., Medina, R. "Discovering Themes by Exact Pattern Matching", 2001, http://citeseer.ist.psu. edu / 498226.html is looking for melodic themes with a self-similarity matrix.

In Lartillot, O., "Perception-Based Musical Pattern Discovery", in Proc. IFMC, 2003, http://www.ircam.fr/equipes/ repmus/lartillot/cmmr/cmmr.pdf wird ebenfalls nach melodischen Themen gesucht.In Lartillot, O., Perception-Based Musical Pattern Discovery, in Proc. IFMC, 2003, http://www.ircam.fr/equipes/ repmus / lartillot / cmmr / cmmr.pdf is also looking for melodic themes.

In Brown, J. C., "Determination of the Meter of Musical Scores by Autocorrelation", J. of the Acoust, Soc. Of America, vol. 94, no. 4, 1993 wird aus einer symbolischen Darstellung des Musiksignals, nämlich auf der Basis einer MIDI-Darstellung mit Hilfe einer Periodizitätenfunktion (Autokorrelationsfunktion) die Taktart des zugrunde liegenden Musikstücks ermittelt.Brown, J.C., "Determination of the Meter of Musical Scores by Autocorrelation," J. of the Acoust, Soc. Of America, vol. 94, no. 4, 1993 is determined from a symbolic representation of the music signal, namely on the basis of a MIDI representation using a periodic function (autocorrelation), the time signature of the underlying piece of music.

Ähnlich wird in Meudic, B., "Automatic Meter Extraction from MIDI files", Proc. JIM, 2002, http://www.ircam. fr/equipes/repmus/RMPapers/ JIM-benoit2002.pdf vorgegangen, wo auf der Schätzung von Periodizitäten eine Tempo- und Taktschätzung aus Audiosignalen vorgenommen wird.Similarly, in Meudic, B. "Automatic Meter Extraction from MIDI files", Proc. JIM, 2002, http://www.ircam. fr / equipes / repmus / RMPapers / JIM-benoit2002.pdf , where on the estimation of periodicities a tempo and clock estimate of audio signals is made.

In Goto, M, "Real-time beat tracking for drumless audio signals: Chord change detection for musical decisions", Speech Communication, Elsevier, Nr. 3-4, April 1999, Seiten 311-335, wird eine Einrichtung zum Bereitstellen einer Folge von Einsatzzeitpunkten von Tönen für wenigstens eine Tonquelle offenbart.Goto, M, "Real-time beat tracking for drumless audio signals: Chord change detection for musical decisions", Speech Communication, Elsevier, No. 3-4, April 1999, pages 311-335, discloses a means for providing a sequence of application times of sounds for at least one sound source disclosed.

Verfahren zur Identifikation melodischer Themen eignen sich nur sehr bedingt zur Identifikation von in einem Tonsignal vorliegenden Periodizitäten, da, wie es ausgeführt worden ist, musikalische Themen zwar wiederkehrend sind, jedoch nicht so sehr eine Grund-Periodizität in einem Musikstück beschreiben, sondern eher, wenn überhaupt übergeordnete Periodizitätinformationen in sich haben. Auf jeden Fall sind Verfahren zur Identifikation melodischer Themen sehr aufwendig, da bei der Suche von melodischen Themen die verschiedenen Variationen der Themen berücksichtigt werden müssen. So ist es aus der Musikwelt bekannt, dass Themen normalerweise variiert werden, nämlich beispielsweise durch Transposition, Spiegelung, etc.Methods for identifying melodic themes are only of limited suitability for identifying periodicities present in a sound signal, since, as has been said, musical themes are recurrent, but not so much a basic periodicity in a piece of music, but rather, when have at all higher-level periodicity information in itself. In any case, methods for the identification of melodic themes are very complex, since in the search for melodic themes the different variations of the topics must be considered. So it is known from the music world that topics are usually varied, namely, for example, by transposition, mirroring, etc.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein effizientes und zuverlässiges Konzept zum Charakterisieren eines Tonsignals zu schaffen.The object of the present invention is to provide an efficient and reliable concept for characterizing a sound signal.

Diese Aufgabe wird durch eine Vorrichtung zum Charakterisieren eines Tonsignals gemäß Patentanspruch 1, ein Verfahren zum Charakterisieren eines Tonsignals gemäß Patentanspruch 20 oder ein Computer-Programm gemäß Patentanspruch 21 gelöst.This object is achieved by a device for characterizing a sound signal according to claim 1, a method for characterizing a sound signal according to claim 20 or a computer program according to claim 21.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass ein effizient berechenbares und im Hinblick auf viele Informationen aussagekräftiges Charakteristikum eines Tonsignals auf der Basis einer Folge von Einsatzzeitpunkten durch Periodenlängenbestimmung, Aufteilung in Unterfolgen und Zusammenfassung in eine zusammengefasste Unterfolge als Charakteristikum ermittelbar ist.The present invention is based on the finding that a characteristic of a sound signal which can be calculated efficiently and is informative with respect to many information can be determined on the basis of a sequence of application times by period length determination, division into subsequences and summary into a combined subsequence as a characteristic.

Ferner wird vorzugsweise nicht nur eine einzige Folge von Einsatzzeitpunkten eines einzigen Instruments, also einer einzigen Tonquelle entlang der Zeit betrachtet, sondern es werden wenigstens zwei Folgen von Einsatzzeitpunkten zweier unterschiedlicher Tonquellen, die parallel in dem Musikstück vorkommen, betrachtet. Nachdem typischerweise davon ausgegangen werden kann, dass allen Tonquellen bzw. wenigstens einem Untersatz von Tonquellen, wie beispielsweise den perkussiven Tonquellen in einem Musikstück, die selbe Periodenlänge zugrunde liegt, wird unter Verwendung der Folgen von Einsatzzeitpunkten der zwei Tonquellen eine gemeinsame Periodenlänge ermittelt, die den wenigstens zwei Tonquellen zugrunde liegt. Erfindungsgemäß wird dann jede Folge von Einsatzzeitpunkten in jeweilige Unterfolgen unterteilt, wobei eine Länge einer Unterfolge gleich der gemeinsamen Periodenlänge ist.Furthermore, preferably not only a single sequence of deployment times of a single instrument, ie a single sound source along the time is considered, but at least two episodes of deployment times of two different sound sources occurring in parallel in the music piece are considered. Since it can typically be assumed that all sound sources or at least one subset of sound sources, such as the percussive sound sources in a piece of music, are based on the same period length, a common period length is determined using the sequences of application times of the two sound sources based on at least two sound sources. According to the invention, each sequence of deployment times is subdivided into respective subsequences, wherein a length of a subsequence is equal to the common period length.

Die Charakteristika-Extraktion findet dann auf der Basis einer Zusammenfassung der Unterfolgen für die erste Tonquelle in eine erste zusammengefasste Unterfolge und auf der Basis einer Zusammenfassung der Unterfolgen für die zweite Tonquelle in eine zweite zusammengefasste Unterfolge statt, wobei die zusammengefassten Unterfolgen als Charakteristikum für das Tonsignal dienen und zur weiteren Verarbeitung verwendet werden können, wie beispielsweise zur Extraktion von semantisch bedeutungsvollen Informationen über das gesamte Musikstück, wie beispielsweise Genre, Tempo, Taktart, Ähnlichkeit zu anderen Musikstücken etc.The characteristic extraction then takes place on the basis of a summary of the subsequences for the first sound source into a first combined subsequence and on the basis of a summary of the subsequences for the second sound source into a second combined subsequence, the combined subsequences being characteristic of the sound signal can be used and used for further processing, such as for extracting semantically meaningful information about the entire piece of music, such as genre, tempo, time signature, similarity to other pieces of music, etc.

Die zusammengefasste Unterfolge für die erste Tonquelle und die zusammengefasste Unterfolge für die zweite Tonquelle bilden somit ein Drum-Pattern des Tonsignals, wenn die beiden Tonquellen, die anhand der Folge von Einsatzzeitpunkten berücksichtigt worden sind, perkussive Tonquellen sind, wie beispielsweise Trommeln, sonstige Schlagzeug-Instrumente oder beliebige andere perkussive Instrumente, die sich dadurch auszeichnen, dass nicht ihre Tonhöhe, also ihr Pitch entscheidet, sondern dass ihr charakteristisches Spektrum bzw. das Ansteigen und Abfallen eines ausgegebenen Tons und nicht die Tonhöhe von höherer musikalischer Bedeutung sind.The combined subsequence for the first sound source and the combined subsequence for the second sound source thus form a drum pattern of the sound signal if the two sound sources, which have been taken into account based on the sequence of application times, are percussive sound sources, such as drums, other drum Instruments or any other percussive instruments, which are characterized by the fact that their pitch does not decide their pitch, but that their characteristic spectrum or the rise and fall of an output sound and not the pitch of higher musical importance.

Die erfindungsgemäße Vorgehensweise dient somit zur automatischen Extraktion von vorzugsweise Drum-Patterns aus einer vorzugsweise transkribierten, also z. B. Noten-Darstellung eines Musiksignals. Diese Darstellung kann im MIDI-Format vorliegen oder automatisch aus einem Audiosignal mittels Methoden der digitalen Signalverarbeitung ermittelt werden, wie beispielsweise mit der Independent Component Analysis (ICA) oder bestimmten Variationen derselben, wie beispielsweise der nicht-negativen Independent Component Analysis, oder allgemein mit Konzepten, die unter dem Stichwort "Blind Source Separation" (BSS) bekannt sind.The procedure according to the invention thus serves for the automatic extraction of preferably drum patterns from a preferably transcribed, so z. B. note representation of a music signal. This representation may be in MIDI format or automatically determined from an audio signal using digital signal processing techniques. such as Independent Component Analysis (ICA) or certain variations thereof, such as non-negative Independent Component Analysis, or generally concepts known as Blind Source Separation (BSS).

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird zur Extraktion eines Drum-Patterns zunächst eine Erkennung der Noteneinsätze, also Startzeitpunkte, je unterschiedlichem Instrument und je Pitch bei tonalen Instrumenten vorgenommen. Alternativ kann ein Auslesen einer Notendarstellung stattfinden, wobei dieses Auslesen in einem Einlesen eines MIDI-Files bestehen kann oder in einem Abtasten und Bildverarbeiten einer Notenschrift oder auch in der Entgegennahme von manuell eingetippten Noten bestehen kann.In a preferred embodiment of the present invention, for the extraction of a drum pattern, recognition of the note inserts, ie start times, for each different instrument and pitch for tonal instruments is first performed. Alternatively, a reading out of a score can take place, wherein this reading can consist in a reading in of a MIDI file or can consist in a scanning and image processing of a musical notation or in the acceptance of manually typed notes.

Hierauf wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ein Raster ermittelt, gemäß dem die Noteneinsatzzeiten quantisiert werden, woraufhin dann die Noteneinsatzzeiten quantisiert werden.Hereupon, in a preferred embodiment of the present invention, a raster is determined according to which the billet times are quantized, after which the billboard times are then quantized.

Hierauf wird die Länge des Drum-Patterns als Länge eines musikalischen Taktes, als ganzzahliges Vielfaches der Länge eines musikalischen Taktes oder als ganzzahliges Vielfaches der Länge einer musikalischen Zählzeit ermittelt.The length of the drum pattern is then determined as the length of a musical measure, as an integral multiple of the length of a musical measure, or as an integral multiple of the length of a musical count.

Hierauf wird eine Ermittlung einer Häufigkeit des Auftretens eines bestimmten Instruments pro metrischer Position mit einem Pattern-Histogramm durchgeführt.This is followed by a determination of a frequency of occurrence of a specific instrument per metric position with a pattern histogram.

Dann wird eine Auswahl der relevanten Einträge vorgenommen, um schließlich eine Form des Drum-Patterns als bevorzugtes Charakteristikum für das Tonsignal zu erhalten. Alternativ kann das Pattern-Histogramm als solches verarbeitet werden. Das Pattern-Histogramm ist ebenfalls eine komprimierte Darstellung der musikalischen Ereignisse, d.h. des Notenbildes, und enthält Informationen über den Grad der Variation und bevorzugte Zählzeiten, wobei eine Flachheit des Histogramms auf eine starke Variation hinweist, während ein sehr "gebirgiges" Histogramm auf ein eher stationäres Signal im sinnen einer Selbst-Ähnlichkeit hinweist.Then, a selection of the relevant entries is made, finally, a shape of the drum pattern as the preferred one Characteristic for the sound signal. Alternatively, the pattern histogram can be processed as such. The pattern histogram is also a compressed representation of the musical events, ie the score, and contains information on the degree of variation and preferred beats, with flatness of the histogram indicative of a large variation, while a very "mountainous" histogram indicates a high indicates stationary signal in the sense of a self-similarity.

Zur Verbesserung der Aussagefähigkeit des Histogramms wird es bevorzugt, zunächst eine Vorverarbeitung durchzuführen, um ein Signal in charakteristische untereinander ähnliche Regionen des Signals zu unterteilen und ein Drum-Pattern nur für untereinander ähnliche Regionen im Signal zu extrahieren und für andere charakteristische Regionen im Signal ein anderes Drum-Pattern zu ermitteln.To improve the validity of the histogram, it is preferred to first perform a preprocessing to subdivide a signal into characteristic mutually similar regions of the signal and to extract a drum pattern only for mutually similar regions in the signal and another for other characteristic regions in the signal Determine drum pattern.

Die vorliegende Erfindung ist dahin gehend vorteilhaft, dass eine robuste und effiziente Art und Weise zur Berechnung einer Charakteristik eines Tonsignals erhalten wird, insbesondere aufgrund der durchgeführten Unterteilung, die gemäß der ebenfalls mit statistischen Methoden ermittelbaren Periodenlänge sehr robust und für alle Signale gleichermaßen durchführbar ist. Des weiteren ist das erfindungsgemäße Konzept dahin gehend skalierbar, dass die Aussagefähigkeit und Genauigkeit des Konzepts jedoch zum Preis einer höheren Rechenzeit ohne weiteres dadurch gesteigert werden kann, dass immer mehr Folgen von Auftrittszeitpunkten von immer mehr verschiedenen Tonquellen, also Instrumenten, in die Bestimmung der gemeinsamen Periodenlänge und in die Bestimmung des Drum-Patterns mit einbezogen werden, so dass die Berechnung der zusammengefassten Unterfolgen immer aufwendiger wird.The present invention is advantageous in that a robust and efficient way of calculating a characteristic of a sound signal is obtained, in particular due to the subdivision carried out, which is very robust and equally feasible for all signals according to the period length which can also be determined by statistical methods. Furthermore, the concept according to the invention is scalable to the extent that the meaningfulness and accuracy of the concept can be increased at the price of a higher computing time without further ado that more and more episodes of occurrence of more and more different sound sources, ie instruments, in the determination of common Period length and are included in the determination of the drum pattern, so that the calculation of the summarized subsequences becomes more and more complex.

Eine alternative Skalierbarkeit besteht jedoch ebenfalls darin, eine bestimmte Anzahl von zusammengefassten Unterfolgen für eine bestimmte Anzahl von Tonquellen zu berechnen, um dann je nach Weiterverarbeitungsinteresse die erhaltenen zusammengefassten Unterfolgen nachzubearbeiten und damit im Hinblick auf ihre Aussagekraft je nach Bedarf zu reduzieren. Histogrammeinträge unter einem bestimmten Schwellwert können z. B. ignoriert werden. Histogrammeinträge können aber auch an sich quantisiert werden oder nur allgemein je nach Schwellwertentscheidung dahin gehend binarisiert werden, dass ein Histogramm lediglich noch die Aussage enthält, dass in der zusammengefassten Unterfolge zu einem bestimmten Zeitpunkt ein Histogrammeintrag ist oder nicht.However, an alternative scalability is also to calculate a certain number of combined subsequences for a certain number of sound sources, and then, depending on the further processing interest to rework the resulting summarized subsequences and thus reduce their explanatory power as needed. Histogram entries below a certain threshold may e.g. B. be ignored. However, histogram entries can also be quantized per se or only be generally binarized depending on the threshold decision to the effect that a histogram merely contains the statement that a histogram entry is or is not in the summarized subsequence at a specific point in time.

Das erfindungsgemäße Konzept ist aufgrund der Tatsache, dass viele Unterfolgen zu einer zusammengefassten Unterfolge "verschmolzen" werden, ein robustes Verfahren, das jedoch dennoch effizient ausführbar ist, da keine numerisch intensiven Verarbeitungsschritte benötigt werden.The concept according to the invention is a robust method due to the fact that many subsequences are "merged" into a combined subsequence, but nevertheless can be executed efficiently since no numerically intensive processing steps are required.

Insbesondere spielen perkussive Instrumente ohne Pitch, die im Folgenden auch Drums genannt werden, eine wesentliche Rolle besonders in populärer Musik. Viele Informationen über Rhythmus und musikalisches Genre stecken in den von Drums gespielten "Noten", welche z. B. bei einer intelligenten und intuitiven Suche in Musikarchiven verwendet werden könnten, um Klassifikationen bzw. wenigstens Vorklassifikationen durchführen zu können.In particular, percussive instruments without pitch, which are also called drums in the following, play an essential role, especially in popular music. Lots of information about rhythm and musical genre is in the drums played "notes", which z. B. could be used in an intelligent and intuitive search in music archives to perform classifications or at least Vorklassifikationen can.

Die von Drums gespielten Noten bilden häufig wiederkehrende Muster, die auch als Drum-Pattern bezeichnet werden. Ein Drum-Pattern kann als komprimierte Darstellung der gespielten Noten dienen, indem aus einem längeren Notenbild ein Notenbild der Länge eines Drum-Patterns extrahiert wird. Dadurch können aus Drum-Pattern semantisch bedeutungsvolle Informationen über das gesamte Musikstück extrahiert werden, wie beispielsweise Genre, Tempo, Taktart, Ähnlichkeit zu anderen Musikstücken, etc.The notes played by drums often form recurring patterns, also known as drum patterns. A drum pattern can serve as a compressed representation of the played notes by extracting a note of the length of a drum pattern from a longer note image. This can be extracted from drum pattern semantically meaningful information about the entire piece of music, such as genre, tempo, time signature, similarity to other pieces of music, etc.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1
ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren eines Tonsignals;
Fig. 2
eine schematische Darstellung zur Erläuterung der Ermittlung der Noteneinsatzpunkte;
Fig. 3
ein schematisches Diagramm zur Darstellung eines Quantisierungsrasters und einer Quantisierung der Noten anhand des Rasters;
Fig. 4
eine beispielhafte Darstellung von gemeinsamen Periodenlängen, die durch statistische Periodenlängenbestimmungen unter Verwendung sämtlicher Instrumente erhalten werden können;
Fig. 5
ein beispielhaftes Pattern-Histogramm als Beispiel für zusammengefasste Unterfolgen für die einzelnen Tonquellen (Instrumente); und
Fig. 6
ein nachverarbeitetes Pattern-Histogramm als Beispiel für ein alternatives Charakteristikum des Tonsignals.
Preferred embodiments of the present invention will be explained below in detail with reference to the accompanying drawings. Show it:
Fig. 1
a block diagram of a device according to the invention for characterizing a sound signal;
Fig. 2
a schematic representation for explaining the determination of the Noteneinsatzpunkte;
Fig. 3
a schematic diagram showing a quantization grid and a quantization of the notes on the grid;
Fig. 4
an exemplary representation of common period lengths that can be obtained by statistical period length determinations using all instruments;
Fig. 5
an exemplary pattern histogram as an example of summarized subsequences for the individual sound sources (instruments); and
Fig. 6
a postprocessed pattern histogram as an example of an alternative characteristic of the audio signal.

Fig. 1 zeigt eine erfindungsgemäße Vorrichtung zum Charakterisieren eines Tonsignals. Zunächst umfasst Fig. 1 eine Einrichtung 10 zum Bereitstellen einer Folge von Einsatzzeitpunkten für jede Tonquelle von wenigstens zwei Tonquellen über der Zeit. Vorzugsweise sind die Einsatzzeitpunkte bereits quantisierte Einsatzzeitpunkte, die in einem Quantisierungsraster vorliegen. Während Fig. 2 eine Folge von Einsatzzeitpunkten von Noten von verschiedenen Tonquellen, also Instrumenten 1, 2,...,n zeigt, die in Fig. 2 mit "x" bezeichnet sind, zeigt Fig. 3 eine in einem Raster, das in Fig. 3 gezeigt ist, quantisierte Folge von quantisierten Einsatzzeitpunkten für jede Tonquelle, also für jedes Instrument 1, 2, ..., n.Fig. 1 shows an inventive device for characterizing a sound signal. First, FIG. 1 includes means 10 for providing a sequence of deployment times for each sound source from at least two sound sources over time. The deployment times are preferably already quantized deployment times, which are present in a quantization grid. While FIG. 2 shows a sequence of application times of notes from different sound sources, ie instruments 1, 2,..., N, which are designated by "x" in FIG. 2, FIG. 3 shows one in a raster in FIG FIG. 3 shows a quantized sequence of quantized use times for each sound source, ie for each instrument 1, 2,..., N.

Fig. 3 stellt gleichzeitig eine Matrix oder Liste von Einsatzzeitpunkten dar, wobei eine Spalte in Fig. 3 einem Abstand zwischen zwei Rasterpunkten oder Rasterlinien entspricht und damit ein Zeitintervall darstellt, in dem je nach Folge von Einsatzzeitpunkten ein Noteneinsatz vorhanden ist oder nicht. Bei dem in Fig. 3 gezeigten Ausführungsbeispiel ist z. B. in der Spalte, die mit dem Bezugszeichen 30 bezeichnet ist, von Instrument 1 ein Noteneinsatz vorhanden, wobei dies auch für das Instrument 2 gilt, wie es durch das "x" in den beiden den Instrumenten 1 und 2 zugeordneten Zeilen in Fig. 3 angedeutet ist. Dagegen hat das Instrument n keinen Noteneinsatzzeitpunkt in dem durch das Bezugszeichen 30 gezeigten Zeitintervall.FIG. 3 simultaneously represents a matrix or list of insertion times, wherein a column in FIG. 3 corresponds to a distance between two grid points or grid lines and thus represents a time interval in which a note insert is present or not depending on the sequence of use times. In the embodiment shown in Fig. 3 z. B. in the column, which is designated by the reference numeral 30, a note insert from instrument 1, and this also applies to the instrument 2, as indicated by the "x" in the two lines 1 and 2 associated with the instruments in FIG. 3 is indicated. On the other hand, the instrument n has no note insertion time in the time interval shown by the reference numeral 30.

Die mehreren Folgen von vorzugsweise quantisierten Einsatzzeitpunkten werden von der Einrichtung 10 zu einer Einrichtung 12 zum Ermitteln einer gemeinsamen Periodenlänge zugeführt. Die Einrichtung 12 zum Ermitteln einer gemeinsamen Periodenlänge ist ausgebildet, um nicht für jede Folge von Einsatzzeitpunkten selbst eine eigene Periodenlänge zu ermitteln, sondern um eine gemeinsame Periodenlänge zu finden, die den wenigstens zwei Tonquellen am ehesten zugrunde liegt. Dies basiert darauf, dass auch dann, wenn z. B. mehrere perkusssive Instrumente in einem Stück spielen, alle mehr oder weniger den selben Rhythmus spielen, so dass eine gemeinsame Periodenlänge existieren muss, an die sich praktisch alle Instrumente, die zu dem Tonsignal beitragen, also alle Tonquellen halten werden.The plurality of sequences of preferably quantized application times are supplied by the device 10 to a means 12 for determining a common period length. The means 12 for determining a common period length is designed so as not to determine its own period length itself for each succession of application times, but to find a common period length which is most likely to underlie the at least two sound sources. This is based on the fact that even if z. B. play several percussion instruments in one piece, all play more or less the same rhythm, so that a common period length must exist to which virtually all instruments that contribute to the audio signal, so all sound sources will hold.

Die gemeinsame Tonperiodenlänge wird hierauf einer Einrichtung 14 zum Aufteilen jeder Folge von Einsatzzeitpunkten zugeführt, um ausgangsseitig einen Satz von Unterfolgen für jede Tonquelle zu erhalten.The common tone period length is then supplied to a means 14 for dividing each sequence of use times to obtain on the output side a set of subsequences for each sound source.

Wenn beispielsweise Fig. 4 betrachtet wird, so ist zu sehen, dass eine gemeinsame Periodenlänge 40 gefunden worden ist, und zwar für sämtliche Instrumente 1, 2, ..., n, wobei die Einrichtung 14 zum Aufteilen in Unterfolgen ausgebildet ist, um sämtliche Folgen von Einsatzzeitpunkten in Unterfolgen der Länge der gemeinsamen Periodenlänge 40 aufzuteilen. Die Folge von Einsatzzeitpunkten für das Instrument würde dann, wie es in Fig. 4 gezeichnet ist, in eine erste Unterfolge 41, eine anschließende zweite Unterfolge 42 und eine wieder anschließende Unterfolge 43 aufgeteilt werden, um somit für das in Fig. 4 gezeigte Beispiel für die Folge für das Instrument 1 drei Unterfolgen zu erhalten. Ähnlich werden die anderen Folgen für die Instrumente 2, ..., n ebenfalls in entsprechende an einander angrenzende Unterfolgen aufgeteilt, wie es anhand der Folge von Einsatzzeitpunkten für das Instrument 1 dargestellt worden ist.For example, referring to FIG. 4, it can be seen that a common period length 40 has been found for all of the instruments 1, 2,..., N, where the means 14 is arranged to be divided into subsequences to all To divide sequences of deployment times into subsequences of the length of the common period length 40. The sequence of application instants for the instrument would then, as shown in FIG. 4, be divided into a first subsequence 41, a subsequent second subsequence 42 and a subsequent subsequence 43, in order thus to illustrate the example of FIG the sequence for the instrument 1 to obtain three subsequences. Similarly, the other consequences for the instruments 2, ..., n also become divided into corresponding contiguous subsequences, as illustrated by the sequence of deployment times for the instrument 1.

Die Sätze von Unterfolgen für die Tonquellen werden dann einer Einrichtung 16 zum Zusammenfassen für jede Tonquelle zugeführt, um eine zusammengefasste Unterfolge für die erste Tonquelle und eine zusammengefasste Unterfolge für die zweite Tonquelle als Charakteristikum für das Tonsignal zu erhalten. Vorzugsweise findet die Zusammenfassung in Form eines Pattern-Histogramms statt. Die Unterfolgen für das erste Instrument werden ausgerichtet zueinander übereinander gelegt, derart, dass das erste Intervall jeder Unterfolge gewissermaßen "über" dem ersten Intervall jeder anderen Unterfolge liegt. Dann werden, wie es anhand von Fig. 5 gezeigt ist, die Einträge in jedem Schlitz einer zusammengefassten Unterfolge bzw. in jedem Histogramm-Bin des Pattern-Histogramms gezählt. Die zusammengefasste Unterfolge für die erste Tonquelle wäre bei dem in Fig. 5 gezeigten Beispiel also eine erste Zeile 50 des Pattern-Histogramms. Für die zweite Tonquelle, also z. B. das Instrument 2 wäre die zusammengefasste Unterfolge die zweite Zeile 52 des Pattern-Histogramms etc. Insgesamt stellt das Pattern-Histogramm in Fig. 5 somit das Charakteristikum für das Tonsignal dar, das dann für diverse weitere Zwecke eingesetzt werden kann.The sets of subsequences for the sound sources are then supplied to a means 16 for combining for each sound source to obtain a combined subsequence for the first sound source and a combined subsequence for the second sound source as a characteristic for the sound signal. The summary preferably takes place in the form of a pattern histogram. The subsequences for the first instrument are superimposed aligned with each other such that the first interval of each subsequence is effectively "above" the first interval of each other subsequence. Then, as shown with reference to Fig. 5, the entries in each slot of a combined suborder and in each histogram bin of the pattern histogram are counted. In the example shown in FIG. 5, the combined subsequence for the first sound source would thus be a first line 50 of the pattern histogram. For the second sound source, so z. As the instrument 2, the combined subsequence would be the second line 52 of the pattern histogram, etc. Overall, the pattern histogram in Fig. 5 thus represents the characteristic for the sound signal, which can then be used for various other purposes.

Nachfolgend wird auf verschiedene Ausführungsbeispiele zur Bestimmung der gemeinsamen Periodenlänge im Schritt 12 eingegangen. Das Finden der Patternlänge kann auf verschiedene Art und Weisen realisiert werden, nämlich beispielsweise aus einem a-priori-Kriterium, welches unmittelbar eine Schätzung der Periodizität/Patternlänge aufgrund der vorhandenen Noteninformationen liefert, oder alternativ z. B. durch einen vorzugsweise iterativen Suchalgorithmus, welcher eine Anzahl von Hypothesen für die Patternlänge annimmt und deren Plausibilität anhand der sich ergebenden Resultate prüft. Dies kann beispielsweise ebenfalls wieder durch Auswertung eines Pattern-Histogramms, wie es auch durch die Einrichtung 16 zum Zusammenfassen vorzugsweise implementiert wird, oder unter Verwendung anderer Selbstähnlichkeitsmaße erfolgen.In the following, various exemplary embodiments for determining the common period length in step 12 will be discussed. The finding of the pattern length can be realized in various ways, namely, for example, from an a-priori criterion, which immediately gives an estimate of the periodicity / pattern length due to the existing Provides note information, or alternatively z. By a preferably iterative search algorithm which accepts a number of hypotheses for the pattern length and checks their plausibility based on the resulting results. For example, this may also be done again by evaluating a pattern histogram, as is also preferably implemented by the merge means 16, or using other self-similarity measures.

Wie es ausgeführt worden ist, kann das Pattern-Histogramm, wie es in Fig. 5 gezeigt ist, von der Einrichtung 16 zum Zusammenfassen erzeugt werden. Das Pattern-Histogramm kann alternativ auch die Intensitäten der einzelnen Noten berücksichtigen, um so eine Gewichtung der Noten nach ihrer Relevanz zu erreichen. Alternativ kann, wie es in Fig. 5 gezeigt worden ist, das Histogramm lediglich Informationen dahin gehend enthalten, ob in einer Unterfolge bzw. in einem Bin oder Zeitschlitz einer Unterfolge ein Ton vorhanden ist oder nicht. Hier würde eine Gewichtung der einzelnen Noten im Hinblick auf ihre Relevanz nicht in das Histogramm einfließen.As has been stated, the pattern histogram, as shown in Fig. 5, may be generated by the merge means 16. Alternatively, the pattern histogram may also consider the intensities of the individual notes in order to weight the notes according to their relevance. Alternatively, as shown in Fig. 5, the histogram may only contain information as to whether there is a sound in a subsequence or in a bin or time slot of a subsequence, or not. In this case, a weighting of the individual notes would not be included in the histogram in terms of their relevance.

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird das in Fig. 5 gezeigte Charakteristikum, das hier vorzugsweise ein Pattern-Histogramm ist, noch weiter verarbeitet. Hierbei kann eine Notenauswahl anhand eines Kriteriums getroffen werden, wie beispielsweise durch den Vergleich der Häufigkeit oder der kombinierten Intensitätswerte mit einem Schwellwert. Dieser Schwellwert kann unter anderem auch vom Instrumententyp oder von der Flachheit des Histogramms abhängig sein. Die Einträge in Drum-Pattern können Boolsche Größen sein, wobei eine "1" für die Tatsache stehen würde, dass eine Note auftritt, während eine "0" für die Tatsache stehen würde, dass keine Note auftritt. Alternativ kann ein Eintrag im Histogramm auch ein Maß dafür sein, wie hoch die Intensität (Lautheit) oder Relevanz der in diesem Zeitschlitz auftretenden Note über das Musiksignal betrachtet ist. Wenn Fig. 6 betrachtet wird, so wird ersichtlich, dass der Schwellwert dahin gehend gewählt war, dass sämtliche Zeitschlitze bzw. Bins in dem Pattern-Histogramm für jedes Instrument mit einem "x" markiert werden, bei denen die Anzahl der Einträge größer oder gleich 3 ist. Dagegen werden sämtliche Bins gelöscht, bei denen die Anzahl der Einträge kleiner als 3 ist, nämlich beispielsweise 2 oder 1 beträgt.In a preferred embodiment of the present invention, the characteristic shown in Fig. 5, which is here preferably a pattern histogram, is further processed. In this case, note selection can be made on the basis of a criterion, for example by comparing the frequency or the combined intensity values with a threshold value. This threshold may also depend on the type of instrument or the flatness of the histogram, among other things. The Drum Pattern entries can be Boolean sizes, with a "1" for the fact would stand for a note, while a "0" would stand for the fact that no note occurs. Alternatively, an entry in the histogram can also be a measure of how high the intensity (loudness) or relevance of the note occurring in this time slot over the music signal is considered. Looking at Figure 6, it will be seen that the threshold was chosen to mark all time slots or bins in the pattern histogram for each instrument with an "x" where the number of entries is greater than or equal to 3 is. In contrast, all bins are deleted in which the number of entries is less than 3, namely, for example, 2 or 1 amounts.

Erfindungsgemäß wird also ein musikalisches "Ergebnis" oder Score aus perkussiven Instrumenten, die nicht oder nicht signifikant durch eine Tonhöhe charakterisiert werden, erzeugt. Ein musikalisches Ereignis wird als Auftreten eines Tons eines Musikinstruments definiert. Vorzugsweise werden nur perkussive Instrumente ohne einen wesentlichen Pitch betrachtet. Ereignisse werden in dem Audiosignal erfasst und in Instrumentenklassen klassifiziert, wobei die zeitlichen Positionen der Ereignisse auf einem Quantisierungsraster, das auch als Tatum-Grid bezeichnet wird, quantisiert werden. Ferner wird das musikalische Maß bzw. die Länge eines Taktes in Millisekunden oder aber eine Anzahl von Quantisierungsintervallen berechnet, wobei ferner auch vorzugsweise Auftakte identifiziert werden. Die Identifikation von rhythmischen Strukturen auf der Basis der Frequenz des Auftretens musikalischer Ereignisse an bestimmten Positionen im Drum-Pattern ermöglicht eine robuste Identifikation des Tempos und gibt wertvolle Hinweise für die Positionierung der Taktlinien, wenn ferner musikalisches Hintergrundwissen eingesetzt wird.According to the invention, therefore, a musical "result" or score is generated from percussive instruments that are not or not significantly characterized by a pitch. A musical event is defined as the occurrence of a sound of a musical instrument. Preferably, only percussive instruments are considered without a substantial pitch. Events are detected in the audio signal and classified into instrument classes, with the timing of events being quantized on a quantization grid, also referred to as a tatum grid. Furthermore, the musical measure or the length of a clock is calculated in milliseconds or else a number of quantization intervals, and furthermore preferably also clocks are identified. The identification of rhythmic structures based on the frequency of the occurrence of musical events at certain positions in the drum pattern allows a robust identification of the tempo and provides valuable information for the positioning the timing lines, when also musical background knowledge is used.

Es sei darauf hingewiesen, dass der musikalische Score bzw. das Charakteristikum vorzugsweise die rhythmischen Informationen, wie beispielsweise Startzeit und Dauer umfasst. Obgleich die Schätzung dieser metrischen Informationen, nämliche einer Zeitsignatur, nicht unbedingt für die automatische Synthese der transkribierten Musik nötig ist, wird sie dennoch für die Erzeugung eines gültigen musikalischen Scores und für die Reproduktion durch menschliche Reproduzenten benötigt. Daher kann ein automatischer Transkriptionsprozess in zwei Aufgaben aufgeteilt werden, nämlich die Erfassung und Klassifizierung der musikalischen Ereignisse, also Noten, und die Erzeugung eines musikalischen Scores aus den erfassten Noten, also des Drum-Patterns, wie es vorstehend bereits erläutert worden ist. Hierzu wird vorzugsweise die metrische Struktur der Musik geschätzt, wobei auch eine Quantisierung der zeitlichen Positionen der erfassten Noten sowie eine Erkennung von Auftakten und eine Bestimmung der Position der Taktlinien vorgenommen werden kann. Insbesondere wird die Extraktion des musikalischen Scores für perkussive Instrumente ohne eine signifikante Pitch-Information aus polyphonen musikalischen Audiosignalen beschrieben. Die Erfassung und Klassifizierung der Ereignisse wird vorzugsweise mit dem Verfahren der unabhängigen Subspace-Analyse durchgeführt.It should be noted that the musical score or characteristic preferably comprises the rhythmic information such as start time and duration. Although the estimation of this metric information, namely a time signature, is not necessarily necessary for the automatic synthesis of the transcribed music, it is nevertheless needed for the generation of a valid musical score and for reproduction by human reproducers. Therefore, an automatic transcription process can be divided into two tasks, namely the detection and classification of the musical events, ie notes, and the generation of a musical score from the detected notes, ie the drum pattern, as has already been explained above. For this purpose, the metric structure of the music is preferably estimated, wherein a quantization of the temporal positions of the detected notes as well as a detection of upbeats and a determination of the position of the clock lines can be made. In particular, the extraction of the musical score for percussive instruments without significant pitch information from polyphonic musical audio signals is described. The detection and classification of the events is preferably performed by the method of independent subspace analysis.

Eine Erweiterung der ICA stellt die Independent Subspace Analysis (ISA) dar. Hier werden die Komponenten unterteilt in unabhängige Unterräume oder Subspaces, deren Komponenten nicht statistisch unabhängig sein müssen. Durch eine Transformation des Musiksignals wird eine mehrdimensionale Darstellung des Mischsignals ermittelt und der letzten Annahme für die ICA entsprochen. Verschiedene Verfahren zur Berechnung der unabhängigen Komponenten wurden in den letzten Jahren entwickelt. Einschlägige Literaturstellen, die sich zum Teil auch mit der Analyse von Audiosignalen beschäftigen, sind folgende:

  1. 1. J. Karhunen, "Neural approaches to independent component analysis and source separation", Proceedings of the European Symposium on Artificial Neural Networks, S. 249-266, Bruges, 1996.
  2. 2. M.A. Casey and A. Westner, "Separation of Mixed Audio Sources by Independent Subspace Analysis", Proceedings of the International Computer Music Conference, Berlin, 2000.
  3. 3. J.-F. Cardoso, "Multidimensional independent component analysis", Proceedings of ICASSP'98, Seattle, 1998.
  4. 4. A. Hyvärinen, P.O. Hoyer and M. Inki, "Topographic Independent analysis", Neural Computation, 13(7), S. 1525-1558, 2001.
  5. 5. S. Dubnov, "Extracting Sound Objects by Independent Subspace Analysis" Proceedings of AES 22nd International Conference on Virtual, Synthetic and Entertainment Audio, Helsinki, 2002.
  6. 6. J.-F. Cardoso and A. Souloumiac, "Blind beamforming for non Gaussian signals" IEE Proceedings, Bd. 140, Nr. 6, S. 362-370, 1993.
    Ein Ereignis wird als Auftreten einer Note eines musikalischen Instruments definiert. Der Auftrittszeitpunkt einer Note ist also der Zeitpunkt, zu dem die Note in dem musikalischen Stück auftritt. Das Audiosignal wird in Teile segmentiert, wobei ein Segment des Audiosignals ähnliche rhythmische Eigenschaften hat. Dies wird unter Verwendung eines Abstandsmaßes zwischen kurzen Rahmen des Audiosignals durchgeführt, das durch einen Vektor von Audiomerkmalen auf niedriger Ebene dargestellt wird. Das Tatum-Grid und höhere metrische Ebenen werden aus den segmentierten Teilen separat ermittelt. Es wird angenommen, dass sich die metrische Struktur innerhalb eines segmentierten Teils des Audiosignals nicht verändert. Die erfassten Ereignisse sind vorzugsweise mit dem abgeschätzten Tatum-Grid ausgerichtet. Dieser Prozess entspricht in etwa der bekannten Quantisierungsfunktion in üblichen MIDI-Sequenzer-Softwareprogrammen für die Musikproduktion. Die Taktlänge wird aus der quantisierten Ereignisliste abgeschätzt, und wiederkehrende rhythmische Strukturen werden identifiziert. Die Kenntnis über die rhythmischen Strukturen wird für die Korrektur des geschätzten Tempos verwendet und für die Identifikation der Position der Taktlinien unter Verwendung musikalischen Hintergrundwissens.
An extension of the ICA is the Independent Subspace Analysis (ISA). Here, the components are subdivided into independent subspaces or subspaces whose components need not be statistically independent. Through a transformation of the music signal becomes a multi-dimensional representation of the mixed signal and met the latest assumption for the ICA. Various methods for calculating the independent components have been developed in recent years. Relevant references, some of which also deal with the analysis of audio signals, are the following:
  1. J. Karhunen, "Neural approaches to independent component analysis and source separation", Proceedings of the European Symposium on Artificial Neural Networks, pp. 249-266, Bruges, 1996.
  2. Case MA and A. Westner, "Separation of Mixed Audio Sources by Independent Subspace Analysis," Proceedings of the International Computer Music Conference, Berlin, 2000.
  3. 3rd J.-F. Cardoso, "Multidimensional Independent Component Analysis", Proceedings of ICASSP'98, Seattle, 1998.
  4. 4. A. Hyvärinen, PO Hoyer and M. Inki, "Topographic Independent Analysis", Neural Computation, 13 (7), pp. 1525-1558, 2001.
  5. 5. S. Dubnov, "Extracting Sound Objects by Independent Subspace Analysis" Proceedings of AES 22 nd International Conference on Virtual, Synthetic and Entertainment Audio, Helsinki., 2002
  6. 6. J.-F. Cardoso and A. Souloumiac, "Blind beamforming for non Gaussian signals" IEE Proceedings, Vol. 140, No. 6, pp. 362-370, 1993.
    An event is defined as the occurrence of a note of a musical instrument. The appearance time of a note is thus the time at which the note occurs in the musical piece. The audio signal is segmented into parts, with a segment of the audio signal having similar rhythmic properties. This is done using a distance measure between short frames of the audio signal represented by a vector of low-level audio features. The tatum grid and higher metric levels are determined separately from the segmented parts. It is assumed that the metric structure does not change within a segmented portion of the audio signal. The detected events are preferably aligned with the estimated tatum grid. This process is similar to the well-known quantization function in common MIDI sequencer software programs for music production. The measure length is estimated from the quantized event list and recurring rhythmic structures are identified. The knowledge about the rhythmic structures is used for the correction of the estimated tempo and for the identification of the position of the timing lines using musical background knowledge.

Nachfolgend wird auf bevorzugte Ausgestaltungen verschiedener erfindungsgemäßer Elemente eingegangen. Vorzugsweise führt die Einrichtung 10 zum Bereitstellen von Folgen von Einsatzzeitpunkten für mehrere Tonquellen eine Quantisierung durch. Die erfassten Ereignisse werden vorzugsweise in dem Tatum-Grid quantisiert. Das Tatum-Grid wird unter Verwendung der Noteneinsatzzeiten der erfassten Ereignisse zusammen mit Noteneinsatzzeiten abgeschätzt, die mittels herkömmlicher Noteneinsatzerfassungsverfahren arbeiten. Die Erzeugung des Tatum-Grids auf der Basis der erfassten perkussiven Ereignisse arbeitet zuverlässig und robust. Hierbei sei darauf hingewiesen, dass der Abstand zwischen zwei Rasterpunkten in einem Musikstück meistens die schnellste gespielte Note darstellt. Kommen in einem Musikstück somit höchstens Sechzehntelnoten und keine schnelleren als die Sechzehntelnoten vor, so ist der Abstand zwischen zwei Rasterpunkten des Tatum-Grids gleich der zeitlichen Länge einer Sechzehntelnote des Tonsignals.Hereinafter, preferred embodiments of various inventive elements will be discussed. Preferably, means 10 for providing sequences of times of use for a plurality of sound sources performs quantization. The detected events are preferably quantized in the Tatum grid. The tatum grid is estimated using the note usage times of the recorded events along with note times that operate using conventional note-taking techniques. The Creating the Tatum Grid based on the detected percussive events works reliably and robustly. It should be noted that the distance between two halftone dots in a piece of music usually represents the fastest played note. Thus, if there are at most sixteenth notes in a piece of music and no ones faster than the sixteenth notes, the distance between two dots of the tatum grid is equal to the length of a sixteenth note of the tone signal.

Im allgemeinen Fall entspricht der Abstand zwischen zwei Rasterpunkten dem größten Notenwert, der benötigt wird, um durch Bildung ganzzahliger Vielfacher dieses Notenwerts alle vorkommenden Notenwerte bzw. zeitlichen Periodendauern darzustellen. Der Rasterabstand ist damit der größte gemeinsame Teiler aller vorkommenden Notendauern/Periodenlängen etc.In the general case, the distance between two halftone dots corresponds to the largest note value needed to represent all occurring note values or time periods by forming integer multiples of this note value. The grid spacing is thus the largest common divisor of all occurring note durations / period lengths etc.

Nachfolgend werden zwei alternative Lösungsansätze zur Bestimmung des Tatum-Grids dargestellt. Zunächst, als erster Lösungsansatz, wird das Tatum-Grid unter Verwendung einer 2-Wege-Mismatch-Prozedur (TWM) dargestellt. Eine Serie von Versuchswerten für die Tatum-Periode, also für den Abstand von zwei Rasterpunkten, wird aus einem Histogramm für ein Inter-Onset-Intervall (IOI) abgeleitet. Die Berechnung des IOI ist nicht auf aufeinanderfolgende Onsets begrenzt, sondern auf praktisch alle Paare von Onsets in einem zeitlichen Rahmen. Tatum-Kandidaten werden als ganzzahlige Bruchteile des häufigsten IOI berechnet. Der Kandidat wird ausgewählt, der am besten die harmonische Struktur des IOI gemäß der 2-Wege-Mismatch-Fehlerfunktion vorhersagt. Die geschätzte Tatum-Periode wird nachfolgend durch Berechnung der Fehlerfunktion zwischen dem Comb-Grid, das von der Tatum-Periode abgeleitet wird und den Onset-Zeiten des Signals berechnet. Es wird also das Histogramm des IOI erzeugt und mittels eines FIR-Tiefpassfilters geglättet. Tatum-Kandidaten werden also durch Aufteilen des IOI entsprechend den Spitzen in dem IOI-Histogramm durch einen Satz von Werten zwischen z. B. 1 und 4 erhalten. Ein roher Schätzwert für die Tatum-Periode wird aus dem IOI-Histogramm nach dem Anwenden der TWM abgeleitet. Anschließend werden die Phase des Tatum-Grids und ein exakter Schätzwert der Tatum-Periode mittels der TWM zwischen den Noteneinsatzzeiten und mehreren Tatum-Grids mit Perioden nahe der vorher geschätzten Tatum-Periode berechnet.In the following, two alternative approaches for the determination of the Tatum grid are presented. First, as a first approach, the tatum grid is represented using a 2-way mismatch procedure (TWM). A series of trial values for the tatum period, that is, the spacing of two halftone dots, is derived from a histogram for an inter-onset interval (IOI). The calculation of the IOI is not limited to consecutive onsets, but to virtually all pairs of onsets in a timeframe. Tatum candidates are calculated as integer fractions of the most common IOI. The candidate is selected that best predicts the harmonic structure of the IOI according to the 2-way mismatch error function. The estimated tatum period is subsequently calculated by calculating the error function between the comb grid and the tatum period is derived and calculates the onset times of the signal. Thus, the histogram of the IOI is generated and smoothed by means of an FIR low-pass filter. Thus, Tatum candidates are calculated by dividing the IOI according to the peaks in the IOI histogram by a set of values between e.g. B. 1 and 4 received. A raw estimate for the Tatum period is derived from the IOI histogram after applying the TWM. Thereafter, the phase of the tatum grid and an exact estimate of the tatum period are calculated by means of the TWM between the billets and several tatum grids with periods close to the previously estimated tatum period.

Das zweite Verfahren verfeinert und stellt das Tatum-Grid durch Berechnen der besten Übereinstimmung zwischen den Noteneinsatzvektor und dem Tatum-Grid dar, und zwar unter Verwendung eines Korrelationskoeffizienten Rxy zwischen dem Noteneinsatzvektor x und dem Tatum y. R x y = i = 1 n x i - x ( y i - y ) i = 1 n x i - x 2 i = 1 n y i - y 2

Figure imgb0001
The second method refines and presents the tatum grid by computing the best match between the note insert vector and the tatum grid, using a correlation coefficient R xy between the note insert vector x and the tatum y. R x y = Σ i = 1 n x i - x ~ ( y i - y ~ ) Σ i = 1 n x i - x ~ 2 Σ i = 1 n y i - y ~ 2
Figure imgb0001

Um kleinen Tempovariationen zu folgen, wird das Tatum-Grid für benachbarte Rahmen mit z. B. einer Länge von 2,5 Sek. geschätzt. Die Übergänge zwischen den Tatum-Grids von benachbarten Rahmen werden durch Tiefpassfiltern des IOI-Vektors der Tatum-Grid-Punkte geglättet, und das Tatum-Grid wird aus dem geglätteten IOI-Vektor wieder hergestellt. Anschließend wird jedes Ereignis seiner nahe liegendsten Grid-Position zugeordnet. Damit wird gewissermaßen eine Quantisierung durchgeführt.To follow small tempo variations, the tatum grid for adjacent frames with z. B. a length of 2.5 seconds estimated. The transitions between the tatum grids of adjacent frames are smoothed by low-pass filtering the IOI vector of the tatum grid points, and the tatum grid is restored from the smoothed IOI vector. Then each event is assigned to its closest grid position. This is a kind of quantization.

Der Score kann dann als Matrix Tik, i =1, ... n und j = 1, ..., m geschrieben werden, wobei n die Anzahl von erfassten Instrumenten bezeichnet, und wobei m gleich der Anzahl von Tatum-Grid-Elementen ist, also gleich der Anzahl von Spalten der Matrix. Die Intensität der erfassten Ereignisse kann entweder entfernt werden oder verwendet werden, was zu einer Boolschen Matrix führt oder zu einer Matrix mit Intensitätswerten führt.The score can then be written as a matrix T ik , i = 1,... N and j = 1,..., M, where n denotes the number of instruments acquired, and m is equal to the number of tatum grid Is equal to the number of columns in the matrix. The intensity of the detected events can either be removed or used, resulting in a Boolean matrix or resulting in a matrix of intensity values.

Nachfolgend wird auf spezielle Ausführungsformen der Einrichtung 12 zum Ermitteln einer gemeinsamen Periodenlänge eingegangen. Die quantisierte Darstellung der perkussiven Ereignisse liefert wertvolle Informationen für die Abschätzung des musikalischen Maßes bzw. einer Periodizität, die dem Spielen der Tonquellen zugrunde liegt. Die Periodizität auf Taktebene beispielsweise wird in zwei Stufen ermittelt. Zunächst wird eine Periodizität berechnet, um dann die Taktlänge abzuschätzen.Hereinafter, specific embodiments of the device 12 for determining a common period length will be discussed. The quantized representation of the percussive events provides valuable information for the estimation of the musical measure or a periodicity that underlies the playing of the sound sources. The periodicity at the clock level, for example, is determined in two stages. First, a periodicity is calculated to then estimate the cycle length.

Vorzugsweise werden als Periodizitätsfunktionen die Autokorrelationsfunktion (ACF) oder die mittlere Betrags-Differenz-Funktion (AMDF) verwendet, wie sie in den nachfolgenden Gleichungen dargestellt sind. A C F τ = i = 1 τ x i x i + τ

Figure imgb0002
A M D F τ = j = 1 τ x j - x j + τ 2
Figure imgb0003
Preferably, the periodic functions used are the autocorrelation function (ACF) or the mean magnitude difference function (AMDF), as shown in the following equations. A C F τ = Σ i = 1 τ x i x i + τ
Figure imgb0002
A M D F τ = Σ j = 1 τ x j - x j + τ 2
Figure imgb0003

Die AMDF wird auch für die Abschätzung der Fundamentalfrequenz für Musik- und Sprachsignale und für die Abschätzung des musikalischen Maßes eingesetzt.The AMDF is also used to estimate the fundamental frequency for music and speech signals and to estimate the musical measure.

Im allgemeinen Fall misst eine Periodizitätsfunktion die Ähnlichkeit bzw. Unähnlichkeit zwischen dem Signal und seiner zeitlich verschiedenen Version. Verschiedene Ähnlichkeitsmaße sind bekannt. So gibt es beispielsweise die Hamming-Distanz (HD), welche eine Unähnlichkeit zwischen zwei Boolschen Vektoren B1 und B2 gemäß nachfolgender Gleichung berechnet. H D = sum b 1 ̲ b 2

Figure imgb0004
In the general case, a periodicity function measures the similarity or dissimilarity between the signal and its temporally different version. Different similarity measures are known. For example, there is the Hamming distance (HD), which calculates a dissimilarity between two Boolean vectors B 1 and B 2 according to the following equation. H D = sum b 1 b 2
Figure imgb0004

Eine geeignete Erweiterung für den Vergleich der rhythmischen Strukturen ergibt sich aus der unterschiedlichen Gewichtung ähnlicher Treffer und Ruhepausen. Die Ähnlichkeit B zwischen zwei Abschnitten eines Scores T1 und T2 wird dann durch gewichtete Summation der Boolschen Operationen, wie sie nachfolgend dargestellt sind, berechnet. B = a T 1 T 2 + b T 1 T 2 - c T 1 ̲ T 2

Figure imgb0005
A suitable extension for the comparison of the rhythmic structures results from the different weighting of similar hits and rest periods. The similarity B between two sections of a score T 1 and T 2 is then calculated by weighted summation of the Boolean operations, as shown below. B = a T 1 T 2 + b T 1 T 2 - c T 1 T 2
Figure imgb0005

In der vorstehenden Gleichung werden die Gewichte a, b und c ursprünglich auf a = 1, b = 0, 5 und c = 0 gesetzt. a gewichtet das Auftreten gemeinsamer Noten, b gewichtet das Auftreten gemeinsamer pausen und c gewichtet das Auftretens eines Unterschieds, d. h. in einem Score tritt eine Note auf und in dem anderen Score tritt keine Note auf. Das Ähnlichkeitsmaß M wird durch Summation der Elemente von B erhalten, wie es nachfolgend dargelegt ist. M = i = 1 n j = 1 m B i j

Figure imgb0006
In the above equation, the weights a, b, and c are initially set to a = 1, b = 0, 5, and c = 0. a weights the occurrence of common notes, b weights the occurrence of common breaks, and c weights the occurrence of a difference, ie, one note occurs in one score and no note occurs in the other score. The similarity measure M is obtained by summing the elements of B, as set forth below. M = Σ i = 1 n Σ j = 1 m B i j
Figure imgb0006

Dieses Ähnlichkeitsmaß ähnelt der Hamming-Distanz dahin gehend, dass Differenzen zwischen Matrixelementen auf ähnliche Art und Weise berücksichtigt werden. Nachfolgend wird als Distanzmaß eine modifizierte Hamming-Distanz (MHD) eingesetzt. Zusätzlich kann der Einfluss distinkter Instrumente mittels eines Gewichtungsvektors νi, i =1, ..., n gesteuert werden, der entweder unter Verwendung eines musikalischen Vorauswissens, z. B. indem mehr Wichtigkeit auf kleine Trommeln (Snare-Drums) oder auf tiefe Instrumente gelegt werden, oder abhängig von der Frequenz und Regelmäßigkeit des Auftretens der Instrumente gesteuert werden: M v = i = 1 n v i j = 1 m B i j

Figure imgb0007
This similarity measure is similar to the Hamming distance in that differences between matrix elements are similarly accounted for. Subsequently, a modified Hamming distance (MHD) is used as the distance measure. In addition, the influence of distinct instruments can be controlled by means of a weighting vector ν i , i = 1,..., N, determined either by using musical foresight, e.g. By placing more importance on small drums (snare drums) or on deep instruments, or depending on the frequency and regularity of the appearance of the instruments: M v = Σ i = 1 n v i Σ j = 1 m B i j
Figure imgb0007

Zusätzlich können die Ähnlichkeitsmaße für Boolsche Matrizen durch Gewichten von B mit dem Mittelwert aus T1 und T2 erweitert werden, um Intensitätswerte zu berücksichtigen. Abstände bzw. Unähnlichkeiten werden als negative Ähnlichkeiten aufgefasst. Die Periodizitätsfunktion P = f (M, 1) wird durch Berechnen des Ähnlichkeitsmaßes M zwischen dem Score T und einer verschobenen Version desselben berechnet, wobei eine Verschiebung 1 zugrunde liegt. Die Zeitsignatur wird durch Vergleichen von P mit einer Anzahl von Metrikmodellen bestimmt. Die implementierten Metrikmodelle Q bestehen aus einem Zug aus Spikes bei typischen Akzentpositionen für unterschiedliche Zeitsignaturen und Mikrozeiten. Eine Mikrozeit ist das ganzzahlige Verhältnis zwischen der Dauer einer musikalischen Zählzeit, d.h. des Notenwerts, der das musikalische Tempo bestimmt (z. B. Viertelnote), und der Dauer einer Tatum-Periode.In addition, the similarity measures for Boolean matrices can be extended by weighting B with the average of T 1 and T 2 to account for intensity values. Distances or dissimilarities are regarded as negative similarities. The periodicity function P = f (M, 1) is calculated by calculating the similarity measure M between the score T and a shifted version thereof, based on a displacement 1. The time signature is determined by comparing P with a number of metric models. The implemented metric models Q consist of a train of spikes with typical accent positions for different time signatures and micro times. A micro-time is the integer ratio between the duration of a musical beat, that is, the note value that determines the musical tempo (eg, quarter-note), and the duration of a tatum period.

Die beste Übereinstimmung zwischen P und Q wird erhalten, wenn der Korrelationskoeffizient sein Maximum annimmt. Im gegenwärtigen Zustand des Systems werden 13 Metrikmodelle für sieben unterschiedliche Zeitsignaturen implementiert.The best match between P and Q is obtained when the correlation coefficient reaches its maximum. In the current state of the system, 13 metric models are implemented for seven different time signatures.

Wiederkehrende Strukturen werden erfasst, um Auftakte z. B. zu erfassen, und um eine robust Temposchätzung zu erhalten. Für die Erfassung von Drum-Patterns wird ein Score T aus der Länge eines Takts b durch Summation der Matrixelemente T mit ähnlicher metrischer Position gemäß folgender Gleichung erhalten: = k = 1 p T i , j + k - 1 b

Figure imgb0008
Recurring structures are recorded in order to get started. B. to capture, and to obtain a robust pace estimation. For the acquisition of drum patterns, a score T is obtained from the length of a stroke b by summation of the matrix elements T with a similar metric position according to the following equation: T ' = Σ k = 1 p T i . j + k - 1 b
Figure imgb0008

In der vorstehenden Gleichung bezeichnen b eine geschätzte Taktlänge und p die Anzahl von Takten in T. Nachfolgend wird T' als Score-Histogramm bzw. Pattern-Histogramm bezeichnet. Drum-Patterns werden aus dem Score-Histogramm T' durch eine Suche nach Score-Elementen T'i,j mit großen Histogrammwerten erhalten. Pattern einer Länge von mehr als einem Takt werden mittels einer Wiederholung der oben beschriebenen Prozedur für ganzzahlige Werte der gemessenen Länge wiedergewonnen. Die Patternlänge mit den meisten Treffern, und zwar bezogen auf die Patternlänge selbst, wird ausgewählt, um ein maximal repräsentatives Pattern als weiteres oder alternatives Charakteristikum für das Tonsignal zu erhalten.In the above equation, b denotes an estimated clock length and p denotes the number of clocks in T. Hereinafter, T 'is referred to as a score histogram or a pattern histogram. Drum patterns are obtained from the score histogram T 'by searching for score elements T' i, j with large histogram values. Patterns longer than one clock are retrieved by repeating the procedure described above for integer values of the measured length. The pattern length with the most hits, relative to the pattern length itself, is selected to obtain a maximum representative pattern as a further or alternative characteristic for the sound signal.

Vorzugsweise werden die identifizierten rhythmischen Pattern unter Verwendung eines Satzes von Regeln interpretiert, die aus musikalischer Kenntnis abgeleitet werden. Vorzugsweise werden äquidistante Ereignisse des Auftretens von einzelnen Instrumenten identifiziert und Bezug nehmend auf die Instrumentenklasse evaluiert. Dies führt zu einer Identifikation von Spielstilen, die häufig in populärer Musik auftreten. Ein Beispiel ist die sehr häufige Verwendung der kleinen Trommel (Snare-Drum) oder von Tambourinen oder von "Hand Claps" (Händeklatschen) in dem zweiten und vierten Schlag in einem Vier-Viertel-Takt. Dieses Konzept, das als Backbeat bezeichnet wird, dient als Indikator für die Position der Taktlinien. Wenn ein Backbeat-Pattern vorhanden ist, startet ein Takt zwischen zwei Anschlägen der kleinen Trommel.Preferably, the identified rhythmic patterns are interpreted using a set of rules derived from musical knowledge. Preferably, equidistant occurrences occur identified by individual instruments and evaluated with reference to the instrument class. This leads to an identification of playing styles that often occur in popular music. An example is the very frequent use of the snare-drum or tambourines, or hand claps in the second and fourth beats in a four-quarter cycle. This concept, called backbeat, serves as an indicator of the position of the timing lines. If there is a backbeat pattern, a measure starts between two small drum attacks.

Ein weiterer Hinweis für die Positionierung der Taktlinien besteht in dem Auftreten von Kick-Drum-Ereignissen, also Ereignissen einer typischerweise per Fuß betätigten großen Trommel.Another indication of the positioning of the timing lines is the occurrence of kick drum events, that is, events of a typically foot operated large drum.

Es wird angenommen, dass der Start eines musikalischen Maßes durch die metrische Position markiert wird, wo die meisten Kick-Drum-Noten auftreten.It is assumed that the start of a musical measure is marked by the metric position where most kick drum notes occur.

Eine bevorzugte Anwendung des Charakteristikums, wie es durch die Einrichtung 16 zum Zusammenfassen für jede Tonquelle, wie es in Fig. 1 gezeigt und beschrieben worden ist, erhalten wird, wie es z. B. in Fig. 5 oder 6 dargestellt ist, besteht in der Genre-Klassifizierung von populärer Musik. Von den erhaltenen Drum-Patterns können verschiedene Merkmale auf hoher Ebene abgeleitet werden, um typische Spielstile zu identifizieren. Eine Klassifikationsprozedur bewertet diese Merkmale in Verbindung mit Informationen über das musikalische Maß, also die Geschwindigkeit, in z. B. Schlägen pro Minute oder Beats per Minute und unter Verwendung der verwendeten perkussiven Instrumente. Das Konzept basiert darauf, dass sämtliche perkussiven Instrumente Rhythmusinformationen tragen und häufig repetitiv gespielt werden. Drum-Patterns haben Genre-spezifische Charakteristika. Daher können diese Drum-Patterns zur Klassifikation des Musik-Genres eingesetzt werden.A preferred application of the characteristic as obtained by means 16 for summarizing for each sound source, as shown and described in Fig. 1, as e.g. As shown in Fig. 5 or 6, is in the genre classification of popular music. From the drum patterns obtained, various high-level features can be derived to identify typical playing styles. A classification procedure evaluates these features in conjunction with information about the musical measure, ie the speed, in z. As beats per minute or beats per minute and using the percussive instruments used. The concept is based on the fact that all percussive instruments carry rhythm information and are often played repetitively. Drum patterns have genre-specific characteristics. Therefore, these drum patterns can be used to classify the music genre.

Hierzu wird eine Klassifikation von verschiedenen Spielstilen (Playing Style) durchgeführt, die jeweils einzelnen Instrumenten zugeordnet sind. So besteht ein Spielstil beispielsweise darin, dass Ereignisse nur auf jeder Viertelnote auftreten. Ein zugeordnetes Instrument für diesen Spielstil ist die Kick-Drum, also die große mit dem Fuß betätigte Trommel des Schlagzeugs. Dieser Spielstil wird mit FS abgekürzt.For this purpose, a classification of different playing styles (playing style) is performed, each of which is assigned to individual instruments. For example, one style of play is that events occur only on every quarter note. An associated instrument for this style of play is the kick-drum, so the big drum of the drums operated by the foot. This style of playing is abbreviated FS.

Ein alternativer Spielstil besteht beispielsweise darin, dass Ereignisse in jeder zweiten und vierten Viertelnote eines Vier-Viertel-Takts auftreten. Dies wird hauptsächlich von der kleinen Trommel (Snare-Drum) und Tambourinen, also den Hand-Claps gespielt. Dieser Spielstil wird als BS abgekürzt. Beispielhafte weitere Spielstile bestehen darin, dass Noten oft auf der ersten und der dritten Note eines Triplets auftreten. Dies wird als SP abgekürzt und oft bei einem Hi-Hat oder bei einem Becken (Cymbal) beobachtet.For example, an alternate style of playing is that events occur in every second and fourth quarter note of a four-fourths beat. This is mainly played by the small drum (snare drum) and tambourines, so the hand claps. This style of play is abbreviated as BS. Exemplary other play styles are that notes often appear on the first and third notes of a triplet. This is abbreviated as SP and is often observed in a hi-hat or cymbal.

Es sind also Spielstile für verschiedene Musikinstrumente spezifisch. Beispielsweise ist das erste Merkmal FS ein Boolscher Wert und wahr, wenn Kick-Drum-Ereignisse nur auf jeder Viertelnote auftreten. Lediglich für bestimmte Werte werden keine Boolschen Variablen berechnet, sondern werden bestimmte Zahlen ermittelt, wie beispielsweise für die Relation zwischen der Anzahl von Off-Beat-Ereignissen und die Anzahl von On-Beat-Ereignissen, wie sie beispielsweise von einem Hi-Hat, einem Shaker oder einem Tamburin gespielt werden.So there are game styles specific to different musical instruments. For example, the first feature FS is a boolean value and true if kick-drum events occur only on each quarter note. Only for certain values are Boolean variables not calculated, but certain numbers are determined, such as the relation between the number of off-beat events and the number of on-beat events, such as those from a hi-hat, a shaker or a tambourine.

Typische Kombinationen von Drum-Instrumenten werden in einen der verschiedenen Drum-Set-Typen klassifiziert, wie beispielsweise Rock, Jazz, Latin, Disco und Techno, um ein weiteres Merkmal für die Genre-Klassifikation zu erhalten. Die Klassifikation des Drum-Sets wird nicht unter Verwendung der Instrumententöne abgeleitet, sondern durch allgemeine Untersuchung des Auftretens von Drum-Instrumenten in verschiedenen Stücken, die zu den einzelnen Genres gehören. So zeichnet sich der Drum-Set-Typ Rock beispielsweise dadurch aus, dass eine Kick-Drum, eine Snare-Drum, ein Hi-Hat und ein Becken vorkommt. Dagegen kommt im Type "Latin" ein Bongo, ein Conga, Claves und Shaker vor.Typical combinations of drum instruments are classified into one of the various drum set types, such as rock, jazz, latin, disco, and techno, to provide another feature for genre classification. The classification of the drum set is not derived using the instrument sounds, but by generally examining the occurrence of drum instruments in various pieces belonging to each genre. For example, the drum set type Rock is characterized by a kick drum, a snare drum, a hi-hat and a pelvis. In contrast, comes in the type "Latin" a bongo, a conga, claves and shakers.

Ein weiterer Satz von Merkmalen wird aus den rhythmischen Merkmalen des Drum-Scores bzw. Drum-Patterns abgeleitet. Diese Merkmale umfassen musikalisches Tempo, Zeitsignatur, Mikrozeit, etc. Zusätzlich wird ein Maß für die Variation des Auftretens von Kick-Drum-Noten durch Zählen der Anzahl von unterschiedlichen IOI, die in dem Drum-Pattern auftreten, erhalten.Another set of features is derived from the rhythmic features of the drum score or drum pattern. These features include musical tempo, time signature, micro-time, etc. In addition, a measure of the variation in the occurrence of kick drum notes is obtained by counting the number of different IOI that occur in the drum pattern.

Die Klassifikation des musikalischen Genres unter Verwendung des Drum-Patterns wird unter Verwendung eines Regelbasierten Entscheidungsnetzwerks ausgeführt. Mögliche Genre-Kandidaten werden belohnt, wenn sie eine gegenwärtig untersuchte Hypothese erfüllen, und werden "bestraft", wenn sie Aspekte einer gegenwärtig untersuchten Hypothese nicht erfüllen. Dieser Prozess resultiert in der Auswahl günstiger Merkmalskombinationen für jedes Genre. Die Regeln für eine vernünftige Entscheidung werden aus Beobachtungen repräsentativer Stücke und aus musikalischer Kenntnis an sich abgeleitet. Werte für Belohnung bzw. Bestrafung werden unter Berücksichtigung der Robustheit des Extraktionskonzepts empirisch eingestellt. Die resultierende Entscheidung für ein bestimmtes musikalisches Genre wird für den Genre-Kandidaten getroffen, der die maximale Anzahl von Belohnungen hat. So wird beispielsweise das Genre Disco erkannt, wenn ein Drum-Set-Typ Disco ist, wenn das Tempo im Bereich zwischen 115 und 132 bpm ist, wenn eine Zeitsignatur 4/4 Bit beträgt und die Mikrozeit gleich 2 ist. Ferner ist ein weiteres Merkmal für das Genre Disco, dass ein Spielstil FS z. B. vorhanden ist, und dass z. B. noch ein weiterer Spielstil vorhanden ist, nämlich das Ereignisse auf jeder Off-Beat-Position auftreten. Ähnliche Kriterien können für andere Genres, wie beispielsweise Hip-Hop, Soul/Funk, Drum and Bass, Jazz/Swing, Rock/Pop, Heavy Metal, Latin, Walzer, Polka/Punk oder Techno aufgestellt werden.The classification of the musical genre using the drum pattern is performed using a rule-based decision network. Potential genre candidates will be rewarded if they fulfill a hypothesis currently under investigation and will be "punished" if they do not fulfill aspects of a hypothesis that is currently under investigation. This process results in the selection of favorable feature combinations for each genre. The rules for a rational decision become more representative of observations Pieces and derived from musical knowledge in itself. Values for reward or punishment are set empirically considering the robustness of the extraction concept. The resulting decision for a particular musical genre is made for the genre candidate who has the maximum number of rewards. For example, the disco genre is recognized when a drum set type is disco, when the tempo is in the range of 115 to 132 bpm, when a time signature is 4/4 bit and the micro time is equal to 2. Further, another feature of the genre Disco is that a play style FS z. B. is present, and that z. B. yet another style of play is present, namely the events occur on each off-beat position. Similar criteria can be applied to other genres such as hip-hop, soul / funk, drum and bass, jazz / swing, rock / pop, heavy metal, Latin, waltz, polka / punk or techno.

Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Charakterisieren eines Tonsignals in Hardware oder in Software implementiert werden. Die Implementierung kann auf einen digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.Depending on the circumstances, the inventive method for characterizing a sound signal can be implemented in hardware or in software. The implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the method is executed. In general, the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method when the computer program product runs on a computer. In other words, the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Claims (21)

  1. A device for characterizing a tone signal, comprising:
    means (10) for providing a sequence of entry times of tones for at least one tone source;
    means (12) for determining a common period length underlying the at least one tone source using the at least one sequence of entry times;
    means (14) for dividing the at least one sequence of entry times into respective sub-sequences, wherein a length of a sub-sequence is equal to the common period length or derived from the common period length; and
    means (16) for combining the sub-sequences for the at least one tone source into one combined sub-sequence, wherein the combined sub-sequence is a characteristic for the tone signal.
  2. The device according to claim 1,
    wherein means (10) for providing is implemented in order to provide at least two sequences of entry times for at least two tone sources,
    wherein means (12) for determining is implemented in order to determine the common period length for the at least two tone sources,
    wherein means (14) for dividing is implemented in order to divide the at least two sequences of entry times according to the common period length, and
    wherein means (16) for combining is implemented in order to combine the sub-sequences for the second tone source into a second combined sub-sequence, wherein the first combined sub-sequence and the second combined sub-sequence represent the characteristic for the tone signal.
  3. The device according to claim 1, wherein means for providing (10) is implemented in order to provide for each of the at least two tone sources one sequence of quantized entry times, wherein the entry times are quantized with regard to a quantization raster, wherein a raster point distance between two raster points is equal to a shortest distance between two tones in the tone signal or equal to the greatest common divisor of the duration of tones in the musical signal.
  4. The device according to claims 1, 2 or 3, wherein means (10) for providing is implemented in order to provide the entry times of percussive instruments, but not the entry points of harmonic instruments.
  5. The device according to one of the preceding claims, wherein means for determining (12) is implemented
    to determine for each of a plurality of hypothetical common period lengths a probability measure, and
    to select the hypothetical common period length from the plurality of hypothetical common period lengths as a common period length whose probability measure indicates that the hypothetical common period length is the common period length for the at least two tone sources.
  6. The device according to claim 5, wherein means (12) for determining is implemented in order to determine the probability measure on the basis of a first probability measure for the first tone source and on the basis of a second probability measure for the second tone source.
  7. The device according to claims 5 or 6, wherein means (12) for determining is implemented in order to calculate the probability measures by a comparison of the sequence of entry points to a shifted sequence of entry points.
  8. The device according to one of the preceding claims, wherein means (14) for dividing is implemented to generate a list for each sub-sequence, wherein the list comprises an associated piece of information for each raster point and for each tone source, wherein the information relates to whether an entry point exists at a raster point or not.
  9. The device according to one of the preceding claims, wherein means (10) for providing is implemented in order to generate a list for each tone source, wherein the list for each raster point of a raster comprises an associated piece of information whether there is an entry time of a tone at the raster point.
  10. The device according to one of the preceding claims, wherein means (16) for combining is implemented in order to generate a histogram as a combined sub-sequence.
  11. The device according to claim 10, wherein means (16) for combining is implemented to generate the histogram such that each raster point of a tone raster of the combined sub-sequence represents a histogram bin.
  12. The device according to claims 10 or 11, wherein means (16) for combining is implemented to increment a count value for an associated bin in the histogram in each sub-sequence for a tone source when finding an input or by increasing the same by adding a measure determined by the input, wherein the input is a measure for the intensity of a tone that has an entry for the entry time.
  13. The device according to one of the preceding claims, wherein means (16) for combining is implemented to output, in the first combined sub-sequence and the second combined sub-sequence, only values of the sub-sequences as a characteristic which are above a threshold.
  14. The device according to one of the preceding claims, wherein means (16) for combining is implemented in order to normalize the sub-sequences with regard to the common length or to normalize the first combined sub-sequence or the second combined sub-sequence with regard to the common length.
  15. The device according to one of the preceding claims, wherein means (10) for providing is implemented in order to generate segments with a unique rhythmical structure from an audio signal, and
    wherein means (16) for combining is implemented in order to generate the characteristic for a segment having a unique rhythmical structure.
  16. The device according to one of the preceding claims, further comprising:
    means for extracting a feature from the characteristic for the tone signal; and
    means for determining a musical genre to which the tone signal belongs, using the feature.
  17. The device according to claim 16, wherein means for determining is implemented in order to use a rule-based decision network, a pattern recognition means or a classifier.
  18. The device according to one of the preceding claims, further comprising means for extracting a tempo from the characteristic.
  19. The device according to claim 18, wherein means for extracting is implemented to determine the tempo on the basis of the common period length.
  20. A method for characterizing a tone signal, comprising the following steps:
    providing (10) a sequence of entry times of tones for at least one tone source;
    determining (12) a common period length underlying the at least one tone source using the at least one sequence of entry times;
    dividing (14) the at least one sequence of entry times into respective sub-sequences, wherein a length of a sub-sequence is equal to the common period length or is derived from the common period length; and
    combining (16) the sub-sequences for the at least one tone source into one combined sub-sequence, wherein the combined sub-sequence represents a characteristic for the tone signal.
  21. A computer program having a program code for performing the method according to claim 20 when the computer program runs on a computer.
EP05735854A 2004-05-07 2005-04-27 Process and device for characterising an audio signal Expired - Fee Related EP1671315B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE200410022659 DE102004022659B3 (en) 2004-05-07 2004-05-07 Apparatus for characterizing a sound signal
PCT/EP2005/004517 WO2005114650A1 (en) 2004-05-07 2005-04-27 Process and device for characterising an audio signal

Publications (2)

Publication Number Publication Date
EP1671315A1 EP1671315A1 (en) 2006-06-21
EP1671315B1 true EP1671315B1 (en) 2007-05-02

Family

ID=34965834

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05735854A Expired - Fee Related EP1671315B1 (en) 2004-05-07 2005-04-27 Process and device for characterising an audio signal

Country Status (4)

Country Link
EP (1) EP1671315B1 (en)
JP (1) JP4926044B2 (en)
DE (2) DE102004022659B3 (en)
WO (1) WO2005114650A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6854350B2 (en) * 2017-08-03 2021-04-07 AlphaTheta株式会社 Music analysis device and music analysis program
JP6920445B2 (en) * 2017-08-29 2021-08-18 AlphaTheta株式会社 Music analysis device and music analysis program
CN108257588B (en) * 2018-01-22 2022-03-01 姜峰 Music composing method and device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
DE10157454B4 (en) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method and apparatus for generating an identifier for an audio signal, method and apparatus for building an instrument database, and method and apparatus for determining the type of instrument
JP2004029274A (en) * 2002-06-25 2004-01-29 Fuji Xerox Co Ltd Device and method for evaluating signal pattern, and signal pattern evaluation program

Also Published As

Publication number Publication date
EP1671315A1 (en) 2006-06-21
WO2005114650A1 (en) 2005-12-01
DE102004022659B3 (en) 2005-10-13
DE502005000658D1 (en) 2007-06-14
JP2007536586A (en) 2007-12-13
JP4926044B2 (en) 2012-05-09

Similar Documents

Publication Publication Date Title
US7273978B2 (en) Device and method for characterizing a tone signal
Mitrović et al. Features for content-based audio retrieval
EP1797552B1 (en) Method and device for the extraction of a melody on which an audio signal is based
EP1371055B1 (en) Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function
EP2351017B1 (en) Method for recognizing note patterns in pieces of music
DE10117870B4 (en) Method and apparatus for transferring a music signal into a score-based description and method and apparatus for referencing a music signal in a database
CN102770856B (en) The territory measured for precision waveform identifies and separates
WO2006039995A1 (en) Method and device for harmonic processing of a melodic line
DE10123366C1 (en) Device for analyzing an audio signal for rhythm information
DE102004028693B4 (en) Apparatus and method for determining a chord type underlying a test signal
EP1671315B1 (en) Process and device for characterising an audio signal
DE102004028694B3 (en) Apparatus and method for converting an information signal into a variable resolution spectral representation
Smith et al. Using quadratic programming to estimate feature relevance in structural analyses of music
Brent Cepstral analysis tools for percussive timbre identification
EP1377924B1 (en) Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal
Bader Neural coincidence detection strategies during perception of multi-pitch musical tones
EP1743324B1 (en) Device and method for analysing an information signal
Boonmatham et al. Musical-scale characteristics for traditional Thai music genre classification
Tjahyanto et al. Gamelan instrument sound recognition using spectral and facial features of the first harmonic frequency
Wang et al. The analysis and comparison of vital acoustic features in content-based classification of music genre
de Souza et al. Music Tempo Estimation via Neural Networks--A Comparative Analysis
Morman et al. A system for the automatic segmentation and classification of chord sequences
Pérez Fernández et al. A comparison of pitch chroma extraction algorithms
Krusche Visualization and auralization of features learned by neural networks for musical instrument recognition
DE102006014507B4 (en) Method and device for classifying and assessing musical instruments of the same instrument groups

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060420

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR LV MK YU

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 11/00 20060101AFI20060811BHEP

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWAN

RIN1 Information on inventor provided before grant (corrected)

Inventor name: UHLE, CHRISTIAN

Inventor name: CREMER, MARKUS

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB

DAX Request for extension of the european patent (deleted)
RBV Designated contracting states (corrected)

Designated state(s): DE FR GB

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20070510

REF Corresponds to:

Ref document number: 502005000658

Country of ref document: DE

Date of ref document: 20070614

Kind code of ref document: P

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20080205

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 12

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20180423

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20180424

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20180403

Year of fee payment: 14

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502005000658

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20190427

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20191101

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20190427

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20190430