EP1371055B1 - Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function - Google Patents

Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function Download PDF

Info

Publication number
EP1371055B1
EP1371055B1 EP02742987A EP02742987A EP1371055B1 EP 1371055 B1 EP1371055 B1 EP 1371055B1 EP 02742987 A EP02742987 A EP 02742987A EP 02742987 A EP02742987 A EP 02742987A EP 1371055 B1 EP1371055 B1 EP 1371055B1
Authority
EP
European Patent Office
Prior art keywords
information
rhythm
sub
autocorrelation function
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP02742987A
Other languages
German (de)
French (fr)
Other versions
EP1371055A2 (en
Inventor
Jürgen HERRE
Jan Rohden
Christian Uhle
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1371055A2 publication Critical patent/EP1371055A2/en
Application granted granted Critical
Publication of EP1371055B1 publication Critical patent/EP1371055B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to signal processing concepts and in particular to the analysis of audio signals in terms of of rhythm information.
  • semantically relevant features allow similarity relationships to model between pieces that are human Get close to sensation.
  • the use of features that semantic meaning also allows for example a automatic suggestion of interesting for a particular user Pieces, if his preferences are known.
  • the tempo is an important musical one Parameter that has semantic meaning.
  • the pace will be usually measured in beats per minute (BPM).
  • BPM beats per minute
  • the automatic Extraction of the tempo and the center of gravity of the "Beats" or generally the automatic extraction of Rhythm information, is an example of winning one semantically important feature of a piece of music.
  • the feature extraction d. H. extracting rhythm information an audio signal
  • Robustness means that it does not matter if that is Piece has been source coded and decoded again, whether the piece played over a loudspeaker and received by a microphone whether it is from an instrument or an instrument Plural of instruments is played.
  • the input signal is by means of a filter bank split into a number of subbands, for example in 6 subbands with crossover frequencies of 200 Hz, 400 Hz, 800 Hz, 1600 Hz and 3200 Hz.
  • low pass filtering is used carried out.
  • For the last subband is a High pass filtering is done, for the rest, in between bandpass filtering is described.
  • each Subband is processed as follows.
  • the subband signal is first rectified. In other words the absolute value of the samples is determined.
  • n values are then smoothed, for example with a Averaging over a suitable window to get an envelope signal to obtain.
  • the envelope signal be subsampled.
  • the envelope signals will be differentiated, d. H. sudden changes in signal amplitude are preferably forwarded by the differentiation filter. The result is then limited to non-negative values.
  • Each envelope signal is then converted into a bank of resonant filters, d. H. Oscillators, given, each one filter for each Tempo range so that matches the musical tempo Filter is most excited. For each filter is the energy of the output signal as a measure of the match the tempo of the input signal at the tempo associated with the filter calculated.
  • the energies for each tempo eventually become summed over all subbands, with the largest amount of energy the tempo delivered as a result, d. H. the rhythm information, features.
  • the oscillator bank also with output signals at the double, triple, etc. of the Tempos or even at rational multiples (eg 2/3, 4/3) of the Tempos reacts to a stimulus.
  • An autocorrelation function does not have this property, it only provides output signals at the halved, thirded, etc. pace.
  • a major disadvantage of this method is the large Computing and storage complexity especially for realization the large number of parallel vibrating "oscillators", of which ultimately only one is selected. This makes an efficient implementation, for example, for real-time applications almost impossible.
  • the known algorithm is shown in Fig. 3 as a block diagram shown.
  • the audio signal is sent via an audio input 300 an analysis filter bank 302 supplied.
  • the analysis filter bank generates from the audio input a number n of channels, i. H. of individual subband signals. Each subband signal contains a certain range of frequencies of the audio signal.
  • the Analysis Filter Bank filters are selected to match the Approximate the selection characteristic of the human inner ear.
  • Such an analysis filter bank is also called a gamma-tone filter bank designated.
  • the rhythm information becomes each subband signal evaluated.
  • For every input signal will initially be an envelope-like output signal calculated (according to a so-called “Inner Hair Cell” processing in the ear) and subsampled. Out of this result An autocorrelation function (AKF) is calculated to determine the periodicity the signal as a function of the delay, d. H. of To get "lag".
  • AMF autocorrelation function
  • the individual autocorrelation functions of the subband signals are then combined in a means 306 by summation, to obtain a sum auto-correlation function (SAKF) which Aspects of the rhythm information of the signal at the audio input 300 plays.
  • SAKF sum auto-correlation function
  • This information may be at a tempo output 308 are issued.
  • Great values in the sum auto-correlation indicate that for a peak assigned to the SAKF Delay (lag) a high periodicity of note beginnings is present. Therefore, for example, the largest value of Sum auto correlation function within the musically meaningful Delays searched.
  • Musically meaningful delays are, for example, the tempo range between 60 bpm and 200 bpm.
  • the device 306 may be further arranged to provide a delay time in tempo information implement. For example, a peak corresponds a delay of one second, a tempo of 60 beats per minute. Minor delays indicate higher tempo while larger delays occur at slower speeds than 60 bpm clues.
  • the object of the present invention is to provide a Apparatus and method for analyzing an audio signal in terms of rhythm information using a To create autocorrelation function that is robust and computing time efficient.
  • This object is achieved by a device for analyzing a Audio signal according to claim 1 or by a Method for analyzing an audio signal according to claim 7 solved.
  • the present invention is based on the finding that a post-processing of an autocorrelation function in a partial band can be performed to the ambiguities of the autocorrelation function for periodic signals to eliminate or Tempo information that does not autocorrelation processing provides the information obtained by an autocorrelation function to be added.
  • a post-processing of an autocorrelation function in a partial band can be performed to the ambiguities of the autocorrelation function for periodic signals to eliminate or Tempo information that does not autocorrelation processing provides the information obtained by an autocorrelation function to be added.
  • Tempo information that does not autocorrelation processing provides the information obtained by an autocorrelation function to be added.
  • an autocorrelation function post-processing the subband signals already used the ambiguities eliminate "at the root", or "missing" rhythm information to add will be an autocorrelation function post-processing the subband signals already used the ambiguities eliminate "at the root", or "missing" rhythm information to add.
  • According to another aspect of the present invention is a Post-processing of the sum auto-correlation function performed, re-edited rhythm raw information for the audio signal so that in the reworked rhythm raw information a signal component at an integer fraction a delay that has an autocorrelation function peak is assigned, is added.
  • This makes it possible to rhythm information not obtained by an autocorrelation function at double, triple etc. tempos or at rational Multiply by calculating by an integer factor or by a rational factor compressed versions of the Autocorrelation function and by adding these versions to the to produce the original autocorrelation function.
  • a complex oscillator bank is required, this is done according to the invention with easy to implement weighting and addition routines.
  • the Sum auto-correlation function also post-processed by a with a factor greater than zero and less than one, weighted to an integer factor greater than one splayed Version of the raw rhythm information about the autocorrelation function is subtracted.
  • rhythm raw information with compressed and / or spread versions of the same can be combined.
  • certain rhythm raw information with compressed and / or spread versions of the same can be combined.
  • the compressed / spread version before adding or subtracting weighted by a factor between zero and one is the compressed / spread version before adding or subtracting weighted by a factor between zero and one.
  • Invention is a quality assessment of the rhythm raw information, to get a significance measure, on the basis the postprocessed rhythm raw information performed, such that the quality rating is no longer due to autocorrelation function artifacts being affected. This will be a safe quality assessment possible, reducing the robustness determining rhythm information of the audio signal can be further increased.
  • the quality assessment can be carried out before the AKF post-processing occur.
  • This has the advantage that if a flat course of the rhythm raw information found is, i. no pronounced rhythm information on the AKF post-processing for this subband signal can be dispensed with can, because this subband due to its little meaningful Rhythm information when determining the rhythm information the audio signal will not matter anyway. In this manner and way, the computational and memory overhead can be further reduced become.
  • the subbands lie often different favorable conditions for finding of rhythmic periodicities. While, for example, at Pop music often in the middle, for example around 1 kHz, the signal is dominated by vocals not corresponding to the beat is often present in the higher frequency ranges all percussion sounds present, such. B. the hihat of the drums, which is a very good extraction of rhythmic regularities allow. In other words, different ones Frequency bands depending on the audio signal a different amount in rhythmic information or have a different Quality or significance for the rhythm information of the audio signal.
  • the audio signal is therefore first decomposed into subband signals.
  • Each subband signal is examined for its periodicity, around raw rhythm information for each subband signal to obtain. This is according to a preferred embodiment
  • the present invention provides an evaluation of quality the periodicity of each subband signal is performed by a significance measure for each subband signal. A high degree of significance indicates that in this subband signal clear rhythm information is available, while a low Significance indicates that in this subband signal less clear rhythm information is available.
  • a preferred embodiment of the present invention is considered when examining a subband signal Its periodicities initially a modified envelope of the subband signal and then an autocorrelation function the envelope is calculated.
  • the autocorrelation function the envelope represents the raw rhythm information.
  • Unique Rhythm information is present when the autocorrelation function has distinct maxima, while less definite Rhythm information is present when the autocorrelation function the envelope of the subband signal less pronounced Signal peaks or no signal peaks at all.
  • An autocorrelation function which has significant signal peaks, therefore receive a high degree of significance while an autocorrelation function, which has a relatively flat course, a low one Significance is obtained.
  • the artifacts of autocorrelation functions are, as stated above, according to the invention eliminated.
  • the individual rhythm raw information of the individual subband signals So they are not simply combined "blindly” but rather taking into account the significance measure for each subband signal used to get the rhythm information of the audio signal to obtain. If a subband signal has a high degree of significance, then it is preferred in determining the rhythm information, while a subband signal, that is a low significance measure has, d. H. this is a low quality in terms of rhythm information in determining the rhythm information the audio signal hardly or in extreme cases not at all is taken into account.
  • weighting factor This can be computationally good by a weighting factor be implemented, which depends on the significance measure. While a subband signal that is good quality for the rhythm information has, d. H. which has a high degree of significance, one Weighting factor of 1 will get another Subband signal having a smaller significance measure, a weighting factor less than 1 received. In extreme cases, a Subband signal, which is a completely flat autocorrelation function has to have a weighting factor of 0. The weighted Autocorrelation functions, d. H. the weighted rhythm raw information are then simply added up.
  • the inventive concept is advantageous in that it allows a robust determination of the rhythm information because subband signals with no unique or even different Rhythm information, d. H. if the song is another Has rhythm as the actual beat of the piece, the Rhythm information of the audio signal does not "dilute” or “distort".
  • very noisy subband signals which will complete a system autocorrelation function provide a flat waveform, the signal-to-noise ratio in determining the rhythm information does not worsen. Exactly this would happen, however, if, as in the state of Technique, just all the autocorrelation functions of the subband signals be summed up with the same weight.
  • Another advantage of the method described is that with a small additional computational effort a significance measure can be determined, and that the evaluation of the rhythm raw information with the significance measure and the subsequent Summation without large storage and computational time efficient can be performed, which is the concept of the invention especially recommended for real-time applications.
  • Fig. 1 shows a block diagram of an apparatus for analyzing an audio signal regarding rhythm information.
  • the audio signal is passed through an input 100 of a device 102 for decomposing the audio signal into at least two subband signals 104a and 104b supplied.
  • Each subband signal 104a, 104b is sent to a device 106a or 106b for examining it in terms of periodicities in the subband signal, around raw rhythm information 108a and 108b for each To obtain subband signal.
  • the rhythm raw information will be then a device 110a or 110b for rating a quality the periodicity of each of the at least two subband signals supplied to a significance measure 112a, 112b for each of the at least to obtain two subband signals.
  • Both the rhythm raw information 108a, 108b as well as the significance measures 112a, 112b are a means 114 for determining the rhythm information supplied to the audio signal.
  • the device 114 takes into account in determining the rhythm information of the audio signal the significance measures 112a, 112b for the subband signals and the rhythm raw information 108a, 108b of at least one Sub-band signal.
  • the device 110a has a quality evaluation found that in the subband signal 104a no special Periodicity is present, then the significance measure 112a becomes very be small, or equal to 0.
  • the rhythm information of the Audio signals are then solely and exclusively based the rhythm raw information 108b of the subband signal 104b.
  • a device 102 for decomposing the audio signal may be a usual Analysis filter bank, the output one of provides a user selectable number of subband signals.
  • each Subband signal is then processed by the facilities 106a, 106b and 106c, respectively, and then through the facilities 110a to 110c of each rhythm raw information significance measures be determined.
  • the device 114 includes at the illustrated in Fig. 2 preferred embodiment a Means 114a for calculating weighting factors for each Subband signal based on the significance measure for this Subband signal and optionally also the other subband signals.
  • the device 114b finds a weighting of the rhythm raw information 108a to 108c with the weighting factor for this subband signal instead, whereupon then, also in the Means 114b combining weighted rhythm raw information, z. B. summed up to be at the tempo output 116th to get the rhythm information of the audio signal.
  • the inventive concept thus arises as follows After the evaluation of the rhythmic information of the Individual bands, which are produced, for example, by enveloping, Smoothing, differentiating, limiting to positive values and forming the autocorrelation function can take place (facilities 106a to 106c), finds a rating of the value or the Quality of these intermediate results in the facilities 110a to 110c instead. This is achieved by means of an evaluation function, which the reliability of the individual results valued with a significance measure. From the significance measures All subband signals become a weighting factor for each Volume derived for the extraction of rhythm information. The overall result of the rhythm extraction will then be in the facility 114b by combining the bandwise individual results achieved taking into account their respective weighting factors.
  • the rhythm raw information becomes 108a, 108b, 108c
  • the periodicity of the respective Subband signal represent, by means of an autocorrelation function certainly.
  • Significance measure to determine by a maximum of the autocorrelation function by an average of the autocorrelation function is divided, and then the value 1 is subtracted. It was It should be noted that any autocorrelation function is always included a delay of 0 is a local maximum, i. H. a peak, which represents the energy of the signal. This local Maximum should be disregarded, so that the quality determination is not distorted.
  • the autocorrelation function is intended only in a special Tempo range are considered, d. H. from a maximum Delay corresponding to the smallest interest rate of interest, to a minimum delay, which is the highest one of interest Tempo corresponds.
  • a typical tempo area lies between 60 bpm and 200 bpm.
  • the ratio between the arithmetic mean of the autocorrelation function in the interest Tempo range and the geometric mean of the Autocorrelation function determined in the tempo of interest become. It is known that if all values of the autocorrelation function are the same, d. H. if the autocorrelation function has a flat course, the geometric mean the autocorrelation function and the arithmetic mean the autocorrelation function are the same. In that case would have the significance measure has a value equal to 1, which means that the Rhythm raw information is not significant.
  • weighting factors there are various possibilities.
  • a relative weight such that all weighting factors of all subband signals to Add 1, d. H. that determines the weighting factor of a band is divided as the significance value of this band by the sum of all significance values.
  • the audio signal is sent via the audio signal input 100 in the device 102 for decomposing the audio signal in Subband signals 104a and 104b are fed. Each subband signal is then in the device 106a or 106b, as stated investigated using an autocorrelation function, to determine the periodicity of the subband signal.
  • the rhythm raw information then lies at the output of the device 106a or 106b 108a, 108b. These are in a facility 118a and 118b, respectively, by the autocorrelation function rhythm raw information output from the device 116a rework. This will u. a.
  • the quality assessment can also be based on the post-processed Rhythm raw information take place, these the latter option is preferred since the quality assessment on the basis of the reworked raw rhythm information, that the quality of an information is assessed which is no longer ambiguous.
  • the determination of the rhythm information by the device 114 then takes place on the basis of postprocessed rhythm information a channel and preferably also on the base the significance measure for this channel.
  • the subband signal becomes 104a into the device 106a for examining the periodicity of the subband signal by means of an autocorrelation function fed to raw rhythm information To receive 108a.
  • an autocorrelation function fed to raw rhythm information To receive 108a.
  • a spread autocorrelation function by means of a device 121, wherein the device 121 is arranged is to calculate the spread autocorrelation function so that it is spread by an integer multiple.
  • An institution 122 is arranged in this case to the spread Autocorrelation function from the original autocorrelation function, d. H.
  • rhythm raw information 108a subtracts the rhythm raw information 108a.
  • the periodicity of a subband signal can examine the basis of an autocorrelation function So a further improvement can be achieved if the properties the autocorrelation function and are involved the post-processing using means 118a or 118b is performed. So creates a periodic sequence of Grade starts with a distance t0 not just an AKF peak at a delay t0 but also at 2t0, 3t0, etc. This will to an ambiguity in tempo detection, d. H. the search significant maxima in the autocorrelation function. The ambiguities can thereby be eliminated when around integer factors splayed versions of the AKF from baseline deducted part-bandwise (weighted).
  • the AKF post-processing thus takes place on a part-band basis, with for at least one subband signal, an autocorrelation function is calculated and this with stretched or spread versions this feature is combined.
  • the post-processing of the sum auto-correlation function, to the ambiguities at the half, to eliminate the third part, the fourth part etc. of the tempo carried out by the spread by integer factors Versions of the sum auto correlation function not be subtracted just before subtracting with a Factor not equal to one and preferably less than one and be weighted greater than zero and then subtracted. This will make a more robust determination of rhythm information possible because the unweighted subtracting only for ideal sinusoidal signals complete elimination of the AKF ambiguity supplies.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

An apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function comprises a filter bank for separating the audio signal into at least two sub-band signals. The sub-band signals are examined with regard to periodicities by an autocorrelation function, to obtain rhythm raw-information for the at least two sub-band signals. To reduce or eliminate the ambiguities of the autocorrelation function for periodical signals, the rhythm raw-information is postprocessed to obtain post-processed rhythm raw-information for the sub-band signal. The rhythm information of the audio signal is established based on the postprocessed rhythm raw-information. By the sub-band-wise ACF postprocessing, ACF ambiguities are already eliminated where they originate, and rhythm portions are added at double tempi, which an autocorrelation function processing does normally not provide, so that, as a result, a more robust determination of the rhythm information of the audio signal arises.

Description

Die vorliegende Erfindung bezieht sich auf Signalverarbeitungskonzepte und insbesondere auf die Analyse von Audiosignalen hinsichtlich von Rhythmusinformationen.The present invention relates to signal processing concepts and in particular to the analysis of audio signals in terms of of rhythm information.

In den letzten Jahren ist die Verfügbarkeit multimedialen Datenmaterials, wie z. B. Audio- oder Video-Daten, stark gestiegen. Dies ist auf eine Reihe von technischen Faktoren zurückzuführen, welche sich insbesondere auf die breite Verfügbarkeit des Internets, von leistungsfähiger Rechnerhard- und Software sowie von leistungsfähigen Verfahren zur Datenkompression, d. h. Quellcodierung, von Audio- und Videoverfahren stützen.In recent years, the availability of multimedia data, such as As audio or video data, has risen sharply. This is due to a number of technical factors in particular the broad availability of the Internet, of powerful computer hardware and software as well as of efficient methods for data compression, d. H. Source coding, of audio and video procedures.

Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Konzepten, die es ermöglichen, diese Daten nach inhaltlichen Kriterien beurteilen, katalogisieren usw. zu können. Es besteht der Wunsch, in der Lage zu sein, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und aufzufinden.The huge amounts of audiovisual data, for example, on available on the Internet, demand concepts that which make it possible to judge these data according to content criteria, catalog, etc. to be able to. There is a desire to be able to target multimedia data by specifying to search for and find meaningful criteria.

Dies erfordert sogenannte "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in Fachkreisen auch als "Features" bezeichnet werden, extrahieren, welche wichtige charakteristische Eigenschaften des Signals repräsentieren. Basierend auf solchen Merkmalen bzw. Kombinationen dieser Merkmale können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwischen Audio- oder Videosignalen hergeleitet werden. Dieser Vorgang erfolgt durch Vergleich bzw. In-Beziehung-Setzen der extrahierten Merkmalswerte aus den verschiedenen Signalen, welche auch einfach als "Stücke" bezeichnet werden. This requires so-called "content-based" techniques the audiovisual data so-called characteristics, which in professional circles Also referred to as "features", which extract important ones represent characteristic properties of the signal. Based on such features or combinations of these features can similarity relationships or similarities between Audio or video signals are derived. This process is done by comparing or relating the extracted Feature values from the different signals, which Also simply referred to as "pieces".

Von besonderem Interesse ist die Bestimmung bzw. Extraktion von Merkmalen, die nicht nur signaltheoretische, sondern möglichst unmittelbare semantische Bedeutung haben, d. h. vom Hörer unmittelbar empfundene Eigenschaften repräsentieren.Of particular interest is the determination or extraction of Characteristics that are not just signal theory, but possible have immediate semantic meaning, d. H. directly from the listener represent perceived properties.

Dies ermöglicht es dem Benutzer, auf einfache und intuitive Weise Suchanfragen zu formulieren, um Stücke aus dem gesamten vorhandenen Datenbestand einer Audiosignal-Datenbank zu finden. Ebenso erlauben es semantisch relevante Merkmale, Ähnlichkeitsbeziehungen zwischen Stücken zu modellieren, die der menschlichen Empfindung nahe kommen. Die Verwendung von Merkmalen, die semantische Bedeutung haben, ermöglicht auch beispielsweise ein automatisches Vorschlagen von für einen bestimmten Benutzer interessanten Stücken, wenn seine Vorlieben bekannt sind.This allows the user to easily and intuitively To formulate search queries to pieces from the entire existing To find the database of an audio signal database. Similarly, semantically relevant features allow similarity relationships to model between pieces that are human Get close to sensation. The use of features that semantic meaning, also allows for example a automatic suggestion of interesting for a particular user Pieces, if his preferences are known.

Im Bereich der Musikanalyse ist das Tempo ein wichtiger musikalischer Parameter, der semantische Bedeutung hat. Das Tempo wird üblicherweise in "Beats per Minute" (BPM) gemessen. Die automatische Extraktion des Tempos sowie der Taktschwerpunkte des "Beats" bzw. allgemein gesagt die automatische Extraktion von Rhythmusinformationen, ist ein Beispiel für die Gewinnung eines semantisch wichtigen Merkmals eines Musikstücks.In the field of music analysis, the tempo is an important musical one Parameter that has semantic meaning. The pace will be usually measured in beats per minute (BPM). The automatic Extraction of the tempo and the center of gravity of the "Beats" or generally the automatic extraction of Rhythm information, is an example of winning one semantically important feature of a piece of music.

Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsextraktion, d. h. das Extrahieren von Rhythmusinformationen aus einem Audiosignal, robust und recheneffizient stattfinden kann. Robustheit bedeutet, dass es keine Rolle spielen darf, ob das Stück quellcodiert und wieder decodiert worden ist, ob das Stück über einen Lautsprecher abgespielt und von einem Mikrophon empfangen worden ist, oder ob es von einem Instrument oder einer Mehrzahl von Instrumenten gespielt wird.Furthermore, there is a desire that the feature extraction, d. H. extracting rhythm information an audio signal, can be robust and computationally efficient. Robustness means that it does not matter if that is Piece has been source coded and decoded again, whether the piece played over a loudspeaker and received by a microphone whether it is from an instrument or an instrument Plural of instruments is played.

Für die Bestimmung der Taktschwerpunkte und damit auch des Tempos, d. h. für die Bestimmung von Rhythmusinformationen, hat sich in den Fachkreisen auch der Begriff "Beat Tracking" etabliert. Aus dem Stand der Technik ist es bereits bekannt, ein Beat Tracking auf der Basis einer notenartigen bzw. transkribierten Signaldarstellung, z. B. im Midi-Format, durchzuführen. Ziel ist es jedoch, keine solchen Metadarstellungen zu benötigen, sondern eine Analyse direkt mit einem z. B. PCM-codierten oder allgemein gesagt digital vorliegenden Audiosignal vorzunehmen.For the determination of the center of gravity and thus of the tempo, d. H. for the determination of rhythm information the term "beat tracking" has also become established in the professional circles. It is already known from the prior art, a Beat tracking on the basis of a note-like or transcribed Signal representation, z. B. in midi format to perform. The goal, however, is not to require such metadata but an analysis directly with a z. B. PCM coded or generally speaking to make digitally present audio signal.

Die Fachveröffentlichung "Tempo and Beat Analysis of Acoustic Musical Signals" von Eric D. Scheirer, J. Acoust. Soc. Am. 103:1, (Jan 1998), Seiten 588 - 601, offenbart ein Verfahren zur automatischen Extraktion eines rhythmischen Pulses aus musikalischen Exzerpten. Das Eingangssignal wird mittels einer Filterbank in eine Reihe von Teilbändern aufgespalten, beispielsweise in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz, 400 Hz, 800 Hz, 1600 Hz und 3200 Hz. Für das erste Teilband wird eine Tiefpassfilterung durchgeführt. Für das letzte Teilband wird eine Hochpassfilterung durchgeführt, für die restlichen, dazwischen liegenden Teilbände wird eine Bandpassfilterung beschrieben. Jedes Teilband wird folgendermaßen verarbeitet. Das Teilbandsignal wird zunächst gleichgerichtet. In anderen Worten ausgedrückt wird der Absolutbetrag der Abtastwerte bestimmt. Die resultierenden n Werte werden dann geglättet, beispielsweise mit einer Mittelung über ein geeignetes Fenster, um ein Hüllkurvensignal zu erhalten. Zur Senkung der Rechenkomplexität kann das Hüllkurvensignal unterabgetastet werden. Die Hüllkurvensignale werden differenziert, d. h. plötzliche Änderungen der Signalamplitude werden durch das Differenzierungsfilter bevorzugt weitergeleitet. Das Resultat wird dann auf nicht-negative Werte begrenzt. Jedes Hüllkurvensignal wird dann in eine Bank resonanter Filter, d. h. Oszillatoren, gegeben, die jeweils ein Filter für jeden Tempobereich enthalten, so dass das zum musikalischen Tempo passende Filter am stärksten angeregt wird. Für jedes Filter wird die Energie des Ausgangssignals als Maß für die Übereinstimmung des Tempos des Eingangssignals mit dem zum Filter gehörigen Tempo berechnet. Die Energien für jedes Tempo werden schließlich über alle Teilbänder aufsummiert, wobei die größte Energiesumme das als Resultat gelieferte Tempo, d. h. die Rhythmusinformationen, kennzeichnet. Im Gegensatz zu Autokorrelationsverfahren wird als vorteilhaft herausgestellt, daß die Oszillatorbank auch mit Ausgangssignalen bei dem doppelten, dreifachen, etc. des Tempos oder auch bei rationalen Vielfachen (z. B. 2/3, 4/3) des Tempos auf einen Stimulus reagiert. Eine Autokorrelationsfunktion hat diese Eigenschaft nicht, sie liefert nur Ausgangssignale bei dem halbierten, gedrittelten, etc. Tempo.The specialist publication "Tempo and Beat Analysis of Acoustic Musical Signals "by Eric D. Scheirer, J. Acoust. 103: 1, (Jan 1998), pages 588-601, discloses a method for automatic extraction of a rhythmic pulse from musical Excerpts. The input signal is by means of a filter bank split into a number of subbands, for example in 6 subbands with crossover frequencies of 200 Hz, 400 Hz, 800 Hz, 1600 Hz and 3200 Hz. For the first subband, low pass filtering is used carried out. For the last subband is a High pass filtering is done, for the rest, in between bandpass filtering is described. each Subband is processed as follows. The subband signal is first rectified. In other words the absolute value of the samples is determined. The resulting n values are then smoothed, for example with a Averaging over a suitable window to get an envelope signal to obtain. To reduce the computational complexity, the envelope signal be subsampled. The envelope signals will be differentiated, d. H. sudden changes in signal amplitude are preferably forwarded by the differentiation filter. The result is then limited to non-negative values. Each envelope signal is then converted into a bank of resonant filters, d. H. Oscillators, given, each one filter for each Tempo range so that matches the musical tempo Filter is most excited. For each filter is the energy of the output signal as a measure of the match the tempo of the input signal at the tempo associated with the filter calculated. The energies for each tempo eventually become summed over all subbands, with the largest amount of energy the tempo delivered as a result, d. H. the rhythm information, features. Unlike autocorrelation methods is found to be advantageous that the oscillator bank also with output signals at the double, triple, etc. of the Tempos or even at rational multiples (eg 2/3, 4/3) of the Tempos reacts to a stimulus. An autocorrelation function does not have this property, it only provides output signals at the halved, thirded, etc. pace.

Ein wesentlicher Nachteil dieses Verfahrens besteht in der großen Rechen- und Speicherkomplexität insbesondere zur Realisierung der großen Zahl von parallelschwingenden "Oszillatoren", von denen letztlich nur ein einziger ausgewählt wird. Dies macht eine effiziente Implementierung beispielsweise für Echtzeitanwendungen nahezu unmöglich.A major disadvantage of this method is the large Computing and storage complexity especially for realization the large number of parallel vibrating "oscillators", of which ultimately only one is selected. This makes an efficient implementation, for example, for real-time applications almost impossible.

Die Fachveröffentlichung "Pulse Tracking with a Pitch Tracker" von Eric D. Scheirer, Proc. 1997 Workshop on Applications of Signal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997, beschreibt einen Vergleich des oben beschriebenen "Oszillatorkonzeptes" mit einem Alternativkonzept, das auf der Verwendung von Autokorrelationsfunktionen zur Extraktion der Periodizität aus einem Audiosignal, d. h. der Rhythmusinformationen eines Signals, aufbaut. Ein Algorithmus zur Modellierung der menschlichen Tonhöhenwahrnehmung, d. h. des Pitch, wird für das "Beat Tracking" eingesetzt.The specialist publication "Pulse Tracking with a Pitch Tracker" by Eric D. Scheirer, Proc. 1997 Workshop on Applications of Signal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997, describes a comparison of the "oscillator concept" described above with an alternative concept that is on the use of autocorrelation functions for extraction of periodicity from an audio signal, d. H. the rhythm information of a signal, builds. An algorithm for modeling the human Pitch perception, d. H. the pitch, for the "beat Tracking "used.

Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm dargestellt. Das Audiosignal wird über einen Audioeingang 300 einer Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h. von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält einen bestimmten Bereich an Frequenzen des Audiosignals. Die Filter der Analyse-Filterbank sind so ausgewählt, dass sie die Selektionscharakteristik des menschlichen Innenohrs annähern. Eine solche Analyse-Filterbank wird auch als Gamma-Ton-Filterbank bezeichnet.The known algorithm is shown in Fig. 3 as a block diagram shown. The audio signal is sent via an audio input 300 an analysis filter bank 302 supplied. The analysis filter bank generates from the audio input a number n of channels, i. H. of individual subband signals. Each subband signal contains a certain range of frequencies of the audio signal. The Analysis Filter Bank filters are selected to match the Approximate the selection characteristic of the human inner ear. Such an analysis filter bank is also called a gamma-tone filter bank designated.

In den Einrichtungen 304a bis 304c werden die Rhythmus-Informationen jedes Teilbandsignals ausgewertet. Für jedes Eingangssignal wird zunächst ein hüllkurvenartiges Ausgangssignal berechnet (entsprechend einer sogenannten "Inner Hair Cell"-Verarbeitung im Ohr) und unterabgetastet. Aus diesem Resultat wird eine Autokorrelationsfunktion (AKF) berechnet, um die Periodizität des Signals als Funktion der Verzögerung, d. h. des "Lag" zu erhalten.In the devices 304a to 304c, the rhythm information becomes each subband signal evaluated. For every input signal will initially be an envelope-like output signal calculated (according to a so-called "Inner Hair Cell" processing in the ear) and subsampled. Out of this result An autocorrelation function (AKF) is calculated to determine the periodicity the signal as a function of the delay, d. H. of To get "lag".

Am Ausgang der Einrichtungen 304a bis 304c liegt dann für jedes Teilbandsignal eine Autokorrelationsfunktion vor, welche die Rhythmus-Informationen jedes Teilbandsignals darstellt.At the output of devices 304a-304c is then for each Subband signal before an autocorrelation function, which the Represents rhythm information of each subband signal.

Die einzelnen Autokorrelationsfunktionen der Teilbandsignale werden dann in einer Einrichtung 306 durch Summation kombiniert, um eine Summenautokorrelationsfunktion (SAKF) zu erhalten, welche Aspekte der Rhythmus-Informationen des Signals am Audio-Eingang 300 wiedergibt. Diese Informationen können an einem Tempo-Ausgang 308 ausgegeben werden. Große Werte in der Summenautokorrelation zeigen an, dass für eine einer Spitze der SAKF zugeordneten Verzögerung (Lag) eine hohe Periodizität der Notenanfänge vorliegt. Daher wird beispielsweise der größte Wert der Summenautokorrelationsfunktion innerhalb der musikalisch sinnvollen Verzögerungen gesucht.The individual autocorrelation functions of the subband signals are then combined in a means 306 by summation, to obtain a sum auto-correlation function (SAKF) which Aspects of the rhythm information of the signal at the audio input 300 plays. This information may be at a tempo output 308 are issued. Great values in the sum auto-correlation indicate that for a peak assigned to the SAKF Delay (lag) a high periodicity of note beginnings is present. Therefore, for example, the largest value of Sum auto correlation function within the musically meaningful Delays searched.

Musikalisch sinnvolle Verzögerungen sind beispielsweise der Tempobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306 kann ferner angeordnet sein, um eine Verzögerungszeit in Tempoinformationen umzusetzen. So entspricht beispielsweise eine Spitze einer Verzögerung von einer Sekunde einem Tempo von 60 Schlägen pro Minute. Kleinere Verzögerungen deuten auf höhere Tempos hin, während größere Verzögerungen auf kleinere Tempos als 60 bpm hinweisen.Musically meaningful delays are, for example, the tempo range between 60 bpm and 200 bpm. The device 306 may be further arranged to provide a delay time in tempo information implement. For example, a peak corresponds a delay of one second, a tempo of 60 beats per minute. Minor delays indicate higher tempo while larger delays occur at slower speeds than 60 bpm clues.

Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren einen Vorteil dahingehend, dass keine Oszillatoren mit großem Rechen- und Speicheraufwand implementiert werden müssen. Andererseits ist das Konzept dahingehend nachteilhaft, dass die Qualität der Ergebnisse sehr stark von der Art des Audiosignals abhängt. Ist aus einem Audiosignal beispielsweise ein dominantes Rhythmusinstrument herauszuhören, so wird das in Fig. 3 beschriebene Konzept gut funktionieren. Ist dagegen die Stimme dominant, welche keine besonders eindeutigen Rhythmusinformationen liefern wird, so wird die Rhythmusbestimmung mehrdeutig sein. In dem Audiosignal könnte durchaus auch ein Band vorkommen, das lediglich Rhythmusinformationen enthält, wie z. B. ein höheres Frequenzband, in dem beispielsweise ein Hihat eines Schlagzeugs positioniert ist, oder ein niedriges Frequenzband, in dem die große Trommel eines Schlagzeugs auf der Frequenzskala positioniert ist. Aufgrund der Kombination der Einzelinformationen werden jedoch die einigermaßen eindeutigen Informationen dieser speziellen Teilbänder von den mehrdeutigen Informationen der anderen Teilbänder überlagert bzw. "verwässert".This method has over the former method an advantage in that no oscillators with large Computing and memory costs must be implemented. on the other hand the concept is disadvantageous in that the quality The results depend very much on the type of audio signal. Is an audio signal, for example, a dominant To hear out rhythm instrument, so that described in Fig. 3 Concept work well. If, on the other hand, the voice is dominant, which are not very clear rhythm information will provide, so the rhythm determination will be ambiguous. In The audio signal could well be a band that only Contains rhythm information, such as B. a higher Frequency band in which, for example, a hihat a drums is positioned, or a low frequency band in which the big drum of a drum set on the frequency scale is. Due to the combination of individual information however, the reasonably clear information of this special subbands of the ambiguous information of others Subbands superimposed or "diluted".

Ein weiteres Problem bei der Verwendung von Autokorrelationsfunktionen zum Extrahieren der Periodizität eines Teilbandsignals besteht darin, dass die Summen-Autokorrelationsfunktion, die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist. Die Summen-Autokorrelationsfunktion am Ausgang 306 ist dahingehend mehrdeutig, dass auch beim Vielfachen einer Verzögerung eine Autokorrelationsfunktions-Spitze erzeugt wird. Dies ist daraus verständlich, dass eine Sinuskomponente mit einer Periode von t0, wenn sie einer Autokorrelationsfunktionverarbeitung unterzogen wird, neben dem gewünschten Maximum bei t0 auch Maxima bei Vielfachen der Verzögerungen, d. h. bei 2t0, 3t0, usw. erzeugt.Another problem with using autocorrelation functions for extracting the periodicity of a subband signal is that the sum autocorrelation function, obtained by means 306 is ambiguous. The Sum autocorrelation function at output 306 is to this effect ambiguous that even with the multiple of a delay an autocorrelation function peak is produced. This is out of it understandable that a sine component with a period of t0 when subjected to autocorrelation function processing becomes, beside the desired maximum at t0 also maxima Multiples of the delays, d. H. at 2t0, 3t0, etc. generated.

Die Fachveröffentlichung "A Computationally Efficient Multipitch Analysis Model", von Tolonen und Karjalainen, IEEE Transactions on Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000, offenbart ein rechenzeiteffizientes Modell für eine Periodizitätsanalyse von komplexen Audiosignalen. Das Rechenmodell teilt das Signal in zwei Kanäle auf, und zwar in einen Kanal unter 1000 Hz und einen Kanal über 1000 Hz. Hieraus wird eine Autokorrelation des unteren Kanals und eine Autokorrelation der Hüllkurve des oberen Kanals berechnet. Schließlich werden die beiden Autokorrelationsfunktionen summiert. Um die Mehrdeutigkeiten der Summenautokorrelationsfunktion zu eliminieren, wird die Summenautokorrelationsfunktion weiterverarbeitet, um eine sogenannte Enhanced Summary Autocorrelation Function (ESACF) (Weiterentwikkelte Summenautokorrelationsfunktion) zu erhalten. Diese Nachbearbeitung der Summenautokorrelationsfunktion beinhaltet ein wiederholtes Abziehen von mit ganzzahligen Faktoren gespreizten Versionen der Autokorrelationsfunktion von der Summenautokorrelationsfunktion mit nachfolgender Begrenzung auf nicht-negative Werte.The technical publication "A Computationally Efficient Multipitch Analysis Model ", by Tolonen and Karjalainen, IEEE Transactions on Speech and Audio Processing, Vol. 8, No. 6, Nov. 2000 a time-efficient model for a periodicity analysis of complex audio signals. The calculation model shares the signal in two channels, in a channel below 1000 Hz and a channel over 1000 Hz. This will result in an autocorrelation of the lower channel and an autocorrelation of the envelope of the the upper channel. Finally, the two autocorrelation functions summed. The ambiguities of the sum auto-correlation function eliminates the sum auto-correlation function further processed to a so-called Enhanced Summary Autocorrelation Function (ESACF) (Further Development Sum auto-correlation function). This post-processing The sum auto-correlation function includes a repeated one Subtracting from splayed with integer factors Versions of the autocorrelation function from the sum autocorrelation function with subsequent limitation to non-negative Values.

Nachteilig an diesem Konzept ist die Tatsache, dass die durch die Autokorrelationsfunktionen in den Teilbändern pro Teilband erhaltenen Mehrdeutigkeiten erst in der Summenautokorrelationsfunktion eliminiert werden, jedoch nicht unmittelbar dort, wo sie auftreten, nämlich in den einzelnen Teilbändern.The disadvantage of this concept is the fact that through the autocorrelation functions in the subbands per subband obtained ambiguities only in the cumulative autocorrelation function eliminated, but not directly where they occur, namely in the individual subbands.

Ein weiterer Nachteil dieses Konzepts ist die Tatsache, daß die Autokorrelationsfunktion an sich keinen Hinweis auf das doppelte, dreifache, ... des Tempos liefert, dem eine Autokorrelationsspitze zugeordnet ist. Another disadvantage of this concept is the fact that the Autocorrelation function in itself no indication of the double, triple, ... of the tempo that gives an autocorrelation peak assigned.

Die Aufgabe der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen unter Verwendung einer Autokorrelationsfunktion zu schaffen, das robust und rechenzeiteffizient ist.The object of the present invention is to provide a Apparatus and method for analyzing an audio signal in terms of rhythm information using a To create autocorrelation function that is robust and computing time efficient.

Diese Aufgabe wird durch eine Vorrichtung zum Analysieren eines Audiosignals nach Patentanspruch 1 oder durch ein Verfahren zum Analysieren eines Audiosignals nach Patentanspruch 7 gelöst.This object is achieved by a device for analyzing a Audio signal according to claim 1 or by a Method for analyzing an audio signal according to claim 7 solved.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine Nachbearbeitung einer Autokorrelationsfunktion teilbandweise durchgeführt werden kann, um die Mehrdeutigkeiten der Autokorrelationsfunktion für periodische Signale zu eliminieren bzw. Tempoinformationen, die eine Autokorrelationsverarbeitung nicht liefert, den durch eine Autokorrelationsfunktion erhaltenen Informationen hinzugefügt werden. Gemäß einem Aspekt der vorliegenden Erfindung wird eine Autokorrelationsfunktion-Nachbearbeitung der Teilbandsignale verwendet, um die Mehrdeutigkeiten bereits "an der Wurzel" zu beseitigen, bzw. "fehlende" Rhythmusinformationen hinzuzufügen.The present invention is based on the finding that a post-processing of an autocorrelation function in a partial band can be performed to the ambiguities of the autocorrelation function for periodic signals to eliminate or Tempo information that does not autocorrelation processing provides the information obtained by an autocorrelation function to be added. According to one aspect of the present Invention will be an autocorrelation function post-processing the subband signals already used the ambiguities eliminate "at the root", or "missing" rhythm information to add.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Nachbearbeitung der Summenautokorrelationsfunktion durchgeführt, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzugefügt ist. Hierdurch ist es möglich, die durch eine Autokorrelationsfunktion nicht erhaltenen Rhythmusinformationen bei doppelten, dreifachen etc. Tempi bzw. bei rationalen Vielfachen durch Berechnen von um einen ganzzahligen Faktor oder um einen rationalen Faktor gestauchten Versionen der Autokorrelationsfunktion und durch Addieren dieser Versionen zur ursprünglichen Autokorrelationsfunktion zu erzeugen. Im Gegensatz zum Stand der Technik, bei dem hierzu eine aufwendige Oszillatorenbank benötigt wird, geschieht dies erfindungsgemäß mit einfach zu implementierenden Gewichtungs- und Additionsroutinen.According to another aspect of the present invention is a Post-processing of the sum auto-correlation function performed, re-edited rhythm raw information for the audio signal so that in the reworked rhythm raw information a signal component at an integer fraction a delay that has an autocorrelation function peak is assigned, is added. This makes it possible to rhythm information not obtained by an autocorrelation function at double, triple etc. tempos or at rational Multiply by calculating by an integer factor or by a rational factor compressed versions of the Autocorrelation function and by adding these versions to the to produce the original autocorrelation function. In contrast to the prior art, in which for this purpose a complex oscillator bank is required, this is done according to the invention with easy to implement weighting and addition routines.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird die Summenautokorrelationsfunktion ferner nachbearbeitet, indem eine mit einem Faktor, der größer als Null und kleiner als Eins ist, gewichtete, um einen ganzzahligen Faktor größer als Eins gespreizte Version der Rhythmus-Rohinformationen zu der Autokorrelationsfunktion subtrahiert wird. Dies hat den Vorteil einer Elimination der AKF-Mehrdeutigkeiten bei den ganzzahligen Vielfachen der Verzögerung, der eine Autokorrelationsspitze zugeordnet ist. Während im Stand der Technik keine Gewichtung der gespreizten Versionen der Autokorrelationsfunktion vor der Subtraktion durchgeführt wird, und eine Elimination der Mehrdeutigkeiten somit nur im theoretisch optimalen Fall erreicht wird, bei dem der Rhythmus sich ideal zyklisch wiederholt, liefert die gewichtete Subtraktion die Möglichkeit, durch geeignete Wahl der Gewichtungsfaktoren, die beispielsweise empirisch erfolgen kann, Rhythmusinformationen, die sich nicht ideal zyklisch wiederholen, zu berücksichtigen.According to another aspect of the present invention, the Sum auto-correlation function also post-processed by a with a factor greater than zero and less than one, weighted to an integer factor greater than one splayed Version of the raw rhythm information about the autocorrelation function is subtracted. This has the advantage of a Elimination of AKF ambiguities in integer multiples the delay associated with an autocorrelation peak is. While in the prior art no weighting of the splayed Versions of the autocorrelation function before subtraction carried out, and an elimination of ambiguities thus only achieved in the theoretically optimal case, in which the rhythm repeats itself ideally cyclically, the weighted subtraction the ability to choose by appropriate choice Weighting factors, which can be done empirically, for example, Rhythm information that does not repeat itself ideally cyclically, to take into account.

Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Autokorrelationsfunktion-Nachverarbeitung durchgeführt, indem die mittels einer Autokorrelationsfunktion bestimmten Rhythmus-Rohinformationen mit gestauchten und/oder gespreizten Versionen derselben kombiniert werden. Im Falle der Verwendung von gespreizten Versionen der Rhythmus-Rohinformationen werden die gespreizten Versionen von den Rhythmus-Rohinformationen subtrahiert, während im Falle von um ganzzahlige Faktoren gestauchten Versionen der Autokorrelationsfunktion diese gestauchten Versionen zu den Rhythmus-Rohinformationen hinzuaddiert werden. According to a preferred embodiment of the present invention becomes an autocorrelation function post-processing performed by means of an autocorrelation function certain rhythm raw information with compressed and / or spread versions of the same can be combined. In case of Use of spread versions of the rhythm raw information become the splayed versions of the rhythm raw information subtracted while in the case of integer Factors compressed versions of the autocorrelation function these compressed versions to the rhythm raw information be added.

Bei einem bevorzugten Ausführungsbeispiel der Erfindung wird die gestauchte/gespreizte Version vor dem Addieren bzw. Subtrahieren mit einem Faktor zwischen Null und Eins gewichtet.In a preferred embodiment of the invention, the compressed / spread version before adding or subtracting weighted by a factor between zero and one.

Gemäß einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Qualitätsbeurteilung der Rhythmus-Rohinformationen, um ein Signifikanzmaß zu erhalten, auf der Basis der nachverarbeiteten Rhythmus-Rohinformationen durchgeführt, derart, daß die Qualitätsbeurteilung nicht mehr durch Autokorrelationsfunktions-Artefakte beeinflußt wird. Damit wird eine sichere Qualitätsbeurteilung möglich, wodurch die Robustheit des Bestimmens von Rhythmusinformationen des Audiosignals weiter gesteigert werden kann.According to another preferred embodiment of the present invention Invention is a quality assessment of the rhythm raw information, to get a significance measure, on the basis the postprocessed rhythm raw information performed, such that the quality rating is no longer due to autocorrelation function artifacts being affected. This will be a safe quality assessment possible, reducing the robustness determining rhythm information of the audio signal can be further increased.

Alternativ kann die Qualitätsbeurteilung bereits vor der AKF-Nachverarbeitung stattfinden. Dies hat den Vorteil, daß, wenn ein flacher Verlauf der Rhythmus-Rohinformationen festgestellt wird, d.h. keine ausgeprägten Rhythmusinformationen, auf die AKF-Nachverarbeitung für dieses Teilbandsignal verzichtet werden kann, da dieses Teilband aufgrund seiner wenig aussagekräftigen Rhythmus-Informationen beim Ermitteln der Rhythmusinformationen des Audiosignals ohnehin keine Rolle spielen wird. Auf diese Art und Weise kann der Rechen- und Speicheraufwand weiter reduziert werden.Alternatively, the quality assessment can be carried out before the AKF post-processing occur. This has the advantage that if a flat course of the rhythm raw information found is, i. no pronounced rhythm information on the AKF post-processing for this subband signal can be dispensed with can, because this subband due to its little meaningful Rhythm information when determining the rhythm information the audio signal will not matter anyway. In this manner and way, the computational and memory overhead can be further reduced become.

In den einzelnen Frequenzbändern, d. h. den Teilbändern, liegen oftmals unterschiedlich günstige Bedingungen für das Auffinden von rhythmischen Periodizitäten vor. Während beispielsweise bei Popmusik oftmals im Bereich der Mitte, beispielsweise um 1 kHz, das Signal von nicht mit dem Beat korrespondierenden Gesang dominiert wird, sind in den höheren Frequenzbereichen oftmals vor allem Perkussionsklänge präsent, wie z. B. das Hihat des Schlagzeugs, welche eine sehr gute Extraktion rhythmischer Regelmäßigkeiten erlauben. Anders ausgedrückt beinhalten unterschiedliche Frequenzbänder je nach Audiosignal eine unterschiedliche Menge an rhythmischer Information bzw. haben eine unterschiedliche Qualität oder Signifikanz für die Rhythmusinformationen des Audiosignals.In the individual frequency bands, d. H. the subbands, lie often different favorable conditions for finding of rhythmic periodicities. While, for example, at Pop music often in the middle, for example around 1 kHz, the signal is dominated by vocals not corresponding to the beat is often present in the higher frequency ranges all percussion sounds present, such. B. the hihat of the drums, which is a very good extraction of rhythmic regularities allow. In other words, different ones Frequency bands depending on the audio signal a different amount in rhythmic information or have a different Quality or significance for the rhythm information of the audio signal.

Das Audiosignal wird daher zunächst in Teilbandsignale zerlegt. Jedes Teilbandsignal wird hinsichtlich seiner Periodizität untersucht, um Rhythmus-Rohinformationen für jedes Teilbandsignal zu erhalten. Hierauf wird gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung eine Bewertung der Qualität der Periodizität jedes Teilbandsignals durchgeführt, um ein Signifikanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Signifikanzmaß deutet darauf hin, dass in diesem Teilbandsignal deutliche Rhythmusinformationen vorliegen, während ein niedriges Signifikanzmaß darauf hindeutet, dass in diesem Teilbandsignal weniger eindeutige Rhythmusinformationen vorliegen.The audio signal is therefore first decomposed into subband signals. Each subband signal is examined for its periodicity, around raw rhythm information for each subband signal to obtain. This is according to a preferred embodiment The present invention provides an evaluation of quality the periodicity of each subband signal is performed by a significance measure for each subband signal. A high degree of significance indicates that in this subband signal clear rhythm information is available, while a low Significance indicates that in this subband signal less clear rhythm information is available.

Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird bei der Untersuchung eines Teilbandsignals hinsichtlich seiner Periodizitäten zunächst eine modifizierte Hüllkurve des Teilbandsignals berechnet und dann eine Autokorrelationsfunktion der Hüllkurve berechnet. Die Autokorrelationsfunktion der Hüllkurve stellt die Rhythmus-Rohinformationen dar. Eindeutige Rhythmusinformationen liegen vor, wenn die Autokorrelationsfunktion deutliche Maxima aufweist, während weniger eindeutige Rhythmusinformationen vorliegen, wenn die Autokorrelationsfunktion der Hüllkurve des Teilbandsignals weniger ausgeprägte Signalspitzen oder überhaupt keine Signalspitzen hat. Eine Autokorrelationsfunktion, die deutliche Signalspitzen hat, wird daher ein hohes Signifikanzmaß erhalten, während eine Autokorrelationsfunktion, die einen relativ flachen Verlauf hat, ein niedriges Signifikanzmaß erhalten wird. Die Artefakte der Autokorrelationsfunktionen werden, wie oben ausgeführt, erfindungsgemäß eliminiert. According to a preferred embodiment of the present invention is considered when examining a subband signal Its periodicities initially a modified envelope of the subband signal and then an autocorrelation function the envelope is calculated. The autocorrelation function the envelope represents the raw rhythm information. Unique Rhythm information is present when the autocorrelation function has distinct maxima, while less definite Rhythm information is present when the autocorrelation function the envelope of the subband signal less pronounced Signal peaks or no signal peaks at all. An autocorrelation function, which has significant signal peaks, therefore receive a high degree of significance while an autocorrelation function, which has a relatively flat course, a low one Significance is obtained. The artifacts of autocorrelation functions are, as stated above, according to the invention eliminated.

Die einzelnen Rhythmus-Rohinformationen der einzelnen Teilbandsignale werden also nicht einfach "blind" kombiniert, sondern unter Berücksichtigung des Signifikanzmaßes für jedes Teilbandsignal verwendet, um die Rhythmusinformationen des Audiosignals zu erhalten. Hat ein Teilbandsignal ein hohes Signifikanzmaß, so wird es bei der Ermittlung der Rhythmusinformationen bevorzugt, während ein Teilbandsignal, das ein niedriges Signifikanzmaß hat, d. h. das eine niedrige Qualität hinsichtlich der Rhythmusinformationen aufweist, bei der Ermittlung der Rhythmusinformationen des Audiosignals kaum oder im Extremfall überhaupt nicht berücksichtigt wird.The individual rhythm raw information of the individual subband signals So they are not simply combined "blindly" but rather taking into account the significance measure for each subband signal used to get the rhythm information of the audio signal to obtain. If a subband signal has a high degree of significance, then it is preferred in determining the rhythm information, while a subband signal, that is a low significance measure has, d. H. this is a low quality in terms of rhythm information in determining the rhythm information the audio signal hardly or in extreme cases not at all is taken into account.

Dies kann rechenzeiteffizient gut durch einen Gewichtungsfaktor implementiert werden, der von dem Signifikanzmaß abhängt. Während ein Teilbandsignal, das eine gute Qualität für die Rhythmusinformationen hat, d. h. das ein hohes Signifikanzmaß hat, einen Gewichtungsfaktor von 1 erhalten könnte, wird ein anderes Teilbandsignal, das ein kleineres Signifikanzmaß hat, einen Gewichtungsfaktor kleiner als 1 erhalten. Im Extremfall wird ein Teilbandsignal, das eine vollkommen flache Autokorrelationsfunktion hat, einen Gewichtungsfaktor von 0 haben. Die gewichteten Autokorrelationsfunktionen, d. h. die gewichteten Rhythmus-Rohinformationen werden dann einfach aufsummiert. Wenn lediglich ein Teilbandsignal sämtlicher Teilbandsignale gute Rhythmusinformationen liefert, während die anderen Teilbandsignale Autokorrelationsfunktionen mit einem flachen Verlauf aufweisen, kann diese Gewichtung im Extremfall dazu führen, dass alle Teilbandsignale außer dem einen Teilbandsignal einen Gewichtungsfaktor von 0 erhalten, d. h. bei der Ermittlung der Rhythmusinformationen überhaupt nicht berücksichtigt werden, so dass die Rhythmusinformationen des Audiosignals lediglich aus einem einzigen Teilbandsignal ermittelt werden.This can be computationally good by a weighting factor be implemented, which depends on the significance measure. While a subband signal that is good quality for the rhythm information has, d. H. which has a high degree of significance, one Weighting factor of 1 will get another Subband signal having a smaller significance measure, a weighting factor less than 1 received. In extreme cases, a Subband signal, which is a completely flat autocorrelation function has to have a weighting factor of 0. The weighted Autocorrelation functions, d. H. the weighted rhythm raw information are then simply added up. If only a subband signal of all subband signals good rhythm information while the other subband signals provide autocorrelation functions can have a flat course this weighting in extreme cases cause all subband signals except for the one subband signal, a weighting factor received from 0, d. H. in determining the rhythm information not be considered at all, so the rhythm information the audio signal only from a single Subband signal can be determined.

Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass es eine robuste Bestimmung der Rhythmusinformationen ermöglicht, da Teilbandsignale mit keinen eindeutigen bzw. sogar abweichenden Rhythmusinformationen, d. h. wenn der Gesang einen anderen Rhythmus aufweist als der eigentliche Beat des Stücks, die Rhythmusinformationen des Audiosignals nicht "verwässern" bzw. "verfälschen". Darüber hinaus werden sehr rauschartige Teilbandsignale, welche eine Systemautokorrelationsfunktion mit vollständig flachem Verlauf liefern, das Signal/Rausch-Verhältnis bei der Bestimmung der Rhythmusinformationen nicht verschlechtern. Genau dies würde jedoch auftreten, wenn, wie im Stand der Technik, einfach alle Autokorrelationsfunktionen der Teilbandsignale mit gleichem Gewicht aufsummiert werden.The inventive concept is advantageous in that it allows a robust determination of the rhythm information because subband signals with no unique or even different Rhythm information, d. H. if the song is another Has rhythm as the actual beat of the piece, the Rhythm information of the audio signal does not "dilute" or "distort". In addition, very noisy subband signals, which will complete a system autocorrelation function provide a flat waveform, the signal-to-noise ratio in determining the rhythm information does not worsen. Exactly this would happen, however, if, as in the state of Technique, just all the autocorrelation functions of the subband signals be summed up with the same weight.

Ein weiterer Vorteil des beschriebenen Verfahrens besteht darin, dass mit einem kleinen zusätzlichen Rechenaufwand ein Signifikanzmaß bestimmt werden kann, und dass die Bewertung der Rhythmus-Rohinformationen mit dem Signifikanzmaß und die anschließende Summierung ohne großen Speicher- und Rechenzeitaufwand effizient durchgeführt werden können, was das erfindungsgemäße Konzept insbesondere auch für Echtzeitanwendungen empfiehlt.Another advantage of the method described is that that with a small additional computational effort a significance measure can be determined, and that the evaluation of the rhythm raw information with the significance measure and the subsequent Summation without large storage and computational time efficient can be performed, which is the concept of the invention especially recommended for real-time applications.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1
ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals mit einer Qualitätsbewertung der Rhythmus-Rohinformationen;
Fig. 2
ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals unter Verwendung von Gewichtungsfaktoren auf der Basis der Signifikanzmaße;
Fig. 3
ein Blockschaltbild einer bekannten Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen;
Fig. 4
ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen unter Verwendung einer Autokorrelationsfunktion mit einer teilbandweisen Nachbearbeitung der Rhythmus-Rohinformationen; und
Fig. 5
ein detailliertes Blockschaltbild der Einrichtung zum Nachbearbeiten von Fig. 4.
Preferred embodiments of the present invention will be explained below in detail with reference to the accompanying drawings. Show it:
Fig. 1
a block diagram of an apparatus for analyzing an audio signal with a quality evaluation of the rhythm raw information;
Fig. 2
a block diagram of an apparatus for analyzing an audio signal using weighting factors based on the significance measures;
Fig. 3
a block diagram of a known device for analyzing an audio signal in terms of rhythm information;
Fig. 4
a block diagram of an apparatus for analyzing an audio signal with respect to rhythm information using an autocorrelation function with a partial bandwise post-processing of the rhythm raw information; and
Fig. 5
a detailed block diagram of the device for reprocessing of Fig. 4.

Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen. Das Audiosignal wird über einen Eingang 100 einer Einrichtung 102 zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale 104a und 104b zugeführt. Jedes Teilbandsignal 104a, 104b wird in eine Einrichtung 106a bzw. 106b zum Untersuchen desselben hinsichtlich von Periodizitäten in dem Teilbandsignal zugeführt, um Rhythmus-Rohinformationen 108a bzw. 108b für jedes Teilbandsignal zu erhalten. Die Rhythmus-Rohinformationen werden dann einer Einrichtung 110a bzw. 110b zum Bewerten einer Qualität der Periodizität jedes der zumindest zwei Teilbandsignale zugeführt, um ein Signifikanzmaß 112a, 112b für jedes der zumindest zwei Teilbandsignale zu erhalten. Sowohl die Rhythmus-Rohinformationen 108a, 108b als auch die Signifikanzmaße 112a, 112b werden einer Einrichtung 114 zum Ermitteln der Rhythmusinformationen des Audiosignals zugeführt. Die Einrichtung 114 berücksichtigt beim Ermitteln der Rhythmusinformationen des Audiosignals die Signifikanzmaße 112a, 112b für die Teilbandsignale sowie die Rhythmus-Rohinformationen 108a, 108b von zumindest einem Teilbandsignal.Fig. 1 shows a block diagram of an apparatus for analyzing an audio signal regarding rhythm information. The audio signal is passed through an input 100 of a device 102 for decomposing the audio signal into at least two subband signals 104a and 104b supplied. Each subband signal 104a, 104b is sent to a device 106a or 106b for examining it in terms of periodicities in the subband signal, around raw rhythm information 108a and 108b for each To obtain subband signal. The rhythm raw information will be then a device 110a or 110b for rating a quality the periodicity of each of the at least two subband signals supplied to a significance measure 112a, 112b for each of the at least to obtain two subband signals. Both the rhythm raw information 108a, 108b as well as the significance measures 112a, 112b are a means 114 for determining the rhythm information supplied to the audio signal. The device 114 takes into account in determining the rhythm information of the audio signal the significance measures 112a, 112b for the subband signals and the rhythm raw information 108a, 108b of at least one Sub-band signal.

Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise festgestellt, dass in dem Teilbandsignal 104a keine besondere Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrichtung 114 zum Ermitteln der Rhythmusinformationen fest, dass das Signifikanzmaß 112a gleich Null ist, so dass die Rhythmus-Rohinformationen 108a des Teilbandsignals 104a bei der Ermittlung der Rhythmusinformationen des Audiosignals überhaupt nicht mehr berücksichtigt werden müssen. Die Rhythmusinformationen des Audiosignals werden dann allein und ausschließlich auf der Basis der Rhythmus-Rohinformationen 108b des Teilbandsignals 104b bestimmt.For example, the device 110a has a quality evaluation found that in the subband signal 104a no special Periodicity is present, then the significance measure 112a becomes very be small, or equal to 0. In this case, the set up 114 for determining the rhythm information that the significance measure 112a is equal to zero, so that the rhythm raw information 108a of the subband signal 104a in the determination the rhythm information of the audio signal not at all more must be considered. The rhythm information of the Audio signals are then solely and exclusively based the rhythm raw information 108b of the subband signal 104b.

Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als Einrichtung 102 zum Zerlegen des Audiosignals kann eine übliche Analyse-Filterbank verwendet werden, die ausgangsseitig eine von einem Benutzer wählbare Anzahl von Teilbandsignalen liefert. Jedes Teilbandsignal wird dann der Verarbeitung der Einrichtungen 106a, 106b bzw. 106c unterzogen, woraufhin dann durch die Einrichtungen 110a bis 110c von jeden Rhythmus-Rohinformationen Signifikanzmaße ermittelt werden. Die Einrichtung 114 umfaßt bei der in Fig. 2 dargestellten bevorzugten Ausführungsform eine Einrichtung 114a zum Berechnen von Gewichtungsfaktoren für jedes Teilbandsignal auf der Basis des Signifikanzmaßes für dieses Teilbandsignal und optional auch der anderen Teilbandsignale. In der Einrichtung 114b findet dann eine Gewichtung der Rhythmus-Rohinformationen 108a bis 108c mit dem Gewichtungsfaktor für dieses Teilbandsignal statt, woraufhin dann, ebenfalls in der Einrichtung 114b, die gewichteten Rhythmus-Rohinformationen kombiniert, z. B. aufsummiert, werden, um an dem Tempo-Ausgang 116 die Rhythmusinformationen des Audiosignals zu erhalten.In the following, reference is made to FIG. 2 for a specific one Embodiment of the device of Fig. 1 received. As a device 102 for decomposing the audio signal may be a usual Analysis filter bank, the output one of provides a user selectable number of subband signals. each Subband signal is then processed by the facilities 106a, 106b and 106c, respectively, and then through the facilities 110a to 110c of each rhythm raw information significance measures be determined. The device 114 includes at the illustrated in Fig. 2 preferred embodiment a Means 114a for calculating weighting factors for each Subband signal based on the significance measure for this Subband signal and optionally also the other subband signals. In The device 114b then finds a weighting of the rhythm raw information 108a to 108c with the weighting factor for this subband signal instead, whereupon then, also in the Means 114b combining weighted rhythm raw information, z. B. summed up to be at the tempo output 116th to get the rhythm information of the audio signal.

Das erfindungsgemäße Konzept stellt sich somit folgendermaßen dar. Nach der Evaluierung der rhythmischen Informationen der Einzelbänder, welche beispielsweise durch Hüllkurvenbildung, Glättung, Differenzieren, Begrenzen auf positive Werte und Bilden der Autokorrelationsfunktion stattfinden kann (Einrichtungen 106a bis 106c), findet eine Bewertung der Wertigkeit bzw. der Qualität dieser Zwischenergebnisse in den Einrichtungen 110a bis 110c statt. Dies wird mit Hilfe einer Bewertungsfunktion erreicht, welche die Verlässlichkeit der jeweiligen Einzelergebnisse mit einem Signifikanzmaß bewertet. Aus den Signifikanzmaßen aller Teilbandsignale wird ein Gewichtungsfaktor für jedes Band für die Extraktion der Rhythmus-Informationen hergeleitet. Das Gesamtergebnis der Rhythmusextraktion wird dann in der Einrichtung 114b durch Kombination der bandweisen Einzelergebnisse unter Berücksichtigung ihrer jeweiligen Gewichtungsfaktoren erreicht.The inventive concept thus arises as follows After the evaluation of the rhythmic information of the Individual bands, which are produced, for example, by enveloping, Smoothing, differentiating, limiting to positive values and forming the autocorrelation function can take place (facilities 106a to 106c), finds a rating of the value or the Quality of these intermediate results in the facilities 110a to 110c instead. This is achieved by means of an evaluation function, which the reliability of the individual results valued with a significance measure. From the significance measures All subband signals become a weighting factor for each Volume derived for the extraction of rhythm information. The overall result of the rhythm extraction will then be in the facility 114b by combining the bandwise individual results achieved taking into account their respective weighting factors.

Als Resultat zeigt ein solchermaßen implementierter Algorithmus zur Rhythmusanalyse eine gute Fähigkeit, rhythmische Informationen in einem Signal auch unter ungünstigen Bedingungen zuverlässig zu finden. Das erfindungsgemäße Konzept zeichnet sich daher durch eine hohe Robustheit aus.As a result, such an algorithm implemented for rhythm analysis a good ability to rhythmic information reliable in a signal even under unfavorable conditions to find. The concept according to the invention is therefore distinguished through a high robustness.

Bei einer bevorzugten Ausführungsform werden die Rhythmus-Rohinformationen 108a, 108b, 108c, die die Periodizität des jeweiligen Teilbandsignals darstellen, mittels einer Autokorrelationsfunktion bestimmt. In diesem Fall wird es bevorzugt, das Signifikanzmaß zu bestimmen, indem ein Maximum der Autokorrelationsfunktion durch einen Mittelwert der Autokorrelationsfunktion geteilt wird, und dann der Wert 1 subtrahiert wird. Es sei darauf hingewiesen, daß jede Autokorrelationsfunktion immer bei einer Verzögerung von 0 ein lokales Maximum, d. h. eine Spitze, liefert, die die Energie des Signals repräsentiert. Dieses lokale Maximum sollte unberücksichtigt bleiben, damit die Qualitätsbestimmung nicht verfälscht wird.In a preferred embodiment, the rhythm raw information becomes 108a, 108b, 108c, the periodicity of the respective Subband signal represent, by means of an autocorrelation function certainly. In this case, it is preferable that Significance measure to determine by a maximum of the autocorrelation function by an average of the autocorrelation function is divided, and then the value 1 is subtracted. It was It should be noted that any autocorrelation function is always included a delay of 0 is a local maximum, i. H. a peak, which represents the energy of the signal. This local Maximum should be disregarded, so that the quality determination is not distorted.

Ferner soll die Autokorrelationsfunktion lediglich in einem speziellen Tempobereich betrachtet werden, d. h. von einer maximalen Verzögerung, die dem kleinsten interessierenden Tempo entspricht, zu einer minimalen Verzögerung, die dem höchsten interessierenden Tempo entspricht. Ein typischer Tempobereich liegt zwischen 60 bpm und 200 bpm.Furthermore, the autocorrelation function is intended only in a special Tempo range are considered, d. H. from a maximum Delay corresponding to the smallest interest rate of interest, to a minimum delay, which is the highest one of interest Tempo corresponds. A typical tempo area lies between 60 bpm and 200 bpm.

Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem arithmetischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich und dem geometrischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich bestimmt werden. Es ist bekannt, dass wenn alle Werte der Autokorrelationsfunktion gleich sind, d. h. wenn die Autokorrelationsfunktion einen flachen Verlauf hat, der geometrische Mittelwert der Autokorrelationsfunktion und der arithmetische Mittelwert der Autokorrelationsfunktion gleich sind. In diesem Fall hätte das Signifikanzmaß einen Wert gleich 1, was bedeutet, dass die Rhythmus-Rohinformationen nicht signifikant sind.Alternatively, as a measure of significance, the ratio between the arithmetic mean of the autocorrelation function in the interest Tempo range and the geometric mean of the Autocorrelation function determined in the tempo of interest become. It is known that if all values of the autocorrelation function are the same, d. H. if the autocorrelation function has a flat course, the geometric mean the autocorrelation function and the arithmetic mean the autocorrelation function are the same. In that case would have the significance measure has a value equal to 1, which means that the Rhythm raw information is not significant.

Im Falle einer Systemautokorrelationsfunktion mit starken Spitzen würde das Verhältnis aus arithmetischem Mittelwert zu geometrischem Mittelwert größer 1 sein, was bedeutet, dass die Autokorrelationsfunktion gute Rhythmusinformationen aufweist. Je kleiner jedoch das Verhältnis zwischen arithmetischem Mittelwert und geometrischem Mittelwert wird, desto flacher ist die Autokorrelationsfunktion und desto weniger Periodizitäten enthält sie, was wiederum bedeutet, dass die Rhythmusinformationen dieses Teilbandsignals weniger signifikant, d. h. eine geringere Qualität haben, was sich in einem geringen bzw. einem Gewichtungsfaktor von 0 äußern wird.In the case of a system autocorrelation function with strong peaks would the ratio of arithmetic mean to geometric Mean value will be greater than 1, which means that the autocorrelation function has good rhythm information. ever smaller, however, is the ratio between arithmetic mean and geometric mean, the flatter is the autocorrelation function and the less periodicities it contains they, which in turn means that the rhythm information of this Subband signal less significant, d. H. a lower one Quality, resulting in a low or a weighting factor of 0 will express.

Bezüglich der Gewichtungsfaktoren existieren verschiedene Möglichkeiten. Bevorzugt wird eine relative Gewichtung, derart, dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale zu 1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Bandes bestimmt wird als der Signifikanzwert dieses Bandes geteilt durch die Summe aller Signifikanzwerte. In diesem Fall wird eine relative Gewichtung vor der Aufsummation der gewichteten Rhythmus-Rohinformationen durchgeführt, um die Rhythmus-Informationen des Audiosignals zu erhalten.With regard to the weighting factors, there are various possibilities. Preferred is a relative weight, such that all weighting factors of all subband signals to Add 1, d. H. that determines the weighting factor of a band is divided as the significance value of this band by the sum of all significance values. In this case, a relative Weighting before the summation of the weighted rhythm raw information performed to the rhythm information of the To get audio signal.

Wie bereits ausgeführt worden ist, wird es bevorzugt, die Auswertung der Rhythmus-Informationen unter Verwendung einer Autokorrelationsfunktion durchzuführen. Dieser Fall ist in Fig. 4 dargestellt. Das Audiosignal wird über den Audiosignaleingang 100 in die Einrichtung 102 zum Zerlegen des Audiosignals in Teilbandsignale 104a und 104b eingespeist. Jedes Teilbandsignal wird dann in der Einrichtung 106a bzw. 106b, wie es ausgeführt worden ist, unter Verwendung einer Autokorrelationsfunktion untersucht, um die Periodizität des Teilbandsignals zu ermitteln. Am Ausgang der Einrichtung 106a bzw. 106b liegen dann die Rhythmus-Rohinformationen 108a, 108b vor. Diese werden in eine Einrichtung 118a bzw. 118b eingespeist, um die mittels der Autokorrelationsfunktion von der Einrichtung 116a ausgegebenen Rhythmus-Rohinformationen nachzubearbeiten. Damit wird u. a. sichergestellt, daß die Mehrdeutigkeiten der Autokorrelationsfunktion, d. h. daß bei ganzzahligen Vielfachen der Verzögerungen ebenfalls Signalspitzen auftreten, teilbandweise eliminiert werden, um nachbearbeitete Rhythmus-Rohinformationen 120a bzw. 120b zu erhalten.As has already been stated, it is preferred to carry out the evaluation the rhythm information using an autocorrelation function perform. This case is in FIG. 4 shown. The audio signal is sent via the audio signal input 100 in the device 102 for decomposing the audio signal in Subband signals 104a and 104b are fed. Each subband signal is then in the device 106a or 106b, as stated investigated using an autocorrelation function, to determine the periodicity of the subband signal. The rhythm raw information then lies at the output of the device 106a or 106b 108a, 108b. These are in a facility 118a and 118b, respectively, by the autocorrelation function rhythm raw information output from the device 116a rework. This will u. a. ensured that the ambiguities of the autocorrelation function, d. H. that at integer multiples of the delays as well Signal peaks occur, are eliminated on a band-by-band basis, to post-processed rhythm raw information 120a and 120b, respectively receive.

Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorrelationsfunktionen, d. h. der Rhythmus-Rohinformationen 108a, 108b, bereits teilbandweise eliminiert werden, und nicht erst, wie im Stand der Technik, nach der Summation der einzelnen Autokorrelationsfunktionen. Darüber hinaus ermöglicht die einzelbandweise Eliminierung der Mehrdeutigkeiten in den Autokorrelationsfunktionen durch die Einrichtungen 118a, 118b, dass die Rhythmus-Rohinformationen der Teilbandsignale unabhängig voneinander gehandhabt werden können. Sie können beispielsweise einer Qualitätsbeurteilung mittels der Einrichtung 110a für die Rhythmus-Rohinformationen 108a oder mittels der Einrichtung 110b für die Rhythmus-Rohinformationen 108b unterzogen werden. This has the advantage that the ambiguities of the autocorrelation functions, d. H. the rhythm raw information 108a, 108b, already be eliminated partially bandwise, and not first, as in Prior art, according to the summation of the individual autocorrelation functions. In addition, the single band allows Elimination of ambiguities in autocorrelation functions by means 118a, 118b that the rhythm raw information the subband signals are handled independently of each other can be. You can, for example, a quality assessment by means of the device 110a for the rhythm raw information 108a or by means 110b for the Rhythm raw information 108b.

Wie es durch die gestrichelten Linien in Fig. 4 dargestellt ist, kann die Qualitätsbeurteilung jedoch auch anhand der nachbearbeiteten Rhythmus-Rohinformationen stattfinden, wobei diese letztere Möglichkeit bevorzugt wird, da die Qualitätsbeurteilung auf der Basis der nachbearbeiteten Rhythmus-Rohinformationen sicherstellt, dass die Qualität einer Information beurteilt wird, die nicht mehr vieldeutig ist.As shown by the dashed lines in FIG. 4, However, the quality assessment can also be based on the post-processed Rhythm raw information take place, these the latter option is preferred since the quality assessment on the basis of the reworked raw rhythm information, that the quality of an information is assessed which is no longer ambiguous.

Die Ermittlung der Rhythmus-Informationen durch die Einrichtung 114 findet dann auf der Basis von nachbearbeiteten Rhythmus-Informationen eines Kanals und vorzugsweise auch auf der Basis des Signifikanzmaßes für diesen Kanal statt.The determination of the rhythm information by the device 114 then takes place on the basis of postprocessed rhythm information a channel and preferably also on the base the significance measure for this channel.

Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus-Rohinformationen, also des Signals vor der Einrichtung 118a durchgeführt wird, ist dies dahingehend vorteilhaft, dass, wenn bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h. dass die Autokorrelationsfunktion einen flachen Verlauf hat, auf die Nachbearbeitung mittels der Einrichtung 118a gänzlich verzichtet werden kann, um Rechenzeitressourcen einzusparen.If a quality assessment based on the rhythm raw information, that is, the signal before the device 118a is performed, this is advantageous in that if it is determined that the significance measure is 0, d. H. that the autocorrelation function has a flat course on the Post-processing by means 118a completely omitted to save computing time resources.

Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detaillierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbearbeitung der Rhythmus-Rohinformationen darzustellen. Zunächst wird das Teilband-Signal beispielsweise 104a, in die Einrichtung 106a zur Untersuchung der Periodizität des Teilbandsignals mittels einer Autokorrelationsfunktion eingespeist, um Rhythmus-Rohinformationen 108a zu erhalten. Um die Mehrdeutigkeiten teilbandweise zu eliminieren, kann genauso wie im Stand der Technik, eine gespreizte Autokorrelationsfunktion mittels einer Einrichtung 121 berechnet werden, wobei die Einrichtung 121 angeordnet ist, um die gespreizte Autokorrelationsfunktion so zu berechnen, dass sie um ein ganzzahliges Vielfaches gespreizt ist. Eine Einrichtung 122 ist in diesem Fall angeordnet, um die gespreizte Autokorrelationsfunktion von der ursprünglichen Autokorrelationsfunktion, d. h. den Rhythmus-Rohinformationen 108a zu subtrahieren. Insbesondere wird es bevorzugt, zunächst eine auf das Doppelte gespreizte Autokorrelationsfunktion in der Einrichtung 121 zu berechnen und dann von den Rhythmus-Rohinformationen 108a zu subtrahieren. Dann, in dem nächsten Schritt, wird eine um den Faktor 3 gespreizte Autokorrelationsfunktion in der Einrichtung 121 berechnet und von dem Ergebnis der vorherigen Subtraktion wieder abgezogen, so dass nach und nach sämtliche Mehrdeutigkeiten aus den Rhythmus-Rohinformationen eliminiert werden.In the following, reference is made to Fig. 5 to a more detailed Construction of a device 118a or 118b for post-processing to represent the rhythm raw information. First For example, the subband signal becomes 104a into the device 106a for examining the periodicity of the subband signal by means of an autocorrelation function fed to raw rhythm information To receive 108a. To the ambiguities Teilbandweise to eliminate, just as in the prior art, a spread autocorrelation function by means of a device 121, wherein the device 121 is arranged is to calculate the spread autocorrelation function so that it is spread by an integer multiple. An institution 122 is arranged in this case to the spread Autocorrelation function from the original autocorrelation function, d. H. subtract the rhythm raw information 108a. In particular, it is preferred, first on the Double spread autocorrelation function in the facility 121 and then from the raw rhythm information 108a to subtract. Then, in the next step, one around the Factor 3 spread autocorrelation function in the device 121 and from the result of the previous subtraction subtracted again, so that gradually all ambiguities be eliminated from the rhythm raw information.

Darüber hinaus können die gespreizten Versionen der Rhythmus-Rohinformationen 108a vor dem Subtrahieren gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen.In addition, the splayed versions of the rhythm raw information 108a before subtracting to be weighted Here, too, a flexibility in the sense of a high degree of robustness to reach.

Durch das Verfahren, die Periodizität eines Teilbandsignals auf der Basis einer Autokorrelationsfunktion zu untersuchen, kann also eine weitere Verbesserung erzielt werden, wenn die Eigenschaften der Autokorrelationsfunktion mit einbezogen werden und die Nachbearbeitung unter Verwendung der Einrichtung 118a oder 118b durchgeführt wird. So erzeugt eine periodische Folge von Notenanfängen mit einem Abstand t0 nicht nur eine AKF-Spitze bei einer Verzögerung t0 sondern auch bei 2t0, 3t0, etc. Dies wird zu einer Vieldeutigkeit in der Tempodetektion, d. h. dem Suchen signifikanter Maxima in der Autokorrelationsfunktion, führen. Die Mehrdeutigkeiten können dadurch eliminiert werden, wenn um ganzzahlige Faktoren gespreizte Versionen der AKF vom Ausgangswert teilbandweise (gewichtet) abgezogen werden.By the method, the periodicity of a subband signal can examine the basis of an autocorrelation function So a further improvement can be achieved if the properties the autocorrelation function and are involved the post-processing using means 118a or 118b is performed. So creates a periodic sequence of Grade starts with a distance t0 not just an AKF peak at a delay t0 but also at 2t0, 3t0, etc. This will to an ambiguity in tempo detection, d. H. the search significant maxima in the autocorrelation function. The ambiguities can thereby be eliminated when around integer factors splayed versions of the AKF from baseline deducted part-bandwise (weighted).

Darüber hinaus können die gestauchten Versionen der Rhythmus-Rohinformationen 108a vor dem Addieren mit einem Faktor ungleich Eins gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen. In addition, the compressed versions of the rhythm raw information 108a before adding with a factor unequal One to be weighted, here too flexibility in the sense to achieve a high degree of robustness.

Ferner besteht bei der Autokorrelationsfunktion das Problem, daß sie keine Informationen bei t0/2, t0/3 ... usw., also beim Doppelten, Dreifachen, etc. des "Grundtempos" liefert, was besonders dann zu falschen Ergebnissen führen kann, wenn zwei Instrumente, die in unterschiedlichen Teilbändern liegen, zusammen den Rhythmus des Signals definieren. Diese Sache wird dadurch berücksichtigt, dass um ganzzahlige Faktoren gestauchte Versionen der Autokorrelationsfunktion berechnet werden und diese dann zu den Rhythmus-Rohinformationen gewichtet oder ungewichtet hinzuaddiert werden.Further, in the autocorrelation function, there is the problem that they have no information at t0 / 2, t0 / 3 ... etc., that is double, Triple, etc. of the "basic tempo" delivers what special can lead to wrong results if two instruments, which lie in different subbands, together the Defining the rhythm of the signal. This thing is taken into account that edged by integer factors the autocorrelation function are calculated and then to weighted or unweighted added to the rhythm raw information become.

Die AKF-Nachverarbeitung findet somit teilbandweise statt, wobei für mindestens ein Teilbandsignal eine Autokorrelationsfunktion errechnet wird und diese mit gedehnten oder gespreizten Versionen dieser Funktion kombiniert wird.The AKF post-processing thus takes place on a part-band basis, with for at least one subband signal, an autocorrelation function is calculated and this with stretched or spread versions this feature is combined.

Gemäß einem anderen Aspekt der vorliegenden Erfindung wird zunächst die Summenautokorrelationsfunktion der Teilbänder erzeugt, woraufhin um ganzzahligen Faktoren gestauchte Versionen der Summenautokorrelationsfunktion vorzugsweise gewichtet hinzuaddiert werden, um die Unzulänglichkeiten der Autokorrelationsfunktion bei dem doppelten, dreifachen etc. Tempo auszuräumen.According to another aspect of the present invention, first generates the sum autocorrelation function of the subbands, whereupon compressed by integer factors versions the sum auto-correlation function is added preferably weighted be to the shortcomings of the autocorrelation function at the double, triple, etc. pace clear.

Gemäß einem weiteren Aspekt wird die Nachbearbeitung der Summenautokorrelationsfunktion, um die Mehrdeutigkeiten bei dem halben, dem dritten Teil, dem vierten Teil etc. des Tempos zu eliminieren, durchgeführt, indem die um ganzzahlige Faktoren gespreizten Versionen der Summenautokorrelationsfunktion nicht einfach subtrahiert werden, sondern vor der Subtraktion mit einem Faktor ungleich Eins und vorzugsweise kleiner als Eins und größer als Null gewichtet werden und dann erst subtrahiert werden. Damit wird eine robustere Bestimmung der Rhythmusinformationen möglich, da das ungewichtete Subtrahieren lediglich für ideale sinusförmige Signale eine vollständige Elimination der AKF-Mehrdeutigkeiten liefert.In another aspect, the post-processing of the sum auto-correlation function, to the ambiguities at the half, to eliminate the third part, the fourth part etc. of the tempo, carried out by the spread by integer factors Versions of the sum auto correlation function not be subtracted just before subtracting with a Factor not equal to one and preferably less than one and be weighted greater than zero and then subtracted. This will make a more robust determination of rhythm information possible because the unweighted subtracting only for ideal sinusoidal signals complete elimination of the AKF ambiguity supplies.

Claims (7)

  1. Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function, comprising:
    means (102) for dividing the audio signal into at least two sub-band signals (104a, 104b);
    means for examining (106a, 106b) at least one sub-band signal with regard to a periodicity in the at least one sub-band signal by an autocorrelation function, to obtain rhythm raw-information (108a) for the sub-band signal, wherein a delay is associated to a peak of the autocorrelation function;
    means (118a) for postprocessing the rhythm raw-information (108a) for the sub-band signal (104a) determined by the autocorrelation function, to obtain postprocessed rhythm raw-information (120a) for the sub-band signal, so that in the postprocessed rhythm raw-information an ambiguity in an integer plurality of a delay, to which an autocorrelation function peak is associated, is reduced, or a signal portion is added at an integer fraction of a delay, to which an autocorrelation function peak is associated; and
    means (114) for establishing the rhythm information of the audio signal by using the postprocessed rhythm raw-information (120a) of the sub-band signal and by using another sub-band signal of the at least two sub-band signals.
  2. Apparatus according to claim 1, wherein the means for postprocessing (118a, 118b) comprises:
    means (121) for calculating a version of the rhythm raw-information (108a) of a sub-band signal spread by an integer factor; and
    means (122) for subtracting the version of the rhythm raw-information (108a) of the sub-band signal spread by an integer factor larger than one, or a version of the rhythm raw-information (108a) of the sub-band signal derived from this version, to obtain the postprocessed rhythm raw-information (120a) for the sub-band signal.
  3. Apparatus according to claim 2, wherein means (122) for subtracting is disposed to perform, prior to subtracting, a weighting of the spread version with a factor between zero and one, to generate the derived version.
  4. Apparatus according to claim 1, wherein means for postprocessing (118a) comprises:
    means (121) for calculating a version of the rhythm raw-information (108a) compressed by an integer factor larger than one; and
    means (122) for adding the compressed version of the rhythm raw-information of the sub-band signal or a version derived therefrom to the rhythm raw-information (108a) of the sub-band signal, to obtain the postprocessed rhythm raw-information (120a) for the sub-band signal.
  5. Apparatus according to claim 4, wherein the means (122) for adding is disposed to perform, prior to adding, a weighting of the compressed version of the rhythm raw-information by a factor between zero and one, such that a weighted compressed version of the rhythm raw-information is added to the rhythm raw-information of the sub-band signal to generate the derived version.
  6. Apparatus according to one of the previous claims, further comprising:
    means (110a, 110b) for evaluating a quality of the periodicity of the postprocessed rhythm raw-information (120a), to obtain a significance measure for the sub-band signal,
    wherein means (114) for establishing is further disposed to establish the rhythm information of the audio signal by considering the significance measure of the sub-band signal.
  7. Method for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function, comprising:
    dividing (102) the audio signal into at least two sub-band signals (104a, 104b),
    examining (106a, 106b) at least one sub-band signal with regard to a periodicity in the at least one sub-band signal by an autocorrelation function, to obtain rhythm raw-information (108a) for the sub-band signal, wherein a delay is associated to a peak of the autocorrelation function;
    postprocessing (118a) the rhythm raw-information (108a) for the sub-band signal (104a) determined by the autocorrelation function, to obtain postprocessed rhythm raw-information (120a) for the sub-band signal, so that in the postprocessed rhythm raw-information an ambiguity in the integer plurality of a delay, to which an autocorrelation function peak is associated, is reduced, or a signal portion is added at an integer fraction of a delay, to which an autocorrelation function peak is associated; and
    establishing (114) the rhythm information of the audio signal by using the postprocessed rhythm raw-information (120a) of the sub-band signal and by using a further sub-band signal of the at least two sub-band signals.
EP02742987A 2001-05-14 2002-05-10 Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function Expired - Lifetime EP1371055B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10123281 2001-05-14
DE10123281A DE10123281C1 (en) 2001-05-14 2001-05-14 Device for analyzing audio signal with respect to rhythm information divides signal into sub-band signals, investigates sub-band signal(s) for periodicity with autocorrelation function
PCT/EP2002/005171 WO2002093550A2 (en) 2001-05-14 2002-05-10 Device for the analysis of an audio signal with regard to the rhythm information using an auto-correlation function

Publications (2)

Publication Number Publication Date
EP1371055A2 EP1371055A2 (en) 2003-12-17
EP1371055B1 true EP1371055B1 (en) 2005-04-27

Family

ID=7684650

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02742987A Expired - Lifetime EP1371055B1 (en) 2001-05-14 2002-05-10 Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function

Country Status (6)

Country Link
US (1) US7012183B2 (en)
EP (1) EP1371055B1 (en)
AT (1) ATE294440T1 (en)
DE (2) DE10123281C1 (en)
ES (1) ES2240762T3 (en)
WO (1) WO2002093550A2 (en)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10123366C1 (en) * 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Device for analyzing an audio signal for rhythm information
JP4263382B2 (en) * 2001-05-22 2009-05-13 パイオニア株式会社 Information playback device
DE10223735B4 (en) * 2002-05-28 2005-05-25 Red Chip Company Ltd. Method and device for determining rhythm units in a piece of music
DE10232916B4 (en) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for characterizing an information signal
US8918316B2 (en) * 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
JP2007519048A (en) * 2004-01-21 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and system for determining an index of ambiguity of the speed of a music input signal, sound processing apparatus, exercise apparatus, computer program, and storage medium
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
EP1797507B1 (en) * 2004-10-08 2011-06-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
US7193148B2 (en) * 2004-10-08 2007-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded rhythmic pattern
DE102005038876B4 (en) * 2005-08-17 2013-03-14 Andreas Merz User input device with user input rating and method
JP4948118B2 (en) * 2005-10-25 2012-06-06 ソニー株式会社 Information processing apparatus, information processing method, and program
JP4465626B2 (en) * 2005-11-08 2010-05-19 ソニー株式会社 Information processing apparatus and method, and program
FI20065010A0 (en) * 2006-01-09 2006-01-09 Nokia Corp Interference suppression in a telecommunication system
JP5351373B2 (en) * 2006-03-10 2013-11-27 任天堂株式会社 Performance device and performance control program
US7952012B2 (en) * 2009-07-20 2011-05-31 Apple Inc. Adjusting a variable tempo of an audio file independent of a global tempo using a digital audio workstation
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8490131B2 (en) * 2009-11-05 2013-07-16 Sony Corporation Automatic capture of data for acquisition of metadata
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
GB201109731D0 (en) 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
US8952233B1 (en) * 2012-08-16 2015-02-10 Simon B. Johnson System for calculating the tempo of music
US9357163B2 (en) * 2012-09-20 2016-05-31 Viavi Solutions Inc. Characterizing ingress noise
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
JP2016177204A (en) * 2015-03-20 2016-10-06 ヤマハ株式会社 Sound masking device
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
CN105741835B (en) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 A kind of audio-frequency information processing method and terminal
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) * 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
JP2020106753A (en) * 2018-12-28 2020-07-09 ローランド株式会社 Information processing device and video processing system
CN111508457A (en) * 2020-04-14 2020-08-07 上海影卓信息科技有限公司 Music beat detection method and system
US11107504B1 (en) * 2020-06-29 2021-08-31 Lightricks Ltd Systems and methods for synchronizing a video signal with an audio signal

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3999009A (en) * 1971-03-11 1976-12-21 U.S. Philips Corporation Apparatus for playing a transparent optically encoded multilayer information carrying disc
JPS61117746A (en) * 1984-11-13 1986-06-05 Hitachi Ltd Optical disk substrate
JPS61177642A (en) * 1985-01-31 1986-08-09 Olympus Optical Co Ltd Optical information recording and reproducing device
GB2207027B (en) 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
US5255260A (en) * 1989-07-28 1993-10-19 Matsushita Electric Industrial Co., Ltd. Optical recording apparatus employing stacked recording media with spiral grooves and floating optical heads
US5392263A (en) * 1990-01-31 1995-02-21 Sony Corporation Magneto-optical disk system with specified thickness for protective layer on the disk relative to the numerical aperture of the objective lens
KR940002573B1 (en) * 1991-05-11 1994-03-25 삼성전자 주식회사 Optical disk recording playback device and method
US5255262A (en) * 1991-06-04 1993-10-19 International Business Machines Corporation Multiple data surface optical data storage system with transmissive data surfaces
US5470627A (en) * 1992-03-06 1995-11-28 Quantum Corporation Double-sided optical media for a disk storage device
AU4341193A (en) * 1992-06-03 1993-12-30 Neil Philip McAngus Todd Analysis and synthesis of rhythm
DE4311683C2 (en) * 1993-04-08 1996-05-02 Sonopress Prod Disc-shaped optical memory and method for its production
SG144685A1 (en) * 1993-06-08 2008-08-28 Matsushita Electric Ind Co Ltd Optical disk, and information recording/reproduction apparatus
EP0643391B1 (en) * 1993-09-07 2000-02-02 Hitachi, Ltd. Information recording media, optical disc and playback system
US5518325A (en) * 1994-02-28 1996-05-21 Compulog Disk label printing
JP3210549B2 (en) * 1995-05-17 2001-09-17 日本コロムビア株式会社 Optical information recording medium
US5729525A (en) * 1995-06-21 1998-03-17 Matsushita Electric Industrial Co., Ltd. Two-layer optical disk
JP3674092B2 (en) * 1995-08-09 2005-07-20 ソニー株式会社 Playback device
JP2728057B2 (en) * 1995-10-30 1998-03-18 日本電気株式会社 Information access device for optical disk
JPH09161320A (en) * 1995-12-08 1997-06-20 Nippon Columbia Co Ltd Stuck type optical information recording medium
JPH09293083A (en) 1996-04-26 1997-11-11 Toshiba Corp Music retrieval device and method
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
TW350571U (en) * 1996-11-23 1999-01-11 Ind Tech Res Inst Optical grille form of optical read head in digital CD-ROM player
JPH10269611A (en) * 1997-03-27 1998-10-09 Pioneer Electron Corp Optical pickup and multi-layer disk reproducing device using it
US5949752A (en) * 1997-10-30 1999-09-07 Wea Manufacturing Inc. Recording media and methods for display of graphic data, text, and images
JP4043175B2 (en) * 2000-06-09 2008-02-06 Tdk株式会社 Optical information medium and manufacturing method thereof
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties

Also Published As

Publication number Publication date
DE10123281C1 (en) 2002-10-10
WO2002093550A3 (en) 2003-02-27
ES2240762T3 (en) 2005-10-16
DE50202914D1 (en) 2005-06-02
WO2002093550A2 (en) 2002-11-21
US20040094019A1 (en) 2004-05-20
ATE294440T1 (en) 2005-05-15
US7012183B2 (en) 2006-03-14
EP1371055A2 (en) 2003-12-17

Similar Documents

Publication Publication Date Title
EP1371055B1 (en) Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function
EP1388145B1 (en) Device and method for analysing an audio signal in view of obtaining rhythm information
EP1523719B1 (en) Device and method for characterising an information signal
EP1407446B1 (en) Method and device for characterising a signal and for producing an indexed signal
EP2099024B1 (en) Method for acoustic object-oriented analysis and note object-oriented processing of polyphonic sound recordings
EP1606798B1 (en) Device and method for analysing an audio information signal
DE3306730C2 (en)
EP1368805B1 (en) Method and device for characterising a signal and method and device for producing an indexed signal
EP2351017B1 (en) Method for recognizing note patterns in pieces of music
DE102007034774A1 (en) Apparatus for the determination of chord names and program for the determination of chord names
EP1280138A1 (en) Method for audio signals analysis
WO2005122135A1 (en) Device and method for converting an information signal into a spectral representation with variable resolution
DE60031812T2 (en) Apparatus and method for sound synthesis
DE102004028693B4 (en) Apparatus and method for determining a chord type underlying a test signal
WO2006005448A1 (en) Method and device for the rhythmic processing of audio signals
EP1377924B1 (en) Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal
EP1671315A1 (en) Process and device for characterising an audio signal
EP1743324B1 (en) Device and method for analysing an information signal
DE10253868B3 (en) Test and reference pattern synchronization method e.g. for speech recognition system, has test pattern potential synchronization points associated with reference synchronization points
DE602004007249T2 (en) Uniform treatment of resolved and unresolved harmonics
EP1381024A1 (en) Method for retrieving a tone sequence

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

17P Request for examination filed

Effective date: 20031017

RIN1 Information on inventor provided before grant (corrected)

Inventor name: ROHDEN, JAN

Inventor name: UHLE, CHRISTIAN

Inventor name: HERRE, JUERGEN

Inventor name: CREMER, MARKUS

17Q First examination report despatched

Effective date: 20040423

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

Effective date: 20050427

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050427

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050427

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050427

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050510

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050510

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050531

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050531

REF Corresponds to:

Ref document number: 50202914

Country of ref document: DE

Date of ref document: 20050602

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050613

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050727

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050727

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050727

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20051010

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2240762

Country of ref document: ES

Kind code of ref document: T3

BERE Be: lapsed

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWAND

Effective date: 20050531

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20060130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060531

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060531

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

BERE Be: lapsed

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWAND

Effective date: 20050531

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20080523

Year of fee payment: 7

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 20080521

Year of fee payment: 7

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20080523

Year of fee payment: 7

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20090409 AND 20090415

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20090518

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090510

NLV4 Nl: lapsed or anulled due to non-payment of the annual fee

Effective date: 20091201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20091201

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20090511

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090511

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20110131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100531

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20120529

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20120525

Year of fee payment: 11

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20130510

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131203

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50202914

Country of ref document: DE

Effective date: 20131203

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130510