EP1388145B1 - Device and method for analysing an audio signal in view of obtaining rhythm information - Google Patents

Device and method for analysing an audio signal in view of obtaining rhythm information Download PDF

Info

Publication number
EP1388145B1
EP1388145B1 EP02745267A EP02745267A EP1388145B1 EP 1388145 B1 EP1388145 B1 EP 1388145B1 EP 02745267 A EP02745267 A EP 02745267A EP 02745267 A EP02745267 A EP 02745267A EP 1388145 B1 EP1388145 B1 EP 1388145B1
Authority
EP
European Patent Office
Prior art keywords
sub
information
band
rhythm
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP02745267A
Other languages
German (de)
French (fr)
Other versions
EP1388145A1 (en
Inventor
Jürgen HERRE
Jan Rohden
Christian Uhle
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1388145A1 publication Critical patent/EP1388145A1/en
Application granted granted Critical
Publication of EP1388145B1 publication Critical patent/EP1388145B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation

Abstract

An apparatus for analyzing an audio signal with regard to rhythm information of the audio signal comprises a filterbank for dividing the audio signal into at least two sub-band signals. Every sub-band signal is examined with regard to a periodicity of the sub-band signal to obtain rhythm raw-information of every sub-band signal. The rhythm raw-information is subjected to a quality evaluation to obtain a significance measure for every sub-band signal. The rhythm information of the audio signal will finally be established by considering the significance measure of the sub-band signal and the rhythm raw-information. This enables a more robust analysis of the audio signal, since sub-band signals, where significant rhythm information are present, are preferred compared to sub-band signals where less significant rhythm information are present, when establishing the rhythm information.

Description

Die vorliegende Erfindung bezieht sich auf Signalverarbeitungskonzepte und insbesondere auf die Analyse von Audiosignalen hinsichtlich von Rhythmusinformationen.The present invention relates to signal processing concepts and especially on the analysis of audio signals regarding rhythm information.

In den letzten Jahren ist die Verfügbarkeit multimedialen Datenmaterials, wie z. B. Audio- oder Video-Daten, stark gestiegen. Dies ist auf eine Reihe von technischen Faktoren zurückzuführen, welche sich insbesondere auf die breite Verfügbarkeit des Internets, von leistungsfähiger Rechnerhard- und Software sowie von leistungsfähigen Verfahren zur Datenkompression, d. h. Quellcodierung, von Audio- und Videoverfahren stützen.In recent years, the availability of multimedia data, such as B. audio or video data, has risen sharply. This is due to a number of technical factors which particularly affects the wide availability of the Internet, of powerful computer hardware and Software and powerful data compression processes, d. H. Source coding of audio and video processes support.

Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Konzepten, die es ermöglichen, diese Daten nach inhaltlichen Kriterien beurteilen, katalogisieren usw. zu können. Es besteht der Wunsch, in der Lage zu sein, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und aufzufinden.The huge amounts of audiovisual data, for example available on the Internet worldwide, require concepts which make this data possible according to content criteria assess, catalog, etc. It exists the desire to be able to target multimedia data to search and find by specifying meaningful criteria.

Dies erfordert sogenannte "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in Fachkreisen auch als "Features" bezeichnet werden, extrahieren, welche wichtige charakteristische Eigenschaften des Signals repräsentieren. Basierend auf solchen Merkmalen bzw. Kombinationen dieser Merkmale können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwischen Audio- oder Videosignalen hergeleitet werden. Dieser Vorgang erfolgt durch Vergleich bzw. In-Beziehung-Setzen der extrahierten Merkmalswerte aus den verschiedenen Signalen, welche auch einfach als "Stücke" bezeichnet werden.This requires so-called "content-based" techniques that from the audiovisual data so-called characteristics that are in professional circles also called "features", extract, what important characteristic properties of the signal represent. Based on such features or combinations These characteristics can have similarity relationships or similarities derived between audio or video signals become. This is done by comparing or relating the extracted feature values from the different Signals, which are simply referred to as "pieces" become.

Von besonderem Interesse ist die Bestimmung bzw. Extraktion von Merkmalen, die nicht nur signaltheoretische, sondern möglichst unmittelbare semantische Bedeutung haben, d. h. vom Hörer unmittelbar empfundene Eigenschaften repräsentieren.The determination or extraction is of particular interest of characteristics that are not only signal-theoretical, but as possible have immediate semantic meaning, d. H. from Represent listeners' properties that are immediately felt.

Dies ermöglicht es dem Benutzer, auf einfache und intuitive Weise Suchanfragen zu formulieren, um Stücke aus dem gesamten vorhandenen Datenbestand einer Audiosignal-Datenbank zu finden. Ebenso erlauben es semantisch relevante Merkmale, Ähnlichkeitsbeziehungen zwischen Stücken zu modellieren, die der menschlichen Empfindung nahe kommen. Die Verwendung von Merkmalen, die semantische Bedeutung haben, ermöglicht auch beispielsweise ein automatisches Vorschlagen von für einen bestimmten Benutzer interessanten Stücken, wenn seine Vorlieben bekannt sind.This allows the user to be simple and intuitive Way to formulate search queries to pieces from across the to find existing data from an audio signal database. Semantically relevant features, similarity relationships also allow it to model between pieces that the come close to human sensation. The use of features which have semantic meaning also makes it possible, for example an automatic suggestion for a specific one Users interesting pieces if his preferences are known.

Im Bereich der Musikanalyse ist das Tempo ein wichtiger musikalischer Parameter, der semantische Bedeutung hat. Das Tempo wird üblicherweise in "Beats per Minute" (BPM) gemessen. Die automatische Extraktion des Tempos sowie der Taktschwerpunkte des "Beats" bzw. allgemein gesagt die automatische Extraktion von Rhythmusinformationen, ist ein Beispiel für die Gewinnung eines semantisch wichtigen Merkmals eines Musikstückes.In the field of music analysis, the tempo is an important musical one Parameter that has semantic meaning. The tempo is usually measured in "beats per minute" (BPM). The automatic extraction of the tempo as well as the focal points the "beat" or generally speaking the automatic extraction of rhythm information, is an example of the extraction of a semantically important feature of a piece of music.

Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsextraktion, d. h. das Extrahieren von Rhythmusinformationen aus einem Audiosignal, robust und recheneffizient stattfinden kann. Robustheit bedeutet, dass es keine Rolle spielen darf, ob das Stück quellcodiert und wieder decodiert worden ist, ob das Stück über einen Lautsprecher abgespielt und von einem Mi-Mikrophon empfangen worden ist, ob es laut oder leise gespielt wird, oder ob es von einem Instrument oder' einer Mehrzahl von Instrumenten gespielt wird.There is also a desire that feature extraction, d. H. extracting rhythm information an audio signal, robust and computationally efficient can. Robustness means that it doesn't matter whether the piece has been source coded and decoded again, whether the piece played through a loudspeaker and from a Mi microphone received whether it was played loudly or softly or whether it is from one instrument or 'a plurality of Instruments is played.

Für die Bestimmung der Taktschwerpunkte und damit auch des Tempos, d. h. für die Bestimmung von Rhythmusinformationen, hat sich in den Fachkreisen auch der Begriff "Beat Tracking" etabliert. Aus dem Stand der Technik ist es bereits bekannt, ein Beat Tracking auf der Basis einer notenartigen bzw. transkribierten Signaldarstellung, z. B. im Midi-Format, durchzuführen. Ziel ist es jedoch, keine solchen Metadarstellungen zu benötigen, sondern eine Analyse direkt mit einem z. B. PCMcodierten oder allgemein gesagt digital vorliegenden Audiosignal vorzunehmen.For the determination of the center of gravity and thus also the Tempo, d. H. for the determination of rhythm information, the term "beat tracking" has also established. It is already known from the prior art Beat tracking based on a note-like or transcribed Signal representation, e.g. B. in midi format. However, the goal is to avoid such meta representations need, but an analysis directly with a z. B. PCM encoded or generally speaking digitally present Audio signal.

Die Fachveröffentlichung "Tempo and Beat Analysis of Acoustic Musical Signals" von Eric D. Scheirer, J. Acoust. Soc. Am. 103:1, (Jan 1998), Seiten 588 - 601, offenbart ein Verfahren zur automatischen Extraktion eines rhythmischen Pulses aus musikalischen Exzerpten. Das Eingangssignal wird mittels einer Filterbank in eine Reihe von Teilbändern aufgespalten, beispielsweise in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz, 400 Hz, 800 Hz, 1600 Hz und 3200 Hz. Für das erste Teilband wird eine Tiefpassfilterung durchgeführt. Für das letzte Teilband wird eine Hochpassfilterung durchgeführt, für die restlichen, dazwischen liegenden Teilbände wird eine Bandpassfilterung beschrieben. Jedes Teilband wird folgendermaßen verarbeitet. Das Teilbandsignal wird zunächst gleichgerichtet. In anderen Worten ausgedrückt wird der Absolutbetrag der Abtastwerte bestimmt. Die resultierenden n Werte werden dann geglättet, beispielsweise mit einer Mittelung über ein geeignetes Fenster, um ein Hüllkurvensignal zu erhalten. Zur Senkung der Rechenkomplexität kann das Hüllkurvensignal unterabgetastet werden. Die Hüllkurvensignale werden differenziert, d. h. plötzliche Änderungen der Signalamplitude werden durch das Differenzierungsfilter bevorzugt weitergeleitet. Das Resultat wird dann auf nicht-negative Werte begrenzt. Jedes Hüllkurvensignal wird dann in eine Bank resonanter Filter, d. h. Oszillatoren, gegeben, die jeweils ein Filter für jeden Tempobereich enthalten, so dass das zum musikalischen Tempo passende Filter am stärksten angeregt wird. Für jedes Filter wird die Energie des Ausgangssignals als Maß für die Übereinstimmung des Tempos des Eingangssignals mit dem zum Filter gehörigen Tempo berechnet. Die Energien für jedes Tempo werden schließlich über alle Teilbänder aufsummiert, wobei die größte Energiesumme das als Resultat gelieferte Tempo, d. h. die Rhythmusinformationen, kennzeichnet.The specialist publication "Tempo and Beat Analysis of Acoustic Musical Signals "by Eric D. Scheirer, J. Acoust. Soc. Am. 103: 1, (Jan 1998), pages 588-601, discloses a method for the automatic extraction of a rhythmic pulse from musical Excerpts. The input signal is generated using a Filter bank split into a number of sub-bands, for example in 6 subbands with crossover frequencies of 200 Hz, 400 Hz, 800 Hz, 1600 Hz and 3200 Hz. For the first subband low pass filtering is performed. For the last one Sub-band high pass filtering is performed for which The remaining sub-volumes in between are bandpass filtered described. Each sub-band is processed as follows. The subband signal is first rectified. In in other words, the absolute value of the samples certainly. The resulting n values are then smoothed, for example with an averaging over a suitable one Window to get an envelope signal. To lower the Computational complexity can undersampled the envelope signal become. The envelope signals are differentiated, i. H. sudden changes in signal amplitude are caused by the Differentiation filter preferably forwarded. The result is then limited to non-negative values. Any envelope signal is then placed in a bank of resonant filters, i.e. H. oscillators, given a filter for each tempo range included so that it fits the musical tempo Filter is most excited. For each filter, the Energy of the output signal as a measure of the match the tempo of the input signal with that belonging to the filter Tempo calculated. The energies for each pace will eventually be summed up over all subbands, the largest energy sum the pace delivered as a result, d. H. the rhythm information, features.

Ein wesentlicher Nachteil dieses Verfahrens besteht in der großen Rechen- und Speicherkomplexität insbesondere zur Realisierung der großen Zahl von parallelschwingenden "Oszillatoren", von denen letztlich nur ein einziger ausgewählt wird. Dies macht eine effiziente Implementierung beispielsweise für Echtzeitanwendungen nahezu unmöglich.A major disadvantage of this method is that great computing and storage complexity, especially for implementation the large number of parallel oscillating "oscillators", ultimately only one is selected. This makes an efficient implementation for example for Real-time applications almost impossible.

Die Fachveröffentlichung "Pulse Tracking with a Pitch Tracker" von Eric D. Scheirer, Proc. 1997 Workshop on Applications of Signal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997, beschreibt einen Vergleich des oben beschriebenen "Oszillatorkonzeptes" mit einem Alternativkonzept, das auf der Verwendung von Autokorrelationsfunktionen zur Extraktion der Periodizität aus einem Audiosignal, d. h. der Rhythmusinformationen eines Signals, aufbaut. Ein Algorithmus zur Modulierung der menschlichen Tonhöhenwahrnehmung, d. h. des Pitch, wird für das "Beat Tracking" eingesetzt.The specialist publication "Pulse Tracking with a Pitch Tracker" by Eric D. Scheirer, Proc. 1997 Workshop on Applications of Signal Processing to Audio and Acoustics, Mohonk, NY, Oct. 1997, describes a comparison of the "oscillator concept" described above with an alternative concept based on the Use of autocorrelation functions to extract the Periodicity from an audio signal, d. H. the rhythm information of a signal. An algorithm for modulation human pitch perception, d. H. of the pitch used for "beat tracking".

Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm dargestellt. Das Audiosignal wird über einen Audioeingang 300 einer Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h. von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält einen bestimmten Bereich an Frequenzen des Audiosignals. Die Filter der Analyse-Filterbank sind so ausgewählt, dass sie die Selektionscharakteristik des menschlichen Innenohrs annähern. Eine solche Analyse-Filterbank wird auch als Gamma-Ton-Filterbank bezeichnet.The known algorithm is shown in FIG. 3 as a block diagram. The audio signal becomes one via an audio input 300 Analysis filter bank 302 fed. The analysis filter bank generates a number n of channels from the audio input, i. H. of individual subband signals. Each subband signal contains a certain range of frequencies of the audio signal. The Filters of the analysis filter bank are selected so that they Approach the selection characteristics of the human inner ear. Such an analysis filter bank is also called a gamma-tone filter bank designated.

In den Einrichtungen 304a bis 304c werden die Rhythmus-Informationen jedes Teilbandsignals ausgewertet. Für jedes Eingangssignal wird zunächst ein hüllkurvenartiges Ausgangssignal berechnet (entsprechend einer sogenannten "Inner Hair Cell"-Verarbeitung im Ohr) und unterabgetastet. Aus diesem Resultat wird eine Autokorrelationsfunktion (AKF) berechnet, um die Periodizität des Signals als Funktion der Verzögerung, d. h. des "Lag" zu erhalten.In the devices 304a to 304c the rhythm information evaluated each subband signal. For each The input signal first becomes an envelope-like output signal calculated (according to a so-called "Inner Hair Cell "processing in the ear) and subsampled. From this result an autocorrelation function (AKF) is calculated to the periodicity of the signal as a function of delay, d. H. to get the "lag".

Am Ausgang der Einrichtungen 304a bis 304c liegt dann für jedes Teilbandsignal eine Autokorrelationsfunktion vor, welche Aspekte der Rhythmus-Informationen jedes Teilbandsignals darstellt.The output of the devices 304a to 304c then lies for each Subband signal an autocorrelation function, which Represents aspects of the rhythm information of each subband signal.

Die einzelnen Autokorrelationsfunktionen der Teilbandsignale werden dann in einer Einrichtung 306 durch Summation kombiniert, um eine Summenautokorrelationsfunktion (SAKF) zu erhalten, welche die Rhythmus-Informationen des Signals am Audio-Eingang 300 wiedergibt. Diese Informationen können an einem Tempo-Ausgang 308 ausgegeben werden. Große Werte in der Summenautokorrelation zeigen an, dass für eine einer Spitze der SAKF zugeordneten Verzögerung (Lag) eine hohe Periodizität der Notenanfänge vorliegt. Daher wird beispielsweise der größte Wert der Summenautokorrelationsfunktion innerhalb der musikalisch sinnvollen Verzögerungen gesucht. The individual autocorrelation functions of the subband signals are then combined in a device 306 by summation, to get a sum auto-correlation function (SAKF), which is the rhythm information of the signal at the audio input 300 reproduces. This information can be found on a Tempo output 308 are output. Large values in the sum autocorrelation indicate that for a one tip the SAKF associated delay (lag) a high periodicity of Beginnings of grades are available. Therefore, for example, the largest Value of the sum auto-correlation function within the musical reasonable delays sought.

Musikalisch sinnvolle Verzögerungen sind beispielsweise der Tempobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306 kann ferner angeordnet sein, um eine Verzögerungszeit in Tempoinformationen umzusetzen. So entspricht beispielsweise eine Spitze einer Verzögerung von einer Sekunde einem Tempo von 60 Schlägen pro Minute. Kleinere Verzögerungen deuten auf höhere Tempos hin, während größere Verzögerungen auf kleinere Tempos als 60 bpm hinweisen.Musically sensible delays are, for example Tempo range between 60 bpm and 200 bpm. The device 306 can also be arranged to include a delay time in tempo information implement. For example, one Peak a delay of one second at a tempo of 60 Beats per minute. Smaller delays indicate higher ones Tempos down, while major delays to smaller tempos than 60 bpm.

Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren einen Vorteil dahingehend, dass keine Oszillatoren mit großem Rechen- und Speicheraufwand implementiert werden müssen. Andererseits ist das Konzept dahingehend nachteilhaft, dass die Qualität der Ergebnisse sehr stark von der Art des Audiosignals abhängt. Ist aus einem Audiosignal beispielsweise ein dominantes Rhythmusinstrument herauszuhören, so wird das in Fig. 3 beschriebene Konzept gut funktionieren. Ist dagegen die Stimme dominant, welche keine besonders eindeutigen Rhythmusinformationen liefern wird, so wird die Rhythmusbestimmung mehrdeutig sein. In dem Audiosignal könnte durchaus auch ein Band vorkommen, das lediglich Rhythmusinformationen enthält, wie z. B. ein höheres Frequenzband, in dem beispielsweise ein Hihat eines Schlagzeugs positioniert ist, oder ein niedriges Frequenzband, in dem die große Trommel eines Schlagzeugs auf der Frequenzskala positioniert ist. Aufgrund der Kombination der Einzelinformationen werden jedoch die einigermaßen eindeutigen Informationen dieser speziellen Teilbänder von den mehrdeutigen Informationen der anderen Teilbänder überlagert bzw. "verwässert".This method has compared to the first method an advantage in that no large oscillators Computing and storage effort must be implemented. on the other hand the concept is disadvantageous in that the Quality of the results depends very much on the type of audio signal depends. For example, is a dominant from an audio signal To hear the rhythm instrument, this is shown in Fig. 3 described concept work well. Is against that Voice dominant, which has no particularly clear rhythm information will deliver, so the rhythm determination be ambiguous. In the audio signal could also be a Band that only contains rhythm information, such as B. a higher frequency band in which, for example, a Hihat a drum kit is positioned, or a low one Frequency band in which the bass drum of a drum set the frequency scale is positioned. Because of the combination However, the individual information becomes the somewhat unambiguous Information of these special subbands from the ambiguous Information of the other subbands overlaid or "Watered down".

Ein weiteres Problem bei der Verwendung von Autokorrelationsfunktionen zum Extrahieren der Periodizität eines Teilbandsignals besteht darin, dass die Summen-Autokorrelationsfunktion, die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist. Die Summen-Autokorrelationsfunktion am Ausgang 306 ist dahingehend mehrdeutig, dass auch beim Vielfachen einer Verzögerung eine Autokorrelationsfunktions-Spitze erzeugt wird. Dies ist daraus verständlich, dass eine Sinuskomponente mit einer Periode von t0, wenn sie einer Autokorrelationsfunktionverarbeitung unterzogen wird, neben dem gewünschten Maximum bei t0 auch Maxima bei Vielfachen der Verzögerungen, d. h. bei 2t0, 3t0, usw. erzeugt.Another problem with using autocorrelation functions to extract the periodicity of a subband signal is that the sum autocorrelation function, obtained by means 306 is ambiguous. The sum autocorrelation function at output 306 is to that effect ambiguous that even when multiplying a delay an auto-correlation function spike is generated. This is understandable that a sine component with a period from t0 when processing autocorrelation function is subjected, in addition to the desired maximum at t0 also maxima at multiples of the delays, i.e. H. at 2t0, 3t0, etc. generated.

Die Fachveröffentlichung "A Computationally Efficient Multipitch Analysis Model", von Tolonen und Karjalainen, IEEE Transactions on Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000, offenbart ein rechenzeiteffizientes Modell für eine Periodizitätsanalyse von komplexen Audiosignalen. Das Rechenmodell teilt das Signal in zwei Kanäle auf, und zwar in einen Kanal unter 1000 Hz und einen Kanal über 1000 Hz. Hieraus wird eine Autokorrelation des unteren Kanals und eine Autokorrelation der Hüllkurve des oberen Kanals berechnet. Schließlich werden die beiden Autokorrelationsfunktionen summiert. Um die Mehrdeutigkeiten der Summenautokorrelationsfunktion zu eliminieren, wird die Summenautokorrelationsfunktion weiterverarbeitet, um eine sogenannte Enhanced Summary Autocorrelation Function (ESACF) (Weiterentwickelte Summenautokorrelationsfunktion) zu erhalten. Diese Nachbearbeitung der Summenautokorrelationsfunktion beinhaltet ein wiederholtes Abziehen von mit ganzzahligen Faktoren gespreizten Versionen der Autokorrelationsfunktion von der Summenautokorrelationsfunktion mit nachfolgender Begrenzung auf nicht-negative Werte.The specialist publication "A Computationally Efficient Multipitch Analysis Model ", by Tolonen and Karjalainen, IEEE Transactions on Speech and Audio Processing, Volume 8, No. 6, Nov. 2000, discloses a computationally efficient model for a periodicity analysis of complex audio signals. The computing model divides the signal into two channels, one Channel below 1000 Hz and one channel above 1000 Hz. This becomes an autocorrelation of the lower channel and an autocorrelation the envelope of the upper channel. Finally the two autocorrelation functions are summed up. To the Eliminate ambiguities in the sum autocorrelation function, the sum autocorrelation function is processed further, a so-called enhanced summary autocorrelation Function (ESACF) (further developed sum autocorrelation function) to obtain. This postprocessing of the sum autocorrelation function involves repeated subtraction of versions of the autocorrelation function spread with integer factors from the sum auto-correlation function with subsequent limitation to non-negative values.

Die Aufgabe der vorliegenden Erfindung besteht darin, eine rechenzeiteffiziente und robuste Vorrichtung und ein rechenzeiteffizientes und robustes Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen zu schaffen. The object of the present invention is to make computing time efficient and robust device and a computationally efficient and robust method for analyzing an audio signal regarding rhythm information.

Diese Aufgabe wird durch eine Vorrichtung zum Analysieren eines Audiosignals nach Patentanspruch 1 oder durch ein Verfahren zum Analysieren eines Audiosignals nach Patentanspruch 11 gelöst.This task is accomplished by a device for analyzing a Audio signal according to claim 1 or by a method for analyzing an audio signal according to claim 11 solved.

Der vorliegenden Erfindung liegt die Erkenntnis'zugrunde, dass in den einzelnen Frequenzbändern, d. h. den Teilbändern, oftmals unterschiedlich günstige Bedingungen für das Auffinden von rhythmischen Periodizitäten herrschen. Während beispielsweise bei Popmusik oftmals im Bereich der Mitte, beispielsweise um 1 kHz, das Signal von nicht mit dem Beat korrespondierenden Gesang dominiert wird, sind in den höheren Frequenzbereichen oftmals vor allem Perkussionsklänge präsent, wie z. B. das Hihat des Schlagzeugs, welche eine sehr gute Extraktion rhythmischer Regelmäßigkeiten erlauben. Anders ausgedrückt beinhalten unterschiedliche Frequenzbänder je nach Audiosignal eine unterschiedliche Menge an rhythmischer Information bzw. haben eine unterschiedliche Qualität oder Signifikanz für die Rhythmusinformationen des Audiosignals.The present invention is based on the knowledge that in the individual frequency bands, d. H. the sub-bands, often different favorable conditions for finding of rhythmic periodicities. While for example with pop music often in the middle, for example around 1 kHz, the signal from not corresponding to the beat Singing is dominated are in the higher frequency ranges often especially percussion sounds present, such as B. the hihat of the drums, which is a very good extraction allow rhythmic regularities. In other words, include different frequency bands depending on the audio signal a different amount of rhythmic information or have different quality or significance for that Rhythm information of the audio signal.

Erfindungsgemäß wird daher das Audiosignal zunächst in Teilbandsignale zerlegt. Jedes Teilbandsignal wird hinsichtlich seiner Periodizität untersucht, um Rhythmus-Rohinformationen für jedes Teilbandsignal zu erhalten. Hierauf wird gemäß der vorliegenden Erfindung eine Bewertung der Qualität der Periodizität jedes Teilbandsignals durchgeführt, um ein Signifikanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Signifikanzmaß deutet darauf hin, dass in diesem Teilbandsignal deutliche Rhythmusinformationen vorliegen, während ein niedriges Signifikanzmaß darauf hindeutet, dass in diesem Teilbandsignal weniger eindeutige Rhythmusinformationen vorliegen. According to the invention, the audio signal is therefore first divided into subband signals disassembled. Each subband signal is regarding its periodicity examined to provide raw rhythm information to get for each subband signal. Then according to the present invention an assessment of the quality of periodicity each subband signal performed to a level of significance to get for each subband signal. A high level of significance indicates that in this subband signal there is clear rhythm information, while a low Significance level suggests that in this subband signal less clear rhythm information is available.

Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird bei der Untersuchung eines Teilbandsignals hinsichtlich seiner Periodizitäten zunächst eine modifizierte Hüllkurve des Teilbandsignals berechnet und dann eine Autokorrelationsfunktion der Hüllkurve berechnet. Die Autokorrelationsfunktion der Hüllkurve stellt die Rhythmus-Rohinformationen dar. Eindeutige Rhythmusinformationen liegen vor, wenn die Autokorrelationsfunktion deutliche Maxima aufweist, während weniger eindeutige Rhythmusinformationen vorliegen, wenn die Autokorrelationsfunktion der Hüllkurve des Teilbandsignals weniger ausgeprägte Signalspitzen oder überhaupt keine Signalspitzen hat. Eine Autokorrelationsfunktion, die deutliche Signalspitzen hat, wird daher ein hohes Signifikanzmaß erhalten, während eine Autokorrelationsfunktion, die einen relativ flachen Verlauf hat, ein niedriges Signifikanzmaß erhalten wird.According to a preferred embodiment of the present Invention is being used in the investigation of a subband signal of its periodicities a modified one Envelope of the subband signal is calculated and then an autocorrelation function the envelope is calculated. The autocorrelation function the envelope provides the raw rhythm information There is clear rhythm information when the autocorrelation function has clear maxima while less there is clear rhythm information when the autocorrelation function the envelope of the subband signal less pronounced signal peaks or no signal peaks at all Has. An autocorrelation function that clearly peaks has a high degree of significance, while an autocorrelation function that has a relatively flat History, a low level of significance is obtained.

Erfindungsgemäß werden die einzelnen Rhythmus-Rohinformationen der einzelnen Teilbandsignale nicht einfach "blind" kombiniert, sondern unter Berücksichtigung des Signifikanzmaßes für jedes Teilbandsignal verwendet, um die Rhythmusinformationen des Audiosignals zu erhalten. Hat ein Teilbandsignal ein hohes Signifikanzmaß, so wird es bei der Ermittlung der Rhythmusinformationen bevorzugt, während ein Teilbandsignal, das ein niedriges Signifikanzmaß hat, d. h. das eine niedrige Qualität hinsichtlich der Rhythmusinformationen aufweist, bei der Ermittlung der Rhythmusinformationen des Audiosignals kaum oder im Extremfall überhaupt nicht berücksichtigt wird.According to the invention, the individual rhythm raw information of the individual subband signals not simply "blindly" combined, but taking into account the measure of significance for each sub-band signal used the rhythm information to get the audio signal. A subband signal is high Significance measure, so it will be when determining the rhythm information preferred while a subband signal is a has a low level of significance, d. H. that a low quality in terms of rhythm information when determining the rhythm information of the audio signal hardly or in extreme cases it is not considered at all.

Dies kann rechenzeiteffizient gut durch einen Gewichtungsfaktor implementiert werden, der von dem Signifikanzmaß abhängt. Während ein Teilbandsignal, das eine gute Qualität für die Rhythmusinformationen hat, d. h. das ein hohes Signifikanzmaß hat, einen Gewichtungsfaktor von 1 erhalten könnte, wird ein anderes Teilbandsignal, das ein kleineres Signifikanzmaß hat, einen Gewichtungsfaktor kleiner als 1 erhalten. Im Extremfall wird ein Teilbandsignal, das eine vollkommen flache Autokorrelationsfunktion hat, einen Gewichtungsfaktor von 0 haben. Die gewichteten Autokorrelationsfunktionen, d. h. die gewichteten Rhythmus-Rohinformationen werden dann einfach aufsummiert. Wenn lediglich ein Teilbandsignal sämtlicher Teilbandsignale gute Rhythmusinformationen liefert, während die anderen Teilbandsignale Autokorrelationsfunktionen mit einem flachen Verlauf aufweisen, kann diese Gewichtung im Extremfall dazu führen, dass alle Teilbandsignale außer dem einen Teilbandsignal einen Gewichtungsfaktor von 0 erhalten, d. h. bei der Ermittlung der Rhythmusinformationen überhaupt nicht berücksichtigt werden, so dass die Rhythmusinformationen des Audiosignals lediglich aus einem einzigen Teilbandsignal ermittelt werden.This can be done in a time-efficient manner using a weighting factor be implemented, which depends on the significance measure. While a subband signal that is good quality for that Has rhythm information, d. H. which is a high level of significance has a weighting factor of 1, a another subband signal that has a smaller measure of significance, get a weighting factor less than 1. In extreme cases becomes a subband signal that has a completely flat autocorrelation function has a weighting factor of 0. The weighted auto-correlation functions, d. H. the weighted Rhythm raw information is then simply added up. If only one subband signal of all subband signals provides good rhythm information while the other subband signals Autocorrelation functions with a flat course in extreme cases, this weighting can lead to that all subband signals except the one subband signal get a weighting factor of 0, d. H. in the determination not taking the rhythm information into account at all so that the rhythm information of the audio signal only can be determined from a single subband signal.

Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass es eine robuste Bestimmung der Rhythmusinformationen ermöglicht, da Teilbandsignale mit keinen eindeutigen bzw. sogar abweichenden Rhythmusinformationen, d. h. wenn der Gesang einen anderen Rhythmus aufweist als der eigentliche Beat des Stücks, die Rhythmusinformationen des Audiosignals nicht "verwässern" bzw. "verfälschen". Darüber hinaus werden sehr rauschartige Teilbandsignale, welche eine Systemautokorrelationsfunktion mit vollständig flachem Verlauf liefern, das Signal/Rausch-Verhältnis bei der Bestimmung der Rhythmusinformationen nicht verschlechtern. Genau dies würde jedoch auftreten, wenn, wie im Stand der Technik, einfach alle Autokorrelationsfunktionen der Teilbandsignale mit gleichem Gewicht aufsummiert werden.The concept according to the invention is advantageous in that it enables a robust determination of the rhythm information, since subband signals with no clear or even deviating rhythm information, d. H. when singing one has a different rhythm than the actual beat of the Piece that does not "water down" the rhythm information of the audio signal or "falsify". They also become very intoxicating Subband signals, which have a system autocorrelation function deliver the signal / noise ratio with a completely flat curve in determining the rhythm information don't worsen. However, this is exactly what would occur if, as in the prior art, simply all auto-correlation functions of subband signals with the same weight be added up.

Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass mit einem kleinen zusätzlichen Rechenaufwand ein Signifikanzmaß bestimmt werden kann, und dass die Bewertung der Rhythmus-Rohinformationen mit dem Signifikanzmaß und die anschließende Summierung ohne großen Speicher- und Rechenzeitaufwand effizient durchgeführt werden können, was das erfindungsgemäße Konzept insbesondere auch für Echtzeitanwendungen empfiehlt.Another advantage of the method according to the invention is in that with a little extra computational effort Significance measure can be determined and that the assessment the rhythm raw information with the significance measure and the subsequent summation without much storage and computing time can be carried out efficiently, what the inventive Concept especially for real-time applications recommends.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1
ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals mit einer Qualitätsbewertung der Rhythmus-Rohinformationen;
Fig. 2
ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals unter Verwendung von Gewichtungsfaktoren auf der Basis der Signifikanzmaße;
Fig. 3
ein Blockschaltbild einer bekannten Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen;
Fig. 4
ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen unter Verwendung einer Autokorrelationsfunktion mit einer teilbandweisen Nachbearbeitung der RhythmusRohinformationen; und
Fig. 5
ein detailliertes Blockschaltbild der Einrichtung zum Nachbearbeiten von Fig. 4.
Preferred embodiments of the present invention are explained in detail below with reference to the accompanying drawings. Show it:
Fig. 1
a block diagram of a device for analyzing an audio signal with a quality evaluation of the rhythm raw information;
Fig. 2
a block diagram of an apparatus for analyzing an audio signal using weighting factors based on the significance measures;
Fig. 3
a block diagram of a known device for analyzing an audio signal for rhythm information;
Fig. 4
a block diagram of a device for analyzing an audio signal for rhythm information using an autocorrelation function with a sub-band post-processing of the raw rhythm information; and
Fig. 5
4 shows a detailed block diagram of the device for reworking of FIG. 4.

Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen. Das Audiosignal wird über einen Eingang 100 einer Einrichtung 102 zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale 104a und 104b zugeführt. Jedes Teilbandsignal 104a, 104b wird in eine Einrichtung 106a bzw. 106b 'zum Untersuchen desselben hinsichtlich von Periodizitäten in dem Teilbandsignal zugeführt, um Rhythmus-Rohinformationen 108a bzw. 108b für jedes Teilbandsignal zu erhalten. Die Rhythmus-Rohinformationen werden dann einer Einrichtung 110a bzw. 110b zum Bewerten einer Qualität der Periodizität jedes der zumindest zwei Teilbandsignale zugeführt, um ein Signifikanzmaß 112a, 112b für jedes der zumindest zwei Teilbandsignale zu erhalten. Sowohl die Rhythmus-Rohinformationen 108a, 108b als auch die Signifikanzmaße 112a, 112b werden einer Einrichtung 114 zum Ermitteln der Rhythmusinformationen des Audiosignals zugeführt. Die Einrichtung 114 berücksichtigt beim Ermitteln der Rhythmusinformationen des Audiosignals die Signifikanzmaße 112a, 112b für die Teilbandsignale sowie die Rhythmus-Rohinformationen 108a, 108b von zumindest einem Teilbandsignal.1 shows a block diagram of a device for analysis an audio signal with respect to rhythm information. The audio signal is received via an input 100 of a device 102 for splitting the audio signal into at least two Subband signals 104a and 104b supplied. Any subband signal 104a, 104b is inserted into a device 106a or 106b 'for examination the same in terms of periodicities in the subband signal supplied to raw rhythm information 108a or 108b for each subband signal. The raw rhythm information are then a device 110a or 110b to assess a quality of the periodicity of each of the at least two subband signals fed to a significance measure 112a, 112b for each of the at least two subband signals. Both the raw rhythm information 108a, 108b and the significance measures 112a, 112b also become a device 114 for determining the rhythm information of the audio signal fed. The device 114 takes into account when determining the rhythm information of the audio signal the significance measures 112a, 112b for the subband signals and the raw rhythm information 108a, 108b of at least one subband signal.

Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise festgestellt, dass in dem Teilbandsignal 104a keine besondere Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrichtung 114 zum Ermitteln der Rhythmusinformationen fest, dass das Signifikanzmaß 112a gleich Null ist, so dass die Rhythmus-Rohinformationen 108a des Teilbandsignals 104a bei der Ermittlung der Rhythmusinformationen des Audiosignals überhaupt nicht mehr berücksichtigt werden müssen. Die Rhythmusinformationen des Audiosignals werden dann allein und ausschließlich auf der Basis der Rhythmus-Rohinformationen 108b des Teilbandsignals 104b bestimmt.For example, has the device 110a for quality evaluation found that in the subband signal 104a no particular Periodicity is present, so the significance measure 112a becomes very be small or equal to 0. In this case, the establishment 114 to determine the rhythm information that the significance measure 112a is zero, so that the rhythm raw information 108a of subband signal 104a during the determination the rhythm information of the audio signal at all no longer need to be considered. The rhythm information of the audio signal are then alone and exclusively based on raw rhythm information 108b of the subband signal 104b determined.

Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als Einrichtung 102 zum Zerlegen des Audiosignals kann eine übliche Analyse-Filterbank verwendet werden, die ausgangsseitig eine von einem Benutzer wählbare Anzahl von Teilbandsignalen liefert. Jedes Teilbandsignal wird dann der Verarbeitung der Einrichtungen 106a, 106b bzw. 106c unterzogen, woraufhin dann durch die Einrichtungen 110a bis 110c von jeden Rhythmus-Rohinformationen Signifikanzmaße ermittelt werden. Die Einrichtung 114 umfaßt bei der in Fig. 2 dargestellten bevorzugten Ausführungsform eine Einrichtung 114a zum Berechnen von Gewichtungsfaktoren für jedes Teilbandsignal auf der Basis des Signifikanzmaßes für dieses Teilbandsignal und optional auch der anderen Teilbandsignale. In der Einrichtung 114b findet dann eine Gewichtung der Rhythmus-Rohinformationen 108a bis 108c mit dem Gewichtungsfaktor für dieses Teilbandsignal statt, woraufhin dann, ebenfalls in der Einrichtung 114b, die gewichteten Rhythmus-Rohinformationen kombiniert, z. B. aufsummiert, werden, um an dem Tempo-Ausgang 116 die Rhythmusinformationen des Audiosignals zu erhalten.The following will refer to FIG. 2 for a special one Embodiment of the device of Fig. 1 received. As Means 102 for splitting the audio signal can be a conventional one Analysis filter bank used to be the output side a user selectable number of subband signals supplies. Each subband signal is then processed Devices 106a, 106b and 106c subjected, then by means 110a to 110c of any rhythm raw information Significance measures can be determined. The facility 114 includes the preferred one shown in FIG Embodiment means 114a for computing Weighting factors for each subband signal based on the Significance measure for this subband signal and optionally also of the other subband signals. In device 114b takes place then a weighting of the raw rhythm information 108a to 108c with the weighting factor for this subband signal instead, whereupon, also in the device 114b, the weighted raw rhythm information combined, e.g. B. summed up, to the rhythm information at the tempo output 116 to get the audio signal.

Das erfindungsgemäße Konzept stellt sich somit folgendermaßen dar. Nach der Evaluierung der rhythmischen Informationen der Einzelbänder, welche beispielsweise durch Hüllkurvenbildung, Glättung, Differenzieren, Begrenzen auf positive Werte und Bilden der Autokorrelationsfunktion stattfinden kann (Einrichtungen 106a bis 106c), findet eine Bewertung der Wertigkeit bzw. der Qualität dieser Zwischenergebnisse in den Einrichtungen 110a bis 110c statt. Dies wird mit Hilfe einer Bewertungsfunktion erreicht, welche die Verlässlichkeit der jeweiligen Einzelergebnisse mit einem Signifikanzmaß bewertet. Aus den Signifikanzmaßen aller Teilbandsignale wird ein Gewichtungsfaktor für jedes Band für die Extraktion der Rhythmus-Informationen hergeleitet. Das Gesamtergebnis der Rhythmusextraktion wird dann in der Einrichtung 114b durch Kombination der bandweisen Einzelergebnisse unter Berücksichtigung ihrer jeweiligen Gewichtungsfaktoren erreicht. The concept according to the invention thus arises as follows After evaluating the rhythmic information of the Single tapes, which are generated, for example, by envelope formation, Smoothing, differentiation, limitation to positive values and Forming the autocorrelation function can take place (facilities 106a to 106c) finds an evaluation of the value or the quality of these interim results in the facilities 110a to 110c instead. This is done with the help of an evaluation function achieved which the reliability of each Individual results assessed with a significance measure. From the Significance measures of all subband signals become a weighting factor for each band for the extraction of the rhythm information derived. The overall result of rhythm extraction is then combined in the device 114b the band-by-band individual results, taking into account their respective weighting factors reached.

Als Resultat zeigt ein solchermaßen implementierter Algorithmus zur Rhythmusanalyse eine gute Fähigkeit, rhythmische Informationen in einem Signal auch unter ungünstigen Bedingungen zuverlässig zu finden. Das erfindungsgemäße Konzept zeichnet sich daher durch eine hohe Robustheit aus.The result is an algorithm implemented in this way for rhythm analysis a good ability to get rhythmic information in a signal even under unfavorable conditions to find reliably. The concept according to the invention draws is therefore very robust.

Bei einer bevorzugten Ausführungsform werden die Rhythmus-Rohinformationen 108a, 108b, 108c, die die Periodizität des jeweiligen Teilbandsignals darstellen, mittels einer Autokorrelationsfunktion bestimmt. In diesem Fall wird es bevorzugt, das Signifikanzmaß zu bestimmen, indem ein Maximum der Autokorrelationsfunktion durch einen Mittelwert der Autokorrelationsfunktion geteilt wird, und dann der Wert 1 subtrahiert wird. Es sei darauf hingewiesen, daß jede Autokorrelationsfunktion immer bei einer Verzögerung von 0 ein lokales Maximum liefert, das die Energie des Signals repräsentiert. Dieses Maximum sollte unberücksichtigt bleiben, damit die Qualitätsbestimmung nicht verfälscht wird.In a preferred embodiment, the rhythm raw information 108a, 108b, 108c, which determine the periodicity of the represent the respective subband signal by means of an autocorrelation function certainly. In this case, it is preferred determine the significance measure by taking a maximum of the autocorrelation function by an average of the autocorrelation function is divided, and then the value 1 is subtracted becomes. It should be noted that any autocorrelation function always a local maximum with a delay of 0 that represents the energy of the signal. This maximum should be disregarded so that the quality determination is not falsified.

Ferner soll die Autokorrelationsfunktion lediglich in einem speziellen Tempobereich betrachtet werden, d. h. von einer maximalen Verzögerung, die dem kleinsten interessierenden Tempo entspricht, zu einer minimalen Verzögerung, die dem höchsten interessierenden Tempo entspricht. Ein typischer Tempobereich liegt zwischen 60 bpm und 200 bpm.Furthermore, the autocorrelation function should only be in one special tempo range are considered, d. H. of a maximum Delay the slowest pace of interest corresponds to a minimum delay that corresponds to the highest pace of interest. A typical pace area is between 60 bpm and 200 bpm.

Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem arithmetischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich und dem geometrischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich bestimmt werden. Es ist bekannt, dass wenn alle Werte der Autokorrelationsfunktion gleich sind, d. h. wenn die Autokorrelationsfunktion einen flachen Verlauf hat, der geometrische Mittelwert der Autokorrelationsfunktion und der arithmetische Mittelwert der Autokorrelationsfunktion gleich sind. In diesem Fall hätte das Signifikanzmaß einen Wert gleich 1, was bedeutet, dass die Rhythmus-Rohinformationen nicht signifikant sind.Alternatively, the ratio between the arithmetic mean of the autocorrelation function in the interest Tempo range and the geometric mean the autocorrelation function in the tempo area of interest be determined. It is known that when all values of the autocorrelation function are the same, d. H. if the autocorrelation function has a flat course, the geometric Average of the autocorrelation function and the arithmetic Mean of the autocorrelation function are the same. In this Case the significance measure would have a value equal to 1, which means that the rhythm raw information is not significant are.

Im Falle einer Systemautokorrelationsfunktion mit starken Spitzen würde das Verhältnis aus arithmetischem Mittelwert zu geometrischem Mittelwert größer 1 sein, was bedeutet, dass die Autokorrelationsfunktion gute Rhythmusinformationen aufweist. Je kleiner jedoch das Verhältnis zwischen arithmetischem Mittelwert und geometrischem Mittelwert wird, desto flacher ist die Autokorrelationsfunktion und desto weniger Periodizitäten enthält sie, was wiederum bedeutet, dass die Rhythmusinformationen dieses Teilbandsignals weniger signifikant, d. h. eine geringere Qualität haben, was sich in einem geringen bzw. einem Gewichtungsfaktor von 0 äußern wird.In the case of a system auto-correlation function with strong The ratio of the arithmetic mean would peak geometric mean greater than 1, which means that the Autocorrelation function has good rhythm information. However, the smaller the ratio between the arithmetic mean and geometric mean, the flatter it is the autocorrelation function and the fewer periodicities contains them, which in turn means the rhythm information this subband signal is less significant, i. H. a have lower quality, which can be seen in a low or a Weighting factor of 0 will express.

Bezüglich der Gewichtungsfaktoren existieren verschiedene Möglichkeiten. Bevorzugt wird eine relative Gewichtung, derart, dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale zu 1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Bandes bestimmt wird als der Signifikanzwert dieses Bandes geteilt durch die Summe aller Signifikanzwerte. In diesem Fall wird eine relative Gewichtung vor der Aufsummation der gewichteten Rhythmus-Rohinformationen durchgeführt, um die Rhythmus-Informationen des Audiosignals zu erhalten.There are various options with regard to the weighting factors. A relative weighting is preferred, such that all weighting factors of all subband signals add up to 1, d. H. that the weighting factor of a band is determined to be divided as the significance value of this band by the sum of all significance values. In this case is a relative weighting before the totalization of the weighted Rhythm raw information performed to the rhythm information to get the audio signal.

Wie bereits ausgeführt worden ist, wird es bevorzugt, die Auswertung der Rhythmus-Informationen unter Verwendung einer Autokorrelationsfunktion durchzuführen. Dieser Fall ist in Fig. 4 dargestellt. Das Audiosignal wird über den Audiosignaleingang 100 in die Einrichtung 102 zum Zerlegen des Audiosignals in Teilbandsignale 104a und 104b eingespeist. Jedes Teilbandsignal wird dann in der Einrichtung 106a bzw. 106b, wie es ausgeführt worden ist, unter Verwendung einer Autokorrelationsfunktion untersucht, um die Periodizität des Teilbandsignals zu ermitteln. Am Ausgang der Einrichtung 106a bzw. 106b liegen dann die Rhythmus-Rohinformationen 108a, 108b vor. Diese werden in eine Einrichtung 118a bzw. 118b eingespeist, um die mittels der Autokorrelationsfunktion von der Einrichtung 116a ausgegebenen Rhythmus-Rohinformationen nachzubearbeiten. Damit wird u. a. sichergestellt, daß die Mehrdeutigkeiten der Autokorrelationsfunktion, d. h. daß bei ganzzahligen Vielfachen der Verzögerungen ebenfalls Signalspitzen auftreten, teilbandweise eliminiert werden, um nachbearbeitete Rhythmus-Rohinformationen 120a bzw. 120b zu erhalten.As has already been stated, it is preferred to evaluate the rhythm information using an autocorrelation function perform. This case is shown in Fig. 4 shown. The audio signal is via the audio signal input 100 in the device 102 for decomposing the audio signal fed into subband signals 104a and 104b. Any subband signal is then in the device 106a or 106b as it has been performed using an autocorrelation function examined the periodicity of the subband signal to investigate. At the exit of the device 106a or 106b the raw rhythm information 108a, 108b is then available. This are fed into a device 118a or 118b in order to by means of the facility's autocorrelation function 116a postprocessed raw rhythm information. So u. a. ensured that the ambiguities of the Autocorrelation function, d. H. that with integer multiples the delays also occur, can be eliminated on a sub-band basis to post-processed raw rhythm information To get 120a or 120b.

Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorrelationsfunktionen, d. h. der Rhythmus-Rohinformationen 108a, 108b, bereits teilbandweise eliminiert werden, und nicht erst, wie im Stand der Technik, nach der Summation der einzelnen Autokorrelationsfunktionen. Darüber hinaus ermöglicht die einzelbandweise Eliminierung der Mehrdeutigkeiten in den Autokorrelationsfunktionen durch die Einrichtungen 118a, 118b, dass die Rhythmus-Rohinformationen der Teilbandsignale unabhängig voneinander gehandhabt werden können. Sie können beispielsweise einer Qualitätsbeurteilung mittels der Einrichtung 110a für die Rhythmus-Rohinformationen 108a oder mittels der Einrichtung 110b für die Rhythmus-Rohinformationen 108b unterzogen werden.This has the advantage that the ambiguities of the autocorrelation functions, d. H. the raw rhythm information 108a, 108b, are already eliminated in sub-bands, and not only as in the prior art, after the summation of the individual autocorrelation functions. In addition, the single band allows Elimination of ambiguities in the autocorrelation functions by means 118a, 118b that the raw rhythm information of the subband signals independently can be handled by each other. For example, you can a quality assessment by means 110a for the rhythm raw information 108a or by means of the device 110b for the rhythm raw information 108b become.

Wie es durch die gestrichelten Linien in Fig. 4 dargestellt ist, kann die Qualitätsbeurteilung jedoch auch anhand der nachbearbeiteten Rhythmus-Rohinformationen stattfinden, wobei diese letztere Möglichkeit bevorzugt wird, da die Qualitätsbeurteilung auf der Basis der nachbearbeiteten Rhythmus-Rohinformationen sicherstellt, dass die Qualität einer Information beurteilt wird, die nicht mehr vieldeutig ist.As shown by the dashed lines in Fig. 4 However, the quality assessment can also be based on the postprocessed rhythm raw information take place, whereby This latter option is preferred because of the quality assessment on the basis of the reworked raw rhythm information ensures that the quality of information is judged that is no longer ambiguous.

Die Ermittlung der Rhythmus-Informationen durch die Einrichtung 114 findet dann auf der Basis von nachbearbeiteten Rhythmus-Informationen eines Kanals und vorzugsweise auch auf der Basis des Signifikanzmaßes für diesen Kanal statt.The establishment of the rhythm information by the facility 114 then takes place on the basis of post-processed rhythm information of a channel and preferably also on the Basis of the significance measure for this channel instead.

Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus-Rohinformationen, also des Signals vor der Einrichtung 118a durchgeführt wird, ist dies dahingehend vorteilhaft, dass, wenn bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h. dass die Autokorrelationsfunktion einen flachen Verlauf hat, auf die Nachbearbeitung mittels der Einrichtung 118a gänzlich verzichtet werden kann, um Rechenzeitressourcen einzusparen.If a quality assessment based on the raw rhythm information, that is, the signal before device 118a is carried out, it is advantageous in that if it is determined that the measure of significance is 0, i. H. that the autocorrelation function has a flat course has the post-processing by means of the device 118a can be completely dispensed with in order to save computing time resources.

Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detaillierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbearbeitung der Rhythmus-Rohinformationen darzustellen. Zunächst wird das Teilband-Signal beispielsweise 104a, in die Einrichtung 106a zur Untersuchung der Periodizität des Teilbandsignals mittels einer Autokorrelationsfunktion eingespeist, um Rhythmus-Rohinformationen 108a zu erhalten. Um die Mehrdeutigkeiten teilbandweise zu eliminieren, kann genauso wie im Stand der Technik, eine gespreizte Autokorrelationsfunktion mittels einer Einrichtung 121 berechnet werden, wobei die Einrichtung 121 angeordnet ist, um die gespreizte Autokorrelationsfunktion so zu berechnen, dass sie um ein ganzzahliges Vielfaches einer Verzögerung gespreizt ist. Eine Einrichtung 122 ist in diesem Fall angeordnet, um die gespreizte Autokorrelationsfunktion von der ursprünglichen Autokorrelationsfunktion, d. h. den Rhythmus-Rohinformationen 108a zu subtrahieren. Insbesondere wird es bevorzugt, zunächst eine auf das Doppelte gespreizte Autokorrelationsfunktion in der Einrichtung 121 zu berechnen und dann von den Rhythmus-Rohinformationen 108a zu subtrahieren. Dann, in dem nächsten Schritt, wird eine um den Faktor 3 gespreizte Autokorrelationsfunktion in der Einrichtung 121 berechnet und von dem Ergebnis der vorherigen Subtraktion wieder abgezogen, so dass nach und nach sämtliche Mehrdeutigkeiten aus den Rhythmus-Rohinformationen eliminiert werden.In the following, Fig. 5 is discussed in order to provide a more detailed description Setup of a device 118a or 118b for post-processing the raw rhythm information. First the subband signal, for example 104a, into the device 106a for examining the periodicity of the subband signal fed by means of an autocorrelation function in order to To obtain rhythm raw information 108a. The ambiguity Eliminating part of a band can be the same as in the stand the technology, a spread autocorrelation function by means of a device 121 are calculated, the device 121 is arranged to the spread auto-correlation function to be calculated so that it is an integer multiple of one Delay is spread. A device 122 is in this Case arranged to use the spread auto-correlation function from the original autocorrelation function, d. H. the Subtract raw rhythm information 108a. In particular it is preferred to first double one To calculate autocorrelation function in the device 121 and then subtract from the raw rhythm information 108a. Then, in the next step, one becomes a factor of 3 spread autocorrelation function in the device 121 is calculated and from the result of the previous subtraction again subtracted so that gradually all ambiguities are eliminated from the raw rhythm information.

Alternativ oder zusätzlich kann die Einrichtung 121 angeordnet sein, um eine um einen ganzzahligen Faktor gestauchte Autokorrelationsfunktion zu berechnen, wobei diese dann von der Einrichtung 122 zu den Rhythmus-Rohinformationen hinzu addiert wird, um auch Anteile für Verzögerungen t0/2, t0/3 usw. zu erzeugen.Alternatively or additionally, the device 121 can be arranged be an auto-correlation function compressed by an integer factor to calculate, this then from the facility 122 added to the raw rhythm information in order to also generate shares for delays t0 / 2, t0 / 3 etc.

Darüber hinaus können die gespreizten bzw. gestauchten Versionen der Rhythmus-Rohinformationen 108a vor dem Addieren bzw. Subtrahieren gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen.In addition, the spread or compressed versions the rhythm raw information 108a before adding or Subtract to be weighted for flexibility to achieve in the sense of high robustness.

Durch das Verfahren, die Periodizität eines Teilbandsignals auf der Basis einer Autokorrelationsfunktion zu untersuchen, kann also eine weitere Verbesserung erzielt werden wenn die Eigenschaften der Autokorrelationsfunktion mit einbezogen werden und die Nachbearbeitung unter Verwendung der Einrichtung 118a oder 118b durchgeführt wird. So erzeugt eine periodische Folge von Notenanfängen mit einem Abstand t0 nicht nur eine AKF-Spitze bei einer Verzögerung t0 sondern auch bei 2t0, 3t0, etc. Dies wird zu einer Vieldeutigkeit in der Tempodetektion, d. h. dem Suchen signifikanter Maxima in der Autokorrelationsfunktion, führen. Die Mehrdeutigkeiten können dadurch eliminert werden, wenn um ganzzahlige Faktoren gespreizte Versionen der AKF vom Ausgangswert teilbandweise (gewichtet) abgezogen werden. By the method, the periodicity of a subband signal to investigate on the basis of an autocorrelation function, a further improvement can be achieved if the Properties of the autocorrelation function are included and post-processing using the facility 118a or 118b is performed. So creates a periodic Sequence of note starts with a distance t0 not just one AKF peak with a delay t0 but also with 2t0, 3t0, etc. This becomes an ambiguity in tempo detection, d. H. the search for significant maxima in the autocorrelation function, to lead. This can eliminate the ambiguities when versions are spread by integer factors the AKF is subtracted from the initial value sub-band (weighted) become.

Ferner besteht bei der Autokorrelationsfunktion das Problem, daß sie keine Informationen bei t0/2, t0/3 ... usw., also beim Doppelten, Dreifachen, etc. des "Grundtempos" liefert, was besonders dann zu falschen Ergebnissen führen kann, wenn zwei Instrumente, die in unterschiedlichen Teilbändern liegen, zusammen den Rhythmus des Signals definieren. Diese Sache wird dadurch berücksichtigt, dass um ganzzahlige Faktoren gestauchte Versionen der Autokorrelationsfunktion berechnet werden und diese dann zu den Rhythmus-Rohinformationen gewichtet oder ungewichtet hinzuaddiert werden.Another problem with the autocorrelation function is that that they have no information at t0 / 2, t0 / 3 ... etc., ie at Double, triple, etc. of the "basic tempo" delivers what is special can lead to wrong results if two Instruments that are in different sub-bands together define the rhythm of the signal. This thing will taking into account that upset factors Versions of the autocorrelation function are calculated and these are then weighted to the raw rhythm information or unweighted be added.

Die AKF-Nachverarbeitung findet somit teilbandweise statt, wobei für mindestens ein Teilbandsignal eine Autokorrelationsfunktion errechnet wird und diese mit gedehnten oder gespreizten Versionen dieser Funktion kombiniert wird.AKF post-processing therefore takes place sub-band, whereby an autocorrelation function for at least one subband signal is calculated and this with stretched or spread Versions of this feature is combined.

Claims (11)

  1. Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal, comprising:
    means (102) for dividing the audio signal into at least two sub-band signals (104a, 104b);
    means for examining (106a, 106b) a sub-band signal with regard to a periodicity in the sub-band signal, to obtain rhythm raw-information (108a, 108b) for the sub-band signal;
    means for evaluating (110a, 110b) a quality of the periodicity of the rhythm raw-information (108a) of the sub-band signal (104a) to obtain a significance measure (112a) for the sub-band signal; and
    means (114) for establishing rhythm information of the audio signal under consideration of the significance measure (112a) of the sub-band signal and the rhythm raw-information (108a, 108b) of at least one sub-band signal.
  2. Apparatus according to claim 1, wherein the means for examining (106a, 106b) is formed to calculate an autocorrelation function for each of the least two sub-band signals.
  3. Apparatus according to claim 1 or 2, wherein the means for examining (106a, 106b) comprises:
    means for forming an envelope of a sub-band signal;
    means for smoothing the envelope of the sub-band signal to obtain a smoothed envelope;
    means for differentiating the smoothed envelope to obtain a differentiated envelope;
    means for limiting the differentiated envelope to positive values to obtain a limited envelope; and
    means for forming an autocorrelation function of the limited envelope to obtain the rhythm raw-information (108a, 108b).
  4. Apparatus according to claim 2 or 3, wherein the means for evaluating (110a, 110b) of the quality is formed to use a ratio of a maximum of the autocorrelation function to an average of the autocorrelation function as a significance measure.
  5. Apparatus according to claim 2 or 3, wherein the means for evaluating (110a, 110b) of the quality is formed to use a ratio of an arithmetic average of the rhythm raw-information to a geometrical average of the rhythm raw-information as significance measure.
  6. Apparatus according to claim 4 or 5, wherein the means for evaluating (110a, 110b) the quality is formed to evaluate the autocorrelation function merely within a tempo range, which extends from a minimum lag to obtain a maximum tempo to a maximum lag to obtain a minimum tempo.
  7. Apparatus according to one of the previous claims, wherein means for establishing (114) comprises:
    means (114a) for deriving a weighting factor for a sub-band by using the significance measure for the sub-band;
    means (114b) for weighting a rhythm raw-information of the sub-band by using the weighting factor for the sub-band to obtain weighted rhythm raw-information for the sub-band and for summarizing the weighted rhythm raw-information of the sub-band with weighted or unweighted rhythm raw-information of the other sub-band to obtain the rhythm information of the audio signal.
  8. Apparatus according to claim 7, wherein the means (114a) for deriving a weighting factor is disposed to derive a relative weighting factor for every sub-band signal, wherein a sum of the weighting factors for all sub-band signals equals 1.
  9. Apparatus according to claim 8, wherein the means (114a) for deriving a weighting factor is disposed to derive a weighting factor as ratio of the significance measure of a sub-band signal to the sum of the significance measure of all sub-band signals.
  10. Apparatus according to claim 9, wherein the means (106a, 106b) for examining a sub-band signal is disposed to examine a sub-band signal whose length is higher than 10 seconds.
  11. Method for analyzing an audio signal with regard to rhythm information of the audio signal, comprising:
    dividing the audio signal into at least two sub-band signals (104a, 104b);
    examining (106a, 106b) a sub-band signal with regard to a periodicity in the sub-band signal to obtain rhythm raw-information (108a, 108b) for the sub-band signal;
    evaluating (110a, 110b) a quality of the periodicity of the rhythm raw-information (108a) of the sub-band signal (104a) to obtain a significance measure (112a) for the sub-band signal; and
    establishing the rhythm information of the audio signal under consideration of the significance measure (112a) of the sub-band signal and the rhythm raw-information (108a, 108b) of at least one sub-band signal.
EP02745267A 2001-05-14 2002-04-25 Device and method for analysing an audio signal in view of obtaining rhythm information Expired - Lifetime EP1388145B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10123366A DE10123366C1 (en) 2001-05-14 2001-05-14 Device for analyzing an audio signal for rhythm information
DE10123366 2001-05-14
PCT/EP2002/004618 WO2002093557A1 (en) 2001-05-14 2002-04-25 Device and method for analysing an audio signal in view of obtaining rhythm information

Publications (2)

Publication Number Publication Date
EP1388145A1 EP1388145A1 (en) 2004-02-11
EP1388145B1 true EP1388145B1 (en) 2004-10-13

Family

ID=7684710

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02745267A Expired - Lifetime EP1388145B1 (en) 2001-05-14 2002-04-25 Device and method for analysing an audio signal in view of obtaining rhythm information

Country Status (7)

Country Link
US (1) US20040068401A1 (en)
EP (1) EP1388145B1 (en)
JP (1) JP3914878B2 (en)
AT (1) ATE279769T1 (en)
DE (2) DE10123366C1 (en)
HK (1) HK1059959A1 (en)
WO (1) WO2002093557A1 (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
JP4979018B2 (en) * 2005-07-01 2012-07-18 パイオニア株式会社 Computer program and information reproducing apparatus and method
JP4940588B2 (en) * 2005-07-27 2012-05-30 ソニー株式会社 Beat extraction apparatus and method, music synchronization image display apparatus and method, tempo value detection apparatus and method, rhythm tracking apparatus and method, music synchronization display apparatus and method
JP4948118B2 (en) * 2005-10-25 2012-06-06 ソニー株式会社 Information processing apparatus, information processing method, and program
JP4465626B2 (en) * 2005-11-08 2010-05-19 ソニー株式会社 Information processing apparatus and method, and program
JP5243042B2 (en) 2005-12-09 2013-07-24 ソニー株式会社 Music editing apparatus and music editing method
JP4949687B2 (en) 2006-01-25 2012-06-13 ソニー株式会社 Beat extraction apparatus and beat extraction method
JP5351373B2 (en) * 2006-03-10 2013-11-27 任天堂株式会社 Performance device and performance control program
US8184712B2 (en) 2006-04-30 2012-05-22 Hewlett-Packard Development Company, L.P. Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US8463615B2 (en) * 2007-07-30 2013-06-11 Google Inc. Low-delay audio coder
US8344234B2 (en) 2008-04-11 2013-01-01 Pioneer Corporation Tempo detecting device and tempo detecting program
US8168876B2 (en) * 2009-04-10 2012-05-01 Cyberlink Corp. Method of displaying music information in multimedia playback and related electronic device
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
US8805854B2 (en) * 2009-06-23 2014-08-12 Gracenote, Inc. Methods and apparatus for determining a mood profile associated with media data
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
WO2014132102A1 (en) * 2013-02-28 2014-09-04 Nokia Corporation Audio signal analysis
JP6759545B2 (en) * 2015-09-15 2020-09-23 ヤマハ株式会社 Evaluation device and program
US10666475B2 (en) * 2018-10-29 2020-05-26 Bae Systems Information And Electronic Systems Integration Inc. Techniques for phase modulated signals having poor autocorrelation
CN111785237B (en) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 Audio rhythm determination method and device, storage medium and electronic equipment

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
JP2591430B2 (en) * 1993-06-30 1997-03-19 日本電気株式会社 Vector quantizer
JP3840684B2 (en) * 1996-02-01 2006-11-01 ソニー株式会社 Pitch extraction apparatus and pitch extraction method
JPH09293083A (en) * 1996-04-26 1997-11-11 Toshiba Corp Music retrieval device and method
KR100269216B1 (en) * 1998-04-16 2000-10-16 윤종용 Pitch determination method with spectro-temporal auto correlation
DE10123281C1 (en) * 2001-05-14 2002-10-10 Fraunhofer Ges Forschung Device for analyzing audio signal with respect to rhythm information divides signal into sub-band signals, investigates sub-band signal(s) for periodicity with autocorrelation function
JP3859462B2 (en) * 2001-05-18 2006-12-20 株式会社東芝 Prediction parameter analysis apparatus and prediction parameter analysis method

Also Published As

Publication number Publication date
ATE279769T1 (en) 2004-10-15
DE10123366C1 (en) 2002-08-08
WO2002093557A1 (en) 2002-11-21
DE50201311D1 (en) 2004-11-18
US20040068401A1 (en) 2004-04-08
JP3914878B2 (en) 2007-05-16
JP2004528596A (en) 2004-09-16
EP1388145A1 (en) 2004-02-11
HK1059959A1 (en) 2004-07-23

Similar Documents

Publication Publication Date Title
EP1371055B1 (en) Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function
EP1388145B1 (en) Device and method for analysing an audio signal in view of obtaining rhythm information
DE10232916B4 (en) Apparatus and method for characterizing an information signal
EP2099024B1 (en) Method for acoustic object-oriented analysis and note object-oriented processing of polyphonic sound recordings
EP1407446B1 (en) Method and device for characterising a signal and for producing an indexed signal
EP1368805B1 (en) Method and device for characterising a signal and method and device for producing an indexed signal
EP1606798B1 (en) Device and method for analysing an audio information signal
EP2351017B1 (en) Method for recognizing note patterns in pieces of music
EP1280138A1 (en) Method for audio signals analysis
WO2005122135A1 (en) Device and method for converting an information signal into a spectral representation with variable resolution
WO2004049302A1 (en) Method for determining acoustic features of acoustic signals for the analysis of unknown acoustic signals and for modifying sound generation
EP1417676B1 (en) METHOD AND DEVICE FOR GENERATING AN IDENTIFIER FOR AN AUDIO SIGNAL, FOR CREATING A musical INSTRUMENT DATABASE AND FOR DETERMINING THE TYPE OF musical INSTRUMENT
DE102004028693B4 (en) Apparatus and method for determining a chord type underlying a test signal
WO2006005448A1 (en) Method and device for the rhythmic processing of audio signals
EP1377924B1 (en) Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal
EP1671315A1 (en) Process and device for characterising an audio signal
EP1743324B1 (en) Device and method for analysing an information signal
Krusche Visualization and auralization of features learned by neural networks for musical instrument recognition
DE102009029615B4 (en) Method and arrangement for processing audio data and a corresponding computer program and a corresponding computer-readable storage medium
EP1381024A1 (en) Method for retrieving a tone sequence

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20030528

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIN1 Information on inventor provided before grant (corrected)

Inventor name: UHLE, CHRISTIAN

Inventor name: CREMER, MARKUS

Inventor name: HERRE, JUERGEN

Inventor name: ROHDEN, JAN

RIC1 Information provided on ipc code assigned before grant

Ipc: 7G 10L 11/00 A

RBV Designated contracting states (corrected)

Designated state(s): AT CH DE FR GB LI

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1059959

Country of ref document: HK

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE FR GB LI

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 50201311

Country of ref document: DE

Date of ref document: 20041118

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1059959

Country of ref document: HK

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050425

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20050714

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060430

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060430

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20090409 AND 20090415

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20120427

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20120425

Year of fee payment: 11

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50201311

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20130425

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130425

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131101

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 50201311

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011000000

Ipc: G10L0025060000

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50201311

Country of ref document: DE

Effective date: 20131101

Ref country code: DE

Ref legal event code: R079

Ref document number: 50201311

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011000000

Ipc: G10L0025060000

Effective date: 20140929

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20160425

Year of fee payment: 15

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20171229

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170502